web-dev-qa-db-ja.com

Pytesserセットの文字ホワイトリスト

Pytesseractのキャラクターホワイトリストを設定する方法を知っている人はいますか? A-zと0-9のみを出力したい。これは可能ですか?私は次のものを持っています:

img = Image.open('test.jpg')
result = pytesseract.image_to_string(img, config='-psm 6')

/ for 1のような他の文字を取得しているので、可能な文字のオプションを制限したいと思います。

6
Minato10

あなたは以下の行でそれを達成することができます。または、同じことを行うようにtesseractの構成ファイルを設定することもできます tesseractが探している文字を制限する

pytesseract.image_to_string(question_img, config="-c tessedit_char_whitelist=0123456789abcdefghijklmnopqrstuvwxyz -psm 6")

それを機能させる方法は他にもあると思いますが、これが私にとってはうまくいきました。

14
James Vaughn