Pytesseractのキャラクターホワイトリストを設定する方法を知っている人はいますか? A-zと0-9のみを出力したい。これは可能ですか?私は次のものを持っています:
img = Image.open('test.jpg')
result = pytesseract.image_to_string(img, config='-psm 6')
/ for 1のような他の文字を取得しているので、可能な文字のオプションを制限したいと思います。
あなたは以下の行でそれを達成することができます。または、同じことを行うようにtesseractの構成ファイルを設定することもできます tesseractが探している文字を制限する
pytesseract.image_to_string(question_img, config="-c tessedit_char_whitelist=0123456789abcdefghijklmnopqrstuvwxyz -psm 6")
それを機能させる方法は他にもあると思いますが、これが私にとってはうまくいきました。