web-dev-qa-db-ja.com

画像をテキストに変換する

銀行からスキャンした画像ドキュメントを入手しましたが、Ubuntuで画像付きの通常のテキストドキュメントに変換したいと思います。

そのためのツールはありますか?

8
joe

画像からテキストに変換できるLinux用の [〜#〜] ocr [〜#〜] リーダーがいくつかあります。次のオプションを見てください。

Ocropusを除く上記のすべては、同じ名前のパッケージでUbuntuリポジトリに存在します。

リーダーが異なれば、サポートする画像形式も異なるため、ドキュメントのファイル形式によってオプションが制限される場合があります。または、ImageMagickの convert ツールを使用して、使用する場合は形式を変更できます。特定のOCRリーダー。

私の答えから適応 ここ

15
user4358

まず、Linuxマシンに「tesseract-ocr」をインストールする必要があります。

Sudo apt-get install tesseract-ocr

CLIから手動で行うか、同じコードをPHPコードで作成しました。必要に応じて、使用できます。

注:このコードを実行するには、php.iniでexecコマンドを有効にする必要があります

<?php
//IMAGE TO TXT Conversion
    $input_file = $_REQUEST['input_file'];
    $out = explode(".",$input_file);

    $output_file = $out[0]."_".$out[1];
    $output_file_name  =    $output_file.".txt";

    echo "<br />----IMAGE To TXT conversion Started-----</br />";
    echo  exec('tesseract '.$input_file.' '.$output_file);
    echo "<br />----TXT conversion Done-----</br />";

    echo "<br /><b>Please Check----->".$output_file.".txt</b><br />";
    echo "Click <a target='_blank' href='".$output_file_name."'>Here </a>to view it<br />"; 
?>

このコードをルートフォルダに置き、ブラウザからアクセスします。

例:

http://yourserver.com?input_file=1.png

注:1.pngファイルは現在のディレクトリに存在する必要があります。

私は画像をアップロードする権利を持っていません、私は参照のためにこの画像を使用しました、 http://plone.org/documentation/kb-old/copy_of_ocr-in-plone-using-tesseract-ocr/phototest。 gif/image_preview

0
Pragnesh Karia