友人と私は、CVプロジェクトのtesseract-OCRエンジンのトレーニングに興味があります。 PyTesserやpyocrなどのラッパーを使用してみましたが、現在のところ、必要なほど正確ではありません。そのため、テッセラクトのトレーニングを目的(食品ラベルのテキストの識別など)でより適切に実行できるようにしたいと考えていますが、トレーニングツールのインストールに問題があります。
私たちが試したこと:
グーグルコードのウェブサイトを見ると、 tesseractのグーグルコードウィキの「コンパイル」ページ は、トレーニングツールはバージョン3.03でのみ利用可能であると述べています。ただし、tesseract-ocrのGoogleコードの「ダウンロード」ページには、3.02の資料しかありません。 「コンパイル」ページの下部にも、WindowsおよびOSXへのバージョン3.03のインストールに関するコメントがありますが、Linuxユーザーにはまだコメントがありません。
また、ある種の buntuの3.03ソースパッケージ があるように見えますが、コンピューター上でそれにアクセスする方法がわからないため、「コンパイル」ページに次のコマンドを実行する必要があると表示されます。
make training
Sudo make training-install
また、 google group thread tesseract 3.03についても発見しましたが、これらの投稿にはLinuxユーザーへのアドバイスが含まれていないようです(最初の読み取り中に何かを見落とした場合を除きます)。
これは実際には本当に簡単なコマンドラインインストールの問題ですか?または、3.02(現在インストール済み)でtesseractをトレーニングする方法はありますか?間違った場所で情報を探していましたか?
Linuxディストリビューションにtesseract-ocr 3.03をインストールするためのアドバイスや手順へのリンクがあれば、大歓迎です!ありがとう。
TesseractはUbuntu 14.04に直接インストールできます。
Sudo apt-get install tesseract-ocr
古いバージョンのUbuntuでそれを実行できるかどうかはわかりませんが、リポジトリは新しいバージョンのUbuntuで更新される可能性があります。
Aws ubuntu 14.04インスタンスがありました。 Tesseractをインストールしようとしたとき
Sudo apt-get install tesseract-ocr
再調整されたパッケージが見つかりません
しかし、これでうまくいきました。
Sudo apt-get update
Sudo apt-get install tesseract-ocr
Ubuntuは、DebianベースのLinuxディストリビューションです。見つけたtesseractパッケージは、おそらくtesseractと、tesseractの実行/トレーニングを可能にするために必要なデフォルトの言語ファイルを含むdebianパッケージです。 ソースパッケージは必要ありません-自分でコンパイルしたい場合を除いて-必要ありませんtesseractをビルドする必要はありません。パッケージをインストールする必要があります。まず、Ubuntuが初めてのようですので、準備してください InstallingSoftware 。これは、x-termを開いてapt-get install tesseract-pkgname
コマンドを発行するのと同じくらい簡単です(注:これは、パッケージ名が何であっても意味します)。
ショートカットはありません。時間をかけて、インストールする必要がある.debパッケージがボックスにあるかどうか、またはリモートリポジトリからインストールするかどうかを理解してください。上記のリンクは、両方を処理する方法を説明しています。
これは、tesseractのインストールを扱う特定のUbuntuスレッドです Tesseract 3.0 + Ubuntu 10.04インストールガイド お役に立てれば幸いです。 Tesseractは非常に優れたソフトウェアです。
特にLinux用のTesseract 3.03をビルドする手順はありません(私はMacを使用しています)が、3.03リリース候補のソースコードをダウンロードするためのリンクは次のとおりです: https://tesseract-ocr.googlecode .com/archive/3.03-rc1.tar.gz