Tikaパッケージを使用してファイルを解析しようとしています。 Tikaは正常にインストールされました、tika-server-1.18.jar
cmdのコードを使用して実行Java -jar tika-server-1.18.jar
Jupyterでの私のコードは次のとおりです。
Import tika
from tika Import parser
parsed = parser.from_file('')
ただし、次のエラーが表示されます。
2018-07-25 10:20:13,325 [MainThread] [WARNI]起動ログメッセージの表示に失敗しました。再試行しています... 2018-07-25 10:20:18,329 [MainThread] [WARNI]起動ログメッセージの表示に失敗しました。再試行しています... 2018-07-25 10:20:23,332 [MainThread] [WARNI]起動ログメッセージの表示に失敗しました。再試行しています... 2018-07-25 10:20:28,340 [MainThread] [エラー] Tika起動ログメッセージは3回試行しても受信されません。 2018-07-25 10:20:28,340 [MainThread] [エラー] startServerからの起動確認の受信に失敗しました。
RuntimeError:Tika Serverを起動できません。
Apache Tikaのサイト によると、tika-server.jarのすべての新しいバージョンにはJava 8。
2018年4月24日:Apache TikaリリースApache Tika 1.18がリリースされました!このリリースには、バグ修正(PPTのグループ化された図形からの抽出など)、セキュリティ修正、依存関係のアップグレードが含まれます。注意:次のバージョンではJava 8.が必要です。リリースの変更点の完全なリストについてはCHANGES.txtファイルを参照してください。ダウンロード方法についてはダウンロードページをご覧ください。 Apache Tika 1.18を入手します。
Tikaの現在の古いドキュメントPythonライブラリは、Java 7が必要ですが、今はJava 8をインストールする必要があります。一時ファイルに見つからない場合、tika-server.jarの現在のバージョンが実行時に自動的にダウンロードされるためです。
Java 8をインストールした後、私の基本的なテストコードはサーバーを起動し、エラーなしで機能しました。
行に引数を渡していない(ファイルを指定している):
解析済み= parser.from_file( '')
それを噛むためにファイルを与えます、例えば、
parsed = parser.from_file('myfile.txt')
サーバーが起動しなかったため、おそらくこのログ警告はトリガーされません-ソースの the Github の644行目を参照してください
その後、別のエラーメッセージが表示され、再生されません...
Javaをダウンロードします。すでにJavaのバージョンがインストールされている場合、最新バージョンに更新してみてください。私のために機能するバージョンは1.18です。