Tikaを使用しようとすると、次の警告がすべて表示されます。
2018年2月24日9:24:35 PM org.Apache.tika.config.InitializableProblemHandler $ 3 handleInitializableProblem警告:JBIG2ImageReaderがロードされていません。jbig2ファイルは無視されます https://を参照してくださいpdfbox.Apache.org/2.0/dependencies.html#jai-image-io オプションの依存関係用TIFFImageWriterがロードされていません。tiffファイルは処理されません参照 https://pdfbox.Apache.org/2.0 /dependencies.html#jai-image-io オプションの依存関係用。J2KImageReaderはロードされません。JPEG2000ファイルは処理されません。詳細は https://pdfbox.Apache.org/2.0/dependencies.html#jai -image-io オプションの依存関係。
2018年2月24日9:24:35 PM org.Apache.tika.config.InitializableProblemHandler $ 3 handleInitializableProblem警告:org.xerialのsqlite-jdbcがロードされていません。クラスパスにjarを指定してくださいsqliteファイルを解析します。正しいバージョンについては、tika-parsers/pom.xmlを参照してください。
これを(Tika pom.xmlに)追加してみました:
<dependency>
<groupId>org.bouncycastle</groupId>
<artifactId>bcprov-jdk15on</artifactId>
<version>1.57</version>
</dependency>
<dependency>
<groupId>org.bouncycastle</groupId>
<artifactId>bcmail-jdk15on</artifactId>
<version>1.57</version>
</dependency>
<dependency>
<groupId>org.bouncycastle</groupId>
<artifactId>bcpkix-jdk15on</artifactId>
<version>1.57</version>
</dependency>
<dependency>
<groupId>log4j</groupId>
<artifactId>log4j</artifactId>
<version>1.2.17</version>
</dependency>
<dependency>
<groupId>com.levigo.jbig2</groupId>
<artifactId>levigo-jbig2-imageio</artifactId>
<version>2.0</version>
<scope>test</scope>
</dependency>
<dependency>
<groupId>com.github.jai-imageio</groupId>
<artifactId>jai-imageio-core</artifactId>
<version>1.3.1</version>
<scope>test</scope>
</dependency>
<dependency>
<groupId>com.github.jai-imageio</groupId>
<artifactId>jai-imageio-jpeg2000</artifactId>
<version>1.3.0</version>
<scope>test</scope>
</dependency>
<dependency>
<groupId>org.xerial</groupId>
<artifactId>sqlite-jdbc</artifactId>
<version>3.20.1</version>
</dependency>
しかし、私はまだ同じ警告を受けます。
どうすれば解決できますか?
更新1
私の依存関係はここに追加されました: https://github.com/Apache/tika/blob/1.17/pom.xml#L164-L17
また、私はテストするセットなしで試しました。それは何もしませんでした。
追加した依存関係はPDFBoxのTika依存関係のようです。
次の依存関係を追加しましたが、他に警告はありませんでした
<dependency>
<groupId>org.Apache.tika</groupId>
<artifactId>tika-core</artifactId>
<version>1.18</version>
</dependency>
<dependency>
<groupId>org.Apache.tika</groupId>
<artifactId>tika-parsers</artifactId>
<version>1.18</version>
</dependency>
<dependency>
<groupId>org.Apache.pdfbox</groupId>
<artifactId>jbig2-imageio</artifactId>
<version>3.0.1</version>
</dependency>
<dependency>
<groupId>com.github.jai-imageio</groupId>
<artifactId>jai-imageio-jpeg2000</artifactId>
<version>1.3.0</version>
</dependency>
Clojureの訪問者の場合:次のように修正しました:
(System/setProperty "tika.config" "tika-config.xml")
私のconfig.cljファイルで。 xmlは次のとおりです。
<?xml version="1.0" encoding="UTF-8"?>
<properties>
<service-loader initializableProblemHandler="ignore"/>
</properties>
このxmlファイルは「resources」ディレクトリにあり、そのディレクトリはパスに含まれている必要があります。
Pom.xmlの<dependencies>...</dependencies>
セクション全体を含めなかったため、何が起こっているのか正確に把握することは困難ですが、オプションのmaven依存関係が原因であると考えています。 maven docs によると、pomでオプションの依存関係を宣言する必要があります。そうしないと、それらは読み込まれません。
さらに、すべてのimageio依存関係には<scope>test</scope>
があり、単体テスト中にのみ使用できます。
これは現在、エラーログに記録されています。
2019年2月19日3:18:44 PM org.Apache.tika.config.InitializableProblemHandler $ 3 handleInitializableProblem警告:J2KImageReaderがロードされていません。JPEG2000ファイルは処理されません。 https: //pdfbox.Apache.org/2.0/dependencies.html#jai-image-io オプションの依存関係。
ただし、テキストを解析するだけの場合はOCR /画像処理を含まないTikaのバージョン(たとえば、分類子付き)を使用するか、エラーログをオフにするオプション(およびエラーのみをログに記録する)を使用したい実際にサポートされていない形式をロードしようとした場合)。