どのHTMLパーサーに次の機能がありますか。
どのパーサーが良いと思いますか?
ありがとうございました。
Apache Tika が最適です。 Apacheは最近、既存のプロジェクトから多くのサブプロジェクトを抽出し、それらを公開しました。 Tikaはその1つで、以前はApache Luceneのコンポーネントでした。 Apacheのサポートと評判、そして広く使用されている親プロジェクトLuceneのため、これは非常に良い選択であるに違いありません。さらに、それはオープンソースです。
Apache Tika Webサイトからの簡単な紹介:
Apache Tika™ツールキットは、既存のパーサーライブラリを使用して、さまざまなドキュメントからメタデータと構造化テキストコンテンツを検出して抽出します。
また、サポートされている形式は次のとおりです。
HyperText Markup Language XML and derived formats Microsoft Office document formats OpenDocument Format Portable Document Format Electronic Publication Format Rich Text Format Compression and packaging formats Text formats Audio formats Image formats Video formats Java class files and archives The mbox format
チェックアウト Web Harvest 。これは、使用できるライブラリとデータ抽出ツールの両方であり、まさにあなたがやりたいことです。 XMLスクリプトファイルを作成して、必要な情報をどこから抽出するかをスクレイパーに指示します。提供されているGUIは、スクリプトをすばやくテストするのに非常に役立ちます。
プロジェクトのサンプルページ をチェックして、実行しようとしていることに適しているかどうかを確認してください。
Validator.nuのHTMLパーサー 間違いなく。これはHTML5解析アルゴリズムの実装であり、Geckoは独自のHTMLパーサーをこのパーサーのC++変換に置き換える過程にあります。
HTML Cleaner はあなたが探しているものだと思います。 JTidy、TagSoup、NekoHtmlとの比較については、TheServerSideの announcement を参照してください。
おそらくヘッドレスモードでMozillaを実行するようなことをしたいと思うでしょう。こちらが link です。開始するには、Googleを使用して詳細を確認してください。
上手:
Javaには必要な数の優れたHTMLパーサーはあまりありませんが、いくつかの代替案があります: http://Java-source.net/open-source/html-パーサー
Javascriptをサポートするものはほとんどありません。実際には、Rhinoを使用してこの部分を自分で行う必要があると思います( http://www.mozilla.org/rhino/ )。