JavaでHTMLをプレーンテキストに変換する

Question

HTMLをプレーンテキストに変換する必要があります。書式設定の唯一の要件は、プレーンテキストで新しい行を保持することです。 <br>の場合だけでなく、他のタグ（例： <tr/>、</p>も改行につながります。

テスト用のサンプルHTMLページは次のとおりです。

これらはランダムなURLにすぎないことに注意してください。

このStackOverflowの質問の回答に記載されているさまざまなライブラリ（JSoup、Javax.swing、Apache utils）を試して、HTMLをプレーンテキストに変換しました。

JSoupの使用例：

public class JSoupTest { @Test public void SimpleParse() { try { Document doc = Jsoup.connect("http://www.particle.kth.se/~lindsey/JavaCourse/Book/Part1/Java/Chapter09/scannerConsole.html").get(); System.out.print(doc.text()); } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } } }

HTMLEditorKitの例：

import javax.swing.text.html.*; import javax.swing.text.html.parser.*; public class Html2Text extends HTMLEditorKit.ParserCallback { StringBuffer s; public Html2Text() {} public void parse(Reader in) throws IOException { s = new StringBuffer(); ParserDelegator delegator = new ParserDelegator(); // the third parameter is TRUE to ignore charset directive delegator.parse(in, this, Boolean.TRUE); } public void handleText(char[] text, int pos) { s.append(text); } public String getText() { return s.toString(); } public static void main (String[] args) { try { // the HTML to convert URL url = new URL("http://www.javadb.com/write-to-file-using-bufferedwriter"); URLConnection conn = url.openConnection(); BufferedReader reader = new BufferedReader(new InputStreamReader(url.openStream())); String inputLine; String finalContents = ""; while ((inputLine = reader.readLine()) != null) { finalContents += "
" + inputLine.replace("<br", "
<br"); } BufferedWriter writer = new BufferedWriter(new FileWriter("samples/testHtml.html")); writer.write(finalContents); writer.close(); FileReader in = new FileReader("samples/testHtml.html"); Html2Text parser = new Html2Text(); parser.parse(in); in.close(); System.out.println(parser.getText()); } catch (Exception e) { e.printStackTrace(); } } }

Sam Barnum · Answer

パーサーにテキストコンテンツと改行をStringBuilderに追加してもらいます。

final StringBuilder sb = new StringBuilder(); HTMLEditorKit.ParserCallback parserCallback = new HTMLEditorKit.ParserCallback() { public boolean readyForNewline; @Override public void handleText(final char[] data, final int pos) { String s = new String(data); sb.append(s.trim()); readyForNewline = true; } @Override public void handleStartTag(final HTML.Tag t, final MutableAttributeSet a, final int pos) { if (readyForNewline && (t == HTML.Tag.DIV || t == HTML.Tag.BR || t == HTML.Tag.P)) { sb.append("
"); readyForNewline = false; } } @Override public void handleSimpleTag(final HTML.Tag t, final MutableAttributeSet a, final int pos) { handleStartTag(t, a, pos); } }; new ParserDelegator().parse(new StringReader(html), parserCallback, false);

camickr · Answer

ParserCallbackを使用できると思います。

特別な処理が必要なタグをサポートするコードを追加する必要があります。がある：

handleStartTag
handleEndTag
handleSimpleTag

監視するタグを確認してから、バッファに改行文字を追加できるようにするコールバック。

PhiLho · Answer

あなたの例に基づいて、 htmlからプレーンテキストへ？メッセージからのヒントを使用して：

import Java.io.*; import org.jsoup.*; import org.jsoup.nodes.*; public class TestJsoup { public void SimpleParse() { try { Document doc = Jsoup.connect("http://www.particle.kth.se/~lindsey/JavaCourse/Book/Part1/Java/Chapter09/scannerConsole.html").get(); // Trick for better formatting doc.body().wrap("<pre></pre>"); String text = doc.text(); // Converting nbsp entities text = text.replaceAll("\u00A0", " "); System.out.print(text); } catch (IOException e) { e.printStackTrace(); } } public static void main(String args[]) { TestJsoup tjs = new TestJsoup(); tjs.SimpleParse(); } }

Suresh Kumar · Answer

この目的でXSLTを使用できます。同様の問題に対処するこのリンクを見てください。

お役に立てば幸いです。

mschonaker · Answer

[〜＃〜] sax [〜＃〜] を使用します。ドキュメントが整形式のXHTMLでない場合は、 JTidy で変換します。

John Camerin · Answer

JSoupは、FreeMarker（またはその他の顧客/非HTMLタグ）と互換性がありません。これを、Htmlをプレーンテキストに変換するための最も純粋なソリューションと考えてください。

http://stackoverflow.com/questions/1518675/open-source-Java-library-for-html-to-text-conversion/1519726#1519726 私のコード：

return new net.htmlparser.jericho.Source(html).getRenderer().setMaxLineLength(Integer.MAX_VALUE).setNewLine(null).toString();