Jsoup(Java htmlパーサー)で作成されたドキュメントを文字列に変換するにはどうすればよいですか?
Jsoupで作成された次のようなドキュメントがあります
Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
そのdoc
を文字列に変換するにはどうすればよいですか。
やってみました:
Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
String htmlString = doc.toString();
Document extends Elementには、 [[Element] ==に従って "要素の内部HTMLを取得する"メソッドhtml()もあります。 〜#〜] api [〜#〜] 。だからそれはうまくいくはずです:
Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
String htmlString = doc.html();
追加情報:
各Documentオブジェクトは、内部クラスのインスタンスへの参照を持っていますDocument.OutputSettingsこれは、DocumentのメソッドoutputSettings()を介してアクセスできます。 。そこで、セッターを使用してプリティプリントを有効/無効にできますprettyPrint(true/false)。詳細については、DocumentおよびDocument.OutputSettingsのAPIを参照してください。
doc.toString()
は、doc.outerHtml()
と同様に機能します。
Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements post = doc.select("div.post-content");
String dd = post.toString();
Document ddd = Jsoup.parse(dd);
文字列をドキュメントに解析した後、ドキュメント関数を使用できます
Elements scriptTag = ddd.getElementsByTag("script");
System.out.println(scriptTag);