Jsoupで作成された次のようなドキュメントがあります
Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
そのdoc
を文字列に変換するにはどうすればよいですか。
やってみました:
Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
String htmlString = doc.toString();
Document extends Elementには、 [[Element] ==に従って "要素の内部HTMLを取得する"メソッドhtml()もあります。 〜#〜] api [〜#〜] 。だからそれはうまくいくはずです:
Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
String htmlString = doc.html();
追加情報:
各Documentオブジェクトは、内部クラスのインスタンスへの参照を持っていますDocument.OutputSettingsこれは、DocumentのメソッドoutputSettings()を介してアクセスできます。 。そこで、セッターを使用してプリティプリントを有効/無効にできますprettyPrint(true/false)。詳細については、DocumentおよびDocument.OutputSettingsのAPIを参照してください。
doc.toString()
は、doc.outerHtml()
と同様に機能します。
Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements post = doc.select("div.post-content");
String dd = post.toString();
Document ddd = Jsoup.parse(dd);
文字列をドキュメントに解析した後、ドキュメント関数を使用できます
Elements scriptTag = ddd.getElementsByTag("script");
System.out.println(scriptTag);