web-dev-qa-db-ja.com

Jsoup(Java htmlパーサー)で作成されたドキュメントを文字列に変換するにはどうすればよいですか?

Jsoupで作成された次のようなドキュメントがあります

Document doc = Jsoup.connect("http://en.wikipedia.org/").get();

そのdocを文字列に変換するにはどうすればよいですか。

24
Hudson Hughes

やってみました:

Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
String htmlString = doc.toString();

Document extends Elementには、 [[Element] ==に従って "要素の内部HTMLを取得する"メソッドhtml()もあります。 〜#〜] api [〜#〜] 。だからそれはうまくいくはずです:

Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
String htmlString = doc.html();

追加情報:

Documentオブジェクトは、内部クラスのインスタンスへの参照を持っていますDocument.OutputSettingsこれは、DocumentのメソッドoutputSettings()を介してアクセスできます。 。そこで、セッターを使用してプリティプリントを有効/無効にできますprettyPrint(true/false)。詳細については、DocumentおよびDocument.OutputSettingsのAPIを参照してください。

36
das_weezul

doc.toString()は、doc.outerHtml()と同様に機能します。

8
Jeremy Roman
 Document doc = Jsoup.connect("http://en.wikipedia.org/").get();     
 Elements post = doc.select("div.post-content");
 String dd = post.toString();
 Document ddd = Jsoup.parse(dd);

文字列をドキュメントに解析した後、ドキュメント関数を使用できます

 Elements scriptTag = ddd.getElementsByTag("script");
 System.out.println(scriptTag);
0
NomanJaved