Webページのhtmlを取得してString
に保存できるようにしたいので、何らかの処理を行うことができます。また、さまざまなタイプの圧縮をどのように処理できますか。
Javaを使用してこれを行うにはどうすればよいですか?
Javaの URL クラスを使用してテストしたコードを次に示します。ただし、例外を処理したり、例外を呼び出しスタックに渡すという、ここで行うよりも良い仕事をすることをお勧めします。
public static void main(String[] args) {
URL url;
InputStream is = null;
BufferedReader br;
String line;
try {
url = new URL("http://stackoverflow.com/");
is = url.openStream(); // throws an IOException
br = new BufferedReader(new InputStreamReader(is));
while ((line = br.readLine()) != null) {
System.out.println(line);
}
} catch (MalformedURLException mue) {
mue.printStackTrace();
} catch (IOException ioe) {
ioe.printStackTrace();
} finally {
try {
if (is != null) is.close();
} catch (IOException ioe) {
// nothing to see here
}
}
}
Jsoup のような適切なHTMLパーサーを使用します。それは次のように簡単です:
String html = Jsoup.connect("http://stackoverflow.com").get().html();
GZIPおよびチャンク化された応答と文字エンコードを完全に透過的に処理します。 HTML traversing や manipulation のように、jQueryができるようなCSSセレクターにより、より多くの利点も提供します。 Document
としてではなく、String
として取得するだけです。
Document document = Jsoup.connect("http://google.com").get();
本当に do n't 基本的なStringメソッドを実行したい、あるいはHTMLで正規表現を実行して処理したいのです。
ビルの答えは非常に優れていますが、圧縮やユーザーエージェントなどのリクエストで何かをしたい場合があります。次のコードは、リクエストに対するさまざまなタイプの圧縮方法を示しています。
URL url = new URL(urlStr);
HttpURLConnection conn = (HttpURLConnection) url.openConnection(); // Cast shouldn't fail
HttpURLConnection.setFollowRedirects(true);
// allow both GZip and Deflate (ZLib) encodings
conn.setRequestProperty("Accept-Encoding", "gzip, deflate");
String encoding = conn.getContentEncoding();
InputStream inStr = null;
// create the appropriate stream wrapper based on
// the encoding type
if (encoding != null && encoding.equalsIgnoreCase("gzip")) {
inStr = new GZIPInputStream(conn.getInputStream());
} else if (encoding != null && encoding.equalsIgnoreCase("deflate")) {
inStr = new InflaterInputStream(conn.getInputStream(),
new Inflater(true));
} else {
inStr = conn.getInputStream();
}
ユーザーエージェントも設定するには、次のコードを追加します。
conn.setRequestProperty ( "User-agent", "my agent name");
さて、 URL や RLConnection などの組み込みライブラリを使用することもできますが、それらはあまり制御しません。
個人的には Apache HTTPClient ライブラリを使用します。
Edit:HTTPClientは、Apacheによってend of lifeに設定されました。置換は: HTTPコンポーネント
上記のアプローチはすべて、ブラウザで表示されるWebページのテキストをダウンロードしません。最近では、多くのデータがHTMLページのスクリプトを介してブラウザに読み込まれます。上記のテクニックはいずれもスクリプトをサポートしていません。HTMLテキストのみをダウンロードするだけです。 HTMLUNITはjavascriptをサポートします。そのため、ブラウザで表示されるWebページのテキストをダウンロードする場合は、 HTMLUNIT を使用する必要があります。
ほとんどの場合、安全なWebページ(httpsプロトコル)からコードを抽出する必要があります。次の例では、htmlファイルはc:\ temp\filename.html Enjoy!に保存されています。
import Java.io.BufferedReader;
import Java.io.BufferedWriter;
import Java.io.FileWriter;
import Java.io.InputStream;
import Java.io.InputStreamReader;
import Java.net.URL;
import javax.net.ssl.HttpsURLConnection;
/**
* <b>Get the Html source from the secure url </b>
*/
public class HttpsClientUtil {
public static void main(String[] args) throws Exception {
String httpsURL = "https://stackoverflow.com";
String FILENAME = "c:\\temp\\filename.html";
BufferedWriter bw = new BufferedWriter(new FileWriter(FILENAME));
URL myurl = new URL(httpsURL);
HttpsURLConnection con = (HttpsURLConnection) myurl.openConnection();
con.setRequestProperty ( "User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:63.0) Gecko/20100101 Firefox/63.0" );
InputStream ins = con.getInputStream();
InputStreamReader isr = new InputStreamReader(ins, "Windows-1252");
BufferedReader in = new BufferedReader(isr);
String inputLine;
// Write each line into the file
while ((inputLine = in.readLine()) != null) {
System.out.println(inputLine);
bw.write(inputLine);
}
in.close();
bw.close();
}
}
コードを取得し、いくつかの情報をフィルタリングするこのクラスからヘルプを取得します。
public class MainActivity extends AppCompatActivity {
EditText url;
@Override
protected void onCreate(Bundle savedInstanceState) {
super.onCreate( savedInstanceState );
setContentView( R.layout.activity_main );
url = ((EditText)findViewById( R.id.editText));
DownloadCode obj = new DownloadCode();
try {
String des=" ";
String tag1= "<div class=\"description\">";
String l = obj.execute( "http://www.nu.edu.pk/Campus/Chiniot-Faisalabad/Faculty" ).get();
url.setText( l );
url.setText( " " );
String[] t1 = l.split(tag1);
String[] t2 = t1[0].split( "</div>" );
url.setText( t2[0] );
}
catch (Exception e)
{
Toast.makeText( this,e.toString(),Toast.LENGTH_SHORT ).show();
}
}
// input, extrafunctionrunparallel, output
class DownloadCode extends AsyncTask<String,Void,String>
{
@Override
protected String doInBackground(String... WebAddress) // string of webAddress separate by ','
{
String htmlcontent = " ";
try {
URL url = new URL( WebAddress[0] );
HttpURLConnection c = (HttpURLConnection) url.openConnection();
c.connect();
InputStream input = c.getInputStream();
int data;
InputStreamReader reader = new InputStreamReader( input );
data = reader.read();
while (data != -1)
{
char content = (char) data;
htmlcontent+=content;
data = reader.read();
}
}
catch (Exception e)
{
Log.i("Status : ",e.toString());
}
return htmlcontent;
}
}
}
Jsoupライブラリを使用してみてください。
import Java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
public class ParseHTML {
public static void main(String args[]) throws IOException{
Document doc = Jsoup.connect("https://www.wikipedia.org/").get();
String text = doc.body().text();
System.out.print(text);
}
}
Jsoupライブラリをダウンロードできます here 。
Jettyには、Webページのダウンロードに使用できるHTTPクライアントがあります。
package com.zetcode;
import org.Eclipse.jetty.client.HttpClient;
import org.Eclipse.jetty.client.api.ContentResponse;
public class ReadWebPageEx5 {
public static void main(String[] args) throws Exception {
HttpClient client = null;
try {
client = new HttpClient();
client.start();
String url = "http://www.something.com";
ContentResponse res = client.GET(url);
System.out.println(res.getContentAsString());
} finally {
if (client != null) {
client.stop();
}
}
}
}
この例では、単純なWebページのコンテンツを印刷します。
JavaでWebページを読む チュートリアルで、URL、JSoup、HtmlCleaner、Apache HttpClient、Jetty HttpClient、およびHtmlUnitを使用して、JavaでWebページをプログラムでダウンロードする6つの例を記述しました。 。
Unix/Linuxボックスでは、 'wget'を実行することもできますが、クロスプラットフォームクライアントを作成している場合、これは実際にはオプションではありません。もちろん、これは、ダウンロードした時点からディスクにヒットするまでの間、ダウンロードしたデータを実際にあまり使いたくないことを前提としています。