私は小さなJava特定のGoogle検索用語の結果の量を取得するプログラムを書いています。何らかの理由で、Java 403 Forbiddenしかし、私はウェブブラウザで正しい結果を得ています。
import Java.io.BufferedReader;
import Java.io.IOException;
import Java.io.InputStreamReader;
import Java.net.URL;
public class DataGetter {
public static void main(String[] args) throws IOException {
getResultAmount("test");
}
private static int getResultAmount(String query) throws IOException {
BufferedReader r = new BufferedReader(new InputStreamReader(new URL("https://www.google.com/search?q=" + query).openConnection()
.getInputStream()));
String line;
String src = "";
while ((line = r.readLine()) != null) {
src += line;
}
System.out.println(src);
return 1;
}
}
そしてエラー:
Exception in thread "main" Java.io.IOException: Server returned HTTP response code: 403 for URL: https://www.google.com/search?q=test
at Sun.net.www.protocol.http.HttpURLConnection.getInputStream(Unknown Source)
at Sun.net.www.protocol.https.HttpsURLConnectionImpl.getInputStream(Unknown Source)
at DataGetter.getResultAmount(DataGetter.Java:15)
at DataGetter.main(DataGetter.Java:10)
なぜこれを行うのですか?
動作させるには、ユーザーエージェントヘッダーを設定するだけです。
URLConnection connection = new URL("https://www.google.com/search?q=" + query).openConnection();
connection.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.95 Safari/537.11");
connection.connect();
BufferedReader r = new BufferedReader(new InputStreamReader(connection.getInputStream(), Charset.forName("UTF-8")));
StringBuilder sb = new StringBuilder();
String line;
while ((line = r.readLine()) != null) {
sb.append(line);
}
System.out.println(sb.toString());
例外スタックトレースからわかるように、SSLは透過的に処理されました。
ただし、結果の量を取得するのはそれほど簡単ではありません。その後、Cookieを取得してリダイレクトトークンリンクを解析することにより、ブラウザであることを偽造する必要があります。
String cookie = connection.getHeaderField( "Set-Cookie").split(";")[0];
Pattern pattern = Pattern.compile("content=\\\"0;url=(.*?)\\\"");
Matcher m = pattern.matcher(response);
if( m.find() ) {
String url = m.group(1);
connection = new URL(url).openConnection();
connection.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.95 Safari/537.11");
connection.setRequestProperty("Cookie", cookie );
connection.connect();
r = new BufferedReader(new InputStreamReader(connection.getInputStream(), Charset.forName("UTF-8")));
sb = new StringBuilder();
while ((line = r.readLine()) != null) {
sb.append(line);
}
response = sb.toString();
pattern = Pattern.compile("<div id=\"resultStats\">About ([0-9,]+) results</div>");
m = pattern.matcher(response);
if( m.find() ) {
long amount = Long.parseLong(m.group(1).replaceAll(",", ""));
return amount;
}
}
実行中 完全なコード I 2930000000L
結果として。
おそらく正しいヘッダーを設定していないでしょう。ブラウザーでLiveHttpHeaders
(または同等のもの)を使用して、ブラウザーが送信しているヘッダーを確認し、コードでエミュレートします。
私にとっては、ヘッダーを追加することで機能しました: "Accept": "*/*"
サイトがSSLを使用しているためです。 Jersey HTTP Clientを使用してみてください。 HTTPSと証明書についても少し学ぶ必要があるかもしれませんが、実際のセキュリティに関連する詳細の大部分を無視するようにJerseyを設定できると思います。