403 Javaで禁止されていますが、Webブラウザでは禁止されていますか？

Question

私は小さなJava特定のGoogle検索用語の結果の量を取得するプログラムを書いています。何らかの理由で、Java 403 Forbiddenしかし、私はウェブブラウザで正しい結果を得ています。

import Java.io.BufferedReader; import Java.io.IOException; import Java.io.InputStreamReader; import Java.net.URL; public class DataGetter { public static void main(String[] args) throws IOException { getResultAmount("test"); } private static int getResultAmount(String query) throws IOException { BufferedReader r = new BufferedReader(new InputStreamReader(new URL("https://www.google.com/search?q=" + query).openConnection() .getInputStream())); String line; String src = ""; while ((line = r.readLine()) != null) { src += line; } System.out.println(src); return 1; } }

そしてエラー：

Exception in thread "main" Java.io.IOException: Server returned HTTP response code: 403 for URL: https://www.google.com/search?q=test at Sun.net.www.protocol.http.HttpURLConnection.getInputStream(Unknown Source) at Sun.net.www.protocol.https.HttpsURLConnectionImpl.getInputStream(Unknown Source) at DataGetter.getResultAmount(DataGetter.Java:15) at DataGetter.main(DataGetter.Java:10)

なぜこれを行うのですか？

Esailija · Accepted Answer

動作させるには、ユーザーエージェントヘッダーを設定するだけです。

URLConnection connection = new URL("https://www.google.com/search?q=" + query).openConnection(); connection.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.95 Safari/537.11"); connection.connect(); BufferedReader r = new BufferedReader(new InputStreamReader(connection.getInputStream(), Charset.forName("UTF-8"))); StringBuilder sb = new StringBuilder(); String line; while ((line = r.readLine()) != null) { sb.append(line); } System.out.println(sb.toString());

例外スタックトレースからわかるように、SSLは透過的に処理されました。

ただし、結果の量を取得するのはそれほど簡単ではありません。その後、Cookieを取得してリダイレクトトークンリンクを解析することにより、ブラウザであることを偽造する必要があります。

String cookie = connection.getHeaderField( "Set-Cookie").split(";")[0]; Pattern pattern = Pattern.compile("content=\\"0;url=(.*?)\\""); Matcher m = pattern.matcher(response); if( m.find() ) { String url = m.group(1); connection = new URL(url).openConnection(); connection.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.95 Safari/537.11"); connection.setRequestProperty("Cookie", cookie ); connection.connect(); r = new BufferedReader(new InputStreamReader(connection.getInputStream(), Charset.forName("UTF-8"))); sb = new StringBuilder(); while ((line = r.readLine()) != null) { sb.append(line); } response = sb.toString(); pattern = Pattern.compile("<div id=\"resultStats\">About ([0-9,]+) results</div>"); m = pattern.matcher(response); if( m.find() ) { long amount = Long.parseLong(m.group(1).replaceAll(",", "")); return amount; } }

実行中完全なコード I 2930000000L 結果として。

Kevin Day · Answer

おそらく正しいヘッダーを設定していないでしょう。ブラウザーでLiveHttpHeaders（または同等のもの）を使用して、ブラウザーが送信しているヘッダーを確認し、コードでエミュレートします。

rpajaziti · Answer

私にとっては、ヘッダーを追加することで機能しました： "Accept"： "*/*"

user785262 · Answer

サイトがSSLを使用しているためです。 Jersey HTTP Clientを使用してみてください。 HTTPSと証明書についても少し学ぶ必要があるかもしれませんが、実際のセキュリティに関連する詳細の大部分を無視するようにJerseyを設定できると思います。