web-dev-qa-db-ja.com

ImportHTML #VALUE!特定のURLのエラー

http://wodindex.wikispaces.com/ からスプレッドシートにデータを取得しようとしています。 wikispaces.com の異なるサブドメインからも、グラブは機能しません。

このサイトからデータを取得しようとすると、#VALUE!エラーが発生しますが、別のURL(Wikipedia)で使用されている同じ式は機能します。

このエラーの原因は何ですか?このサイトは何らかの形で保護されていますか?

MWE:=ImportHTML("http://wodindex.wikispaces.com/";"list";1)

1
Gauwain

wodindex.wikispaces.comはcookieを保存しようとし、その後、私が知らない理由で、いくつかの凝ったリダイレクトトリックを実行するようです。 ImportHTMLの背後にある機能は、ブラウザー(または少なくともHTTPクライアント)として機能する必要があり、おそらくCookieをサポートしていません。

これは、wget http://wodindex.wikispaces.comを実行して得られるものです。

__コードスニペット__

ここに見られるように、リクエストは--12:41:12-- http://wodindex.wikispaces.com/ => `index.html' Resolving wodindex.wikispaces.com... done. Connecting to wodindex.wikispaces.com[75.126.104.177]:80... connected. HTTP request sent, awaiting response... 302 Found Location: https://session.wikispaces.com/1/auth/auth?authToken=f7a1a3abdd9511c29392cf7000b27dd5 [fol lowing] --12:41:13-- https://session.wikispaces.com/1/auth/auth?authToken=f7a1a3abdd9511c29392cf7000b27dd5 => `auth@authToken=f7a1a3abdd9511c29392cf7000b27dd5' Resolving session.wikispaces.com... done. Connecting to session.wikispaces.com[208.43.192.33]:443... connected. HTTP request sent, awaiting response... 302 Found Location: http://wodindex.wikispaces.com/?responseToken=f7a1a3abdd9511c29392cf7000b27dd5 [following] --12:41:14-- http://wodindex.wikispaces.com/?responseToken=f7a1a3abdd9511c29392cf7000b27dd5 => `index.html@responseToken=f7a1a3abdd9511c29392cf7000b27dd5' Connecting to wodindex.wikispaces.com[75.126.104.177]:80... connected. HTTP request sent, awaiting response... 302 Found Location: http://wodindex.wikispaces.com/ [following] http://wodindex.wikispaces.com/: Redirection cycle detected. C:\Users\viramd>wget http://wodindex.wikispaces.com/ --12:42:28-- http://wodindex.wikispaces.com/ => `index.html' Resolving wodindex.wikispaces.com... done. Connecting to wodindex.wikispaces.com[75.126.104.177]:80... connected. HTTP request sent, awaiting response... 302 Found Location: https://session.wikispaces.com/1/auth/auth?authToken=2141639d8901c291dc288a940c9609e8 [fol lowing] --12:42:28-- https://session.wikispaces.com/1/auth/auth?authToken=2141639d8901c291dc288a940c9609e8 => `auth@authToken=2141639d8901c291dc288a940c9609e8' Resolving session.wikispaces.com... done. Connecting to session.wikispaces.com[208.43.192.33]:443... connected. HTTP request sent, awaiting response... 302 Found Location: http://wodindex.wikispaces.com/?responseToken=2141639d8901c291dc288a940c9609e8 [following] --12:42:29-- http://wodindex.wikispaces.com/?responseToken=2141639d8901c291dc288a940c9609e8 => `index.html@responseToken=2141639d8901c291dc288a940c9609e8' Connecting to wodindex.wikispaces.com[75.126.104.177]:80... connected. HTTP request sent, awaiting response... 302 Found Location: http://wodindex.wikispaces.com/ [following] http://wodindex.wikispaces.com/: Redirection cycle detected. にリダイレクトされます。session.wikispaces.comは何らかのリダイレクトループを持ち、終了することはありません。

問題の1つの「解決策」は、wodindex.wikispaces.comの内容を別のWebサーバーに保存し、そこから取得することです。しかし、それが完全に合法かどうかはわかりません。

2
Vidar S. Ramdal

私はあなたの発見を再現しようとしましたが、成功しました!!

私が考えることができる唯一の論理的な結論は、サイトが次のタグを使用していないということです。

リスト

  • <UL>
  • <OL>
  • <DL>

TABLE

  • <TABLE>
0