Googleスプレッドシートにはいくつかのインポート機能があります
上記の関数は#N/A Imported content is empty
などのエラーを返すことがあり、インポートするリソースコンテンツに問題がないことを確認したい場合があります。
これらの関数が、インポートしたいコンテンツを取得できるかどうかを知るにはどうすればよいですか?
IMPORTRANGEも存在することは知っていますが、その機能はGoogleスプレッドシートのスプレッドシートからのみコンテンツをインポートできます
IMPORTDATA、IMPORTFEED、IMPORTHTML、およびIMPORTXMLは、次のWebサイトでホストされているリソースからコンテンツを取得できます。
csv
またはtsv
はリソースのファイル拡張子に関係ないため、構造化されたコンテンツを処理します。On W3C Markup Validator チェックアウトするためのいくつかのツールがあり、リソースが適切にマークアップされていました。
CSVチェックアウトについて CSVファイルを検証する既知のサービスはありますか
スプレッドシートは
(おそらく答えではないかもしれませんが、ここでは簡単な謙虚なスクレイピングガイドです)
IMPORTHTML
で、ゆっくりと(1行1列)下にドラッグします=IMPORTHTML("URL"; "TABLE"; ROW(A1)-1)
=IMPORTHTML("URL"; "LIST"; ROW(A1)-1)
IMPORTXML
に切り替えます。=IMPORTXML("URL"; "//*")
#N/A
以外の何かを返す場合、XPathで絞り込むか、再実行/クエリアウトできます。それでもうまくいかない場合は、パブリックURL(存在する場合)の代わりにAPI呼び出しまたはJSONデータを使用する可能性があります=IMPORTXML("URL"; "//div[@class='primary']")
IMPORTXML
がJSONを取得できない場合、カスタムIMPORTJSON
関数がありますGitHubIMPORTDATA
があり、次のようなソースコードからのものをスクレイピングします:=ARRAY_CONSTRAIN(IMPORTDATA("URL"); 8000; 20)
=REGEXEXTRACT(QUERY(ARRAY_CONSTRAIN(IMPORTDATA("URL"); 3000; 2);
"where Col1 contains 'meta table id something'"); "\>(.+)\<")
#N/A
である場合、放棄する可能性があり、スクレイプ可能な類似サイトを見つける時間が常にあります。(言及されたテクニックのもう少しのRL例ここ)