web-dev-qa-db-ja.com

GOOGLEでHTMLソースを検索しますか?

私はいくつかのウェブサイトを持っていますが、どこでコードを書いたのか覚えていません。私のページはGoogleによってインデックス化されているので、GoogleがHTMLソースコード/マークアップ自体内で検索する機能を提供しているかどうかを知りたいです。代わりに、ページの一部?

ありがとう

53
Entretoize

NerdyDataという新しい検索エンジンがあり、HTML/CSS/JSソースコードで検索できます。

1億6千万を超えるパブリックドメインのインデックスが作成されており、データが有用であることがわかりました。

33
Noah Freitas

旅行中に次のリソースに出くわしました(既に上記で言及したものもあります)。

HTMLマークアップ重視の検索エンジン

また、次のものを投入したいと思います。

巨大なウェブサイトクロールデータアーカイブ

このクロールデータを分析するにはどうすればよいですか?

この大量のデータの分析を開始する方法については、 Big Data/Map-reduce-type frameworks(s) をご覧ください。

Googleは、ApacheのSparkプロジェクト を使用して分析する Common Crawl's dump(s) 。を理解する ファイル形式(s)Common Crawlで使用されます 、次を参照してください:

記事 Accessing-Common-Crawl-Dataset-on-S ​​は、アクセスの概要を説明します Common Crawlの250TB +ダンプ は低コストでwithoutAmazonのAWS/S3ネットワークの外部にそのデータ負荷を転送します。もちろん、が何らかの組み合わせ AWS/EC2/S ​​などを使用してクロールデータを分析することを前提としています。

最後に、 Patrick DurusaCommon-Crawl-usage-related blog pages を維持しています。

個人的には、この主題が興味をそそられると思うので、このクロールデータを取得することをお勧めします!;-)

24
Big Rich

ソース/マークアップでの検索には PublicWWW を試すことができます。 1億6700万以上のWebサイトのWebページのソースコードで、HTML、JavaScript、CSS、およびプレーンテキストを検索できます。

PublicWWWでできること:

  • 共有する固有のHTMLコード、つまりウィジェットと発行者IDを使用して、関連するWebサイトを検索します。

  • 特定の画像またはバッジを使用してサイトを特定します。

  • テーマを使用している人を見つけます。
  • あなたに言及しているサイトを特定します。
  • 競合他社のアフィリエイトを見つけます。
  • 競合他社が個人的にコラボレーションまたは対話するサイトを特定します。
  • ライブラリまたはプラットフォームを使用するための参照。
  • ネットでコード例を見つけてください。
  • 誰がどのJSウィジェットをサイトで使用しているかを把握します。
  • ...

もちろん、コード/マークアップスニペットを使用するWebサイトだけでなく、見つけることもできます。

6
James Andreenko

Googleはサイトからあなたのコードを検索することはできません。Yoyは使用できます http://nerdydata.com/ それは私が使用した最高のコード検索エンジンです!このサイトから正確なコードを入手できると思います。

2
Limon Pervez