私はいくつかのウェブサイトを持っていますが、どこでコードを書いたのか覚えていません。私のページはGoogleによってインデックス化されているので、GoogleがHTMLソースコード/マークアップ自体内で検索する機能を提供しているかどうかを知りたいです。代わりに、ページの一部?
ありがとう
NerdyDataという新しい検索エンジンがあり、HTML/CSS/JSソースコードで検索できます。
1億6千万を超えるパブリックドメインのインデックスが作成されており、データが有用であることがわかりました。
旅行中に次のリソースに出くわしました(既に上記で言及したものもあります)。
HTMLマークアップ重視の検索エンジン
また、次のものを投入したいと思います。
巨大なウェブサイトクロールデータアーカイブ
このクロールデータを分析するにはどうすればよいですか?
この大量のデータの分析を開始する方法については、 Big Data/Map-reduce-type frameworks(s) をご覧ください。
Googleは、ApacheのSparkプロジェクト を使用して分析する Common Crawl's dump(s) 。を理解する ファイル形式(s)Common Crawlで使用されます 、次を参照してください:
記事 Accessing-Common-Crawl-Dataset-on-S は、アクセスの概要を説明します Common Crawlの250TB +ダンプ は低コストでwithoutAmazonのAWS/S3ネットワークの外部にそのデータ負荷を転送します。もちろん、が何らかの組み合わせ AWS/EC2/S などを使用してクロールデータを分析することを前提としています。
最後に、 Patrick Durusa は Common-Crawl-usage-related blog pages を維持しています。
個人的には、この主題が興味をそそられると思うので、このクロールデータを取得することをお勧めします!;-)
ソース/マークアップでの検索には PublicWWW を試すことができます。 1億6700万以上のWebサイトのWebページのソースコードで、HTML、JavaScript、CSS、およびプレーンテキストを検索できます。
PublicWWWでできること:
共有する固有のHTMLコード、つまりウィジェットと発行者IDを使用して、関連するWebサイトを検索します。
特定の画像またはバッジを使用してサイトを特定します。
もちろん、コード/マークアップスニペットを使用するWebサイトだけでなく、見つけることもできます。
Googleはサイトからあなたのコードを検索することはできません。Yoyは使用できます http://nerdydata.com/ それは私が使用した最高のコード検索エンジンです!このサイトから正確なコードを入手できると思います。