専門の電子機器からのメタデータ(重量、寸法、アプリケーション、電圧などのデータ)を提供するWebサイトを運営しています。また、このすべてのデータを使用して製品を比較するため、ユーザーは2つの製品の違いを確認できます。
私はそのデータを調査し、それを自分のWebサイトの構造化データベースに配置するために多くの作業を行っています。
競合他社が私のウェブサイトを自動的にスキャンし、すべての構造化データを取得して自社のウェブサイトに複製する「クローラーロボット」を作成しました。彼はHTMLコードを読み取り、テーブルを解析し、値を取得し、すべてのプロパティについて私が書いた「ツールチップの説明」も取得します。また、このすべてのデータを使用して、自分のデータベースにデータを送り、好きなようにデータを表示できます。
私は自分のWebサイトに新製品を配置し、その製品は数時間後に競合他社のWebサイトにあります。 「単純なHTMLコピー」ではありません。彼はすべてのデータを解析し、構造化された方法で保存します。彼はすべての製品イメージをダウンロードし、独自のサーバーでホストしています。かなり高度なクローラーロボットです。
競合他社がそうするのを防ぐ方法が欲しいのです。
私はWebServerで彼の国全体をブロックすることを計画していましたが、それは彼を非常に長い間停止しないと思います。彼はおそらくそれを回避する方法を見つけるでしょう(そうするでしょう)。
また、データを「イメージエンコード」することはできません。これは、データがSEOに非常に不適切であるためです。そして、私を見つけるにはGoogleが必要です。
何を指示してるんですか?
原則として、一般に公開されているものはすべて、高度なボットによってクロールされる可能性があります。場所を偽造したり、IPアドレスをマスクしたり、CAPTCHAソルブを購入したりできます。
この場合の最善の手段は、法的手段である可能性があります。最初に DMCA削除要求をGoogleに送信 して、彼のサイトをGoogle検索から除外することで、サイトの速度が低下します。競合他社が法的に触れることができる管轄区域にいる場合は、 架空のエントリの著作権トラップ の作成について弁護士に相談することも検討できます。
この類似のスレッドには、競合他社がコンテンツを盗み、Google検索であなたより上位にランク付けされているかどうかに関するアドバイスがあります。
別のWebサイトがミラーリングしており、検索結果で私のサイトより上位にランク付けされています
私は弁護士ではありません。これは法律上の助言ではありません。
このようなジャークは、インターネットの誕生とほぼ同時にオンラインになりました。検討に値するいくつかのオプション:
.htaccess
を試す: オフラインのブラウザとBadBotをブロックする または IPアドレスで訪問者を拒否する 。それは彼らをしばらく待たせるかもしれません。技術的には、このアクションを防ぐことはできません。
ただし、ランキングに悪影響を与える可能性のある重複したページや低品質のページを「デフューズ」するために何かを行うことができます。
body
タグ内とメインコンテンツのセクション内に正規リンクを配置できます。