競合他社が私のWebサイトを複製するのを防ぐ方法

Question

専門の電子機器からのメタデータ（重量、寸法、アプリケーション、電圧などのデータ）を提供するWebサイトを運営しています。また、このすべてのデータを使用して製品を比較するため、ユーザーは2つの製品の違いを確認できます。

私はそのデータを調査し、それを自分のWebサイトの構造化データベースに配置するために多くの作業を行っています。

競合他社が私のウェブサイトを自動的にスキャンし、すべての構造化データを取得して自社のウェブサイトに複製する「クローラーロボット」を作成しました。彼はHTMLコードを読み取り、テーブルを解析し、値を取得し、すべてのプロパティについて私が書いた「ツールチップの説明」も取得します。また、このすべてのデータを使用して、自分のデータベースにデータを送り、好きなようにデータを表示できます。

私は自分のWebサイトに新製品を配置し、その製品は数時間後に競合他社のWebサイトにあります。「単純なHTMLコピー」ではありません。彼はすべてのデータを解析し、構造化された方法で保存します。彼はすべての製品イメージをダウンロードし、独自のサーバーでホストしています。かなり高度なクローラーロボットです。

競合他社がそうするのを防ぐ方法が欲しいのです。

私はWebServerで彼の国全体をブロックすることを計画していましたが、それは彼を非常に長い間停止しないと思います。彼はおそらくそれを回避する方法を見つけるでしょう（そうするでしょう）。

また、データを「イメージエンコード」することはできません。これは、データがSEOに非常に不適切であるためです。そして、私を見つけるにはGoogleが必要です。

何を指示してるんですか？

Maximillian Laumeister · Answer

原則として、一般に公開されているものはすべて、高度なボットによってクロールされる可能性があります。場所を偽造したり、IPアドレスをマスクしたり、CAPTCHAソルブを購入したりできます。

この場合の最善の手段は、法的手段である可能性があります。最初に DMCA削除要求をGoogleに送信して、彼のサイトをGoogle検索から除外することで、サイトの速度が低下します。競合他社が法的に触れることができる管轄区域にいる場合は、架空のエントリの著作権トラップの作成について弁護士に相談することも検討できます。

この類似のスレッドには、競合他社がコンテンツを盗み、Google検索であなたより上位にランク付けされているかどうかに関するアドバイスがあります。

別のWebサイトがミラーリングしており、検索結果で私のサイトより上位にランク付けされています

_{私は弁護士ではありません。これは法律上の助言ではありません。}

elbrant · Answer

このようなジャークは、インターネットの誕生とほぼ同時にオンラインになりました。検討に値するいくつかのオプション：

CGI/Perl、またはPHP=オンザフライでデータ（およびページ）を呼び出す）コードを記述できます。データを標準のHTMLの代わりに製品ファイルまたはデータベースに挿入すると、ボットがデータを盗むのを妨げる可能性があります。もちろん、スタッフにサイトにアクセスしてデータを取得させることもできますが、ボットプログラムがデータを盗むほど魅力的ではありません。ページはその時点で作成されているため、盗む「静的」ページはありません。完璧ではありませんが、潜在的な可能性があります。
.htaccessを試す：オフラインのブラウザとBadBotをブロックするまたは IPアドレスで訪問者を拒否する。それは彼らをしばらく待たせるかもしれません。
あなたのウェブサイトを著作権で保護することができます。製品の（寸法、重量、サイズなど）仕様は著作権で保護されていないことを理解する必要があります。サイトで製品を紹介している人はだれでもその情報を使用する権利があります。ただし、「ツールチップ」を作成し、それらの説明もボットによって収集されることを示しました。これは、著作権侵害としてサイトに掲載できるものです。それに見る。（注：著作権規則は国によって異なります。）

Shayan Davoodi · Answer

技術的には、このアクションを防ぐことはできません。

ただし、ランキングに悪影響を与える可能性のある重複したページや低品質のページを「デフューズ」するために何かを行うことができます。

bodyタグ内とメインコンテンツのセクション内に正規リンクを配置できます。
ブランド化されたリンクをメインコンテンツ内に配置して、複製されたコンテンツに独自のWebサイトへのリンクを含めることができます。