既存のWebページの統計的に可能性のある検索の生成

Question

Stack Exchange ベータコミュニティの品質評価を実行しようとするプロセスでは、質問と次の指示が含まれます。

これらの質問に対してGoogleの比較検索を実行し、コンテンツがインターネット上にすでにあるものよりも良いか悪いかを確認します。

特定の質問についてレビューしている検索クエリが統計的に話すことを保証する最良の方法は何ですか？ユーザーが最も得そうな結果を生成する可能性がありますか？

（通常、これに対する私の解決策は、 GoogleのWebmaster Tools を使用することであることに注意してください。ただし、それでも比較的短い時間枠で上位2,000の「サイト」の検索のみに制限があるためです。 ;つまり、特定のURLのすべての検索が表示されるとは限らないか、長期間にわたってユーザーが実際に検索するものの良いサンプルになる可能性があります。）

Stephen Ostermiller · Answer

ユーザーが実際に検索しているキーワードを把握したい場合は、 Google AdWordsキーワードプランナーを使用します。以前は公開されていましたが、アクセスするにはAdWordsアカウントが必要です。

まず、ユーザーがページにアクセスするために検索する可能性が高いと思われるもののリストを考え出すことから始めます。それをツールにつなげて、どれが実際に最も多くの検索を取得しているかを教えてくれて、さらに例を示します。

この質問を例として取り上げます。ユーザーが探しているものだと思ったので、プラグインした4つのフレーズを次に示します。

また、選択できる関連キーワードのリストも提供しました。最良の提案の一部を次に示します。

キーワード調査（14,800の月間検索）
キーワードジェネレーター（6,600の月間検索）
キーワード調査ツール（6,600の月間検索）

この質問の品質を評価するように求められた場合、それらの検索で利用可能な他のコンテンツと比較します。

AdWordsアカウントを取得できない場合は、 Google Trends を使用して、思い付いたアイデアの人気を確認できます。残念ながら、同様の関連用語の提案は提供されません。

David Garcia · Answer

あなたが達成しようとしていることを理解しているかどうか見てみましょう：

人は、明確で簡潔な質問から漠然とした概念に至るまで、主要な質問をサポートする追加コンテンツを含むコンテンツを入力します。
コミュニティは、明確な回答、裏付けとなる証拠または説明、および回答をサポートするためのリンクまたはアセットを含むコンテンツを提供することで回答を試みます。
両者が作成したコンテンツを自動的に取得し、サイトとウェブ上の他の場所で見つかったコンテンツと比較して、コンテンツが他の場所で見つかったものと同等かそれ以上の質問に統計的に答えているかどうかを判断しようとしています。

その場合は、達成しようとしているものに固有のいくつかの欠陥を理解する必要があります。

Natural Processing Languageシステムを構築し、何が「良い答え」で何がそうでないかを知る人工知能プラットフォームを作成したい場合を除いて、せいぜいキーワードと比較して存在するキーワードまたは存在しないキーワードを見つけることができます。コンペ。
質問をすることには多くのバリエーションと可能性があるため、コンテンツの回答部分が質問に簡潔に回答するかどうかをプログラムで判断することは困難です。まさにその例です。私たちはすべて提供しています（IMO）回答の85％を何らかの形または方法で言うことができますが、コンテンツの提示または15％の裏付け証拠がないため、回答はそうではないと判断しましたあなたの質問に正しく答えてください。統計的有意性を判断したとしても、ここで質問に正しく答えたと思っていたように、結果が実際に偽陽性になる可能性があることがわかります。

できること（質問に答えようとする）：

質問と回答のトピックモデルグラフを作成する

質問の内容を取得し、 AlchemyAPI のようなNLPエンティティ抽出ツールで実行します。他のページのコンテンツがデータを歪めたくないので、質問のコンテンツのみを言います。
センチメント、エンティティ、コンセプトなどを含む結果を保存して、この質問自体とトピックに関する今後の質問のデータを分析します。
同じコンテンツを使用し、キーワードまたはコンテンツ計画ツールで実行して、キーワードのアイデアと検索ボリュームを取得します。アイデア（これを行うツールを知らない）は、コンテンツに修飾子を追加する必要があります：誰が、何を、いつ、どこで、なぜ、どのように、コンテンツなどを含む結果を得るためにこれらの修飾子の。
コンテンツの回答部分でステップ1と2で行ったのと同じことを行います。
キーワードツールから取得した結果と、ページの回答部分のコンテンツを比較します。ここでは、2つの結果（質問と回答）の統計を使用して、質問を明確にして回答するのに十分なサポートまたは拡張トピックがあるかどうかを判断します。
回答に欠けているエンティティ、概念、トピックなどを見つけ、質問に回答する際のガイダンスとしてコミュニティメンバーに提供します。メタタグの最適化と考えてください。ただし、回答内容は次のように考えてください。「ユーザーがこれらの質問に答える際に、x、y、zなどのサポートコンセプトを含めるようにしてください」。

これまでのところ、このサイトの回答が許容できる程度に質問に回答しているかどうかを判断しています。次に、これがWebで見つかった回答とどのように比較されるかを確認します。これはもう少し難しいかもしれませんし、誰かが飛び込みたいなら助けが必要でしょう。

質問が明確で簡潔な場合、つまり「UXはユーザビリティと同じですか？」 SERPの上位Xページを返すツールを実行します。これらからページコンテンツを抽出して、上記の作業と比較します（Q＆Aコンテンツだけでなくページ全体を表示するため、これは少し難しくなります。このコンテンツのみを特定して抽出する方法を見つけない限り）
質問が明確で簡潔でない場合は、両方のQ＆A部分から結果を取得し、上記と同じプロセスを実行します。
次に、これらのWeb結果をページと比較して、両方に含まれるトピック、エンティティ、概念の統計的有意性を取得し、上記のステップ3のキーワード調査ツールで見つかった最も人気のあるクエリにどれがよりよく一致するかを判断します。

グラフ部分...

長期的な成功のために、これらのエンティティをグラフの一部として、すべてのページのグラフを作成する必要があります。 Neo4j のようなものが動作するはずです。
どのページにどのエンティティが含まれているか、およびトピック全体に関連するそれらのエンティティの強度または関連性を識別するトピックモデルを構築します。例：「UXとは？」 UXに関連する一般的なトピックやその他のサポートトピックが含まれます。一方、「[特定のツール]を[他の特定のツール]と組み合わせて使用すると、[特定のコンセプト]を実現できますか？」非常に具体的であり、特定の質問をする経験豊富なUXユーザーと思われる人の質問に答えるために、（おそらく）より多くのエンティティと一般的でない用語を使用する必要があります。
このグラフデータを活用して、ユーザーの質問に回答する際にコミュニティに役立つヒントを提供します。一日の終わりには、エンティティグラフを使用して、質問に回答している人に特定のトピックセットに関する詳細を提供するよう依頼します。

ふう！お役に立てば幸いです...

David Hobs · Answer

これはおそらく理想的な方法ではありませんが、アイデアを得るための可能な方法です。

結果がSERPのトップ1または2ページにある場合にのみ、サイト/ページにアクセスする可能性があります。そのため、トップ10〜20の結果にWebページが表示される検索キーワードを見つける必要があります。次に、それらの検索用語に対して品質比較として表示される他のページ、主に上位数ページを取得します。問題のページのSERPが高いほど、ユーザーが「統計的に」見つけやすくなり、比較するコンテンツの関連性が高まります。

目標は、問題のページが上位10〜20の検索結果に表示される検索用語を取得することです。考えられるすべての検索クエリをテストするのではなく、ページが関連する用語に対してのみランク付けされ、関連する用語のみがそのページにユーザーを誘導すると想定できます。関連する可能性のあるすべての用語をブレインストーミングし、Googleキーワードプランナーを使用してリストを劇的に拡張し、Googleオートリストもリストを拡張します。問題のページがランク付けされる可能性のある関連キーワードをすべて集めたら、そのページがそれらの用語のいずれかでランク付けされているかどうかを確認します。そのリストをバルクSERPチェッカーにプラグインします。プレミアムSEOツールの方がうまくいくかもしれませんが、いくつか無料のツールがすぐに見つかりました http://searchenginereports.net/ および http://serp-checker.ezmlm.org/ =動作する可能性があります。トップ10〜20の結果内でサイトを提供する用語を絞り込みます。これらはおそらく最も関連性の高い検索クエリです。次に、それらの検索用語に対して表示される他のページを品質比較として使用します。問題のページがSERPの上位に表示されるほど、そのクエリで人々がページにアクセスする可能性が高くなります。したがって、競合するページの関連性がより高いのは、その用語と品質比較です。

バックリンクチェッカーは、SERPでページが合理的にランク付けできるキーワードを見つけるのにも役立ちます。これらのリンクで使用されるアンカーテキストは、それらの用語のSEOを高め、人々がその検索用語でサイトを見つける可能性を高めます。 https://ahrefs.com/ 、 https://moz.com/researchtools/ose/ 、 https://majestic.com/ =

理想的ではないかもしれませんが、他の多くの提案はないようです。それがあなたを正しい方向に向けることを願っています。