さまざまなサンプルテキストのセットはどこで入手できますか？

Question

ソフトウェアプロジェクトで使用するために、英語で使用されている文字またはWordシーケンスの統計を収集しようとしています。

多様なトピックセットをカバーする大量の英語のプレーンテキスト（数GBはいいでしょう）はどこで入手できますか？

yannis · Accepted Answer

Wikipediaのデータダンプを使用できます。英語版のWikipediaのXMLデータダンプには現在のリビジョンのみが含まれているため、約31 GBです。このため、調査を始めるのに適しています。データダンプはかなり大きいので、SAXパーサーを使用してXMLからテキストを抽出することを検討する必要があります。 WikiXMLJ は便利ですJava Wikipedia用に調整されたAPIです。

そして、もちろん、常に Stack Exchangeデータダンプがあります。最新のものには、2011年9月までのすべての非ベータのStack Exchangeサイトと対応するMetaサイトが含まれます。ただし、当然のことながらStack Exchangeの投稿は各サイトの範囲に集中しているため、おそらく一般化されていませんお願いします。ただし、メタ投稿はもう少し一般的であるため、Wikipediaに加えてそれらを検討することもできます。

特にプレーンテキストでは、これ以上良いものは見つからないと思います。データハブを通じていくつかのオープンデータセットを利用できますが、英語版のWikipediaのデータダンプは、探しているものに非常に近いと思います。

jonsca · Answer

Google は、n-gram確率を決定するために使用するデータセットのコレクションを持っています。それらのバイグラム（2グラム）データセットを調べると、良い画像が得られるはずです。他にも多くのコーピがあり、これらの分析はすでに行われています。

Michael Kohne · Answer

Project Gutenberg には、すでにテキスト形式の英語のテキストの大規模なコーパスがあります。

Project Gutenbergは42,000以上の無料の電子ブックを提供しています。無料のepubブック、無料のKindleブックの中から選択し、ダウンロードしたり、オンラインで読んだりできます。

私たちは高品質の電子ブックを扱っています。すべての電子ブックは以前に善意の出版社によって発行されました。私たちは何千人ものボランティアの助けを借りて、デジタル化し、真剣に校正しました...

NoChance · Answer

統計については、おそらく「Bigram Frequency in the English」を見てください。見てみましょう： Wiki-Bigram Stats

大きなテキストを見つけることに関しては、頻度はテキストのタイプに偏っていることに注意してください。たとえば、住所を分析すると、新聞記事の分析とは異なる結果が得られます。テストしたいだけの場合は、任意の本のPDFファイル（数学やプログラミングや医学の本ではない方がいい）を使用して、テキストに変換してからテストを実行します。新聞のウェブページをテキストにしてそれらに取り組みます。