可能性のある複製:
FULLTEXTスタイルの検索をテストするデータセットを探しています
最近、データマイニングのプロジェクトに参加しています。テストには100 GBのプレーンテキストが必要です。誰かが私がそのようなテキストファイルをダウンロードできるリンクを提供することで私を助けてください。ありがとう。
どのタイプのテキストを検索していますか?会話型、記事、書籍-それともすべての良い広がり?
プロジェクトGutenbergは良いスタートかもしれません: http://www.gutenberg.org/
ウィキペディアでは、記事のアーカイブをダウンロードすることもできます。 http://en.wikipedia.org/wiki/Wikipedia:Database_download
http://dumps.wikimedia.org/ を使用する必要があります