英語の辞書をダウンロードしたい-Word listだけでなく、TXTなどの構造化された形式で、 XML、またはSQL。
具体的には、音声発音と品詞が必要です(定義は必須)。
驚いたことに、私はこれをオンラインでどこでも見つけることができません。 ウィクショナリー が利用可能 ダウンロード用 ですが、これはMediaWikiの記事そのものです。すべての記事をクロールし、音声学と品詞を抽出することは、大きな練習になります。
これはどこでも利用できますか?払ってもかまわない。
編集:何人かが私が何をしたいか尋ねました。私の当面の必要性は、たとえば「最も一般的な2音節の動詞は何か」などの好奇心だけです。結局のところ、私の希望は、利用可能なドメイン名を見つけるのに役立つツールであり、正しい品詞と音声一致のボーナスポイントを組み合わせることで可能になります。
注: English Language and Usage 。にクロスポストされます
http://www.speech.cs.cmu.edu/cgi-bin/cmudict にアクセスすると、発音辞書のダウンロードページが https:// cmusphinxにあります。 svn.sourceforge.net/svnroot/cmusphinx/trunk/cmudict/
最新バージョンは現在cmudict.0.7aです。
これは http://www.haikuvillage.com の音節カウンターを実装するために現在使用しているものです。それはRubyにあります。それが役に立ったら、私はあなたのためにそれをオープンソース化したいと思います。
高度に構造化された形式のパブリックドメインの音声辞書の一部: http://icon.shef.ac.uk/Moby/mpos.html
各行は、×で区切られたエントリで、左側がWord値、右側が品詞値(動詞など)です。シンプルなテキストファイル。
Wordnetは、私が知っている最高の辞書の1つです。おそらくあなたはそこに何かを見つけるでしょう: http://wordnet.princeton.edu/wordnet/related-projects/
Portman、DevExpressの SpellCheckerツールを使用している間 OpenOffice辞書が存在する ことを知っていました 私はそれらが明確に定義されたデータ構造を持っていると確信しています。これを無料/有料のテキスト読み上げツールと組み合わせて使用することをお勧めします。
お役に立てれば幸いです。
これは質問への直接の回答ではありませんが、検索エンジンアプリケーションサーバー(Solrなど)に一致する単語またはフレーズを見つけるには、Double Metaphoneアルゴリズムが非常に適しています。
これの使用目的がわからないので、私の提案が役に立ったかどうかはわかりません。意図した用途に近い場合、Double Metaphoneに関するWikipediaのページに、約12の実装のリストがあり、探索する価値があります。