web-dev-qa-db-ja.com

Javaの名前付きエンティティ認識ライブラリ

Java用のシンプルだが「十分に良い」名前付きエンティティ認識ライブラリ(および辞書)を探しています。電子メールとドキュメントを処理し、名前、場所、住所、日付などの「基本情報」を抽出しようとしています。

私は周りを見回してきましたが、ほとんどは重い面と完全なNLPのようなプロジェクトにあるようです。

推奨事項はありますか?

27
webclimber

ところで、私は最近、私が探していた機能を持っているように見える OpenCalais に出くわしました。

1
webclimber

同様の問題に対する 私の以前の回答 のいずれかを確認することをお勧めします。

それ以外のほとんどの軽量NERシステムは、使用するドメインに大きく依存します。たとえば、生物医学NERシステムに関するツールや論文がたくさんあります。私の以前の投稿(NERを実行したい場合は、すでに私の主な推奨事項が含まれています)に加えて、以下のツールを調べてください。

  • スタンフォードCER-NER
  • Postech Biomedical NER System この特定のドメインに興味がある場合
  • OpenCalais 商用システムのようです。 OpenCalaisのUIMAラッパー がありますが、古くなっているようです。 UIMA用の辞書ベースのContext-Mapperアノテーターもあります。 UIMAは学習曲線にかなりのオーバーヘッドがあることに注意してください;-)
  • OpenNLP NERツールもあります。
  • Balie NERも実行します。
  • [〜#〜] abner [〜#〜] NERを実行しますが、ここでも生物医学領域に焦点を当てています。
  • JULIE Lab Tools ドイツのイエナ大学からもNERを行っています。スタンドアロンバージョンとUIMA分析エンジンがあります。

もう1つの注意:入力のトークン化なしでは逃げられません。自然言語のトークン化は少し重要です。そのため、両方を実行するツールボックスを使用することをお勧めします。

23

NLP文法については、 http://code.google.com/p/graph-expression/ および http://gate.ac.uk/ を確認できます。

0
yura

Alchemy API も試してみてください。 OpenCalaisに似ています。

0
Arun R