web-dev-qa-db-ja.com

テキストを要約または簡略化する

できればpythonですが、少なくともオープンソースで、自然言語のテキストを要約または簡略化できるライブラリはありますか?

30
captainandcoke

現在、これを行うライブラリがテキストの要約として存在するのか、少なくとも理解可能テキストの要約が、シンプルなプラグアンドプレイライブラリで簡単に実現できます。

ここに、あなたが始めるためにテキスト要約に関連するプロジェクト/リソースに関して見つけたいくつかのリンクがあります:

それが役に立てば幸い:)

17
Rion Williams

たぶん sumy を試すことができます。それは私がPythonで書いた非常に小さなライブラリです。 LuhnとEdmundsonのアプローチ、LSAメソッド、SumBasic、KL-Sum、LexRankおよびTextRankアルゴリズムが実装されています。これはApache2ライセンスで、チェコ語、スロバキア語、英語、フランス語、日本語、中国語、ポルトガル語、スペイン語、ドイツ語をサポートしています。

不足している問題がある場合は、問題を開いたり、プルリクエストを送信したりしてください。

25
Mišo

私も同じものが必要でしたが、PythonComprehensive結果。

だから私はこのWebサービスが本当に便利であることに気づきました、そして彼らは無料の [〜#〜] api [〜#〜] を持っています。

ここで確認してください: http://smmry.com

4
ant0nisk

これを見てみましょう 記事 これは、これらのメソッドとパッケージの詳細な調査を行います。

  1. Lex_rank( 合計
  2. LSA(sumy)
  3. ルーン(スミ)
  4. PyTeaser
  5. Gensim TextRank
  6. PyTextRank
  7. Google TextSum

記事の末尾は「 要約 」です。

Sumy @ miso.belica の作者は、上記の回答で説明しています。

Facebook/NAMAS やGoogle/TextSumなど、他のさまざまなML手法が登場していますが、Gigawordデータセットでの広範なトレーニングと約7000 GPU時間を必要としています。データセット自体は非常にコストがかかります。

結論として、ハイエンドマシンにアクセスできない場合は、sumyが現在の市場での最良のオプションであると言えます。この素晴らしいパッケージをありがとう@ miso.belica.

2
Ganesh K

pythonですが [〜#〜] mead [〜#〜] はテキストの要約を行います(Perlで行われます)。特に流暢に聞こえます。また、テキスト要約タスクに関する多くの優れた情報について summarization.com も確認してください。

2
ealdent

試してみてください Open Text Summarizer これはGPLオープンソースライセンスでリリースされています。それは適度にうまく機能しますが、2007年以来それに関する開発作業はありません。

元のコードはC(ライブラリーとコマンドラインユーティリティの両方)で書かれていますが、いくつかの言語でラッパーがあります。

2
JohnTESlade

しばらく前に、Classifier4Jライブラリのアルゴリズムを使用して、NLTKを使用してpythonの要約ライブラリを作成しました。これはかなり単純ですが、要約が必要な人のニーズに合うかもしれません: https://github.com/thavelick/summarize

0