web-dev-qa-db-ja.com

学術文献の引用テキストの自動解析

テキストの一部を自動的にスキャンして(ツールに貼り付けるか、.doc/.pdfから読み取る)、標準形式を使用して引用データを識別することができるソフトウェア(または擬似コード)はありますか?次に、データはその構成フィールドに分割され、XML、CSV、またはその他の構造化データ形式でエクスポートされます。 cb2Bib を見てきましたが、ハーバードスタイルの参照から年を抽出することしかできず、不十分です。

18
Alistair Knock

入力テキストからXMLを生成できる引用パーサーのリストを見てください。

http://freecite.library.brown.ed
http://paracite.eprints.org
http://aye.comp.nus.edu.sg/parsCit (2012年8月1日現在のメンテナンスモード)
http://opcit.eprints.org
http://search.cpan.org/~mjewell/Biblio-Citation-Parser-1.1

Freeciteを使用すると、curlコマンドを使用して、次のように引用を送信できます(PHPの場合)。

$cmd = "curl -H 'Accept: text/xml' -d \"" . $myinput . "\" http://freecite.library.brown.edu/citations/create";
$xmloutput = exec( $cmd );
4
KEG

現時点(2017年)でこれを実装する最もアクティブなオープンソースプロジェクトは Anystyle Parser (最終バージョン07-2016)のようです。 Webインターフェース、APIを介して使用するか、RubyGemとしてダウンロードできます。

彼らは、実装がParsCit(最後のバージョン2013?)とFreeCite(最後のコミット2009)に触発されていることをWebサイトで明示的に述べています。

また、彼らのウェブサイトを形成します:

AnyStyle Parserは、条件付き確率場に基づく強力な機械学習ヒューリスティックを使用します。これは、組み込みのエディターを使用して誰でもトレーニングできます。

これは本当にクールな機能であり、これが最も興味深い実装になります(imho)。 APIドキュメント で説明されているように、トレーニングは非常に簡単なようです。手動で修正した結果をいくつか提供し、Anystyle.parser.trainコマンドを実行するだけです。 ParsCitとFreeCiteもこれをサポートしているかどうかはわかりませんが、サポートしていない場合、これは大きな機能のように思えます-私には違いがあります。

3
Wouter

Regex Buddy または Expresso などのツールを試してください。

プログラマーでない場合、正規表現は少し威圧的かもしれませんが、特に上記のようなまともなツールを使用すると、それほど難しくはありません。

引用を抽出するために正規表現を使用している人の例を次に示します。

正規表現を解析する引用

2
Ash

Westlawプログラムが法的な参考文献のためにそれを行うのを見たことがありますが、それはおそらくあなたが探しているものではありません。 Reference Manager アカデミック形式ではそのようなことをするかもしれませんが、私はそれを使ったことがありません。

1
Kaypro II

Mendeley これを実行できるはずです。 PDFをインポートしてから、メタデータをBibTeX、RIS、EndNoteXMLにエクスポートできます。ダウンロードは無料で、クロスプラットフォームです。

編集:私はこれをいくつかのドキュメントでテストしました。 PDFインポートは、正しくフォーマットされた参照に対してはうまく機能するようです。LaTeXを使用して作成したドキュメントの場合、作成者とのすべての参照は「Smith、J。」または「 J. Smith」などは正常にインポートされました。作成者が会社(単一のWord)であるか、参照が不完全な場合は、うまく機能しません。抽出された参照は簡単に編集して、BibTeXなどにエクスポートできます。 。

1
sblair

試してください http://www.crossref.org/guestquery/#stqsearch

これは、参照テキストを自動解析することができ、オンライン記事へのリンクを提供します。

1
anton

これはおそらく@Abhinavへのコメントとして属しますが、zoteroは、ここで説明されているように、構造化データのみを確実に処理します。

http://www.zotero.org/support/getting_stuff_into_your_library#importing_records_from_other_reference_tools

興味深いハックは、各引用をお気に入りのデータベースの検索クエリとして使用し、zoteroなどを使用して参照情報を生成するプログラムを作成しようとすることです。 citeUlikeなどのサービスから構造化された情報をダウンロードすることもできます。あなたがそのようなことをすることになった場合は私に知らせてください! (もしそうなら、それをgithubに載せてください;)。

0
Dav Clark

Zoteroは、Webコンテンツに対してこれを行うFirefoxのプラグインです。ドキュメント/ PDF用の同様のツールがあるかどうかわからない

0
Abhinav