web-dev-qa-db-ja.com

PDFドキュメントからテキストを抽出するには?

PDF document sing PHP?]からテキストを抽出する方法

(他のツールを使用することはできません。ルートアクセス権はありません)

プレーンテキストで機能する関数をいくつか見つけましたが、Unicode文字をうまく処理できません。

http://www.hashbangcode.com/blog/zend-lucene-and-pdf-documents-part-2-pdf-data-extraction-437.html

53
Sfisioza

ダウンロードclass.pdf2text.php@ https://Pastebin.com/dvwySU1a (2014年4月5日に更新)または http://www.phpclasses.org/browse/file/31030.html (登録が必要です)

コード:

include('class.pdf2text.php');
$a = new PDF2Text();
$a->setFilename('filename.pdf'); 
$a->decodePDF();
echo $a->output(); 

このクラスは、私がテストしたすべてのpdfで機能するわけではありません。試してみてください。


上記が機能しない場合は、 http://pdfparser.org/ を試してください


プロジェクトホームSSL証明書の問題

48
Pedro Lobito

私はこのトピックがかなり古いことを知っていますが、この必要性はまだ生きています。私は多くのドキュメント、フォーラム、スクリプトを読み、圧縮されたpdfと非圧縮のpdfをサポートする新しい高度なドキュメントを作成します。

https://Gist.github.com/smalot/6183152

それがみんなに役立つことを願って

11
Sebastien Malot