PHPでPDFファイルを読む

<?php $parser = new \installpath\PdfParser\Parser(); $pdf = $parser->parseFile('mypdf.pdf'); $text = $pdf->getText(); echo $text;//all text from mypdf.pdf ?>

同様に、pdfオブジェクト（画像など）を取得するのと同様に、pdfからメタデータを取得できます。

Rado · Answer

うーん...正確にphpではありませんが、phpからプログラムを呼び出してpdfを一時htmlファイルに変換し、phpで結果ファイルを解析できます。私は私のプロジェクトのために似たようなことをしました、これは私が使用したプログラムです：

PdfToHtml

このプログラムの素晴らしい点は、絶対位置座標を持つ<div>タグ内のテキスト要素を吐き出すことです。これはまさにあなたがやろうとしていることのようです。

jmo · Answer

最初のリクエストは、「建物のフロアマップである大きなPDFファイルがあります。」

これはあなたが想像するよりも難しいかもしれないとあなたに伝えるのが怖いです。

原因pdfを解析するために誰もが最後に使用する既知のライブラリはsmalotであり、これは大きなファイルに関する問題に遭遇することが知られています。

ここでも、多くの「開発者」が行うようにメモリ制限を無効にするためのPHP構成を必要とするメモリピークなしに、pdfを解析する実際のPHPライブラリを探します（これは本当にお勧めできません）。

smalotのパフォーマンスの詳細については、この投稿を参照してください： https://github.com/smalot/pdfparser/issues/16

Mike · Answer

このアプリケーションも試してみてください http://pdfbox.Apache.org/ 。実例は https://www.jinises.com にあります。