PythonでPDFファイルをHTMLに変換するにはどうすればよいですか?
PDFファイルをインデックスに登録するためにGoogleが行っている(または行っているように見える)行を何かだけで考えていました。
私の最終的な目標は、ApacheをセットアップしてPDFファイルのHTMLを表示することです。そのため、その方向に私を導いてくれるものもいただければ幸いです。
poppler パッケージは、使用可能なpdf2htmlユーティリティを提供します。 libpopplerには Pythonバインディング もあります。