LaTeXからPDFを作成する方法を知っています。以前作成したPDFから誰かがLaTeX-codeを抽出する方法はありますか? a PDFそして私はフォーマットが好きです。LaTeXをそこから抽出できますか?
LaTeXにはPDFへの1対1の変換がありません。最初の質問に関して、そのような変換は技術的に可能かもしれないと信じていますが、そうするためのアプリケーションがまだ存在するとは思いません。アセンブラを逆コンパイルして高レベル言語に戻す方法と同様に、おそらくそれを行う方法があります。ただし、pdfには、AutoCADの図面、JPEGグラフィックス、フォントファイル、フォーム、デジタル署名など、あらゆる種類のデータを含めることができます。LaTeXには、これらが何であるかがわかりません。したがって、2番目の質問に対する答えは「いいえ」です。PDFドキュメントから同等のLaTeXを抽出する方法はありません。
OCRのようなPDFファイルを読み取り、ラテックスコードを再作成しようとするツールがあります。ほぼ完璧で、 "Infty Reader" !と呼ばれています。ラテックスは非常に拡張性があるので、きちんとしたフォーマットがすべて揃っているとは思いません。
ドキュメントのソースをPDFファイルに埋め込む場合のみ可能です。これを行うには attachfile パッケージを参照してください。
ショートバージョン:いいえ.
長いバージョン:逆コンパイルによく似ています。技術的には可能ですが、多くの推測とヒューリスティックが必要になります。
私はPDF innardsに精通していませんが、LaTeXのようにフォーマットを定義してヘッダーなどに適用する代わりに、フォント/サイズ/位置を直接設定する可能性があります。
Pdftohtmlおよびgnuhtml2latexを使用して、PDFをHTMLに、HTMLをTEXに変換することができます。
実際には、PDFを2ステップでLaTeXに変換しています。結果は依然として「ハンバーガーから牛を作る」ようなものですが、いくつかのクリーンアップスクリプトと組み合わせると、結果はかなりまともです。
GlobalBlindSpotのブログ投稿「 Linuxでの初歩的なPDFからLaTeXへの変換 」には、.pdfを.texファイルに変換し、それを.pdfファイルに変換するサンプルBashスクリプト再び。
Pdfファイルからのデータマイニングの最適な方法(その複雑な形式のため)は、Adobeイラストレーターで開くことです。次に、pdfファイルをsvgファイルに変換し、svgパーサーライブラリを使用して、自分でトリッキーなコードを記述します。
1つの効率的なsvgパーサーライブラリは batik です
(Linuxの場合、pdfをsvgに変換するのはかなり複雑です:calcmaster.net/personal_projects/pdf2svg/)
PSあなたの質問の2番目の部分の解決策を見つけるために多くのことを試みてきましたが、PDF、特にAdobe pdfは解析するのが複雑である「Visualizing Data、Ben Fry、O'Reilly」などの本で見つけました、代わりにsvgパーサーライブラリを使用します。
InkscapeはPDFをインポートし、「LaTeX with PSTricks macros」として保存できます。これは、基本的にPostScriptをLaTeXソースに埋め込むことで機能します。それはその価値よりも厄介であり、結果のラテックスソースは、PDFとして再び出力する前に前処理する必要があります。
とにかく、LaTeXコンパイラに対して何らかの仮説PDFを使用しても、各文字またはWordの位置とサイズが個別に指定されたものが得られます。私は、分母が水平線の下の数ではなく、分数の半分であると推測しています。
関連する質問に関する私の答えを参照してください( DVIをtexに変換する方法 )
増幅するために、文字を読み取り順にする必要はありません(sdrawkcab sdaer txetの一部(および座標に依存する)PDFを見つけました。フォントメトリックに依存するため、再構築が非常に困難です。ぞっとするようなASCII86プロトコルを使用してください。