web-dev-qa-db-ja.com

Webページの外観(Webブラウザとまったく同じ)とテキスト/リンクを維持したまま、WebページをPDFに変換する方法

WebページをPDFに変換する方法を探していますが、Webページの外観は維持します。また、ウェブページのテキスト(選択可能)を保持しながら検索可能[ウェブページの画像スクリーンショットを生成すると、テキストは選択不可能または検索不能になります]。

私は、スタイルや配置を変更したり、Webページの静的コンポーネントを失うことなく、WebページをそのままPDFに印刷することを探しています。

これは、読みやすく、注釈を付け、検索可能なWebページのオフラインコピーを保存するのに役立ちます。


あなたは私の質問を受けるために以下のどれも読む必要はありません(質問はちょうど上のセクションです)。次のセクションでは、質問に対する回答を得るために、私が調べたことや他人の回答を入れ子にして一覧表示しています。

研究成果(私の問題を解決しなかった提案)

解決策を見つけようとすることによるこれまでの結果(まだ、この質問に対する解決策としてはまだ機能していない)

私はこれらのPDF Web印刷エンジンを試しましたが、すべてがページの外観を操作し、さらに損傷を与え、読みにくくすることさえあります。( 例のページ スクリーンショットは角括弧で囲まれています)

  • Chrome [ オリジナル 、印刷スタイル( 無効 | 無効ではない )]
  • Firefox [ オリジナル 、印刷スタイル(無効 p1p2 |無効無効 p1p2 )]
  • 読みやすさ
    • それはWebページを単純化します(これは集中的な読書には良いことです - しかし、これは私が探しているものではありません)。 Webブラウザで見られるように、Webページのすべてのposition/stylesプロパティを何も操作せずにPDF形式にしておくことを探しています。
  • Foxit Reader
  • NovaPDF
  • CutyCapt [ オリジナルズーム倍率:0.4:スクリーンショット、出力PDF]
    • 私はWindows上でプログラムの実行中の問題を解決した後にリンクを追加します」
  • wkhtmltopdf [ オリジナルズーム倍率:0.4スクリーンショット出力されたPDF ]
    • CSS3はサポートされていません。

すべてのWebページのスクリーンショット画像キャプチャプラグイン(例: 拉致素晴らしいスクリーンショットFireshotFirefoxスクリーンショット開発者ツールフルページスクリーンキャプチャPage2Imageswebキャプチャ 、...)私の質問に答えないでください。なぜなら彼らは テキストやリンクを保存しないからです

Scrible はさらなる注釈や研究のためにウェブページを保存するのに優れていますが、残念ながらまだオンラインでPDFフォーマットへの変換なしで。

コミュニティには他にも2つの質問がありますが、この質問は少し異なりますが、重要な違いがあります。

テキストとリンクを保存することが要件ではないもっと似た質問 (ページはほとんど画像のスクリーンショットとしてキャプチャされます):


ノート

OS:Windows 10

19
Omar

私たちは大学のプロジェクトで同じ問題に直面し、それを使ってそれを解決することができました

wkhtmltopdf

このツールの機能をコマンドラインでとても楽しんでいます。また、現在のWebページの状態をレンダリングするためにpythonコードを使用して呼び出しました。ウェブページをPDFとして配信するか、通常はページフォーマットのためにウェブサイトの表示を維持するのに最適ではないか(A4など)、またはpng(ページの表示は維持しますがリンクは保持しない)として配信できます。

私たちが使用した読みやすさ(Python用:pypi.python.org/pypi/readability-lxml)プロジェクトもあり、それは広告除去とコンテンツ検出を非常によくします(例えば新聞記事などのために)。ご使用のブラウザ用のアドオンまたは拡張機能が必要な場合は、次の読みやすさの実装でニーズを満たすことができます。

https://www.readability.com/addons/

6
SSchneid

考えられるユーザーに別の回答を提供します。 Firefoxには、「ページをPDFに印刷」というアドオンがありました。最後のバージョン0.1.9.3を検索できます(以前のバージョンでのみ動作します)。

現在、ChromeとFirefoxの両方に非常にうまく機能するこのアドオンがあります。 PDFMage

  • ページ内のすべての画像を保存する
  • テキストを画像ではなくテキストとして生成します。生成されたPDFでテキストを検索できます。
  • プリサーバーハイパーリンク
  • 長いWebページを1ページとして保存するオプションがありますPDF(したがって、画像はページ間で分割されません)
2
nmhung1985

私は同じ問題を抱えていて、ChromeとPDF995と呼ばれるプリンタドライバで安全に無料でそれを見つけました(ダウンロードへのリンクは https://pdf995.en.softonicです)。 com / もう1つは http://downloads.tomsguide.com/pdf995,0301-829.html )です。

しかし、私はどんなWebブラウザでもどんなpdfコンバーターでも十分であろうと思います。とにかく、これが私がしたことです:

  1. すべて選択するか、すべて強調表示します。
  2. 強調表示されている選択項目を右クリックするか、Ctrl + Pを押します(どちらの方法でも結果は多少異なりますが、完了後も同じ結果になります)。

  3. 2.(ショートカット)を右クリックした場合は、[印刷]をクリックすると、選択したものだけが印刷プレビューに表示されます。あなたがあなたが使うことを決定するどんなpdfコンバーター(PDF995または他)にでもあなたのプリンター目的地を変えることを確認してください。

  4. 「印刷」をクリックしてPDF文書として保存します。

  5. 2.でCtrl + Pを押した場合(やや長い方法)、[その他の設定]をクリックして[オプション]までスクロールします。

  6. 「選択のみ」と書かれたボックスをクリックすると、私が説明したショートカット内のすべてが続きます。

  7. あなたが選択したどんなpdfコンバーター(PDF995または他)にでもあなたのプリンター目的地を変えることを忘れないでください。

  8. 「印刷」をクリックしてください。

1
user726167

私は本当にこれに苦労し、これまでに述べたツールのほとんどを試してみました。最良の結果は、Chromeのヘッドレスモードを使用したことです。 MacOSのコマンドは次のようになります。

/Applications/Google\ Chrome.app/Contents/MacOS/Google\ Chrome --headless --print-to-pdf=test.pdf http://127.0.0.1:8080

私が見つけたコマンドラインオプションの最も良いリストは、ここで です

しかしそれには問題がありました。特に私のページは非常にジャバスクリプトが多いので、print関数が実行を終了するのを待つことはできませんでした。だから私の出力はそれに画像がありませんでした。

私が見つけた解決策はnodeJSパッケージでした:chrome-headless-render-pdf。それは乏しいドキュメントです ここ 。それは動作し、それは簡単にスクリプト可能です。

1
AlanObject

Linuxをお使いの場合は、この小さなコマンドラインツール CutyCapt を試してください。これはQtとQtWebkitにのみ依存し、PDFにエクスポートします。

PDFではないのであなたの要求は正確ではありませんが、目的が純粋に後で見直すためにウェブページのオフラインコピーを保つことであるならば、ウェブページとしてそれを保存することはまさにそれをするでしょう。

大きな注意点は、1つのドキュメントではなく、ページ上のすべてのメディアコンテンツを含む.htmlファイルとフォルダが作成されることです。

ChromeとFirefoxでは、ページを右クリックして[名前を付けて保存]を選択して保存できます。InternetExplorerでは、[ファイル] - > [名前を付けて保存](メニューを表示するにはAltキーを押す)で保存できます。

0
Pyheme

このサービスを試してください。ブラウザに表示されるとおりに、WebサイトからPDFを作成します。 https://lomotoh.com/ (このサイトに所属しています)

0
David Herse

一部のページの少なくともすべてのテキストは、検索可能、選択可能、切り取り、および貼り付けが可能です。私はコンピュータでテキストとpixからロボットで貼り付けられたページを試してみました、そしてそれはそれをすべてそれをイメージに調整しました。

私は何年もこれらのものを使ってきました。選択したXX Wordでページを再構築し、その結果をPDFとしてエクスポートすることで、Linuxで最高の結果が得られます。欲しいものをかなりのコストで手に入れることができます。私の限定的な使用からArch ivinサイトDavid Herseが出した https://lomotoh.com/ (私はこのサイトと提携していない)は、私が今まで使ったことのあるものと同じように動作します。私はより良いものが見つかるか、自分の薄い財布からお金を払うには多すぎる費用がかかるまで、PDFへのWebページをカバーするためのリソースに行きます。

0
Gordon Couger