WebページをPDFに変換する方法を探していますが、Webページの外観は維持します。また、ウェブページのテキスト(選択可能)を保持しながら検索可能[ウェブページの画像スクリーンショットを生成すると、テキストは選択不可能または検索不能になります]。
私は、スタイルや配置を変更したり、Webページの静的コンポーネントを失うことなく、WebページをそのままPDFに印刷することを探しています。
これは、読みやすく、注釈を付け、検索可能なWebページのオフラインコピーを保存するのに役立ちます。
あなたは私の質問を受けるために以下のどれも読む必要はありません(質問はちょうど上のセクションです)。次のセクションでは、質問に対する回答を得るために、私が調べたことや他人の回答を入れ子にして一覧表示しています。
解決策を見つけようとすることによるこれまでの結果(まだ、この質問に対する解決策としてはまだ機能していない)
私はこれらのPDF Web印刷エンジンを試しましたが、すべてがページの外観を操作し、さらに損傷を与え、読みにくくすることさえあります。( 例のページ スクリーンショットは角括弧で囲まれています)
すべてのWebページのスクリーンショット画像キャプチャプラグイン(例: 拉致 、 素晴らしいスクリーンショット 、 Fireshot 、 Firefoxスクリーンショット開発者ツール 、 フルページスクリーンキャプチャ 、 Page2Images 、 webキャプチャ 、...)私の質問に答えないでください。なぜなら彼らは テキストやリンクを保存しないからです 。
Scrible はさらなる注釈や研究のためにウェブページを保存するのに優れていますが、残念ながらまだオンラインでPDFフォーマットへの変換なしで。
コミュニティには他にも2つの質問がありますが、この質問は少し異なりますが、重要な違いがあります。
テキストとリンクを保存することが要件ではないもっと似た質問 (ページはほとんど画像のスクリーンショットとしてキャプチャされます):
OS:Windows 10
私たちは大学のプロジェクトで同じ問題に直面し、それを使ってそれを解決することができました
このツールの機能をコマンドラインでとても楽しんでいます。また、現在のWebページの状態をレンダリングするためにpythonコードを使用して呼び出しました。ウェブページをPDFとして配信するか、通常はページフォーマットのためにウェブサイトの表示を維持するのに最適ではないか(A4など)、またはpng(ページの表示は維持しますがリンクは保持しない)として配信できます。
私たちが使用した読みやすさ(Python用:pypi.python.org/pypi/readability-lxml)プロジェクトもあり、それは広告除去とコンテンツ検出を非常によくします(例えば新聞記事などのために)。ご使用のブラウザ用のアドオンまたは拡張機能が必要な場合は、次の読みやすさの実装でニーズを満たすことができます。
考えられるユーザーに別の回答を提供します。 Firefoxには、「ページをPDFに印刷」というアドオンがありました。最後のバージョン0.1.9.3を検索できます(以前のバージョンでのみ動作します)。
現在、ChromeとFirefoxの両方に非常にうまく機能するこのアドオンがあります。 PDFMage
私は同じ問題を抱えていて、ChromeとPDF995と呼ばれるプリンタドライバで安全に無料でそれを見つけました(ダウンロードへのリンクは https://pdf995.en.softonicです)。 com / もう1つは http://downloads.tomsguide.com/pdf995,0301-829.html )です。
しかし、私はどんなWebブラウザでもどんなpdfコンバーターでも十分であろうと思います。とにかく、これが私がしたことです:
強調表示されている選択項目を右クリックするか、Ctrl + Pを押します(どちらの方法でも結果は多少異なりますが、完了後も同じ結果になります)。
2.(ショートカット)を右クリックした場合は、[印刷]をクリックすると、選択したものだけが印刷プレビューに表示されます。あなたがあなたが使うことを決定するどんなpdfコンバーター(PDF995または他)にでもあなたのプリンター目的地を変えることを確認してください。
「印刷」をクリックしてPDF文書として保存します。
2.でCtrl + Pを押した場合(やや長い方法)、[その他の設定]をクリックして[オプション]までスクロールします。
「選択のみ」と書かれたボックスをクリックすると、私が説明したショートカット内のすべてが続きます。
あなたが選択したどんなpdfコンバーター(PDF995または他)にでもあなたのプリンター目的地を変えることを忘れないでください。
「印刷」をクリックしてください。
私は本当にこれに苦労し、これまでに述べたツールのほとんどを試してみました。最良の結果は、Chromeのヘッドレスモードを使用したことです。 MacOSのコマンドは次のようになります。
/Applications/Google\ Chrome.app/Contents/MacOS/Google\ Chrome --headless --print-to-pdf=test.pdf http://127.0.0.1:8080
私が見つけたコマンドラインオプションの最も良いリストは、ここで です 。
しかしそれには問題がありました。特に私のページは非常にジャバスクリプトが多いので、print関数が実行を終了するのを待つことはできませんでした。だから私の出力はそれに画像がありませんでした。
私が見つけた解決策はnodeJSパッケージでした:chrome-headless-render-pdf
。それは乏しいドキュメントです ここ 。それは動作し、それは簡単にスクリプト可能です。
Linuxをお使いの場合は、この小さなコマンドラインツール CutyCapt を試してください。これはQtとQtWebkitにのみ依存し、PDFにエクスポートします。
PDFではないのであなたの要求は正確ではありませんが、目的が純粋に後で見直すためにウェブページのオフラインコピーを保つことであるならば、ウェブページとしてそれを保存することはまさにそれをするでしょう。
大きな注意点は、1つのドキュメントではなく、ページ上のすべてのメディアコンテンツを含む.htmlファイルとフォルダが作成されることです。
ChromeとFirefoxでは、ページを右クリックして[名前を付けて保存]を選択して保存できます。InternetExplorerでは、[ファイル] - > [名前を付けて保存](メニューを表示するにはAltキーを押す)で保存できます。
このサービスを試してください。ブラウザに表示されるとおりに、WebサイトからPDFを作成します。 https://lomotoh.com/ (このサイトに所属しています)
一部のページの少なくともすべてのテキストは、検索可能、選択可能、切り取り、および貼り付けが可能です。私はコンピュータでテキストとpixからロボットで貼り付けられたページを試してみました、そしてそれはそれをすべてそれをイメージに調整しました。
私は何年もこれらのものを使ってきました。選択したXX Wordでページを再構築し、その結果をPDFとしてエクスポートすることで、Linuxで最高の結果が得られます。欲しいものをかなりのコストで手に入れることができます。私の限定的な使用からArch ivinサイトDavid Herseが出した https://lomotoh.com/ (私はこのサイトと提携していない)は、私が今まで使ったことのあるものと同じように動作します。私はより良いものが見つかるか、自分の薄い財布からお金を払うには多すぎる費用がかかるまで、PDFへのWebページをカバーするためのリソースに行きます。