リンクされたファイルの多く、特にPDFを保持するために、アーカイブしているWebサイトがいくつかあります。
Heritrixクローラーを使用してサイトを収集することに問題はありませんでした。ただし、これらの.warc
ファイルからファイルを抽出するための適切な解決策は見つかりませんでした。
誰かがこれを経験したことがありますか、またはこれらの個々のファイルを取り出すための好ましい方法がありますか?
Webarchive Player を使用してWARCを参照し、ブラウザから必要なファイルを保存できます。または、WARCを webrecorder.io にアップロードし、そこで参照/ダウンロードします。
Warctoolsを試してみることをお勧めします https://github.com/internetarchive/warctools それは非常に使いやすいpython libです。
以前、7-Zipを使用して、Webアーカイブ形式のファイルから個々のファイルまたはアーカイブ全体を抽出しました。
彼らのサイトから入手できます ここ 。