wget
、サブフォルダー、index.htmlに関する質問。
私が「travels /」フォルダ内にいるとします。これは「website.com」にあります:「website.com/travels/」。
フォルダー「travels /」には、多くのファイルと他の(サブ)フォルダーが含まれています:「website.com/travels/list.doc」、「website.com/travels/cover.png」、「website.com/travels/[1990 ] America/"、" website.com/travels/[1994] Japan/"など...
すべてのサブフォルダにある「.mov」と「.jpg」のみをダウンロードするにはどうすればよいですか? 「travels /」からファイルを選択したくない(例:「website.com/travels/list.doc」ではない)
サブフォルダーから「index.html」のみをダウンロードし、他のコンテンツはダウンロードできないwget
コマンド(Unix&Linux Exchangeでは、何が議論だったか覚えていません)を見つけました。インデックスファイルのみをダウンロードする理由
このコマンドは、特定のWebサイトから画像と動画のみをダウンロードします。
wget -nd -r -P /save/location -A jpeg,jpg,bmp,gif,png,mov "http://www.somedomain.com"
wget man によると:
-nd prevents the creation of a directory hierarchy (i.e. no directories).
-r enables recursive retrieval. See Recursive Download for more information.
-P sets the directory prefix where all files and directories are saved to.
-A sets a whitelist for retrieving only certain file types. Strings and patterns are accepted, and both can be used in a comma separated list (as seen above). See Types of Files for more information.
サブフォルダーをダウンロードする場合は、--no-parent
フラグを使用する必要があります。これは次のコマンドに似ています。
wget -r -l1 --no-parent -P /save/location -A jpeg,jpg,bmp,gif,png,mov "http://www.somedomain.com"
-r: recursive retrieving
-l1: sets the maximum recursion depth to be 1
--no-parent: does not ascend to the parent; only downloads from the specified subdirectory and downwards hierarchy
Index.html Webページについて。フラグ-A
がコマンドwget
に含まれると除外されます。このフラグは、wget
が特定のタイプのファイルをダウンロードするように強制するためです。つまり、html
が、ダウンロードされる承認済みファイルのリストに含まれていない場合(つまり、フラグA
)の場合、ダウンロードされず、wget
がターミナルに次のメッセージを出力します。
Removing /save/location/default.htm since it should be rejected.
wget
は、特定のタイプのファイルをダウンロードできます。 (jpg、jpeg、png、mov、avi、mpegなど...)これらのファイルがwget
に提供されるURLリンクに存在する場合:
これから.Zipファイルと.chdファイルをダウンロードしたいとしましょう website
このリンクには、フォルダーと.Zipファイルがあります(最後までスクロールしてください)。ここで、次のコマンドを実行するとします。
wget -r --no-parent -P /save/location -A chd,Zip "https://archive.org/download/MAME0.139_MAME2010_Reference_Set_ROMs_CHDs_Samples/roms/"
このコマンドは、.Zipファイルをダウンロードすると同時に、.chdファイル用の空のフォルダーを作成します。
.chdファイルをダウンロードするには、空のフォルダーの名前を抽出し、それらのフォルダー名を実際のURLに変換する必要があります。次に、関心のあるすべてのURLをテキストファイルfile.txt
に入れ、最後にこのテキストファイルを次のようにwget
にフィードします。
wget -r --no-parent -P /save/location -A chd,Zip -i file.txt
前のコマンドはすべてのchdファイルを見つけます。