Wgetツールを使用してWebサイトのコンテンツをダウンロードしようとしています。 -Rオプションを使用して、一部のファイルタイプを拒否しました。しかし、私がダウンロードしたくない他のいくつかのファイルがあります。これらのファイルの名前は次のとおりで、拡張子はありません。
string-ID
例えば:
newsbrief-02
これらのファイル(名前が指定された文字列で始まるファイル)をダウンロードしないようにwgetに指示するにはどうすればよいですか?
wget -R
キーで正規表現を指定することはできませんが、テンプレート(シェルのファイルテンプレートなど)を指定することはできます。
答えは次のようになります。
$ wget -R 'newsbrief-*' ...
?
およびシンボルクラス[]
を使用することもできます。
詳細については、 info wget を参照してください。
(明らかに)v1.14 wget
は正規表現を受け入れるため、--reject-regex
および--accept-regex
(デフォルトでは--regex-type posix
を使用、コンパイルするとpcre
に設定できます) libpcre
サポート付き)。
wget
呼び出しごとに1回だけ--reject-regex
を使用できるように見えることに注意してください。つまり、複数の正規表現で選択する場合は、単一の正規表現で|
を使用する必要があります。
wget --reject-regex 'expr1|expr2|…' http://example.com