web-dev-qa-db-ja.com

ターミナルからファイルをダウンロードする

端末を使用して.txtファイルをダウンロードしようとしています。ここにリンクがあります(リンクを開くとすぐにダウンロードが始まります):

https://es.osdn.net/projects/sfnet_kaldi/downloads/wsj0-train-spkrinfo.txt

コマンドでダウンロードしてみた

wget "https://es.osdn.net/projects/sfnet_kaldi/downloads/wsj0-train-spkrinfo.txt"

残念ながら、そのコマンドを実行した後に私が得た唯一のものは、ページのソース:(

ターミナルからこのファイルをダウンロードする正しい方法は誰か教えてくれませんか?

前もって感謝します!

5
little_mice

あなたが彼らのHTMLに従うなら、彼らはコンテンツの実際のソースを隠すためにいくつかのトリックをします。

ダウンロードするファイルは、次のコマンドを使用して、ソースからダウンロードできます。

 wget http://jaist.dl.sourceforge.net/project/kaldi/wsj0-train-spkrinfo.txt

つまり、UNIXの知識が不足しているわけではありません。結局のところ、意図的に鈍化しているだけです。

https://sourceforge.net/projects/kaldi/files/ (古いバージョン、元のリンクが指す)のメインページで、このプロジェクト(kaldi)のすべてのファイルにアクセスすることもできます。

そしてそこに行くと、- https://github.com/kaldi-asr/kaldi に新しいバージョンがあることがわかります

11
Rui F Ribeiro

リンクは、wgetを使用して、試した方法でダウンロードするテキストファイルリンクのように「見えます」-すべてが正しく行われました。問題は、ウェブサイトを実行している人々が「トリックのように」振る舞っているということです-彼らはリンクが実際にはテキストファイルではないようにウェブサイトを設定しており、彼らはあなたに彼らのウェブインターフェースをナビゲートして少なくとも実行することを強制したいですもう一度クリックします。私はそのようなウェブサイトが嫌いですが、そのコンテンツ、そのルールです。

たぶん他の誰かが回避策を進めますが、回避策はすべてのWebサイト、または必ずしも同じサイトの異なるページでさえも一般的ではないことに注意してください。

1
user1404316

それが実際にページ自体で言うように:

wget -O wsj0-train-spkrinfo.txt \
     'https://es.osdn.net/frs/g_redir.php?m=kent&f=kaldi%2Fwsj0-train-spkrinfo.txt'

しかし、残念ながらこれに関する一般的なルールはありません。ページの実装によって異なります。

1
nohillside