LinuxでHTMLをテキストファイルに変換する方法を教えてください。たとえば、Googleへのクエリをcurl
実行し、出力htmlをテキストに変換して、変換したテキストを端末で読み取ります。 RHEL6を使用しています。
Curlには組み込みのHTMLプロセッサはないと思います。しかしながら:
lynx --dump <URL>
トリックを行います。
それでもcurlを使用したい場合は、html2text
(Ubuntuで使用可能)を使用できます。
html2text
(高度なHTMLからテキストへのコンバーター)をインストールでき、使い方は簡単です。
$ html2text http://example.com/
$ cat file.html | html2text -o file.txt
インストール方法:
apt-get install html2text
brew install html2text
curl
の例:
$ curl -sL google.com | html2text
Search Images Maps Play YouTube News Gmail Drive More ?
Web History | Settings | Sign in
A better way to browse the web
Get Google Chrome
Advanced search Language tools
[Google Search][I'm Feeling Lucky]
Advertising Programmes Business Solutions+GoogleAbout GoogleGoogle.com
? 2016 - Privacy - Terms