PythonでHTMLをテキストに変換する

Question

Pythonを使用してhtmlブロックをテキストに変換しようとしています。

入力：

<div class="body"><p><strong></strong></p> <p><strong></strong>Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa</p> <p>Consectetuer adipiscing elit. <a href="http://example.com/" target="_blank" class="source">Some Link</a> Aenean commodo ligula eget dolor. Aenean massa</p> <p>Aenean massa.Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa</p> <p>Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa</p> <p>Consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa</p></div>

望ましい出力：

Lorem ipsum dolor座るamet、consectetuer adipiscing elit。 Aenean commodo ligula eget dolor。あいね

Consectetuer adipiscing elit。いくつかのリンクAenean commodo ligula eget dolor。あいね

Aenean massa.Lorem ipsum dolor sit amet、consectetuer adipiscing elit。 Aenean commodo ligula eget dolor。あいね

Lorem ipsum dolor座るamet、consectetuer adipiscing elit。 Aenean commodo ligula eget dolor。あいね

Consectetuer adipiscing elit。 Aenean commodo ligula eget dolor。あいね

あまり成功せずにhtml2textモジュールを使用してみました（python :)）

ここに私が試したものがあります：

#!/usr/bin/env python import urllib2 import html2text from BeautifulSoup import BeautifulSoup soup = BeautifulSoup(urllib2.urlopen('http://example.com/page.html').read()) txt = soup.find('div', {'class' : 'body'}) print html2text.html2text(txt)

「txt」オブジェクトは上記のhtmlブロックを生成します。テキストに変換して画面に印刷したいと思います。

コードの一部についての助けをいただければ幸いです。

root · Accepted Answer

私は何が欠けていますか？ soup.get_text()は、望みとまったく同じ出力を提供します...

from bs4 import BeautifulSoup soup = BeautifulSoup(html) print soup.get_text()

出力

Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa Consectetuer adipiscing elit. Some Link Aenean commodo ligula eget dolor. Aenean massa Aenean massa.Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa Consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa

PS！正確には、改行を二重に置き換えることができます-それはあなたの例と同じです:)

soup.get_text().replace('
','

')

t-8ch · Answer

' 'は、段落間に改行を挿入します。

from bs4 import Beautifulsoup soup = Beautifulsoup(text) print(soup.get_text('
'))

ATOzTOA · Answer

正規表現を使用できますが、推奨されません...

次のコードは、データ内のすべてのHTMLタグを削除して、テキストを提供します。

import re data = """<div class="body"><p><strong></strong></p> <p><strong></strong>Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa</p> <p>Consectetuer adipiscing elit. <a href="http://example.com/" target="_blank" class="source">Some Link</a> Aenean commodo ligula eget dolor. Aenean massa</p> <p>Aenean massa.Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa</p> <p>Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa</p> <p>Consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa</p></div>""" data = re.sub(r'<.*?>', '', data) print data

出力

Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa Consectetuer adipiscing elit. Some Link Aenean commodo ligula eget dolor. Aenean massa Aenean massa.Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa Consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa

FrBrGeorge · Answer

python standard html.parser：

from html.parser import HTMLParser class HTMLFilter(HTMLParser): text = "" def handle_data(self, data): self.text += data f = HTMLFilter() f.feed(data) print(f.text)

Sarah Messer · Answer

BeautifulSoupを使用して不要なスクリプトなどを削除することは可能ですが、除外するさまざまな種類のものを確実にカバーするには、いくつかの異なるサイトで実験する必要がある場合があります。これを試して：

from requests import get from bs4 import BeautifulSoup as BS response = get('http://news.bbc.co.uk/2/hi/health/2284783.stm') soup = BS(response.content, "html.parser") for child in soup.body.children: if child.name == 'script': child.decompose() print(soup.body.get_text())

Joseph Roten · Answer

追加のライブラリをダウンロードすることなく、クライアントのシステムでこれを行う方法が必要でした。良い解決策を見つけられなかったので、自分で作成しました。必要に応じて、これを自由に使用してください。

import urllib def html2text(strText): str1 = strText int2 = str1.lower().find("<body") if int2>0: str1 = str1[int2:] int2 = str1.lower().find("</body>") if int2>0: str1 = str1[:int2] list1 = ['<br>', '<tr', '<td', '</p>', 'span>', 'li>', '</h', 'div>' ] list2 = [chr(13), chr(13), chr(9), chr(13), chr(13), chr(13), chr(13), chr(13)] bolFlag1 = True bolFlag2 = True strReturn = "" for int1 in range(len(str1)): str2 = str1[int1] for int2 in range(len(list1)): if str1[int1:int1+len(list1[int2])].lower() == list1[int2]: strReturn = strReturn + list2[int2] if str1[int1:int1+7].lower() == '<script' or str1[int1:int1+9].lower() == '<noscript': bolFlag1 = False if str1[int1:int1+6].lower() == '<style': bolFlag1 = False if str1[int1:int1+7].lower() == '</style': bolFlag1 = True if str1[int1:int1+9].lower() == '</script>' or str1[int1:int1+11].lower() == '</noscript>': bolFlag1 = True if str2 == '<': bolFlag2 = False if bolFlag1 and bolFlag2 and (ord(str2) != 10) : strReturn = strReturn + str2 if str2 == '>': bolFlag2 = True if bolFlag1 and bolFlag2: strReturn = strReturn.replace(chr(32)+chr(13), chr(13)) strReturn = strReturn.replace(chr(9)+chr(13), chr(13)) strReturn = strReturn.replace(chr(13)+chr(32), chr(13)) strReturn = strReturn.replace(chr(13)+chr(9), chr(13)) strReturn = strReturn.replace(chr(13)+chr(13), chr(13)) strReturn = strReturn.replace(chr(13), '
') return strReturn url = "http://www.theguardian.com/world/2014/sep/25/us-air-strikes-islamic-state-oil-isis" html = urllib.urlopen(url).read() print html2text(html)