BeautifulSoupを使用してタグなしでテキストを抽出する

Question

私のウェブページは次のようになります。

<p> <strong class="offender">YOB:</strong> 1987<br/> <strong class="offender">RACE:</strong> WHITE<br/> <strong class="offender">GENDER:</strong> FEMALE<br/> <strong class="offender">HEIGHT:</strong> 5'05''<br/> <strong class="offender">WEIGHT:</strong> 118<br/> <strong class="offender">EYE COLOR:</strong> GREEN<br/> <strong class="offender">HAIR COLOR:</strong> BROWN<br/> </p>

各個人の情報を抽出し、YOB:1987、RACE:WHITEなどを取得したい...

私が試したのは：

subc = soup.find_all('p') subc1 = subc[1] subc2 = subc1.find_all('strong')

しかし、これはYOB:、RACE:などの値のみを提供します...

YOB:1987、RACE:WHITE形式のデータを取得する方法はありますか？

shaktimaan · Accepted Answer

すべての<strong>タグをループし、 next_sibling を使用して必要なものを取得します。このような：

for strong_tag in soup.find_all('strong'): print(strong_tag.text, strong_tag.next_sibling)

デモ：

from bs4 import BeautifulSoup html = ''' <p> <strong class="offender">YOB:</strong> 1987<br /> <strong class="offender">RACE:</strong> WHITE<br /> <strong class="offender">GENDER:</strong> FEMALE<br /> <strong class="offender">HEIGHT:</strong> 5'05''<br /> <strong class="offender">WEIGHT:</strong> 118<br /> <strong class="offender">EYE COLOR:</strong> GREEN<br /> <strong class="offender">HAIR COLOR:</strong> BROWN<br /> </p> ''' soup = BeautifulSoup(html) for strong_tag in soup.find_all('strong'): print(strong_tag.text, strong_tag.next_sibling)

これにより、次のことができます。

YOB: 1987 RACE: WHITE GENDER: FEMALE HEIGHT: 5'05'' WEIGHT: 118 EYE COLOR: GREEN HAIR COLOR: BROWN

0605002 · Answer

subc1.textを使用して取得できると思います。

>>> html = """ <p> <strong class="offender">YOB:</strong> 1987<br /> <strong class="offender">RACE:</strong> WHITE<br /> <strong class="offender">GENDER:</strong> FEMALE<br /> <strong class="offender">HEIGHT:</strong> 5'05''<br /> <strong class="offender">WEIGHT:</strong> 118<br /> <strong class="offender">EYE COLOR:</strong> GREEN<br /> <strong class="offender">HAIR COLOR:</strong> BROWN<br /> </p> """ >>> from bs4 import BeautifulSoup >>> soup = BeautifulSoup(html) >>> print soup.text YOB: 1987 RACE: WHITE GENDER: FEMALE HEIGHT: 5'05'' WEIGHT: 118 EYE COLOR: GREEN HAIR COLOR: BROWN

またはexplore itにしたい場合は、.contentsを使用できます。

>>> p = soup.find('p') >>> from pprint import pprint >>> pprint(p.contents) [u'
', <strong class="offender">YOB:</strong>, u' 1987', <br/>, u'
', <strong class="offender">RACE:</strong>, u' WHITE', <br/>, u'
', <strong class="offender">GENDER:</strong>, u' FEMALE', <br/>, u'
', <strong class="offender">HEIGHT:</strong>, u" 5'05''", <br/>, u'
', <strong class="offender">WEIGHT:</strong>, u' 118', <br/>, u'
', <strong class="offender">EYE COLOR:</strong>, u' GREEN', <br/>, u'
', <strong class="offender">HAIR COLOR:</strong>, u' BROWN', <br/>, u'
']

リストから必要な項目を除外します：

>>> data = dict(Zip([x.text for x in p.contents[1::4]], [x.strip() for x in p.contents[2::4]])) >>> pprint(data) {u'EYE COLOR:': u'GREEN', u'GENDER:': u'FEMALE', u'HAIR COLOR:': u'BROWN', u'HEIGHT:': u"5'05''", u'RACE:': u'WHITE', u'WEIGHT:': u'118', u'YOB:': u'1987'}