BeautifulSoup：ネストされた<ul>を含む<ul>のリストからすべての<li>を抽出するにはどうすればよいですか？

Question

私のソースコードは次のようになります：

<h3>Header3 (Start here)</h3> <ul> <li>List items</li> <li>Etc...</li> </ul> <h3>Header 3</h3> <ul> <li>List items</li> <ul> <li>Nested list items</li> <li>Nested list items</li></ul> <li>List items</li> </ul> <h2>Header 2 (end here)</h2>

すべてのネストされたliタグを含め、最初の「h3」タグに続くすべての「li」タグと次の「h2」タグで停止したいのですが。

firstH3 = soup.find（ 'h3'）

開始したい場所を正しく見つけます。

firstH3 = soup.find('h3') # Start here uls = [] for nextSibling in firstH3.findNextSiblings(): if nextSibling.name == 'h2': break if nextSibling.name == 'ul': uls.append(nextSibling)

uLのリストが表示され、それぞれに必要なLIコンテンツが含まれています。

「uls」リストの抜粋：

<ul> ... <li><i><a href="/wiki/Agent_Cody_Banks" title="Agent Cody Banks">Agent Cody Banks</a></i> (2003)</li> <li><i><a href="/wiki/Agent_Cody_Banks_2:_Destination_London" title="Agent Cody Banks 2: Destination London">Agent Cody Banks 2: Destination London</a></i> (2004)</li> <li>Air Bud series: <ul> <li><i><a href="/wiki/Air_Bud:_World_Pup" title="Air Bud: World Pup">Air Bud: World Pup</a></i> (2000)</li> <li><i><a href="/wiki/Air_Bud:_Seventh_Inning_Fetch" title="Air Bud: Seventh Inning Fetch">Air Bud: Seventh Inning Fetch</a></i> (2002)</li> <li><i><a href="/wiki/Air_Bud:_Spikes_Back" title="Air Bud: Spikes Back">Air Bud: Spikes Back</a></i> (2003)</li> <li><i><a href="/wiki/Air_Buddies" title="Air Buddies">Air Buddies</a></i> (2006)</li> </ul> </li> <li><i><a href="/wiki/Akeelah_and_the_Bee" title="Akeelah and the Bee">Akeelah and the Bee</a></i> (2006)</li> ... </ul>

しかし、私はここからどこへ行くべきかわかりません。私は、Pythonにスクレイピングするスクリプトを作成して http://en.wikipedia.org/wiki/2000s_in_film にジャンプして、「映画タイトル（年）」一覧.

更新：

最終コード：

lis = [] for ul in uls: for li in ul.findAll('li'): if li.find('ul'): break lis.append(li) for li in lis: print li.text.encode("utf-8")

ネストされたLIが複製されるため、If-> breakはULを含むLIをスローします。

印刷出力は次のとおりです。

102ダルメシアン（2000）

10th＆Wolf（2006）

11:14（2006）

12:08ブカレストの東（2006）

13 30（2004）に続く

1408（2007）

...

ありがとう

jfs · Accepted Answer

.findAll()は、ネストされたli要素に対して機能します。

for ul in uls: for li in ul.findAll('li'): print(li)

出力：

<li>List items</li> <li>Etc...</li> <li>List items</li> <li>Nested list items</li> <li>Nested list items</li> <li>List items</li>

zachwill · Answer

リストの理解も機能します。

lis = [li for ul in uls for li in ul.findAll('li')]