私はPythonにあまり詳しくありません。次のページからアーティスト名を抽出しようとしています(最初に:))。 http://www.infolanka.com/miyuru_gee/art/art.html 。
ページを取得するにはどうすればよいですか?私の2つの主な懸念事項は次のとおりです。使用する機能と、ページから不要なリンクを除外する方法
Urlibとlxml.htmlを使用した例:
import urllib
from lxml import html
url = "http://www.infolanka.com/miyuru_gee/art/art.html"
page = html.fromstring(urllib.urlopen(url).read())
for link in page.xpath("//a"):
print "Name", link.text, "URL", link.get("href")
output >>
[('Aathma Liyanage', 'athma.html'),
('Abewardhana Balasuriya', 'abewardhana.html'),
('Aelian Thilakeratne', 'aelian_thi.html'),
('Ahamed Mohideen', 'ahamed.html'),
]
「eyquem」の方法も私の選択だと思いますが、rllibの代わりにhttplib2を使用したいです。 urllib2はこの作業には低レベルのlibです。
import httplib2, re
pat = re.compile('<DT><a href="[^"]+">(.+?)</a>')
http = httplib2.Http()
headers, body = http.request("http://www.infolanka.com/miyuru_gee/art/art.html")
li = pat.findall(body)
print li
これを私の友人に確認してください
import urllib.request
import re
pat = re.compile('<DT><a href="[^"]+">(.+?)</a>')
url = 'http://www.infolanka.com/miyuru_gee/art/art.html'
sock = urllib.request.urlopen(url).read().decode("utf-8")
li = pat.findall(sock)
print(li)
rllib2 を使用してページを取得します。
BeautifulSoup を使用してHTML(ページ)を解析し、必要なものを取得します!
またはまっすぐ進む:
import urllib
import re
pat = re.compile('<DT><a href="[^"]+">(.+?)</a>')
url = 'http://www.infolanka.com/miyuru_gee/art/art.html'
sock = urllib.urlopen(url)
li = pat.findall(sock.read())
sock.close()
print li
robots.txt を尊重し、リクエストを調整します:)
(どうやらurllib2はこれに応じてすでに helpful SO post )しているようです。
基本的に、関数呼び出しがあります:
render_template()
単一のページまたはページのリストを簡単に返すことができ、_
your_workspace\templates
_からすべてのファイルを自動的に読み取ります。例:
_
/root_dir /templates /index1.html, /index2.html /other_dir /
_routes.py
@app.route('/') def root_dir(): return render_template('index1.html')
@app.route(/<username>) def root_dir_with_params(username): retun render_template('index2.html', user=username)
index1.html-パラメーターなし
_
<html> <body> <h1>Hello guest!</h1> <button id="getData">Get Data!</button> </body> </html>
_index2.html-パラメーター付き
_
<html> <body> <!-- Built-it conditional functions in the framework templates in Flask --> {% if name %} <h1 style="color: red;">Hello {{ user }}!</h1> {% else %} <h1>Hello guest.</1> <button id="getData">Get Data!</button> </body> </html>
_