私はPythonにまったく慣れていません。 URLのファイルを解析して、ドメイン名のみを残そうとしています。
ログファイルのURLの一部はhttp://で始まり、一部はwwwで始まります。一部は両方で始まります。
これは、http://の部分を取り除く私のコードの部分です。 httpとwwwの両方を探すために何を追加する必要がありますか。両方を削除しますか?
line = re.findall(r'(https?://\S+)', line)
現在、コードを実行すると、http://のみが削除されます。コードを次のように変更した場合:
line = re.findall(r'(https?://www.\S+)', line)
両方で始まるドメインのみが影響を受けます。より条件付きのコードが必要です。 TIA
編集...これが私の完全なコードです...
import re
import sys
from urlparse import urlparse
f = open(sys.argv[1], "r")
for line in f.readlines():
line = re.findall(r'(https?://\S+)', line)
if line:
parsed=urlparse(line[0])
print parsed.hostname
f.close()
元の投稿で正規表現と間違えました。それは確かにurlparseを使用しています。
ここでは正規表現なしで実行できます。
_with open("file_path","r") as f:
lines = f.read()
lines = lines.replace("http://","")
lines = lines.replace("www.", "") # May replace some false positives ('www.com')
urls = [url.split('/')[0] for url in lines.split()]
print '\n'.join(urls)
_
ファイル入力の例:
_http://foo.com/index.html
http://www.foobar.com
www.bar.com/?q=res
www.foobar.com
_
出力:
_foo.com
foobar.com
bar.com
foobar.com
_
編集:
Foobarwww.comのようなトリッキーなURLが存在する可能性があり、上記のアプローチではwwwが削除されます。その後、正規表現の使用に戻す必要があります。
行lines = lines.replace("www.", "")
をlines = re.sub(r'(www.)(?!com)',r'',lines)
に置き換えます。もちろん、一致しないパターンには、考えられるすべてのTLDを使用する必要があります。
この特定の状況ではやり過ぎかもしれませんが、私は一般的に urlparse.urlsplit
(Python 2)または urllib.parse.urlsplit
(Python 3)。
from urllib.parse import urlsplit # Python 3
from urlparse import urlsplit # Python 2
import re
url = 'www.python.org'
# URLs must have a scheme
# www.python.org is an invalid URL
# http://www.python.org is valid
if not re.match(r'http(s?)\:', url):
url = 'http://' + url
# url is now 'http://www.python.org'
parsed = urlsplit(url)
# parsed.scheme is 'http'
# parsed.netloc is 'www.python.org'
# parsed.path is None, since (strictly speaking) the path was not defined
Host = parsed.netloc # www.python.org
# Removing www.
# This is a bad idea, because www.python.org could
# resolve to something different than python.org
if Host.startswith('www.'):
Host = Host[4:]
私は同じ問題に遭遇しました。これは、正規表現に基づくソリューションです。
>>> import re
>>> rec = re.compile(r"https?://(www\.)?")
>>> rec.sub('', 'https://domain.com/bla/').strip().strip('/')
'domain.com/bla'
>>> rec.sub('', 'https://domain.com/bla/ ').strip().strip('/')
'domain.com/bla'
>>> rec.sub('', 'http://domain.com/bla/ ').strip().strip('/')
'domain.com/bla'
>>> rec.sub('', 'http://www.domain.com/bla/ ').strip().strip('/')
'domain.com/bla'
rlparse library をチェックしてください。これにより、これらのことが自動的に実行されます。
>>> urlparse.urlsplit('http://www.google.com.au/q?test')
SplitResult(scheme='http', netloc='www.google.com.au', path='/q', query='test', fragment='')
rlparse を使用できます。また、ソリューションは、ドメイン名の前にある「www」以外のものを削除するための一般的なものである必要があります(つまり、server1.domain.comのようなケースを処理します)。以下は、うまくいくはずの簡単な試みです。
from urlparse import urlparse
url = 'http://www.muneeb.org/files/alan_turing_thesis.jpg'
o = urlparse(url)
domain = o.hostname
temp = domain.rsplit('.')
if(len(temp) == 3):
domain = temp[1] + '.' + temp[2]
print domain
@Muneeb ALiが解決策に最も近いと思いますが、frontdomain.domain.co.uk ...のような場合に問題が発生します。
私は考えます:
for i in range(1,len(temp)-1):
domain = temp[i]+"."
domain = domain + "." + temp[-1]
これを行うためのより良い方法はありますか?