PythonでURLを抽出する

Question

に関して： Python（Twitter関連））を使用してテキスト内のハイパーリンクを検索

リスト/配列に入れるためにどうすればURLだけを抽出できますか？

編集

URLを断片に解析したくないので、はっきりさせてください。文字列のテキストからURLを抽出して、配列に入れたいです。ありがとう！

SilentGhost · Answer

誤解された質問：

>>> from urllib.parse import urlparse >>> urlparse('http://www.ggogle.com/test?t') ParseResult(scheme='http', netloc='www.ggogle.com', path='/test', params='', query='t', fragment='')

またはpy2。*バージョン：

>>> from urlparse import urlparse >>> urlparse('http://www.cwi.nl:80/%7Eguido/Python.html') ParseResult(scheme='http', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html', params='', query='', fragment='')

[〜＃〜] eta [〜＃〜]：正規表現は確かにここで最良のオプションです：

>>> s = 'This is my Tweet check it out http://tinyurl.com/blah and http://blabla.com' >>> re.findall(r'(https?://\S+)', s) ['http://tinyurl.com/blah', 'http://blabla.com']

Adam · Answer

検索でNoneの値が返されるかどうかを確認することを忘れないでください。上記の投稿は役に立ちましたが、Noneの結果を処理するのに無駄な時間がかかりました。

Python Regex "オブジェクトには属性がありません" を参照してください。

つまり.

import re myString = "This is my Tweet check it out http://tinyurl.com/blah" match = re.search("(?P<url>https?://[^\s]+)", myString) if match is not None: print match.group("url")

bogdan · Answer

これに関して：

import re myString = "This is my Tweet check it out http:// tinyurl.com/blah" print re.search("(?P<url>https?://[^\s]+)", myString).group("url")

文字列に複数のURLがある場合、うまく機能しません。文字列が次のように見える場合：

myString = "This is my Tweet check it out http:// tinyurl.com/blah and http:// blabla.com"

次のようなことができます：

myString_list = [item for item in myString.split(" ")] for item in myString_list: try: print re.search("(?P<url>https?://[^\s]+)", item).group("url") except: pass

Jan Lipovsk&#253; · Answer

テキストからURLを抽出する場合は、urlextractを使用できます。テキストで見つかったTLDに基づいてURLを見つけます。 TLD位置から両側に展開し、URL全体を取得します。その使いやすい。チェックしてください： https://github.com/lipoja/URLExtract

 from urlextract import URLExtract extractor = URLExtract() urls = extractor.find_urls("Text with URLs: stackoverflow.com.")

Allan · Answer

次の巨大な正規表現を使用できます。

\b((?:https?://)?(?:(?:www\.)?(?:[\da-z\.-]+)\.(?:[a-z]{2,6})|(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)|(?:(?:[0-9a-fA-F]{1,4}:){7,7}[0-9a-fA-F]{1,4}|(?:[0-9a-fA-F]{1,4}:){1,7}:|(?:[0-9a-fA-F]{1,4}:){1,6}:[0-9a-fA-F]{1,4}|(?:[0-9a-fA-F]{1,4}:){1,5}(?::[0-9a-fA-F]{1,4}){1,2}|(?:[0-9a-fA-F]{1,4}:){1,4}(?::[0-9a-fA-F]{1,4}){1,3}|(?:[0-9a-fA-F]{1,4}:){1,3}(?::[0-9a-fA-F]{1,4}){1,4}|(?:[0-9a-fA-F]{1,4}:){1,2}(?::[0-9a-fA-F]{1,4}){1,5}|[0-9a-fA-F]{1,4}:(?:(?::[0-9a-fA-F]{1,4}){1,6})|:(?:(?::[0-9a-fA-F]{1,4}){1,7}|:)|fe80:(?::[0-9a-fA-F]{0,4}){0,4}%[0-9a-zA-Z]{1,}|::(?:ffff(?::0{1,4}){0,1}:){0,1}(?:(?:25[0-5]|(?:2[0-4]|1{0,1}[0-9]){0,1}[0-9])\.){3,3}(?:25[0-5]|(?:2[0-4]|1{0,1}[0-9]){0,1}[0-9])|(?:[0-9a-fA-F]{1,4}:){1,4}:(?:(?:25[0-5]|(?:2[0-4]|1{0,1}[0-9]){0,1}[0-9])\.){3,3}(?:25[0-5]|(?:2[0-4]|1{0,1}[0-9]){0,1}[0-9])))(?::[0-9]{1,4}|[1-5][0-9]{4}|6[0-4][0-9]{3}|65[0-4][0-9]{2}|655[0-2][0-9]|6553[0-5])?(?:/[\w\.-]*)*/?)\b

デモregex101

この正規表現は、次の形式のURLを受け入れます。

入力：

add1 http://mit.edu.com abc add2 https://facebook.jp.com.2. abc add3 www.google.be. uvw add4 https://www.google.be. 123 add5 www.website.gov.us test2 Hey bob on www.test.com. another test with ipv4 http://192.168.1.1/test.jpg. toto2 website with different port number www.test.com:8080/test.jpg not port 80 www.website.gov.us/login.html test with ipv4 192.168.1.1/test.jpg. search at google.co.jp/maps. test with ipv6 2001:0db8:0000:85a3:0000:0000:ac1f:8001/test.jpg.

出力：

http://mit.edu.com https://facebook.jp.com www.google.be https://www.google.be www.website.gov.us www.test.com http://192.168.1.1/test.jpg www.test.com:8080/test.jpg www.website.gov.us/login.html 192.168.1.1/test.jpg google.co.jp/maps 2001:0db8:0000:85a3:0000:0000:ac1f:8001/test.jpg

説明：

\bは、URLと残りのテキストを区切るためにワード境界に使用されます
(?:https?://)?は、http：//またはhttps //に一致します（存在する場合）
(?:(?:www\.)?(?:[\da-z\.-]+)\.(?:[a-z]{2,6})は、標準のURL（www.（それをSTANDARD_URL）
(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)標準のIpv4に一致させる（それをIPv4）
iPv6 URLに一致する場合：(?:(?:[0-9a-fA-F]{1,4}:){7,7}[0-9a-fA-F]{1,4}|(?:[0-9a-fA-F]{1,4}:){1,7}:|(?:[0-9a-fA-F]{1,4}:){1,6}:[0-9a-fA-F]{1,4}|(?:[0-9a-fA-F]{1,4}:){1,5}(?::[0-9a-fA-F]{1,4}){1,2}|(?:[0-9a-fA-F]{1,4}:){1,4}(?::[0-9a-fA-F]{1,4}){1,3}|(?:[0-9a-fA-F]{1,4}:){1,3}(?::[0-9a-fA-F]{1,4}){1,4}|(?:[0-9a-fA-F]{1,4}:){1,2}(?::[0-9a-fA-F]{1,4}){1,5}|[0-9a-fA-F]{1,4}:(?:(?::[0-9a-fA-F]{1,4}){1,6})|:(?:(?::[0-9a-fA-F]{1,4}){1,7}|:)|fe80:(?::[0-9a-fA-F]{0,4}){0,4}%[0-9a-zA-Z]{1,}|::(?:ffff(?::0{1,4}){0,1}:){0,1}(?:(?:25[0-5]|(?:2[0-4]|1{0,1}[0-9]){0,1}[0-9])\.){3,3}(?:25[0-5]|(?:2[0-4]|1{0,1}[0-9]){0,1}[0-9])|(?:[0-9a-fA-F]{1,4}:){1,4}:(?:(?:25[0-5]|(?:2[0-4]|1{0,1}[0-9]){0,1}[0-9])\.){3,3}(?:25[0-5]|(?:2[0-4]|1{0,1}[0-9]){0,1}[0-9]))（それをIPv6）
存在する場合、ポート部分と一致させるために（PORTと呼びます）：(?::[0-9]{1,4}|[1-5][0-9]{4}|6[0-4][0-9]{3}|65[0-4][0-9]{2}|655[0-2][0-9]|6553[0-5])
(?:/[\w\.-]*)*/?) URLのターゲットオブジェクト部分（htmlファイル、jpg、...）（それをRESSOURCE_PATH）

これにより、次の正規表現が得られます：

\b((?:https?://)?(?:STANDARD_URL|IPv4|IPv6)(?:PORT)?(?:RESSOURCE_PATH)\b

出典：

IPv6：有効なIPv6アドレスに一致する正規表現

IPv4： https://www.safaribooksonline.com/library/view/regular-expressions-cookbook/9780596802837/ch07s16.html

[〜＃〜] port [〜＃〜]： https://stackoverflow.com/a/12968117/8794221

その他のソース： https://code.tutsplus.com/tutorials/8-regular-expressions-you-should-know--net-6149

$ more url.py import re inputString = """add1 http://mit.edu.com abc add2 https://facebook.jp.com.2. abc add3 www.google.be. uvw add4 https://www.google.be. 123 add5 www.website.gov.us test2 Hey bob on www.test.com. another test with ipv4 http://192.168.1.1/test.jpg. toto2 website with different port number www.test.com:8080/test.jpg not port 80 www.website.gov.us/login.html test with ipv4 (192.168.1.1/test.jpg). search at google.co.jp/maps. test with ipv6 2001:0db8:0000:85a3:0000:0000:ac1f:8001/test.jpg.""" regex=ur"\b((?:https?://)?(?:(?:www\.)?(?:[\da-z\.-]+)\.(?:[a-z]{2,6})|(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)|(?:(?:[0-9a-fA-F]{1,4}:){7,7}[0-9a-fA-F]{1,4}|(?:[0-9a-fA-F]{1,4}:){1,7}:|(?:[0-9a-fA-F]{1,4}:){1,6}:[0-9a-fA-F]{1,4}|(?:[0-9a-fA-F]{1,4}:){1,5}(?::[0-9a-fA-F]{1,4}){1,2}|(?:[0-9a-fA-F]{1,4}:){1,4}(?::[0-9a-fA-F]{1,4}){1,3}|(?:[0-9a-fA-F]{1,4}:){1,3}(?::[0-9a-fA-F]{1,4}){1,4}|(?:[0-9a-fA-F]{1,4}:){1,2}(?::[0-9a-fA-F]{1,4}){1,5}|[0-9a-fA-F]{1,4}:(?:(?::[0-9a-fA-F]{1,4}){1,6})|:(?:(?::[0-9a-fA-F]{1,4}){1,7}|:)|fe80:(?::[0-9a-fA-F]{0,4}){0,4}%[0-9a-zA-Z]{1,}|::(?:ffff(?::0{1,4}){0,1}:){0,1}(?:(?:25[0-5]|(?:2[0-4]|1{0,1}[0-9]){0,1}[0-9])\.){3,3}(?:25[0-5]|(?:2[0-4]|1{0,1}[0-9]){0,1}[0-9])|(?:[0-9a-fA-F]{1,4}:){1,4}:(?:(?:25[0-5]|(?:2[0-4]|1{0,1}[0-9]){0,1}[0-9])\.){3,3}(?:25[0-5]|(?:2[0-4]|1{0,1}[0-9]){0,1}[0-9])))(?::[0-9]{1,4}|[1-5][0-9]{4}|6[0-4][0-9]{3}|65[0-4][0-9]{2}|655[0-2][0-9]|6553[0-5])?(?:/[\w\.-]*)*/?)\b" matches = re.findall(regex, inputString) print(matches)

出力：

$ python url.py ['http://mit.edu.com', 'https://facebook.jp.com', 'www.google.be', 'https://www.google.be', 'www.website.gov.us', 'www.test.com', 'http://192.168.1.1/test.jpg', 'www.test.com:8080/test.jpg', 'www.website.gov.us/login.html', '192.168.1.1/test.jpg', 'google.co.jp/maps', '2001:0db8:0000:85a3:0000:0000:ac1f:8001/test.jpg']

kyrenia · Answer

[注：質問に示されているように、Twitterデータでこれを使用している場合、これを行う最も簡単な方法は、ツイートから抽出されたURLをフィールドとして返すAPIを使用することです]