JavaScriptを使用してテキスト内のURLを検出する

Question

一連の文字列でURLを検出するための提案はありますか？

arrayOfStrings.forEach(function(string){ // detect URLs in strings and do something swell, // like creating elements with links. });

更新：リンク検出にこの正規表現を使用しました...数年後のようです。

kLINK_DETECTION_REGEX = /(([a-z]+:\/\/)?(([a-z0-9\-]+\.)+([a-z]{2}|aero|arpa|biz|com|coop|edu|gov|info|int|jobs|mil|museum|name|nato|net|org|pro|travel|local|internal))(:[0-9]{1,5})?(\/[a-z0-9_\-\.~]+)*(\/([a-z0-9_\-\.]*)(\?[a-z0-9+_\-\.%=&amp;]*)?)?(#[a-zA-Z0-9!$&'()*+.=-_~:@/?]*)?)(\s+|$)/gi

完全なヘルパー（オプションのHandlebarsサポート付き）は Gist＃165467 にあります。

Crescent Fresh · Accepted Answer

最初に、URLに一致する適切な正規表現が必要です。これは難しいです。 here 、 here および here を参照してください：

...ほとんどすべてが有効なURLです。それを分割するためのいくつかの句読点規則があります。句読点がない場合でも、有効なURLがあります。

RFCを注意深く確認し、「無効な」URLを作成できるかどうかを確認してください。ルールは非常に柔軟です。

たとえば、:::::は有効なURLです。パスは":::::"です。かなり愚かなファイル名ですが、有効なファイル名です。

また、/////は有効なURLです。 netloc（ "ホスト名"）は""です。パスは"///"です。繰り返しますが、愚かです。また有効。このURLは、同等の"///"に正規化されます。

"bad://///worse/////"のようなものは完全に有効です。愚かだが有効。

とにかく、この答えはあなたに最高の正規表現を与えるためではなく、JavaScriptでテキスト内で文字列を折り返す方法の証明です。

OKなので、これを使用してみましょう：/(https?:\/\/[^\s]+)/g

繰り返しますが、これは悪い正規表現です。多くの誤検知があります。ただし、この例では十分です。

function urlify(text) { var urlRegex = /(https?:\/\/[^\s]+)/g; return text.replace(urlRegex, function(url) { return '<a href="' + url + '">' + url + '</a>'; }) // or alternatively // return text.replace(urlRegex, '<a href="$1">$1</a>') } var text = "Find me at http://www.example.com and also at http://stackoverflow.com"; var html = urlify(text); // html now looks like: // "Find me at <a href="http://www.example.com">http://www.example.com</a> and also at <a href="http://stackoverflow.com">http://stackoverflow.com</a>"

要するに：

$$('#pad dl dd').each(function(element) { element.innerHTML = urlify(element.innerHTML); });

Niaz Mohammed · Answer

これが私が正規表現として使用することになったものです。

var urlRegex =/(\b(https?|ftp|file):\/\/[-A-Z0-9+&@#\/%?=~_|!:,.;]*[-A-Z0-9+&@#\/%=~_|])/ig;

これには、URLの末尾の句読点は含まれません。三日月の機能は魅力のように機能します:)

function linkify(text) { var urlRegex =/(\b(https?|ftp|file):\/\/[-A-Z0-9+&@#\/%?=~_|!:,.;]*[-A-Z0-9+&@#\/%=~_|])/ig; return text.replace(urlRegex, function(url) { return '<a href="' + url + '">' + url + '</a>'; }); }

Adam · Answer

私はこの問題をかなり長い間グーグルで調べましたが、かなり堅牢な正規表現を使用してこれを達成するAndroidメソッドAndroid.text.util.Linkifyがあることに気付きました。幸い、Androidはオープンソースです。

さまざまな種類のURLを照合するために、いくつかの異なるパターンを使用します。これらはすべてここにあります： http://grepcode.com/file/repository.grepcode.com/Java/ext/com.google.Android/android/2.0_r1/Android/text/util/Regex。 Java＃Regex.0WEB_URL_PATTERN

WEB_URL_PATTERNに一致するURL、つまり、RFC 1738仕様に準拠するURLだけが心配な場合は、これを使用できます。

/((?:(http|https|Http|Https|rtsp|Rtsp)://(?:(?:[a-zA-Z0-9\$\-\_\.\+\!\*\'\,\;\?\&\=]|(?:\%[a-fA-F0-9]{2})){1,64}(?:\:(?:[a-zA-Z0-9\$\-\_\.\+\!\*\'\,\;\?\&\=]|(?:\%[a-fA-F0-9]{2})){1,25})?\@)?)?((?:(?:[a-zA-Z0-9][a-zA-Z0-9\-]{0,64}\.)+(?:(?:aero|arpa|asia|a[cdefgilmnoqrstuwxz])|(?:biz|b[abdefghijmnorstvwyz])|(?:cat|com|coop|c[acdfghiklmnoruvxyz])|d[ejkmoz]|(?:edu|e[cegrstu])|f[ijkmor]|(?:gov|g[abdefghilmnpqrstuwy])|h[kmnrtu]|(?:info|int|i[delmnoqrst])|(?:jobs|j[emop])|k[eghimnrwyz]|l[abcikrstuvy]|(?:mil|mobi|museum|m[acdghklmnopqrstuvwxyz])|(?:name|net|n[acefgilopruz])|(?:org|om)|(?:pro|p[aefghklmnrstwy])|qa|r[eouw]|s[abcdeghijklmnortuvyz]|(?:tel|travel|t[cdfghjklmnoprtvwz])|u[agkmsyz]|v[aceginu]|w[fs]|y[etu]|z[amw]))|(?:(?:25[0-5]|2[0-4][0-9]|[0-1][0-9]{2}|[1-9][0-9]|[1-9])\.(?:25[0-5]|2[0-4][0-9]|[0-1][0-9]{2}|[1-9][0-9]|[1-9]|0)\.(?:25[0-5]|2[0-4][0-9]|[0-1][0-9]{2}|[1-9][0-9]|[1-9]|0)\.(?:25[0-5]|2[0-4][0-9]|[0-1][0-9]{2}|[1-9][0-9]|[0-9])))(?:\:\d{1,5})?)(/(?:(?:[a-zA-Z0-9\;/\?\:\@\&\=\#\~\-\.\+\!\*\'\,\_])|(?:\%[a-fA-F0-9]{2}))*)?(?:\b|$)/gi;

ソースの全文は次のとおりです。

"((?:(http|https|Http|Https|rtsp|Rtsp):\/\/(?:(?:[a-zA-Z0-9\$\-\_\.\+\!\*\'" + "\,\;\?\&\=]|(?:\%[a-fA-F0-9]{2})){1,64}(?:\:(?:[a-zA-Z0-9\$\-\_" + "\.\+\!\*\'\,\;\?\&\=]|(?:\%[a-fA-F0-9]{2})){1,25})?\@)?)?" + "((?:(?:[a-zA-Z0-9][a-zA-Z0-9\-]{0,64}\.)+" // named Host + "(?:" // plus top level domain + "(?:aero|arpa|asia|a[cdefgilmnoqrstuwxz])" + "|(?:biz|b[abdefghijmnorstvwyz])" + "|(?:cat|com|coop|c[acdfghiklmnoruvxyz])" + "|d[ejkmoz]" + "|(?:edu|e[cegrstu])" + "|f[ijkmor]" + "|(?:gov|g[abdefghilmnpqrstuwy])" + "|h[kmnrtu]" + "|(?:info|int|i[delmnoqrst])" + "|(?:jobs|j[emop])" + "|k[eghimnrwyz]" + "|l[abcikrstuvy]" + "|(?:mil|mobi|museum|m[acdghklmnopqrstuvwxyz])" + "|(?:name|net|n[acefgilopruz])" + "|(?:org|om)" + "|(?:pro|p[aefghklmnrstwy])" + "|qa" + "|r[eouw]" + "|s[abcdeghijklmnortuvyz]" + "|(?:tel|travel|t[cdfghjklmnoprtvwz])" + "|u[agkmsyz]" + "|v[aceginu]" + "|w[fs]" + "|y[etu]" + "|z[amw]))" + "|(?:(?:25[0-5]|2[0-4]" // or ip address + "[0-9]|[0-1][0-9]{2}|[1-9][0-9]|[1-9])\.(?:25[0-5]|2[0-4][0-9]" + "|[0-1][0-9]{2}|[1-9][0-9]|[1-9]|0)\.(?:25[0-5]|2[0-4][0-9]|[0-1]" + "[0-9]{2}|[1-9][0-9]|[1-9]|0)\.(?:25[0-5]|2[0-4][0-9]|[0-1][0-9]{2}" + "|[1-9][0-9]|[0-9])))" + "(?:\:\d{1,5})?)" // plus option port number + "(\/(?:(?:[a-zA-Z0-9\;\/\?\:\@\&\=\#\~" // plus option query params + "\-\.\+\!\*\'\,\_])|(?:\%[a-fA-F0-9]{2}))*)?" + "(?:\b|$)";

あなたが本当に空想になりたいなら、あなたは同様に電子メールアドレスをテストすることができます。メールアドレスの正規表現は次のとおりです。

/[a-zA-Z0-9\+\.\_\%\-]{1,256}\@[a-zA-Z0-9][a-zA-Z0-9\-]{0,64}(\.[a-zA-Z0-9][a-zA-Z0-9\-]{0,25})+/gi

PS：上記の正規表現でサポートされているトップレベルドメインは2007年6月現在です。最新のリストについては、 https://data.iana.org/TLD/tlds-alpha-byを確認する必要があります。 -domain.txt 。

h0mayun · Answer

Crescent Fresh answerに基づく

リンクを検出したい場合with http：// OR http：//なし、www。次を使用できます

function urlify(text) { var urlRegex = /(((https?:\/\/)|(www\.))[^\s]+)/g; //var urlRegex = /(https?:\/\/[^\s]+)/g; return text.replace(urlRegex, function(url,b,c) { var url2 = (c == 'www.') ? 'http://' +url : url; return '<a href="' +url2+ '" target="_blank">' + url + '</a>'; }) }

Dan Kantor · Answer

NPM上のこのライブラリは、かなり包括的なように見えます https://www.npmjs.com/package/linkifyjs

Linkifyは、プレーンテキストでURLを検索し、それらをHTMLリンクに変換するための小さいながらも包括的なJavaScriptプラグインです。すべての有効なURLと電子メールアドレスで機能します。

Gautam Sharma · Answer

機能をさらに改善して画像をレンダリングすることもできます。

function renderHTML(text) { var rawText = strip(text) var urlRegex =/(\b(https?|ftp|file)://[-A-Z0-9+&@#/%?=~_|!:,.;]*[-A-Z0-9+&@#/%=~_|])/ig; return rawText.replace(urlRegex, function(url) { if ( ( url.indexOf(".jpg") > 0 ) || ( url.indexOf(".png") > 0 ) || ( url.indexOf(".gif") > 0 ) ) { return '<img src="' + url + '">' + '<br/>' } else { return '<a href="' + url + '">' + url + '</a>' + '<br/>' } }) }

または、小さなサイズの画像にリンクするサムネイル画像の場合：

return '<a href="' + url + '"><img style="width: 100px; border: 0px; -moz-border-radius: 5px; border-radius: 5px;" src="' + url + '">' + '</a>' + '<br/>'

そして、これは、既存のhtmlを削除することにより、均一性のためにテキスト文字列を前処理するstrip（）関数です。

function strip(html) { var tmp = document.createElement("DIV"); tmp.innerHTML = html; var urlRegex =/(\b(https?|ftp|file)://[-A-Z0-9+&@#/%?=~_|!:,.;]*[-A-Z0-9+&@#/%=~_|])/ig; return tmp.innerText.replace(urlRegex, function(url) { return '
' + url }) }

&#193;n B&#236;nh Trọng · Answer

tmp.innerTextは未定義です。 tmp.innerHTMLを使用する必要があります

function strip(html) { var tmp = document.createElement("DIV"); tmp.innerHTML = html; var urlRegex =/(\b(https?|ftp|file)://[-A-Z0-9+&@#/%?=~_|!:,.;]*[-A-Z0-9+&@#/%=~_|])/ig; return tmp.innerHTML .replace(urlRegex, function(url) { return '
' + url })

Vedmant · Answer

既存のnpmパッケージがあります： rl-regex 、yarn add url-regexまたはnpm install url-regexでインストールし、次のように使用します。

const urlRegex = require('url-regex'); const replaced = 'Find me at http://www.example.com and also at http://stackoverflow.com or at google.com' .replace(urlRegex({strict: false}), function(url) { return '<a href="' + url + '">' + url + '</a>'; });

Kashan Haider · Answer

let str = 'https://example.com is a great site' str.replace(/(https?:\/\/[^\s]+)/g,"<a href='$1' target='_blank' >$1</a>")

ショートコードビッグワーク！...

結果：-

 <a href="https://example.com" target="_blank" > https://example.com </a>

Kang Andrew · Answer

このような正規表現を使用して、通常のURLパターンを抽出できます。

(https?:\/\/(?:www\.|(?!www))[a-zA-Z0-9][a-zA-Z0-9-]+[a-zA-Z0-9]\.[^\s]{2,}|www\.[a-zA-Z0-9][a-zA-Z0-9-]+[a-zA-Z0-9]\.[^\s]{2,}|https?:\/\/(?:www\.|(?!www))[a-zA-Z0-9]+\.[^\s]{2,}|www\.[a-zA-Z0-9]+\.[^\s]{2,})

より高度なパターンが必要な場合は、このようなライブラリを使用してください。

https://www.npmjs.com/package/pattern-dreamer

kofifus · Answer

これを試して：

function isUrl(s) { if (!isUrl.rx_url) { // taken from https://Gist.github.com/dperini/729294 isUrl.rx_url=/^(?:(?:https?|ftp)://)?(?:\S+(?::\S*)?@)?(?:(?!(?:10|127)(?:\.\d{1,3}){3})(?!(?:169\.254|192\.168)(?:\.\d{1,3}){2})(?!172\.(?:1[6-9]|2\d|3[0-1])(?:\.\d{1,3}){2})(?:[1-9]\d?|1\d\d|2[01]\d|22[0-3])(?:\.(?:1?\d{1,2}|2[0-4]\d|25[0-5])){2}(?:\.(?:[1-9]\d?|1\d\d|2[0-4]\d|25[0-4]))|(?:(?:[a-z\u00a1-\uffff0-9]-*)*[a-z\u00a1-\uffff0-9]+)(?:\.(?:[a-z\u00a1-\uffff0-9]-*)*[a-z\u00a1-\uffff0-9]+)*(?:\.(?:[a-z\u00a1-\uffff]{2,}))\.?)(?::\d{2,5})?(?:[/?#]\S*)?$/i; // valid prefixes isUrl.prefixes=['http://', 'https://', 'ftp://', 'www.']; // taken from https://w3techs.com/technologies/overview/top_level_domain/all isUrl.domains=['com','ru','net','org','de','jp','uk','br','pl','in','it','fr','au','info','nl','ir','cn','es','cz','kr','ua','ca','eu','biz','za','gr','co','ro','se','tw','mx','vn','tr','ch','hu','at','be','dk','tv','me','ar','no','us','sk','xyz','fi','id','cl','by','nz','il','ie','pt','kz','io','my','lt','hk','cc','sg','edu','pk','su','bg','th','top','lv','hr','pe','club','rs','ae','az','si','ph','pro','ng','tk','ee','asia','mobi']; } if (!isUrl.rx_url.test(s)) return false; for (let i=0; i<isUrl.prefixes.length; i++) if (s.startsWith(isUrl.prefixes[i])) return true; for (let i=0; i<isUrl.domains.length; i++) if (s.endsWith('.'+isUrl.domains[i]) || s.includes('.'+isUrl.domains[i]+'/') ||s.includes('.'+isUrl.domains[i]+'?')) return true; return false; } function isEmail(s) { if (!isEmail.rx_email) { // taken from http://stackoverflow.com/a/16016476/460084 var sQtext = '[^\x0d\x22\x5c\x80-\xff]'; var sDtext = '[^\x0d\x5b-\x5d\x80-\xff]'; var sAtom = '[^\x00-\x20\x22\x28\x29\x2c\x2e\x3a-\x3c\x3e\x40\x5b-\x5d\x7f-\xff]+'; var sQuotedPair = '\x5c[\x00-\x7f]'; var sDomainLiteral = '\x5b(' + sDtext + '|' + sQuotedPair + ')*\x5d'; var sQuotedString = '\x22(' + sQtext + '|' + sQuotedPair + ')*\x22'; var sDomain_ref = sAtom; var sSubDomain = '(' + sDomain_ref + '|' + sDomainLiteral + ')'; var sWord = '(' + sAtom + '|' + sQuotedString + ')'; var sDomain = sSubDomain + '(\x2e' + sSubDomain + ')*'; var sLocalPart = sWord + '(\x2e' + sWord + ')*'; var sAddrSpec = sLocalPart + '\x40' + sDomain; // complete RFC822 email address spec var sValidEmail = '^' + sAddrSpec + '$'; // as whole string isEmail.rx_email = new RegExp(sValidEmail); } return isEmail.rx_email.test(s); }

google.com、http://www.google.bla、http://google.bla、www.google.blaなどのURLも認識しますが、google.blaは認識しません