文字列からホスト名を抽出する

Question

テキスト文字列からのURL全体ではなく、URLのルートだけに一致させたいのですが。与えられた：

http://www.youtube.com/watch?v=ClkQA2Lb_iE http://youtu.be/ClkQA2Lb_iE http://www.example.com/12xy45 http://example.com/random

最後の2つのインスタンスがwww.example.comまたはexample.comドメインに解決されるようにします。

私は正規表現が遅いと聞きました、そしてこれはページ上の私の2番目の正規表現になるでしょう。

私はこのソリューションのJS/jQueryバージョンを探しています。

lewdev · Accepted Answer

Npmパッケージ psl（Public Suffix List）を使うことをお勧めします。「Public Suffix List」は、国別コードのトップレベルドメインだけでなく、ルートドメインと見なされるユニコード文字も含む、有効なドメインサフィックスとルールすべてのリストです（例：www。食狮。公司.cn、bc）。 kobe.jpなど）それについてもっと読みなさいここ。

試してください：

npm install --save psl

それから私の "extractHostname"実装で実行します：

let psl = require('psl'); let url = 'http://www.youtube.com/watch?v=ClkQA2Lb_iE'; psl.get(extractHostname(url)); // returns youtube.com

私はnpmパッケージを使うことができないので、下記はextractHostnameをテストするだけです。

function extractHostname(url) { var hostname; //find & remove protocol (http, ftp, etc.) and get hostname if (url.indexOf("//") > -1) { hostname = url.split('/')[2]; } else { hostname = url.split('/')[0]; } //find & remove port number hostname = hostname.split(':')[0]; //find & remove "?" hostname = hostname.split('?')[0]; return hostname; } //test the code console.log("== Testing extractHostname: =="); console.log(extractHostname("http://www.blog.classroom.me.uk/index.php")); console.log(extractHostname("http://www.youtube.com/watch?v=ClkQA2Lb_iE")); console.log(extractHostname("https://www.youtube.com/watch?v=ClkQA2Lb_iE")); console.log(extractHostname("www.youtube.com/watch?v=ClkQA2Lb_iE")); console.log(extractHostname("ftps://ftp.websitename.com/dir/file.txt")); console.log(extractHostname("websitename.com:1234/dir/file.txt")); console.log(extractHostname("ftps://websitename.com:1234/dir/file.txt")); console.log(extractHostname("example.com?param=value")); console.log(extractHostname("https://facebook.github.io/jest/")); console.log(extractHostname("//youtube.com/watch?v=ClkQA2Lb_iE")); console.log(extractHostname("http://localhost:4200/watch?v=ClkQA2Lb_iE"));

プロトコルやポート番号を持っていても、ドメインを抽出できます。これは非常に単純化された非正規表現の解決策なので、私はこれがうまくいくと思います。

* @Timmerz、@ renoirb、@rineez、@ BigDong、@ ra00l、@ ILikeBeansTacos、@ CharlesRobertsonに感謝します。 @ ross-allen、バグを報告してくれてありがとう！

Filip Ros&#233;en - refp · Answer

正規表現を使用せずにきちんとしたトリック：

var tmp = document.createElement ('a'); ; tmp.href = "http://www.example.com/12xy45"; // tmp.hostname will now contain 'www.example.com' // tmp.Host will now contain hostname and port 'www.example.com:80'

上記のような関数を下記のような関数でラップすると、URIからドメイン部分を奪い取るための優れた方法が得られます。

function url_domain(data) { var a = document.createElement('a'); a.href = data; return a.hostname; }

gilly3 · Answer

これを試して：

var matches = url.match(/^https?\:\/\/([^\/?#]+)(?:[\/?#]|$)/i); var domain = matches && matches[1]; // domain will be null if no match is found

結果からポートを除外したい場合は、代わりに次の式を使用してください。

/^https?\:\/\/([^\/:?#]+)(?:[\/:?#]|$)/i

編集：特定のドメインが一致しないようにするには、負の先読みを使用します。 (?!youtube.com)

/^https?\:\/\/(?!(?:www\.)?(?:youtube\.com|youtu\.be))([^\/:?#]+)(?:[\/:?#]|$)/i

Pavlo · Answer

文字列を解析する必要はありません。引数としてURLを URL constructor に渡すだけです。

var url = 'http://www.youtube.com/watch?v=ClkQA2Lb_iE'; var hostname = (new URL(url)).hostname; assert(hostname === 'www.youtube.com');

Andrew White · Answer

URLを解析するのは、ポート番号と特殊文字がある可能性があるため、注意が必要です。そのため、これを行うには parseUri のようなものを使用することをお勧めします。何百ものURLを解析しているのでなければ、パフォーマンスが問題になることはないでしょう。

BlackDivine · Answer

私はGivenの解決策を使おうとしました、選ばれたものは私の目的のためにはやり過ぎであり、 "要素の作成"は私のためにめちゃくちゃになります。

URLのPortの準備はまだできていません。私は誰かがそれが便利だと思うことを願っています

function parseURL(url){ parsed_url = {} if ( url == null || url.length == 0 ) return parsed_url; protocol_i = url.indexOf('://'); parsed_url.protocol = url.substr(0,protocol_i); remaining_url = url.substr(protocol_i + 3, url.length); domain_i = remaining_url.indexOf('/'); domain_i = domain_i == -1 ? remaining_url.length - 1 : domain_i; parsed_url.domain = remaining_url.substr(0, domain_i); parsed_url.path = domain_i == -1 || domain_i + 1 == remaining_url.length ? null : remaining_url.substr(domain_i + 1, remaining_url.length); domain_parts = parsed_url.domain.split('.'); switch ( domain_parts.length ){ case 2: parsed_url.subdomain = null; parsed_url.Host = domain_parts[0]; parsed_url.tld = domain_parts[1]; break; case 3: parsed_url.subdomain = domain_parts[0]; parsed_url.Host = domain_parts[1]; parsed_url.tld = domain_parts[2]; break; case 4: parsed_url.subdomain = domain_parts[0]; parsed_url.Host = domain_parts[1]; parsed_url.tld = domain_parts[2] + '.' + domain_parts[3]; break; } parsed_url.parent_domain = parsed_url.Host + '.' + parsed_url.tld; return parsed_url; }

これを実行する：

parseURL('https://www.facebook.com/100003379429021_356001651189146');

結果：

Object { domain : "www.facebook.com", Host : "facebook", path : "100003379429021_356001651189146", protocol : "https", subdomain : "www", tld : "com" }

Luis Lopes · Answer

このページに行き、URLの最もよいREGEXを捜していればこれを試みなさい：

^(?:https?:)?(?:\/\/)?([^\/\?]+)

https://regex101.com/r/pX5dL9/1

これはhttp：//なし、httpあり、httpsあり、および//だけで、パスおよびクエリパスも取得できません。

がんばろう

robinmetral · Answer

読みやすくするために`URL.hostname`を使用してください

Babel時代では、最もクリーンで簡単な解決策は URL.hostname を使うことです。

const getHostname = (url) => { // use URL constructor and return hostname return new URL(url).hostname; } // tests console.log(getHostname("https://stackoverflow.com/questions/8498592/extract-hostname-name-from-string/")); console.log(getHostname("https://developer.mozilla.org/en-US/docs/Web/API/URL/hostname"));

URL.hostnameは RL API の一部で、IE（ caniuse ）を除くすべての主要ブラウザでサポートされています。

このソリューションを使用すると、他の RLのプロパティとメソッドにもアクセスできるようになります。たとえば、URLの pathname や query string params も抽出したい場合に便利です。

パフォーマンスにRegExを使用

URL.hostnameは、アンカーソリューションまたは parseUri を使用するよりも高速です。しかし、それでも gilly3の正規表現よりずっと遅いです。

const getHostnameFromRegex = (url) => { // run against regex const matches = url.match(/^https?\:\/\/([^\/?#]+)(?:[\/?#]|$)/i); // extract hostname (will be null if no match is found) return matches && matches[1]; } // tests console.log(getHostnameFromRegex("https://stackoverflow.com/questions/8498592/extract-hostname-name-from-string/")); console.log(getHostnameFromRegex("https://developer.mozilla.org/en-US/docs/Web/API/URL/hostname"));

テストはあなた自身です jsPerf

非常に多数のURLを処理する必要がある場合（パフォーマンスが要因となる場合）、代わりにこのソリューションを使用することをお勧めします。それ以外の場合は、読みやすくするためにURL.hostnameを選択してください。

solokiran · Answer

これは完全な答えではありませんが、以下のコードが役に立ちます。

function myFunction() { var str = "https://www.123rf.com/photo_10965738_lots-oop.html"; matches = str.split('/'); return matches[2]; }

私よりも早くコードを作成したい人がいます。それはまた私の自己を改善するのを助けます。

jaggedsoft · Answer

function hostname(url) { var match = url.match(/:\/\/(www[0-9]?\.)?(.[^/:]+)/i); if ( match != null && match.length > 2 && typeof match[2] === 'string' && match[2].length > 0 ) return match[2]; }

上記のコードは、次のURLの例のホスト名を正しく解析します。

http://WWW.first.com/folder/page.html first.com

http://mail.google.com/folder/page.html mail.google.com

https://mail.google.com/folder/page.html mail.google.com

http://www2.somewhere.com/folder/page.html?q=1 somewhere.com

https://www.another.eu/folder/page.html?q=1 another.eu

元のクレジットはに行く： http://www.primaryobjects.com/CMS/Article145

QazyCat · Answer

String.prototype.trim = function(){return his.replace(/^\s+|\s+$/g,"");} function getHost(url){ if("undefined"==typeof(url)||null==url) return ""; url = url.trim(); if(""==url) return ""; var _Host,_arr; if(-1<url.indexOf("://")){ _arr = url.split('://'); if(-1<_arr[0].indexOf("/")||-1<_arr[0].indexOf(".")||-1<_arr[0].indexOf("\?")||-1<_arr[0].indexOf("\&")){ _arr[0] = _arr[0].trim(); if(0==_arr[0].indexOf("//")) _Host = _arr[0].split("//")[1].split("/")[0].trim().split("\?")[0].split("\&")[0]; else return ""; } else{ _arr[1] = _arr[1].trim(); _Host = _arr[1].split("/")[0].trim().split("\?")[0].split("\&")[0]; } } else{ if(0==url.indexOf("//")) _Host = url.split("//")[1].split("/")[0].trim().split("\?")[0].split("\&")[0]; else return ""; } return _Host; } function getHostname(url){ if("undefined"==typeof(url)||null==url) return ""; url = url.trim(); if(""==url) return ""; return getHost(url).split(':')[0]; } function getDomain(url){ if("undefined"==typeof(url)||null==url) return ""; url = url.trim(); if(""==url) return ""; return getHostname(url).replace(/([a-zA-Z0-9]+.)/,""); }

zaphodb · Answer

今日この問題の解決策を探していました。上記の答えはどれも満足していないようでした。私は1つのライナーであり、条件付きロジックではなく、関数にラップされなければならないものではないソリューションを望んでいました。

これが私が思いついたものです、本当にうまくいっているようです：

 hostname = "http://www.example.com:1234" hostname.split（ "//"）.slice（-1）[0] .split（ "："） [0] .split（ '。'）。slice（-2）.join（ '。'）// "example.com"となります

一見すると複雑に見えるかもしれませんが、それはかなり簡単に動作します。鍵となるのは分割部分のendから引き出す必要がある（そして[0]の先頭から取得する）いくつかの場所で 'slice（-n）'を使用することです。分割配列）.

これらのテストはそれぞれ "example.com"を返します。

[.____。 "" http://example.com ".split（" // "）.slice（-1）[0] .split（"： "）[0] .split（ '。'）。slice （-2）.join（ '。'） "http://example.com:1234" .split（ "//"）.slice（-1）[0] .split（ "：" ）[0] .split（ '。'）。slice（-2）.join（ '。'） "http://www.example.com:1234" .split（ "//"） .slice（-1）[0] .split（ "："）[0] .split（ '。'）。slice（-2）.join（ '。'） "http：// foo .www.example.com：1234 ".split（" // "）。slice（-1）[0] .split（"： "）[0] .split（ '。'）。slice（-2）参加する（ '。'）

Pecacheu · Answer

さて、私はこれが古い質問であることを知っています、しかし、私はそれを共有すると思ったので私は超効率的なURLパーサーを作りました。

お分かりのように、関数の構造は非常に変わっていますが、効率のためです。プロトタイプ関数は使用されず、文字列は2回以上反復されず、文字は必要以上に処理されません。

function getDomain(url) { var dom = "", v, step = 0; for(var i=0,l=url.length; i<l; i++) { v = url[i]; if(step == 0) { //First, skip 0 to 5 characters ending in ':' (ex: 'https://') if(i > 5) { i=-1; step=1; } else if(v == ':') { i+=2; step=1; } } else if(step == 1) { //Skip 0 or 4 characters 'www.' //(Note: Doesn't work with www.com, but that domain isn't claimed anyway.) if(v == 'w' && url[i+1] == 'w' && url[i+2] == 'w' && url[i+3] == '.') i+=4; dom+=url[i]; step=2; } else if(step == 2) { //Stop at subpages, queries, and hashes. if(v == '/' || v == '?' || v == '#') break; dom += v; } } return dom; }

gradosevic · Answer

これがjQueryのワンライナーです。

$('<a>').attr('href', url).prop('hostname');

whitneyland · Answer

すべてのURLプロパティ、依存関係、JQueryがない、わかりやすい

この解決策はあなたの答えと追加の特性を与えます。 JQueryやその他の依存関係は必要ありません。貼り付けてください。

使用法

getUrlParts("https://news.google.com/news/headlines/technology.html?ned=us&hl=en")

出力

{ "Origin": "https://news.google.com", "domain": "news.google.com", "subdomain": "news", "domainroot": "google.com", "domainpath": "news.google.com/news/headlines", "tld": ".com", "path": "news/headlines/technology.html", "query": "ned=us&hl=en", "protocol": "https", "port": 443, "parts": [ "news", "google", "com" ], "segments": [ "news", "headlines", "technology.html" ], "params": [ { "key": "ned", "val": "us" }, { "key": "hl", "val": "en" } ] }

コード
コードは、超高速ではなく理解しやすいように設計されています。 1秒間に100回簡単に呼び出すことができるので、フロントエンドや少数のサーバーの使用には適していますが、大量のスループットには適していません。

function getUrlParts(fullyQualifiedUrl) { var url = {}, tempProtocol var a = document.createElement('a') // if doesn't start with something like https:// it's not a url, but try to work around that if (fullyQualifiedUrl.indexOf('://') == -1) { tempProtocol = 'https://' a.href = tempProtocol + fullyQualifiedUrl } else a.href = fullyQualifiedUrl var parts = a.hostname.split('.') url.Origin = tempProtocol ? "" : a.Origin url.domain = a.hostname url.subdomain = parts[0] url.domainroot = '' url.domainpath = '' url.tld = '.' + parts[parts.length - 1] url.path = a.pathname.substring(1) url.query = a.search.substr(1) url.protocol = tempProtocol ? "" : a.protocol.substr(0, a.protocol.length - 1) url.port = tempProtocol ? "" : a.port ? a.port : a.protocol === 'http:' ? 80 : a.protocol === 'https:' ? 443 : a.port url.parts = parts url.segments = a.pathname === '/' ? [] : a.pathname.split('/').slice(1) url.params = url.query === '' ? [] : url.query.split('&') for (var j = 0; j < url.params.length; j++) { var param = url.params[j]; var keyval = param.split('=') url.params[j] = { 'key': keyval[0], 'val': keyval[1] } } // domainroot if (parts.length > 2) { url.domainroot = parts[parts.length - 2] + '.' + parts[parts.length - 1]; // check for country code top level domain if (parts[parts.length - 1].length == 2 && parts[parts.length - 1].length == 2) url.domainroot = parts[parts.length - 3] + '.' + url.domainroot; } // domainpath (domain+path without filenames) if (url.segments.length > 0) { var lastSegment = url.segments[url.segments.length - 1] var endsWithFile = lastSegment.indexOf('.') != -1 if (endsWithFile) { var fileSegment = url.path.indexOf(lastSegment) var pathNoFile = url.path.substr(0, fileSegment - 1) url.domainpath = url.domain if (pathNoFile) url.domainpath = url.domainpath + '/' + pathNoFile } else url.domainpath = url.domain + '/' + url.path } else url.domainpath = url.domain return url }

VnDevil · Answer

jQueryとoneline

$('<a>').attr('href', document.location.href).prop('hostname');

Gubatron · Answer

// use this if you know you have a subdomain // www.domain.com -> domain.com function getDomain() { return window.location.hostname.replace(/([a-zA-Z0-9]+.)/,""); }

Saurabh Mandeel · Answer

まあ、正規表現を使うほうがずっと簡単になります：

 mainUrl = "http://www.mywebsite.com/mypath/to/folder"; urlParts = /^(?:\w+\:\/\/)?([^\/]+)(.*)$/.exec(mainUrl); Host = Fragment[1]; // www.mywebsite.com

Norbert Boros · Answer

私は個人的にこの解決策のためにたくさん研究しました、そして私が見つけることができる最も良いものは実際にCloudFlareの「ブラウザチェック」からです：

function getHostname(){ secretDiv = document.createElement('div'); secretDiv.innerHTML = "<a href='/'>x</a>"; secretDiv = secretDiv.firstChild.href; var HasHTTPS = secretDiv.match(/https?:\/\//)[0]; secretDiv = secretDiv.substr(HasHTTPS.length); secretDiv = secretDiv.substr(0, secretDiv.length - 1); return(secretDiv); } getHostname();

私は変数を書き換えて「人間」が読みやすいようにしましたが、予想以上にうまく機能しました。

uzaif · Answer

手短に言えば、あなたはこのようにすることができます

var url = "http://www.someurl.com/support/feature" function getDomain(url){ domain=url.split("//")[1]; return domain.split("/")[0]; } eg: getDomain("http://www.example.com/page/1") output: "www.example.com"

ドメイン名を取得するために上記の関数を使用してください

文字列からホスト名を抽出する

読みやすくするためにURL.hostnameを使用してください

パフォーマンスにRegExを使用

すべてのURLプロパティ、依存関係、JQueryがない、わかりやすい

読みやすくするために`URL.hostname`を使用してください