これらの仕様 に従ってビットコインアドレスに一致する正規表現を考えています。
ビットコインアドレス、または単にアドレスは、数字1または3で始まる27〜34の英数字の識別子です[...]
私はそれがこのようなものになると思った
/^[13][a-zA-Z0-9]{27,34}/
事は、私は正規表現が苦手で、これがnot偽陰性を作成することを確認する単一のソースを見つけていません。
私はオンラインで^1[1-9A-Za-z][^OIl]{20,40}
を見つけましたが、[^OIl]
部分の意味すらわからず、Bitcoinアドレスが始まる可能性のある3
と一致しないようです。
[^OIl]
は、O、I、またはlではない任意の文字に一致します。正規表現の問題は次のとおりです。
$
がないため、BCアドレスで始まる文字列に一致します。{27,34}
の最初の文字はカウントしませんでした-{26,33}
である必要がありますただし、コメントで述べたように、正規表現はビットコインアドレスを検証する良い方法ではありません。
^[13][a-km-zA-HJ-NP-Z1-9]{25,34}$
1
または3
で始まり、その後にaz、AZ、または0-9の25〜34文字で、l
、I
、O
および0
(ビットコインアドレスの無効な文字)。
^[13][a-km-zA-HJ-NP-Z1-9]{25,34}$
ビットコインアドレスは
O
、大文字I
、小文字l
、および数字0
は、視覚的なあいまいさを防ぐために使用されることはありません。^(bc1|[13])[a-zA-HJ-NP-Z0-9]{25,39}$
新しいアドレスタイプに基づいて Bech32
ここの説明に基づいて: https://github.com/bitcoin/bips/blob/master/bip-0173.mediawiki バージョン1およびバージョン0のBech32ビットコインアドレスの正規表現(メインネットのみ):
\bbc(0([ac-hj-np-z02-9]{39}|[ac-hj-np-z02-9]{59})|1[ac-hj-np-z02-9]{8,87})\b
ここに私が情報を見つけた他のリンクがいくつかあります:
OPは特定のユースケースを提供しなかったため(一致する基準のみ)、BitCoinアドレスを検出する方法の調査でこれに出会い、投稿してコミュニティと共有したいと考えました。
提供されたこれらの正規表現は、行の先頭および/または行の末尾でBitCoinアドレスを検出します。私のユースケースは、恐mail/sextortionの増加を考慮して、電子メールの本文でBitCoinアドレスを見つけることでした(参照: https://krebsonsecurity.com/2018/07/sextortion-scam-uses-recipients-hacked- passwords / )-したがって、これらは効果的なソリューションではありませんでした(後で概説します)。提案されたRegExは、URL内のファイル名やその他の識別子のために、電子メールで多くのFPをキャッチします。ソリューションは特定のユースケースで機能するため、ノックしているわけではありませんが、私のソリューションでは機能しません。あるバリエーションでは、パッシブアラートの短い時間枠内で多くのスパムメールをキャッチしました(例を以下に示します)。
私のテストケースは次のとおりです。
--------------------------------------------------------
BitCoin blackmail formats observed (my org and online):
--------------------------------------------------------
BTC Address: 1JHwenDp9A98XdjfYkHKyiE3R99Q72K9X4
BTC Address: 1Unoc4af6gCq3xzdDFmGLpq18jbTW1nZD
BTC Address: 1A8Ad7VbWDqwmRY6nSHtFcTqfW2XioXNmj
BTC Address: 12CZYvgNZ2ze3fGPFzgbSCELBJ6zzp2cWc
BTC Address: 17drmHLZMsCRWz48RchWfrz9Chx1osLe67
Receiving Bitcoin Address: 15LZALXitpbkK6m2QcbeQp6McqMvgeTnY8
Receiving Bitcoin Address: 1MAFzYQhm6msF2Dxo3Nbox7i61XvgQ7og5
--------------------------------------------------------
Other possible BitCoin test cases I added:
--------------------------------------------------------
- What if text comes before and/or after on same line? Or doesn't contain BitCoin/BTC/etc. anywhere (or anywhere close to the address)?
Send BitCoin payments here 1MAFzYQhm6msF2Dxo3Nbox7i61XvgQ7og5
1MAFzYQhm6msF2Dxo3Nbox7i61XvgQ7og5 to keep your secrets safe.
Send payments here 1MAFzYQhm6msF2Dxo3Nbox7i61XvgQ7og5 to keep your secrets safe.
- Standalone address:
1Dvd7Wb72JBTbAcfTrxSJCZZuf4tsT8V72
--------------------------------------------------------
Redacted Body content generating FPs from spam emails:
--------------------------------------------------------
src=3D"https://example.com/blah=3D2159024400&t=3DXWP9YVkAYwkmif9RgKeoPhw2b1zdMnMzXZSGRD_Oxkk"
"cursor:pointer;color:#6A6C6D;-webkit-text-size-blahutm_campaign%253Drdboards%2526e_t%253Dd5c2deeaae5c4a8b8d2bff4d0f87ecdd%2526utm_cont=blah
src=3D"https://example.com/blah/74/328e74997261d5228886aab1a2da6874.jpg"
src=3D"https://example.com/blah-1c779f59948fc5be8a461a4da8d938aa.jpg"
href=3D"https://example.com/blah-0ff3169b28a6e17ae8a369a3161734c1?alert_=id=blah
私がテストしたいくつかのRegExサンプル(バックトレースを使用した貪欲なグロブのためにノックするものはリストしません):
^[13][a-km-zA-HJ-NP-Z1-9]{25,34}$
[13][a-km-zA-HJ-NP-Z1-9]{25,34}$
(Too narrow and misses BitCoin addresses within a paragraph)
(bc1|[13])[a-zA-HJ-NP-Z0-9]{25,39}$
(Still misses text after BTC on same line and triples execution time)
\W[13][a-km-zA-HJ-NP-Z1-9]{25,34}\W
(Too broad and catches URL formats)
私が評価している現在の正規表現は、すべての既知の/作成されたサンプルケースをキャッチし、既知のFPを排除します(特にURLファイル名FPの文末期間を回避します):
[13][a-km-zA-HJ-NP-Z1-9]{25,34}\s
実行時間の1つの参照ポイント(ステップと時間でコストを表示): https://regex101.com/
気軽に検討するか、改善に関する提案をお寄せください(私は決してRegExマスターではありません)。 Bodyコンテンツの電子メール検出に対してさらに検証するため、他のFPケースが観察されるか、より効率的なRegExが導出される場合は更新します。
セス