私は ホモグラフ攻撃 や、攻撃者が信頼できるドメイン名(たとえば、bankofthewest.comではなくbankofthevvest.com)に視覚的に類似したスプーフィングドメイン名を使用する他の攻撃を検出しようとしています。
プログラムでの使用に適した視覚的に類似した文字の辞書またはデータベースはありますか?
たとえば、「l」を検索した場合、「l」が「1」および「i」に視覚的に類似していることを示すリストを取得したいと思います(少なくとも一部のフォントでは)。 「w」を調べると、「vv」(フォントによっては)と視覚的に似ていることがわかる場合があります。 「d」を検索すると、「cl」(一部のフォント)と視覚的に類似していることがわかります。少なくとも今のところ、ASCII文字間の視覚的な類似性に焦点を当てています。Unicodeを無視しても問題ありません(ただし、視覚的にどのUnicode文字が認識されているかを知っているリストがある場合、それは特別なボーナスです)各ASCII文字と同様)。
そのようなものがすでに存在しているのであれば、ホイールの再発明を避けたいと思います。そのようなリストはすでに存在していますか?
これが私がこれまでに見つけたものです:
私は発見しました スパム処理のための目に見える類似したUnicode文字の辞書はありますか? ですが、質問はUnicodeに焦点を当てており、答えはこの質問を本当に解決しません:彼らは代替の検出メカニズムを提案します。
次の2つの研究論文では、視覚的に類似した文字のリスト C-SimList を考案しています。ただし、Unicode文字に焦点を当てており、ASCII文字(l対1、vv対w)など)に類似性はありません。
Anthony Y. Fu、Xiaotie Deng、Liu Wenyin、Greg Little。 方法論とUnicode攻撃と戦うためのアプリケーション 。 SOUPS 2005。
Anthony Y. Fu、Wan Zhang、Xiaotie Deng、Liu Wenyin。 nicode攻撃に対する保護:UC-SimListの生成とアプリケーション 。 WWW 2006。
「ホモグラフ」の代わりに「ホモグリフ」という用語で調べてみてください。
たとえば、これはあなたが望むものかもしれません:
https://codebox.net/pages/homoglyph-detection
コードと辞書が含まれています。