ロギングと分析に関するドキュメントを読んでいました。このドキュメントでは、いくつかの攻撃シナリオを検出するための統計分析と機械学習手法について説明しています。たとえば、ブルートフォースの可能性のあるログインを検出する場合は、次の機能を確認できます。
私にとって興味深いのは、これらの機能がさまざまなソース(ファイアウォール、ソースマシン)から収集されていることです。バックドアをダウンロードしてインストールしようとする攻撃の検出に興味がある使用例があります。 IDS、ファイアウォール、HTTPサーバー、Syslogサーバーから収集したログがあります。機械学習モデルにフィードできるいくつかの特徴的な機能を見つけたいです。私にとっての問題は、以下の図に示されています。
この仲間の研究者はログを手動で分析し、いくつかの有用な洞察を提供しました。しかし、彼はソースマシン(Http)でのみ使用しました。具体的には、これらのログのdataフィールド。
これは、セキュリティデバイスによってバックドアが検出されにくいことを意味しますか?ブルートフォースの例に示されているように、自動化された方法でバックドアを検出するために他の機能を使用したい場合はどうしますか?
PS:私はこれらの機能についてのいくつかの一般的なアイデアが欲しいだけです。バックドアの検出は難しい場合があることを知っています。幸い、私が持っているのは、私が持っているデータセットのバックドアのみを調べる必要があるx)。
ベスト。
一般に、機械学習アプローチを使用するセキュリティシステムは、機能、メトリック、または特性に基づいています。エリア(アンチウイルス、アンチスパム、NIDS)によって、特性は異なります。例:スパムの領域では、件名が重要な特徴となり、メッセージに添付ファイルがあり、添付ファイルに別のファイル(Zip、tarファイル)が含まれる場合があります。一方、アンチウイルスの領域では、ファイルタイプ、バイナリ内の特定の文字列、使用されるシステムコールなどの特性があります。そして、NIDSにゲストとして参加できるため、機能は完全に異なる可能性があり、パケット、TCPプッシュ、HTTPメッセージ、URIコンテンツなどです。
一般的に、そのタイプの記事は、使用するデータセットに大きく依存しているため、著者は記事の結果を少しいじるのは簡単です。このシステムに誤検知がある場合、誤検知と区別できる別の特性を見つける必要があり、これを行うのが難しい場合があることに注意してください。
バックドアの場合、それらのいくつかの特性と動作を調査して独自の特性を作成する必要があります。おそらく、通常のマルウェアと組み合わせたネットワークトラフィック機能が、最初の良いアプローチになるでしょう。