web-dev-qa-db-ja.com

十分な数の良性入力が存在すると仮定しますか?

「良性」の入力を使用して検出器/モデルをトレーニングする、複数の機械学習ベースのセキュリティソリューションに出くわしました。オペレーターが十分に網羅的な良性入力(通常の使用に十分な入力とコードカバレッジを提供する良性入​​力)にアクセスできることを前提としています。

それは実際には現実的な仮定ですか?そのような良性の入力を自動的に生成する方法はありますか?それとも、それは学業の初期段階ですか?

1
John

それは実際には現実的な仮定ですか?そのような良性の入力を自動的に生成する方法はありますか?それとも、それは学業の初期段階ですか?

そのhighlyは、シミュレートしようとしている入力データの種類によって異なります。つまり、簡単な答えは、ドメインに精通している人だけがそれを決定できるということです。

つまり、シミュレートしようとしている「良性の入力」がGoogle位置情報サービスからの現実的なユーザーデータ、またはAmazon.comでの一般的なブラウジング動作である場合、そうです、これらの入力をシミュレートする機能は「学術的な初期段階」です。 "。

一方、標準化されたプロトコルを受け入れるアプリケーションをペネトレーションテストしようとしている場合-たとえば 証明書管理プロトコル(CMP) -受け入れられるメッセージタイプの数が非常に少ない(〜 30 CMPの場合)、いいえ、実際には、完全で網羅的なサンプル入力のセットを生成するのは非常に簡単です。

それで、あなたは何をしようとしていますか?どのタイプの入力データをシミュレートしようとしていますか? 編集 質問で詳細を提供する場合は、より適切な回答を提供できます。

1
Mike Ounsworth

クライアントがヒューリスティック検出器を適切にトレーニングするのに十分なトラフィックを提供すると想定するのは現実的ですか?それは実装に依存します。

あなたのビジネスは循環的かもしれません。休暇期間中は販売が忙しく、翌月に在庫を確認する場合があります。販売データと在庫データの両方を使用してシステムをトレーニングしないと、在庫トラフィックが敵対的であると誤って識別される可能性があります。しかし、それはyourビジネスなので、yoはそれらのサイクルを知り、それらを説明する必要があります。ヒューリスティックシステムでは、ビジネスがどのように機能するか、またはビジネスが「通常」と見なすトラフィックの種類を予測することはできません。

したがって、彼らがあなたのトラフィックを通常のように認識できないのと同じように、彼らのシステムは本質的に「良性の」トラフィックを生成することができません。そのため、例を明示的に提供するように求められます。

0
John Deters