いくつかのアルゴリズムを使用してログデータをマイニングしたいと思います。
パターンマイニングフレームワークを次の場所で見つけました: http://www.philippe-fournier-viger.com/spmf/index.php?link=algorithms.php
私はいくつかのアルゴリズムを試しましたが、BIDE +アルゴリズムが最高のパフォーマンスを発揮します。
BIDE +アルゴリズムは、シーケンスデータベースから頻繁に閉じたシーケンシャルパターンをマイニングするためのものです。
誰かが「閉じた」シーケンシャルパターンと開いたパターンについての定義を説明できますか?
私の SPMFソフトウェア を使用してくれてうれしいです。
シーケンシャルパターンのサポートは、シーケンシャルパターンを含むシーケンスの数です。
頻繁なシーケンシャルパターンは、シーケンスデータベースの少なくとも「minsup」シーケンスに表示されるパターンです。ここで、minsup は、ユーザーが設定するパラメーターです。
頻繁なクローズドシーケンシャルパターンは、まったく同じサポートを持つ別のシーケンシャルパターンに含まれないような頻繁なシーケンシャルパターンです。
PrefixSpanなどのアルゴリズムは、頻繁なシーケンシャルパターンを検出します。 [〜#〜] bid [〜#〜]+などのアルゴリズムは、頻繁に閉じたシーケンシャルパターンを検出します。 BIDE +は、プルーニング手法を使用してすべてのシーケンシャルパターンの生成を回避するため、通常はPrefixSpanよりもはるかに高速です。さらに、閉じたパターンのセットは通常、連続したパターンのセットよりもはるかに小さいため、BIDE +の方がメモリ効率が高くなります。
知っておくべきもう1つの重要なことは、閉じたシーケンシャルパターンは、すべてのシーケンシャルパターンのコンパクトでロスレスな表現であるということです。これは、閉じたシーケンシャルパターンのセットが通常ははるかに小さいことを意味しますが、ロスレスです。つまり、シーケンシャルパターンの完全なセットを回復できる(情報が失われることはありません)ため、非常に便利です。
簡単な例を挙げましょう。
4つのシーケンスを考えてみましょう。
a b c d e
a b d
b e a
b c d e
Minsup = 2としましょう。
b c
は、2つのシーケンスで表示されるため、頻繁に連続するパターンです(2をサポートしています)。 b c
は、より大きなシーケンシャルパターンに含まれているため、閉じたシーケンシャルパターンではありませんb c d
同じサポートを持っています。
b c d
は2をサポートしています。これは、より大きなシーケンシャルパターンに含まれているため、クローズドシーケンシャルパターンでもありませんb c d e
同じサポートを持っています。 b c d e
は、同じサポートを持つ他のシーケンシャルパターンに含まれていないため、クローズドシーケンシャルパターンです。
ちなみに、 シーケンシャルパターンマイニング についての私の調査も確認できます。このトピックとさまざまなアルゴリズムについての良い紹介があります。
頻繁なアイテムセット および 頻繁なアイテムセットのマイニングおよびアソシエーションルール に関するこの章を確認してください。
「クローズドフリークエントアイテムセット」のグーグル。他のデータマイニングブックと同様に、これを説明するページがたくさんあります(APRIORIアルゴリズムを探してください)。
「クローズ」は、同じをサポートする大きなアイテムセットがないことを示します。より大きなアイテムセットが存在する可能性がありますが、サポートが低くなければなりません。
ほとんどのユースケースでは、最大または閉じたアイテムセットのみを確認するだけで十分です。