私はデータマイニングに取り組んでいるプロジェクトを引き受ける予定です。飛び込む前に、Webベースのレポートを可能にするさまざまなデータマイニングツール(できればオープンソース)を調べたいと思いました。私のシナリオでは、データが提供されるので、クロールすることは想定されていません。
一言で言えば、私はそれを行うツールを探しています-データ分析、Webベースのレポート、ある種のダッシュボードとマイニング機能を提供します。
私はMicrosoftAnalysis ServicesとBOXIに取り組んできましたが、最近はPentahoを検討しています。これは良い選択肢のようです。
あなたが知っているそのようなツールであなたの経験を共有してください。
乾杯
WEKAは最高のオープンソースDMソフトウェアだと思います。
チェックしてください: http://www.cs.waikato.ac.nz/ml/weka/
Wekaは素晴らしいですが、代わりにOrange DataMiningツールキットを試してみることをお勧めします。
編集:そして2010年11月の時点で、私は本当に好きだと言わなければなりません [〜#〜] knime [〜#〜] 。
[〜#〜] r [〜#〜] には、データマイニングに関連する優れたパッケージがたくさんあります。特に、以下を見てください。
また、Wekaにも関連付けられています( RWekaパッケージを参照 )。また、.Net(COM経由)またはPython(RPyまたはRPy2経由))のいずれかと統合できます。
レポートプラットフォーム用のPentahoについては同意しますが、使用目的によっては非常に大規模なプロジェクトです。
Apache Mahout もチェックする必要があります。これは、ユーザークラスタリングなどの大規模な機械学習タスクに非常に役立ちます。
RapidMinerは私の好みのデータマイニングツールです。
私は新しいグーグルツールで試してみます。
-最初に、GoogleストレージのAPI IDを取得する必要があります。これは、分析するデータを保存および操作する場所です。
-次に、google-prediction-api(http://code.google.com/apis/predict/docs/getting-started.html)のAPI IDを取得する必要があります。これは、私が見たところ、素晴らしい外部委託データです。マイニングプロセッサ。 Prediction APIを使用すると、データからより多くの情報を取得し、そのパターンにアクセスしやすくなります。従来の数値データと名目データを使用することに加えて、このapiのおかげで、たとえば言語ごとに電子メールを分類するために利用できるテキストデータを使用することもできます。
-最後に、アドホック分析、標準化されたレポート、データ探索アプリのプロトタイピングを実行できるbigQueryを使用できます(http://code.google.com/apis/bigquery/)
KEEL( http://keel.es )はJavaで記述されており、データマイニングに進化的計算を使用するのに適しています。
私のソフトウェア、SPMFデータマイニングフレームワークを確認できます。
これはオープンソースのJavaソフトウェアであり、以下の70以上のアルゴリズムを提供します。
rapidMinerはこのリストに追加すべき優れたツールだと思います。
JMLRが管理している機械学習用のオープンソースソフトウェアのリストをご覧ください。あなたはここでそれを見つけることができます:
http://jmlr.csail.mit.edu/mloss/
それらは最先端を表しています!
Wekaに関する私の問題は、その中の多くのアルゴリズムが古くなっていることです。
WEKA(すでに言及)、Orange(http://orange.biolab.si/)、Tanagra(http://data-mining-tutorials.blogspot.com)には、優れたチュートリアルがあります。
データマイニングに非常に優れたツールです。
Pentaho は非常にプロフェッショナルなソリューションです。間違いなく非常に良い選択です。
Wekaは分類と/機械学習/に強いです。多くの人にとって、これは実際のデータマイニングよりも人工知能の一部であると考えられています。 RapidMinerはほぼ同じ方針ですが、UIがはるかに優れています。 PentahoはWekaAFAICTのプロフェッショナルサポートです。
ELKIをご覧になることをお勧めします http://elki.dbs.ifi.lmu.de/ これは、クラスタリングアルゴリズムと外れ値の検出に焦点を当てた同等のプロジェクトです。データマイニング。
Data Mining SDK とその blog を見ることができます。
[〜#〜] knime [〜#〜] もこのリストに参加する価値があると思います。
いくつかのオープンソースデータマイニングツールのリストはここにリストされています: http://dataminingtools.net/browse.php
あなたはデータマイニングツール、wekaを見ることができます
WEKAチュートリアルのチュートリアルとビデオのコレクションへのリンクは次のとおりです: http://www.dataminingtools.net/browsetutorials.php?tag=weka
ツールと一緒に、PythonとRを学ぶことを強くお勧めします。これらの言語は分析中に大いに役立ちます。また、大きなデータセットは「カスタム分析」できます。独自のカスタムを作成することもできます。 Javascriptを使用したダッシュボード( 多数のチャートおよび視覚化ライブラリ をチェックしてください)