web-dev-qa-db-ja.com

データマイニングオープンソースツール

私はデータマイニングに取り組んでいるプロジェクトを引き受ける予定です。飛び込む前に、Webベースのレポートを可能にするさまざまなデータマイニングツール(できればオープンソース)を調べたいと思いました。私のシナリオでは、データが提供されるので、クロールすることは想定されていません。

一言で言えば、私はそれを行うツールを探しています-データ分析、Webベースのレポート、ある種のダッシュボードとマイニング機能を提供します。

私はMicrosoftAnalysis ServicesとBOXIに取り組んできましたが、最近はPentahoを検討しています。これは良い選択肢のようです。

あなたが知っているそのようなツールであなたの経験を共有してください。

乾杯

27
Arnkrishn

WEKAは最高のオープンソースDMソフトウェアだと思います。

チェックしてください: http://www.cs.waikato.ac.nz/ml/weka/

12
Alix Axel

Wekaは素晴らしいですが、代わりにOrange DataMiningツールキットを試してみることをお勧めします。

http://www.ailab.si/orange/

編集:そして2010年11月の時点で、私は本当に好きだと言わなければなりません [〜#〜] knime [〜#〜]

9
ybakos

[〜#〜] r [〜#〜] には、データマイニングに関連する優れたパッケージがたくさんあります。特に、以下を見てください。

また、Wekaにも関連付けられています( RWekaパッケージを参照 )。また、.Net(COM経由)またはPython(RPyまたはRPy2経由))のいずれかと統合できます。

レポートプラットフォーム用のPentahoについては同意しますが、使用目的によっては非常に大規模なプロジェクトです。

5
Shane

Apache Mahout もチェックする必要があります。これは、ユーザークラスタリングなどの大規模な機械学習タスクに非常に役立ちます。

5
random.bit

RapidMinerは私の好みのデータマイニングツールです。

5
Trevor Kemmer

私は新しいグーグルツールで試してみます。

-最初に、GoogleストレージのAPI IDを取得する必要があります。これは、分析するデータを保存および操作する場所です。

-次に、google-prediction-api(http://code.google.com/apis/predict/docs/getting-started.html)のAPI IDを取得する必要があります。これは、私が見たところ、素晴らしい外部委託データです。マイニングプロセッサ。 Prediction APIを使用すると、データからより多くの情報を取得し、そのパターンにアクセスしやすくなります。従来の数値データと名目データを使用することに加えて、このapiのおかげで、たとえば言語ごとに電子メールを分類するために利用できるテキストデータを使用することもできます。

-最後に、アドホック分析、標準化されたレポート、データ探索アプリのプロトタイピングを実行できるbigQueryを使用できます(http://code.google.com/apis/bigquery/)

3
mariana soffer

KEEL( http://keel.es )はJavaで記述されており、データマイニングに進化的計算を使用するのに適しています。

3
aliassaila

私のソフトウェア、SPMFデータマイニングフレームワークを確認できます。

これはオープンソースのJavaソフトウェアであり、以下の70以上のアルゴリズムを提供します。

  • 頻繁なアイテムセットマイニング、
  • 相関ルールマイニング、
  • シーケンシャルパターンマイニング
  • シーケンシャルルールマイニング。
  • もっと..
2
Phil

rapidMinerはこのリストに追加すべき優れたツールだと思います。

2
mariana soffer

JMLRが管理している機械学習用のオープンソースソフトウェアのリストをご覧ください。あなたはここでそれを見つけることができます:

http://mloss.org/software/

http://jmlr.csail.mit.edu/mloss/

それらは最先端を表しています!

Wekaに関する私の問題は、その中の多くのアルゴリズムが古くなっていることです。

2
WeShallOvercome

WEKA(すでに言及)、Orange(http://orange.biolab.si/)、Tanagra(http://data-mining-tutorials.blogspot.com)には、優れたチュートリアルがあります。

データマイニングに非常に優れたツールです。

2
codious

Pentaho は非常にプロフェッショナルなソリューションです。間違いなく非常に良い選択です。

1
Pascal Thivent

Wekaは分類と/機械学習/に強いです。多くの人にとって、これは実際のデータマイニングよりも人工知能の一部であると考えられています。 RapidMinerはほぼ同じ方針ですが、UIがはるかに優れています。 PentahoはWekaAFAICTのプロフェッショナルサポートです。

ELKIをご覧になることをお勧めします http://elki.dbs.ifi.lmu.de/ これは、クラスタリングアルゴリズムと外れ値の検出に焦点を当てた同等のプロジェクトです。データマイニング。

1
Anony-Mousse
1
crowne

Data Mining SDK とその blog を見ることができます。

1
sashaeve

[〜#〜] knime [〜#〜] もこのリストに参加する価値があると思います。

1
radek

いくつかのオープンソースデータマイニングツールのリストはここにリストされています: http://dataminingtools.net/browse.php

1
Datakid

あなたはデータマイニングツール、wekaを見ることができます

WEKAチュートリアルのチュートリアルとビデオのコレクションへのリンクは次のとおりです: http://www.dataminingtools.net/browsetutorials.php?tag=weka

ビデオ: http://www.dataminingtools.net/videos.php?id=6

0
user277151

ツールと一緒に、PythonとRを学ぶことを強くお勧めします。これらの言語は分析中に大いに役立ちます。また、大きなデータセットは「カスタム分析」できます。独自のカスタムを作成することもできます。 Javascriptを使用したダッシュボード( 多数のチャートおよび視覚化ライブラリ をチェックしてください)

0
sprezzatura