web-dev-qa-db-ja.com

ビッグデータ分析を始める方法

私は長い間Rを使用しており、最近Pythonでの作業を開始しました。データウェアハウジングに従来のRDBMSシステムを使用し、数値処理にR/Pythonを使用している今、ビッグデータ分析に手を染める必要性を感じています。

ビッグデータ処理を始める方法を知りたいのですが。 -Map/ReduceとHadoopの使用を簡単に開始する方法

  • RおよびPythonでビッグデータ分析を開始するには、どうすればよいですか。Pythonディスコプロジェクトなどを使用します。
  • RHIPEパッケージを使用して、おもちゃのデータセットと問題領域を見つけます。
  • RDBMSタイプのデータベースからNoSQLに移行する必要があるかどうかを判断できる適切な情報を見つける

全体として、小さなデータから始めて、ビッグデータ分析のスキルとノウハウを徐々に積み上げる方法を知りたいのです。

提案や提案をありがとうございます。このクエリの一般的な性質をお詫び申し上げますが、このトピックについてより多くの見方を得たいと思っています。

  • 厳しい
41
harshsinghal

Python Discoプロジェクトなどを使用します。

良い。それで遊んでください。

RHIPEパッケージを使用して、おもちゃのデータセットと問題領域を見つけます。

いいね。それも遊んでください。

「大きな」データセットを見つけるのに迷惑をかけないでください。小さなデータセットでさえ、非常に興味深い問題があります。実際、どのデータセットも出発点です。

私はかつて、組織の6,000万ドルの予算を分析するために小さなスタースキーマを作成しました。ソースデータはスプレッドシートにあり、本質的に理解できませんでした。そこで、それをスタースキーマにアンロードし、いくつかの分析プログラムをPythonで作成して、関連する数値の簡略化されたレポートを作成しました。

RDBMSタイプのデータベースからNoSQLに移行する必要があるかどうかを判断できる適切な情報を見つける

これは簡単。

まず、たとえばデータウェアハウジングに関する本(Ralph KimballのThe Data Warehouse Toolkit)を入手してください。

次に、「スタースキーマ」を注意深く調べます。特に、キンボールが説明するすべてのバリアントと特殊なケースを(詳しく)

3番目に、次のことを理解します。SQLは更新とトランザクション用です。

「分析」処理(大小を問わず)を行う場合、更新はほとんどありません。 SQL(および関連する正規化)は、それほど重要ではありません。

キンボールのポイント(そして他の人も)は、データウェアハウスのほとんどがSQLではなく、単純なフラットファイルにあるということです。 SQLによる簡単で柔軟な処理を可能にするために、データマート(アドホック、スライスアンドダイス分析用)がリレーショナルデータベースにある場合があります。

したがって、「決定」は簡単です。トランザクション( "OLTP")の場合は、リレーショナルまたはOO DB。である必要があります。分析( "OLAP")の場合は、スライスアンドダイス分析以外のSQLは必要ありません。それでもDBは必要に応じて公式ファイルからロードされます。

29
S.Lott

考慮できる1つのことは、DMelt( http://jwork.org/dmelt/ )データ分析プログラムです。注目すべき機能の1つは、Python言語を使用した数百の例と数冊の本があることです。私がそれを使用した理由は、それが私のWindows 10で実行されるためです(Java VMを使用するため)。さらに、ベクターグラフィックス形式にエクスポートできる2D/3Dの非常に優れたグラフィックスを持っています。

1
Elia