「処理」とは、データの複数列の行を操作することを意味します。 Rは、Excel、SPSS、SASなどのツールとどのように競合しますか? Rは「ビッグデータ」(数億から数十億の行)を見るための実行可能なツールですか?そうでない場合、大規模なデータセットの分析に最適な統計プログラミングツールはどれですか?
CRANの ハイパフォーマンスコンピューティングタスクビュー を見ると、Rがハイパフォーマンスの意味で何ができるかがわかります。
原則として、必要なだけのデータを格納できますRAM exception現在、Rが使用するため、ベクトルと行列は2 ^ 31-1要素に制限されています。ベクトルの32ビットインデックス。一般的なベクトル(リストとその派生データフレーム)は2 ^ 31-1コンポーネントに制限されており、これらの各コンポーネントには、vectors/matrix/lists /data.framesなどと同じ制限があります。
もちろん、これらは理論上の制限です。Rのデータで何かをしたい場合、Rは通常、関数などに渡されたデータをコピーするため、少なくとも2、3のコピーを保持するためのスペースが必然的に必要になります。
(RAMではなく)ディスクストレージを許可するための取り組みがあります。ただし、それらでも、Rで使用されている上記の2 ^ 31-1制限にいつでも制限されます。 @Romanの投稿にリンクされているハイパフォーマンスコンピューティングタスクビューの大メモリおよびメモリ不足データセクションを参照してください。
おそらく、「ビッグデータ」への適合性の良い兆候は、RがKaggle.comデータモデリングコンペティションに参加する開発者にとって最適なプラットフォームとして登場したという事実です。 Revolution Analytics Webサイトの 記事 を参照してください-RはSASおよびSPSSを健全なマージンで打ち負かします。Rに欠けているものは、箱から出してすぐに数を処理できるようです。柔軟性を補います。
ウェブ で利用できるものに加えて、ビッグデータに取り組むためにRをホットロッドする方法についてのいくつかの新しい本があります。 Art of R Programming (Matloff 2011; No Starch Press)は、最適化されたRコードの記述、並列計算、およびCと組み合わせたRの使用の概要を提供します。本全体は優れたコードサンプルでよく書かれています。とウォークスルー。 Parallel R (McCallum&Weston 2011; O'Reilly)も良さそうです。
Rとビッグデータセットで私の短編小説を説明します。
RからRDBMSへのコネクタがありました。
このデータのサブセットを収集するクエリを作成しました。
次に、このサブセットを操作します。
Rは、PCのメモリに200kを超える行で窒息していました。
したがって、マシンに適したサブセットで作業することは良いアプローチです。