Rのdata.framesが本当に好きですデータからサブセットを抽出するには、...
同じ機能を備えたJavaライブラリはありますか?私は、マトリックスのような方法で異なるタイプのデータを保存し、データのサブセットを抽出できることに主に興味があります。
Javaで2次元配列を使用すると、同様の構造を提供できますが、列を追加してから上位kレコードを抽出することははるかに困難です。
Paleo 、Java 8の最初のドラフトバージョンをオープンソース化しました。これは、型指定された列(プリミティブ値のサポートを含む)に基づいてデータフレームを提供します。プログラムで(簡単なビルダーAPIを使用して)作成するか、テキストファイルからインポートできます。
詳細については [〜#〜] readme [〜#〜] を参照してください。
プロジェクトはまだ生まれてから濡れています。私はフィードバック/ PR、tiaに非常に興味があります!
Tablesaw( https://github.com/jtablesaw/tablesaw )はJavaデータフレームは2015年に開始され、現在開発中(2018)です。使いやすさを犠牲にすることなく可能な限りスケーラブルな機能には、行と列によるフィルタリング、記述統計、map/reduce関数、クロスタブ、プロット、機械学習が含まれます。Apacheライセンス。
1つのクエリテストで、2ミリ秒で20億のレコードテーブルから500以上のレコードを返しました。
貢献、機能のリクエスト、フィードバックを歓迎します。
また、最近Javaで作業しているときにデータフレーム構造が必要になりました。幸いなことに、非常に基本的な実装を作成した後、オープンソースとしてリリースする承認を得ることができました。ここでの実装: Joinery-Javaのデータフレーム 。貢献と機能のリクエストは大歓迎です。
Morpheus( http://www.zavtech.com/morpheus/docs/ )は、Rに類似したDataFrameを提供します。これは、データのソート、スライス、グループ化され、行ディメンションまたは列ディメンションのいずれかに集約されます。また、Fork&Joinフレームワークを内部で使用するこれらの操作の多くの並列処理もサポートしています。
CSVファイル、データベース、独自のJSON形式のデータを簡単に読み書きできます。 Quandl、Google Financeなどからデータをロードするアダプターも利用できます。
さまざまなスタイルの線形回帰、主成分分析、線形代数、その他のタイプの分析サポートのサポートが組み込まれています。機能セットはまだ成長していますが、すでに非常に有能なフレームワークです。