clouderaの寄木細工のドキュメントは、pig/Hive/impalaとの統合の例を示しています。しかし、多くの場合、デバッグの目的で寄木細工ファイル自体を読みたいと思います。
寄木細工のファイルを読み取るための簡単なJavaリーダーAPIはありますか?
ありがとうヤン
古い方法:(非推奨)
AvroParquetReader<GenericRecord> reader = new AvroParquetReader<GenericRecord>(file);
GenericRecord nextRecord = reader.read();
新しい方法:
ParquetReader<GenericRecord> reader = AvroParquetReader.<GenericRecord>builder(file).build();
GenericRecord nextRecord = reader.read();
私はこれを here から取得し、テストケースで正常に使用しました。
Parquet-avroライブラリのAvroParquetReader
を使用して、寄せ集めファイルをAVRO GenericRecord
オブジェクトのセットとして読み取ることができます。