デフォルトのコーデックとしてsnappyを使用するHadoopクラスター。 Hadoopジョブリデュース出力ファイル名はpart-r-00000.snappy
のようなものです。 JSnappyがファイルの解凍に失敗するbczJSnappyでは、ファイルがSNZで始まる必要があります。どういうわけか、reduce出力ファイルはいくつかのバイト0で始まります。
ファイルを解凍するにはどうすればよいですか?
「Hadoopfs-text」を使用してこのファイルを読み取り、txtファイルにパイプします。例:
hadoop fs -text part-r-00001.snappy> /tmp/mydatafile.txt