HiveのCOLLECT_SET（）、重複を保持しますか？

Question

Hiveで収集されたセットに複製を保持する方法、またはHiveが他の方法を使用して提供する集約コレクションの種類をシミュレートする方法はありますか？同じキーを持つ列のすべてのアイテムを、重複して配列に集約します。

I.E .:

hash_id | num_of_cats ===================== ad3jkfk 4 ad3jkfk 4 ad3jkfk 2 fkjh43f 1 fkjh43f 8 fkjh43f 8 rjkhd93 7 rjkhd93 4 rjkhd93 7

返す必要があります：

hash_agg | cats_aggregate =========================== ad3jkfk Array<int>(4,4,2) fkjh43f Array<int>(1,8,8) rjkhd93 Array<int>(7,4,7)

Marvin W · Accepted Answer

Hive 0.13.0以降でCOLLECT_LIST（col）を使用してみてください

SELECT hash_id, COLLECT_LIST(num_of_cats) AS aggr_set FROM tablename WHERE blablabla GROUP BY hash_id ;

Jeff Mc · Answer

組み込みのものはありませんが、集計を含むユーザー定義関数の作成はそれほど悪くありません。唯一の大まかな部分は、それらをジェネリック型にしようとすることですが、ここに収集例があります。

package com.example; import Java.util.ArrayList; import org.Apache.hadoop.Hive.ql.exec.UDFArgumentTypeException; import org.Apache.hadoop.Hive.ql.metadata.HiveException; import org.Apache.hadoop.Hive.ql.parse.SemanticException; import org.Apache.hadoop.Hive.ql.udf.generic.AbstractGenericUDAFResolver; import org.Apache.hadoop.Hive.ql.udf.generic.GenericUDAFEvaluator; import org.Apache.hadoop.Hive.serde2.objectinspector.ObjectInspector; import org.Apache.hadoop.Hive.serde2.objectinspector.ObjectInspectorFactory; import org.Apache.hadoop.Hive.serde2.objectinspector.ObjectInspectorUtils; import org.Apache.hadoop.Hive.serde2.objectinspector.PrimitiveObjectInspector; import org.Apache.hadoop.Hive.serde2.objectinspector.StandardListObjectInspector; import org.Apache.hadoop.Hive.serde2.typeinfo.TypeInfo; public class CollectAll extends AbstractGenericUDAFResolver { @Override public GenericUDAFEvaluator getEvaluator(TypeInfo[] tis) throws SemanticException { if (tis.length != 1) { throw new UDFArgumentTypeException(tis.length - 1, "Exactly one argument is expected."); } if (tis[0].getCategory() != ObjectInspector.Category.PRIMITIVE) { throw new UDFArgumentTypeException(0, "Only primitive type arguments are accepted but " + tis[0].getTypeName() + " was passed as parameter 1."); } return new CollectAllEvaluator(); } public static class CollectAllEvaluator extends GenericUDAFEvaluator { private PrimitiveObjectInspector inputOI; private StandardListObjectInspector loi; private StandardListObjectInspector internalMergeOI; @Override public ObjectInspector init(Mode m, ObjectInspector[] parameters) throws HiveException { super.init(m, parameters); if (m == Mode.PARTIAL1) { inputOI = (PrimitiveObjectInspector) parameters[0]; return ObjectInspectorFactory .getStandardListObjectInspector((PrimitiveObjectInspector) ObjectInspectorUtils .getStandardObjectInspector(inputOI)); } else { if (!(parameters[0] instanceof StandardListObjectInspector)) { inputOI = (PrimitiveObjectInspector) ObjectInspectorUtils .getStandardObjectInspector(parameters[0]); return (StandardListObjectInspector) ObjectInspectorFactory .getStandardListObjectInspector(inputOI); } else { internalMergeOI = (StandardListObjectInspector) parameters[0]; inputOI = (PrimitiveObjectInspector) internalMergeOI.getListElementObjectInspector(); loi = (StandardListObjectInspector) ObjectInspectorUtils.getStandardObjectInspector(internalMergeOI); return loi; } } } static class ArrayAggregationBuffer implements AggregationBuffer { ArrayList<Object> container; } @Override public void reset(AggregationBuffer ab) throws HiveException { ((ArrayAggregationBuffer) ab).container = new ArrayList<Object>(); } @Override public AggregationBuffer getNewAggregationBuffer() throws HiveException { ArrayAggregationBuffer ret = new ArrayAggregationBuffer(); reset(ret); return ret; } @Override public void iterate(AggregationBuffer ab, Object[] parameters) throws HiveException { assert (parameters.length == 1); Object p = parameters[0]; if (p != null) { ArrayAggregationBuffer agg = (ArrayAggregationBuffer) ab; agg.container.add(ObjectInspectorUtils.copyToStandardObject(p, this.inputOI)); } } @Override public Object terminatePartial(AggregationBuffer ab) throws HiveException { ArrayAggregationBuffer agg = (ArrayAggregationBuffer) ab; ArrayList<Object> ret = new ArrayList<Object>(agg.container.size()); ret.addAll(agg.container); return ret; } @Override public void merge(AggregationBuffer ab, Object o) throws HiveException { ArrayAggregationBuffer agg = (ArrayAggregationBuffer) ab; ArrayList<Object> partial = (ArrayList<Object>)internalMergeOI.getList(o); for(Object i : partial) { agg.container.add(ObjectInspectorUtils.copyToStandardObject(i, this.inputOI)); } } @Override public Object terminate(AggregationBuffer ab) throws HiveException { ArrayAggregationBuffer agg = (ArrayAggregationBuffer) ab; ArrayList<Object> ret = new ArrayList<Object>(agg.container.size()); ret.addAll(agg.container); return ret; } } }

次に、Hiveでadd jar Whatever.jar;およびCREATE TEMPORARY FUNCTION collect_all AS 'com.example.CollectAll';を発行するだけで、期待どおりに使用できるはずです。

Hive> SELECT hash_id, collect_all(num_of_cats) FROM test GROUP BY hash_id; OK ad3jkfk [4,4,2] fkjh43f [1,8,8] rjkhd93 [7,4,7]

要素の順序は未定義と見なされるべきであることに注意してください。したがって、これを使用して情報をn_gramsにフィードする場合は、必要に応じてデータを並べ替えるために少し拡張する必要があります。

nephtes · Answer

入力がプリミティブ型でなければならないという制限（おそらくcollect_setから継承される）を削除するために、Jeff Mcのコードを修正しました。このバージョンでは、構造体、マップ、配列、およびプリミティブを収集できます。

package com.example; import Java.util.ArrayList; import org.Apache.hadoop.Hive.ql.exec.UDFArgumentTypeException; import org.Apache.hadoop.Hive.ql.metadata.HiveException; import org.Apache.hadoop.Hive.ql.parse.SemanticException; import org.Apache.hadoop.Hive.ql.udf.generic.AbstractGenericUDAFResolver; import org.Apache.hadoop.Hive.ql.udf.generic.GenericUDAFEvaluator; import org.Apache.hadoop.Hive.serde2.objectinspector.ObjectInspector; import org.Apache.hadoop.Hive.serde2.objectinspector.ObjectInspectorFactory; import org.Apache.hadoop.Hive.serde2.objectinspector.ObjectInspectorUtils; import org.Apache.hadoop.Hive.serde2.objectinspector.StandardListObjectInspector; import org.Apache.hadoop.Hive.serde2.typeinfo.TypeInfo; public class CollectAll extends AbstractGenericUDAFResolver { @Override public GenericUDAFEvaluator getEvaluator(TypeInfo[] tis) throws SemanticException { if (tis.length != 1) { throw new UDFArgumentTypeException(tis.length - 1, "Exactly one argument is expected."); } return new CollectAllEvaluator(); } public static class CollectAllEvaluator extends GenericUDAFEvaluator { private ObjectInspector inputOI; private StandardListObjectInspector loi; private StandardListObjectInspector internalMergeOI; @Override public ObjectInspector init(Mode m, ObjectInspector[] parameters) throws HiveException { super.init(m, parameters); if (m == Mode.PARTIAL1) { inputOI = parameters[0]; return ObjectInspectorFactory .getStandardListObjectInspector(ObjectInspectorUtils .getStandardObjectInspector(inputOI)); } else { if (!(parameters[0] instanceof StandardListObjectInspector)) { inputOI = ObjectInspectorUtils .getStandardObjectInspector(parameters[0]); return (StandardListObjectInspector) ObjectInspectorFactory .getStandardListObjectInspector(inputOI); } else { internalMergeOI = (StandardListObjectInspector) parameters[0]; inputOI = internalMergeOI.getListElementObjectInspector(); loi = (StandardListObjectInspector) ObjectInspectorUtils.getStandardObjectInspector(internalMergeOI); return loi; } } } static class ArrayAggregationBuffer implements AggregationBuffer { ArrayList<Object> container; } @Override public void reset(AggregationBuffer ab) throws HiveException { ((ArrayAggregationBuffer) ab).container = new ArrayList<Object>(); } @Override public AggregationBuffer getNewAggregationBuffer() throws HiveException { ArrayAggregationBuffer ret = new ArrayAggregationBuffer(); reset(ret); return ret; } @Override public void iterate(AggregationBuffer ab, Object[] parameters) throws HiveException { assert (parameters.length == 1); Object p = parameters[0]; if (p != null) { ArrayAggregationBuffer agg = (ArrayAggregationBuffer) ab; agg.container.add(ObjectInspectorUtils.copyToStandardObject(p, this.inputOI)); } } @Override public Object terminatePartial(AggregationBuffer ab) throws HiveException { ArrayAggregationBuffer agg = (ArrayAggregationBuffer) ab; ArrayList<Object> ret = new ArrayList<Object>(agg.container.size()); ret.addAll(agg.container); return ret; } @Override public void merge(AggregationBuffer ab, Object o) throws HiveException { ArrayAggregationBuffer agg = (ArrayAggregationBuffer) ab; ArrayList<Object> partial = (ArrayList<Object>)internalMergeOI.getList(o); for(Object i : partial) { agg.container.add(ObjectInspectorUtils.copyToStandardObject(i, this.inputOI)); } } @Override public Object terminate(AggregationBuffer ab) throws HiveException { ArrayAggregationBuffer agg = (ArrayAggregationBuffer) ab; ArrayList<Object> ret = new ArrayList<Object>(agg.container.size()); ret.addAll(agg.container); return ret; } } }

jlemaitre · Answer

Hive 0.13では、これを実現するcollect_list()と呼ばれる組み込みUDAFがあります。 here を参照してください。

Jerome Banks · Answer

Brickhouse collect UDAFを確認してください（ http://github.com/klout/brickhouse/blob/master/src/main/Java/brickhouse/udf/collect/CollectUDAF.Java ）

また、マップへの収集もサポートしています。 Brickhouseには、標準のHiveディストリビューションにはない多くの便利なUDFも含まれています。

Jai Prakash · Answer

このジョブを実行する正確なHiveクエリを次に示します（Hive> 0.13でのみ機能します）。

SELECT hash_id、collect_set（num_of_cats）FROM GROUP BY hash_id;

mgokayla · Answer

価値のあることについて（これは古い投稿であることは知っていますが）、 Hive 0.13. は新しいcollect_list（）を特徴としています重複排除しない機能。

Nikhil · Answer

構造体を収集するための回避策

テーブルがあるとします

tableWithStruct( id string, obj struct <a:string,b:string>)

今、別のテーブルを作成します

CREATE EXTERNAL TABLE tablename ( id string, temp array<string> ) ROW FORMAT DELIMITED FIELDS TERMINATED BY '	' COLLECTION ITEMS TERMINATED BY ',' MAP KEYS TERMINATED BY '|'

クエリを挿入

insert into table tablename select id,collect(concat_ws('|',cast(obj.a as string),cast(obj.b as string)) from tableWithStruct group by id;

tablenameと同じ場所に別のテーブルを作成します

CREATE EXTERNAL TABLE tablename_final ( id string, array_list array<struct<a:string,b:string>> ) ROW FORMAT DELIMITED FIELDS TERMINATED BY '	' COLLECTION ITEMS TERMINATED BY ',' MAP KEYS TERMINATED BY '|'

tablename_finalから選択すると、目的の出力が得られます