Hiveで収集されたセットに複製を保持する方法、またはHiveが他の方法を使用して提供する集約コレクションの種類をシミュレートする方法はありますか?同じキーを持つ列のすべてのアイテムを、重複して配列に集約します。
I.E .:
hash_id | num_of_cats
=====================
ad3jkfk 4
ad3jkfk 4
ad3jkfk 2
fkjh43f 1
fkjh43f 8
fkjh43f 8
rjkhd93 7
rjkhd93 4
rjkhd93 7
返す必要があります:
hash_agg | cats_aggregate
===========================
ad3jkfk Array<int>(4,4,2)
fkjh43f Array<int>(1,8,8)
rjkhd93 Array<int>(7,4,7)
Hive 0.13.0以降でCOLLECT_LIST(col)を使用してみてください
SELECT
hash_id, COLLECT_LIST(num_of_cats) AS aggr_set
FROM
tablename
WHERE
blablabla
GROUP BY
hash_id
;
組み込みのものはありませんが、集計を含むユーザー定義関数の作成はそれほど悪くありません。唯一の大まかな部分は、それらをジェネリック型にしようとすることですが、ここに収集例があります。
package com.example;
import Java.util.ArrayList;
import org.Apache.hadoop.Hive.ql.exec.UDFArgumentTypeException;
import org.Apache.hadoop.Hive.ql.metadata.HiveException;
import org.Apache.hadoop.Hive.ql.parse.SemanticException;
import org.Apache.hadoop.Hive.ql.udf.generic.AbstractGenericUDAFResolver;
import org.Apache.hadoop.Hive.ql.udf.generic.GenericUDAFEvaluator;
import org.Apache.hadoop.Hive.serde2.objectinspector.ObjectInspector;
import org.Apache.hadoop.Hive.serde2.objectinspector.ObjectInspectorFactory;
import org.Apache.hadoop.Hive.serde2.objectinspector.ObjectInspectorUtils;
import org.Apache.hadoop.Hive.serde2.objectinspector.PrimitiveObjectInspector;
import org.Apache.hadoop.Hive.serde2.objectinspector.StandardListObjectInspector;
import org.Apache.hadoop.Hive.serde2.typeinfo.TypeInfo;
public class CollectAll extends AbstractGenericUDAFResolver
{
@Override
public GenericUDAFEvaluator getEvaluator(TypeInfo[] tis)
throws SemanticException
{
if (tis.length != 1)
{
throw new UDFArgumentTypeException(tis.length - 1, "Exactly one argument is expected.");
}
if (tis[0].getCategory() != ObjectInspector.Category.PRIMITIVE)
{
throw new UDFArgumentTypeException(0, "Only primitive type arguments are accepted but " + tis[0].getTypeName() + " was passed as parameter 1.");
}
return new CollectAllEvaluator();
}
public static class CollectAllEvaluator extends GenericUDAFEvaluator
{
private PrimitiveObjectInspector inputOI;
private StandardListObjectInspector loi;
private StandardListObjectInspector internalMergeOI;
@Override
public ObjectInspector init(Mode m, ObjectInspector[] parameters)
throws HiveException
{
super.init(m, parameters);
if (m == Mode.PARTIAL1)
{
inputOI = (PrimitiveObjectInspector) parameters[0];
return ObjectInspectorFactory
.getStandardListObjectInspector((PrimitiveObjectInspector) ObjectInspectorUtils
.getStandardObjectInspector(inputOI));
}
else
{
if (!(parameters[0] instanceof StandardListObjectInspector))
{
inputOI = (PrimitiveObjectInspector) ObjectInspectorUtils
.getStandardObjectInspector(parameters[0]);
return (StandardListObjectInspector) ObjectInspectorFactory
.getStandardListObjectInspector(inputOI);
}
else
{
internalMergeOI = (StandardListObjectInspector) parameters[0];
inputOI = (PrimitiveObjectInspector) internalMergeOI.getListElementObjectInspector();
loi = (StandardListObjectInspector) ObjectInspectorUtils.getStandardObjectInspector(internalMergeOI);
return loi;
}
}
}
static class ArrayAggregationBuffer implements AggregationBuffer
{
ArrayList<Object> container;
}
@Override
public void reset(AggregationBuffer ab)
throws HiveException
{
((ArrayAggregationBuffer) ab).container = new ArrayList<Object>();
}
@Override
public AggregationBuffer getNewAggregationBuffer()
throws HiveException
{
ArrayAggregationBuffer ret = new ArrayAggregationBuffer();
reset(ret);
return ret;
}
@Override
public void iterate(AggregationBuffer ab, Object[] parameters)
throws HiveException
{
assert (parameters.length == 1);
Object p = parameters[0];
if (p != null)
{
ArrayAggregationBuffer agg = (ArrayAggregationBuffer) ab;
agg.container.add(ObjectInspectorUtils.copyToStandardObject(p, this.inputOI));
}
}
@Override
public Object terminatePartial(AggregationBuffer ab)
throws HiveException
{
ArrayAggregationBuffer agg = (ArrayAggregationBuffer) ab;
ArrayList<Object> ret = new ArrayList<Object>(agg.container.size());
ret.addAll(agg.container);
return ret;
}
@Override
public void merge(AggregationBuffer ab, Object o)
throws HiveException
{
ArrayAggregationBuffer agg = (ArrayAggregationBuffer) ab;
ArrayList<Object> partial = (ArrayList<Object>)internalMergeOI.getList(o);
for(Object i : partial)
{
agg.container.add(ObjectInspectorUtils.copyToStandardObject(i, this.inputOI));
}
}
@Override
public Object terminate(AggregationBuffer ab)
throws HiveException
{
ArrayAggregationBuffer agg = (ArrayAggregationBuffer) ab;
ArrayList<Object> ret = new ArrayList<Object>(agg.container.size());
ret.addAll(agg.container);
return ret;
}
}
}
次に、Hiveでadd jar Whatever.jar;
およびCREATE TEMPORARY FUNCTION collect_all AS 'com.example.CollectAll';
を発行するだけで、期待どおりに使用できるはずです。
Hive> SELECT hash_id, collect_all(num_of_cats) FROM test GROUP BY hash_id;
OK
ad3jkfk [4,4,2]
fkjh43f [1,8,8]
rjkhd93 [7,4,7]
要素の順序は未定義と見なされるべきであることに注意してください。したがって、これを使用して情報をn_gramsにフィードする場合は、必要に応じてデータを並べ替えるために少し拡張する必要があります。
入力がプリミティブ型でなければならないという制限(おそらくcollect_setから継承される)を削除するために、Jeff Mcのコードを修正しました。このバージョンでは、構造体、マップ、配列、およびプリミティブを収集できます。
package com.example;
import Java.util.ArrayList;
import org.Apache.hadoop.Hive.ql.exec.UDFArgumentTypeException;
import org.Apache.hadoop.Hive.ql.metadata.HiveException;
import org.Apache.hadoop.Hive.ql.parse.SemanticException;
import org.Apache.hadoop.Hive.ql.udf.generic.AbstractGenericUDAFResolver;
import org.Apache.hadoop.Hive.ql.udf.generic.GenericUDAFEvaluator;
import org.Apache.hadoop.Hive.serde2.objectinspector.ObjectInspector;
import org.Apache.hadoop.Hive.serde2.objectinspector.ObjectInspectorFactory;
import org.Apache.hadoop.Hive.serde2.objectinspector.ObjectInspectorUtils;
import org.Apache.hadoop.Hive.serde2.objectinspector.StandardListObjectInspector;
import org.Apache.hadoop.Hive.serde2.typeinfo.TypeInfo;
public class CollectAll extends AbstractGenericUDAFResolver
{
@Override
public GenericUDAFEvaluator getEvaluator(TypeInfo[] tis)
throws SemanticException
{
if (tis.length != 1)
{
throw new UDFArgumentTypeException(tis.length - 1, "Exactly one argument is expected.");
}
return new CollectAllEvaluator();
}
public static class CollectAllEvaluator extends GenericUDAFEvaluator
{
private ObjectInspector inputOI;
private StandardListObjectInspector loi;
private StandardListObjectInspector internalMergeOI;
@Override
public ObjectInspector init(Mode m, ObjectInspector[] parameters)
throws HiveException
{
super.init(m, parameters);
if (m == Mode.PARTIAL1)
{
inputOI = parameters[0];
return ObjectInspectorFactory
.getStandardListObjectInspector(ObjectInspectorUtils
.getStandardObjectInspector(inputOI));
}
else
{
if (!(parameters[0] instanceof StandardListObjectInspector))
{
inputOI = ObjectInspectorUtils
.getStandardObjectInspector(parameters[0]);
return (StandardListObjectInspector) ObjectInspectorFactory
.getStandardListObjectInspector(inputOI);
}
else
{
internalMergeOI = (StandardListObjectInspector) parameters[0];
inputOI = internalMergeOI.getListElementObjectInspector();
loi = (StandardListObjectInspector) ObjectInspectorUtils.getStandardObjectInspector(internalMergeOI);
return loi;
}
}
}
static class ArrayAggregationBuffer implements AggregationBuffer
{
ArrayList<Object> container;
}
@Override
public void reset(AggregationBuffer ab)
throws HiveException
{
((ArrayAggregationBuffer) ab).container = new ArrayList<Object>();
}
@Override
public AggregationBuffer getNewAggregationBuffer()
throws HiveException
{
ArrayAggregationBuffer ret = new ArrayAggregationBuffer();
reset(ret);
return ret;
}
@Override
public void iterate(AggregationBuffer ab, Object[] parameters)
throws HiveException
{
assert (parameters.length == 1);
Object p = parameters[0];
if (p != null)
{
ArrayAggregationBuffer agg = (ArrayAggregationBuffer) ab;
agg.container.add(ObjectInspectorUtils.copyToStandardObject(p, this.inputOI));
}
}
@Override
public Object terminatePartial(AggregationBuffer ab)
throws HiveException
{
ArrayAggregationBuffer agg = (ArrayAggregationBuffer) ab;
ArrayList<Object> ret = new ArrayList<Object>(agg.container.size());
ret.addAll(agg.container);
return ret;
}
@Override
public void merge(AggregationBuffer ab, Object o)
throws HiveException
{
ArrayAggregationBuffer agg = (ArrayAggregationBuffer) ab;
ArrayList<Object> partial = (ArrayList<Object>)internalMergeOI.getList(o);
for(Object i : partial)
{
agg.container.add(ObjectInspectorUtils.copyToStandardObject(i, this.inputOI));
}
}
@Override
public Object terminate(AggregationBuffer ab)
throws HiveException
{
ArrayAggregationBuffer agg = (ArrayAggregationBuffer) ab;
ArrayList<Object> ret = new ArrayList<Object>(agg.container.size());
ret.addAll(agg.container);
return ret;
}
}
}
Hive 0.13では、これを実現するcollect_list()
と呼ばれる組み込みUDAFがあります。 here を参照してください。
Brickhouse collect UDAFを確認してください( http://github.com/klout/brickhouse/blob/master/src/main/Java/brickhouse/udf/collect/CollectUDAF.Java )
また、マップへの収集もサポートしています。 Brickhouseには、標準のHiveディストリビューションにはない多くの便利なUDFも含まれています。
このジョブを実行する正確なHiveクエリを次に示します(Hive> 0.13でのみ機能します)。
SELECT hash_id、collect_set(num_of_cats)FROM GROUP BY hash_id;
価値のあることについて(これは古い投稿であることは知っていますが)、 Hive 0.13. は新しいcollect_list()を特徴としています重複排除しない機能。
構造体を収集するための回避策
テーブルがあるとします
tableWithStruct(
id string,
obj struct <a:string,b:string>)
今、別のテーブルを作成します
CREATE EXTERNAL TABLE tablename (
id string,
temp array<string>
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t' COLLECTION ITEMS TERMINATED BY ',' MAP KEYS TERMINATED BY '|'
クエリを挿入
insert into table tablename select id,collect(concat_ws('|',cast(obj.a as string),cast(obj.b as string)) from tableWithStruct group by id;
tablenameと同じ場所に別のテーブルを作成します
CREATE EXTERNAL TABLE tablename_final (
id string,
array_list array<struct<a:string,b:string>>
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t' COLLECTION ITEMS TERMINATED BY ',' MAP KEYS TERMINATED BY '|'
tablename_finalから選択すると、目的の出力が得られます