web-dev-qa-db-ja.com

Hadoopの値で単語数を並べ替える方法は?

こんにちは私はhadoopの値でワードカウントをソートする方法を学びたいと思っていました。hadoopがキーをソートする方法を知っていますが、値ではありません。

値を並べ替えるには、partitioner、groupingcomparator、sortcomparatorが必要です。

しかし、これらの概念を一緒に適用して単語数を値で並べ替えるのは少し混乱しています。

同じことを達成するために別のマップリデュースジョブが必要ですか、それとも発生をカウントしてここで並べ替えてレデューサーに同じものを放出するコンバイナーが必要ですか?

ワードカウントの例を値で並べ替える方法を誰かが説明できますか?

12
user1585111

2番目のmapreduceジョブが必要です。合計数(最初のMRジョブが行う)で結論を下さない限り、値(単語の数)で並べ替えることをどのように考えることができますか?論理的に不可能です。

11
Rags

これはセカンダリソートと呼ばれます。詳細については、 this および this を参照してください。

7
Tariq