説明 A Javaテキストファイルを読み取り、テキスト内の単語の出現回数とともにアルファベット順で各一意の単語を印刷するプログラム。
プログラムは、_Map<String, Integer>
_型の変数を宣言して、単語と対応する出現頻度を保存する必要があります。しかし、どの具体的なタイプですか? _TreeMap<String, Number>
_または_HashMap<String, Number>
_?
入力は小文字に変換する必要があります。
Wordには次の文字は含まれません:\t\t\n]f.,!?:;\"()'
出力例
_ Word Frequency
a 1
and 5
appearances 1
as 1
.
.
.
_
備考知っている、私は約2行のコードでPerlでこれに対するエレガントなソリューションを見てきました。ただし、Javaで見たいです。
編集:そうそう、これらの構造の1つ(Java)を使用した実装を示すと便利です。
TreeMap は、私にとって簡単なように思えます-「アルファベット順」の要件のためです。 HashMapを反復処理するとき、順序はありません。 TreeMapは、自然なキーの順序で繰り返します。
編集:Konradのコメントは、「HashMapを使用してから並べ替える」ことを示唆していたと思います。最初はN回の反復がありますが、重複のためにK <= N個のキーが最後まであるため、これは良いことです。同様に、キーが少なくなったときに最後まで、高価なビット(ソート)を保存することもできます。
そうは言っても、私は今のところ私の答えにこだわっています。なぜなら、それは目標を達成するための最も単純な方法だからです。 OPがパフォーマンスを特に心配していることはあまりわかりませんが、質問は彼が優雅さと簡潔さを心配していることを意味します。 TreeMapを使用すると、これが非常に簡単になります。パフォーマンスが本当に問題である場合、TreeMapまたはHashMapのいずれかよりも、それを攻撃するより良い方法があるかもしれないと思う:)
TreeMapはすでにソートされているため、TreeMapはHashMapに勝ります。
ただし、より適切なデータ構造であるバッグの使用を検討することもできます。 Commons Collections -および TreeBag クラスを参照してください:
これには、内部構造とAPIが最適化されています。
bag.add("big")
bag.add("small")
bag.add("big")
int count = bag.getCount("big")
編集:HashMapとTreeMapのパフォーマンスの問題はJonによって回答されました-HashMapとソートはより速くなるかもしれません(試してみてください!)が、TreeBagは簡単です。バッグにも同じことが言えます。 HashBagとTreeBagがあります。実装に基づいて(可変整数を使用)、バッグはIntegerの同等のプレーンマップよりも優れている必要があります。確実に知る唯一の方法は、パフォーマンスに関する質問と同様にテストすることです。
「TreeMapルックアップにはO(n log n)
が必要」と言っている人がかなりいます!!どうして?
どのように実装されているのかわかりませんが、私の頭の中ではO(log n)
が必要です。
これは、ツリー内のルックアップがO(log n)
で実行できるためです。アイテムを挿入するたびにツリー全体をソートするわけではありません。これがツリーを使用するという考え方です。
したがって、元の質問に戻ると、比較用の数字は次のようになります。
HashMapアプローチ:O(n + k log k)
平均ケース、最悪ケースははるかに大きくなる可能性があります
TreeMapアプローチ:O(k + n log k)
最悪の場合
ここで、n =テキスト内の単語数、k =テキスト内の個別の単語数。
ハッシュマップはもっと速くなるはずです。最終的にアイテムの配置方法に基づいてコンテナを選択しないでください。最後に(単語、頻度)ペアのリストを並べ替えるだけです。通常、ファイル内の単語よりもソートされるペアが少ないため、ハッシュマップを使用した漸近(および実際の)パフォーマンスが向上します。
「キーが既に存在する場合、HashMapと同じパフォーマンスがあります。」 -それは単純に間違っています。 HashMapにはO(1)挿入とTreeMap O(n log n)があります。テーブル内にあるかどうかを調べるには、少なくともn log nのチェックが必要です。
TreeMap<String,Number>
型の変数にMap<String,Integer>
を割り当てることはできません。 Double
、Long
などは、TreeMap<String,Number>
に「入れる」ことができます。 Map<String,Integer>
から値を「取得」するときは、Integer
でなければなりません。
国際化の問題、メモリの制約、エラー処理を完全に無視します。
class Counter {
public static void main(String... argv)
throws Exception
{
FileChannel fc = new FileInputStream(argv[0]).getChannel();
ByteBuffer bb = fc.map(FileChannel.MapMode.READ_ONLY, 0, fc.size());
CharBuffer cb = Charset.defaultCharset().decode(bb);
Pattern p = Pattern.compile("[^ \t\r\n\f.,!?:;\"()']+");
Map<String, Integer> counts = new TreeMap<String, Integer>();
Matcher m = p.matcher(cb);
while (m.find()) {
String Word = m.group();
Integer count = counts.get(Word);
count = (count == null) ? 1 : count + 1;
counts.put(Word, count);
}
fc.close();
for (Map.Entry<String, Integer> e : counts.entrySet()) {
System.out.printf("%s: %d%n", e.getKey(), e.getValue());
}
}
}
import Java.io.BufferedReader;
import Java.io.DataInputStream;
import Java.io.FileInputStream;
import Java.io.FileNotFoundException;
import Java.io.IOException;
import Java.io.InputStreamReader;
import Java.io.ObjectInputStream.GetField;
import Java.util.Iterator;
import Java.util.Map;
import Java.util.StringTokenizer;
import Java.util.TreeMap;
public class TreeMapExample {
public static void main (String args[]){
Map<String,Integer> tm = new TreeMap<String,Integer>();
try {
FileInputStream fis = new FileInputStream("Test.txt");
DataInputStream in = new DataInputStream(fis);
BufferedReader br = new BufferedReader(new InputStreamReader(in));
String line;
int countValue = 1;
while((line = br.readLine())!= null ){
line = line.replaceAll("[-+.^:;,()\"\\[\\]]","");
StringTokenizer st = new StringTokenizer(line, " ");
while(st.hasMoreTokens()){
String nextElement = (String) st.nextElement();
if(tm.size()>0 && tm.containsKey(nextElement)){
int val = 0;
if(tm.get(nextElement)!= null){
val = (Integer) tm.get(nextElement);
val = val+1;
}
tm.put(nextElement, val);
}else{
tm.put(nextElement, 1);
}
}
}
for(Map.Entry<String,Integer> entry : tm.entrySet()) {
System.out.println(entry.getKey() + " : " + entry.getValue());
}
} catch (FileNotFoundException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
このように、私の意見では、 HashBag from Apache Commons Collections または HashMultiset from Guava または- HashBag from Eclipse Collections (以前の GS Collections )または以下のクラス:
Order | Guava | Apache | Eclipse(GS) | JDK analog
─────────────┼──────────────────┼───────────┼─────────────┼─────────────
Not define | HashMultiset | HashBag | HashBag | HashMap<String, Integer>
─────────────┼──────────────────┼───────────┼─────────────┼─────────────
Sorted | TreeMultiset | TreeBag | TreeBag | TreeMap<String, Integer>
─────────────┼──────────────────┼───────────┼─────────────┼─────────────
Linked |LinkedHashMultiset| - | - | LinkedHashMap<String, Integere>
─────────────┼──────────────────┼───────────┼─────────────┼─────────────
Concurrent & | ConcurrentHash- |Synchroniz-|Synchroniz- | Collections.synchronizedMap(
not define | Multiset | edBag | edBag | HashMap<String, Integer>)
─────────────┼──────────────────┼───────────┼─────────────┼─────────────
Concurrent | - |Synchroniz-|Synchroniz- | Collections.synchronizedSorted-
and sorted | |edSortedBag| edSortedBag | Map(TreeMap<>))
─────────────┼──────────────────┼───────────┼─────────────┼─────────────
Immutable and| ImmutableMultiset|Unmodifiab-|Unmodifiab- | Collections.unmodifiableMap(
not define | | leBag | leBag | HashMap<String, Integer>)
─────────────┼──────────────────┼───────────┼─────────────┼─────────────
Immutable and| ImmutableSorted- |Unmodifiab-|Unmodifiab- | Collections.unmodifiableSorted-
sorted | Multiset |leSortedBag| leSortedBag | Map(TreeMap<String, Integer>))
────────────────────────────────────────────────────────────────────────
例:
// Parse text to separate words
String INPUT_TEXT = "Hello World! Hello All! Hi World!";
// Create Multiset
Bag bag = SynchronizedSortedBag.synchronizedBag(new TreeBag(Arrays.asList(INPUT_TEXT.split(" "))));
// Print count words
System.out.println(bag); // print [1:All!,2:Hello,1:Hi,2:World!]- in natural (alphabet) order
// Print all unique words
System.out.println(bag.uniqueSet()); // print [All!, Hello, Hi, World!]- in natural (alphabet) order
// Print count occurrences of words
System.out.println("Hello = " + bag.getCount("Hello")); // print 2
System.out.println("World = " + bag.getCount("World!")); // print 2
System.out.println("All = " + bag.getCount("All!")); // print 1
System.out.println("Hi = " + bag.getCount("Hi")); // print 1
System.out.println("Empty = " + bag.getCount("Empty")); // print 0
// Print count all words
System.out.println(bag.size()); //print 6
// Print count unique words
System.out.println(bag.uniqueSet().size()); //print 4
// Parse text to separate words
String INPUT_TEXT = "Hello World! Hello All! Hi World!";
// Create Multiset
MutableSortedBag<String> bag = TreeBag.newBag(Arrays.asList(INPUT_TEXT.split(" ")));
// Print count words
System.out.println(bag); // print [All!, Hello, Hello, Hi, World!, World!]- in natural order
// Print all unique words
System.out.println(bag.toSortedSet()); // print [All!, Hello, Hi, World!]- in natural order
// Print count occurrences of words
System.out.println("Hello = " + bag.occurrencesOf("Hello")); // print 2
System.out.println("World = " + bag.occurrencesOf("World!")); // print 2
System.out.println("All = " + bag.occurrencesOf("All!")); // print 1
System.out.println("Hi = " + bag.occurrencesOf("Hi")); // print 1
System.out.println("Empty = " + bag.occurrencesOf("Empty")); // print 0
// Print count all words
System.out.println(bag.size()); //print 6
// Print count unique words
System.out.println(bag.toSet().size()); //print 4
// Parse text to separate words
String INPUT_TEXT = "Hello World! Hello All! Hi World!";
// Create Multiset
Multiset<String> multiset = LinkedHashMultiset.create(Arrays.asList(INPUT_TEXT.split(" ")));
// Print count words
System.out.println(multiset); // print [Hello x 2, World! x 2, All!, Hi]- in predictable iteration order
// Print all unique words
System.out.println(multiset.elementSet()); // print [Hello, World!, All!, Hi] - in predictable iteration order
// Print count occurrences of words
System.out.println("Hello = " + multiset.count("Hello")); // print 2
System.out.println("World = " + multiset.count("World!")); // print 2
System.out.println("All = " + multiset.count("All!")); // print 1
System.out.println("Hi = " + multiset.count("Hi")); // print 1
System.out.println("Empty = " + multiset.count("Empty")); // print 0
// Print count all words
System.out.println(multiset.size()); //print 6
// Print count unique words
System.out.println(multiset.elementSet().size()); //print 4
私は間違いなくTreeMapを選択します:
TreeSetは内部的にTreeMapを使用するため、TreeMapを直接使用しないのはなぜですか。
速度の要件に応じて、 Trie を使用することもできます。しかし、TreeMapが十分に速い場合、それらの1つを実装する意味はありません。
データ構造への追加または削除の頻度を考慮してください。 TreeMapは、高い場合には理想的ではありません。既存のエントリnLnの検索とは別に、頻繁にリバランスが行われます。
一方、ハッシュ構造はメモリ上で少々派手です(過剰割り当て)。その弾丸を噛むことができれば、ハッシュ構造に進み、必要に応じてソートします。
Javaテキストファイルを読み取り、キーに基づいてソートし、次に値に基づいてソートする例。ファイル内の単語の出現回数に応じて)。
public class SortFileWords {
public static void main(String[] args) {
HashMap<String, Integer> map = new HashMap<String, Integer>();
ValueCompare vc = new ValueCompare(map);
TreeMap<String, Integer> sorted_map = new TreeMap<String, Integer>(map);
List<String> list = new ArrayList<>();
Scanner sc;
try {
sc = new Scanner(new File("c:\\ReadMe1.txt"));
while (sc.hasNext()) {
list.add(sc.next());
}
sc.close();
} catch (FileNotFoundException e) {
e.printStackTrace();
}
for (String s : list) {
if (map.containsKey(s)) {
map.put(s, map.get(s) + 1);
} else
map.put(s, 1);
}
System.out.println("Unsorted map: " + map);
sorted_map.putAll(map);
System.out.println("Sorted map on keys: " + sorted_map);
TreeMap<String, Integer> sorted_value_map = new TreeMap<>(vc);
sorted_value_map.putAll(map);
System.out.println("Sorted map on values: " + sorted_value_map);
}
}
class ValueCompare implements Comparator<String> {
Map<String, Integer> map;
public ValueCompare(Map<String, Integer> map) {
this.map = map;
}
@Override
public int compare(String s1, String s2) {
if (map.get(s1) >= map.get(s2))
return -1;
else
return 1;
}
}