標準入力を解析して、特定のパターンに一致するすべての文字列を抽出し、各一致の発生数をカウントして、結果をアルファベット順に出力しようとしています。この問題はStreams APIに適しているようですが、Matcherから一致のストリームを作成する簡単な方法が見つかりません。
マッチに対してイテレータを実装し、それをストリームにラップすることでこの問題を回避しましたが、結果はあまり読みやすくありません。追加のクラスを導入せずに正規表現一致のストリームを作成するにはどうすればよいですか?
public class PatternCounter
{
static private class MatcherIterator implements Iterator<String> {
private final Matcher matcher;
public MatcherIterator(Matcher matcher) {
this.matcher = matcher;
}
public boolean hasNext() {
return matcher.find();
}
public String next() {
return matcher.group(0);
}
}
static public void main(String[] args) throws Throwable {
Pattern pattern = Pattern.compile("[a-zA-Z0-9.!#$%&’*+/=?^_`{|}~-]+@[a-zA-Z0-9-]+(?:\\.[a-zA-Z0-9-]+)");
new TreeMap<String, Long>(new BufferedReader(new InputStreamReader(System.in))
.lines().map(line -> {
Matcher matcher = pattern.matcher(line);
return StreamSupport.stream(
Spliterators.spliteratorUnknownSize(new MatcherIterator(matcher), Spliterator.ORDERED), false);
}).reduce(Stream.empty(), Stream::concat).collect(groupingBy(o -> o, counting()))
).forEach((k, v) -> {
System.out.printf("%s\t%s\n",k,v);
});
}
}
Java 8には _Pattern.splitAsStream
_ があり、delimiterパターンで分割されたアイテムのストリームを提供しますmatchesのストリームを取得するためのサポートメソッドはありません。
そのようなStream
を実装する場合は、Spliterator
を実装してラップするのではなく、Iterator
を直接実装することをお勧めします。あなたはIterator
に慣れているかもしれませんが、単純なSpliterator
の実装は簡単です:
_final class MatchItr extends Spliterators.AbstractSpliterator<String> {
private final Matcher matcher;
MatchItr(Matcher m) {
super(m.regionEnd()-m.regionStart(), ORDERED|NONNULL);
matcher=m;
}
public boolean tryAdvance(Consumer<? super String> action) {
if(!matcher.find()) return false;
action.accept(matcher.group());
return true;
}
}
_
ただし、forEachRemaining
を単純なループでオーバーライドすることを検討できます。
私があなたの試みを正しく理解した場合、解決策は次のようになります。
_Pattern pattern = Pattern.compile(
"[a-zA-Z0-9.!#$%&’*+/=?^_`{|}~-]+@[a-zA-Z0-9-]+(?:\\.[a-zA-Z0-9-]+)");
try(BufferedReader br=new BufferedReader(System.console().reader())) {
br.lines()
.flatMap(line -> StreamSupport.stream(new MatchItr(pattern.matcher(line)), false))
.collect(Collectors.groupingBy(o->o, TreeMap::new, Collectors.counting()))
.forEach((k, v) -> System.out.printf("%s\t%s\n",k,v));
}
_
Java 9は、Matcher
に直接メソッド Stream<MatchResult> results()
を提供します。しかし、ストリーム内で一致を見つけるために、 Scanner
でさらに便利な方法 があります。これにより、実装が簡素化されます
_try(Scanner s = new Scanner(System.console().reader())) {
s.findAll(pattern)
.collect(Collectors.groupingBy(MatchResult::group,TreeMap::new,Collectors.counting()))
.forEach((k, v) -> System.out.printf("%s\t%s\n",k,v));
}
_
この回答 には、Java 8で使用できる_Scanner.findAll
_のバックポートが含まれています。
Scanner
メソッドを使用して正規表現とfindWithinHorizon
を併用したい場合は、正規表現を文字列のストリームに変換することもできます。ここでは、従来のwhile
ループ中に使用すると非常に便利なストリームビルダーを使用します。
次に例を示します。
private Stream<String> extractRulesFrom(String text, Pattern pattern, int group) {
Stream.Builder<String> builder = Stream.builder();
try(Scanner scanner = new Scanner(text)) {
while (scanner.findWithinHorizon(pattern, 0) != null) {
builder.accept(scanner.match().group(group));
}
}
return builder.build();
}