正規表現の一致のストリームを作成するにはどうすればよいですか？

Question

標準入力を解析して、特定のパターンに一致するすべての文字列を抽出し、各一致の発生数をカウントして、結果をアルファベット順に出力しようとしています。この問題はStreams APIに適しているようですが、Matcherから一致のストリームを作成する簡単な方法が見つかりません。

マッチに対してイテレータを実装し、それをストリームにラップすることでこの問題を回避しましたが、結果はあまり読みやすくありません。追加のクラスを導入せずに正規表現一致のストリームを作成するにはどうすればよいですか？

public class PatternCounter { static private class MatcherIterator implements Iterator<String> { private final Matcher matcher; public MatcherIterator(Matcher matcher) { this.matcher = matcher; } public boolean hasNext() { return matcher.find(); } public String next() { return matcher.group(0); } } static public void main(String[] args) throws Throwable { Pattern pattern = Pattern.compile("[a-zA-Z0-9.!#$%&’*+/=?^_`{|}~-]+@[a-zA-Z0-9-]+(?:\.[a-zA-Z0-9-]+)"); new TreeMap<String, Long>(new BufferedReader(new InputStreamReader(System.in)) .lines().map(line -> { Matcher matcher = pattern.matcher(line); return StreamSupport.stream( Spliterators.spliteratorUnknownSize(new MatcherIterator(matcher), Spliterator.ORDERED), false); }).reduce(Stream.empty(), Stream::concat).collect(groupingBy(o -> o, counting())) ).forEach((k, v) -> { System.out.printf("%s	%s
",k,v); }); } }

Holger · Accepted Answer

Java 8には _Pattern.splitAsStream_ があり、delimiterパターンで分割されたアイテムのストリームを提供しますmatchesのストリームを取得するためのサポートメソッドはありません。

そのようなStreamを実装する場合は、Spliteratorを実装してラップするのではなく、Iteratorを直接実装することをお勧めします。あなたはIteratorに慣れているかもしれませんが、単純なSpliteratorの実装は簡単です：

_final class MatchItr extends Spliterators.AbstractSpliterator<String> { private final Matcher matcher; MatchItr(Matcher m) { super(m.regionEnd()-m.regionStart(), ORDERED|NONNULL); matcher=m; } public boolean tryAdvance(Consumer<? super String> action) { if(!matcher.find()) return false; action.accept(matcher.group()); return true; } } _

ただし、forEachRemainingを単純なループでオーバーライドすることを検討できます。

私があなたの試みを正しく理解した場合、解決策は次のようになります。

_Pattern pattern = Pattern.compile( "[a-zA-Z0-9.!#$%&’*+/=?^_`{|}~-]+@[a-zA-Z0-9-]+(?:\.[a-zA-Z0-9-]+)"); try(BufferedReader br=new BufferedReader(System.console().reader())) { br.lines() .flatMap(line -> StreamSupport.stream(new MatchItr(pattern.matcher(line)), false)) .collect(Collectors.groupingBy(o->o, TreeMap::new, Collectors.counting())) .forEach((k, v) -> System.out.printf("%s	%s
",k,v)); } _

Java 9は、Matcherに直接メソッド Stream<MatchResult> results() を提供します。しかし、ストリーム内で一致を見つけるために、 Scannerでさらに便利な方法があります。これにより、実装が簡素化されます

_try(Scanner s = new Scanner(System.console().reader())) { s.findAll(pattern) .collect(Collectors.groupingBy(MatchResult::group,TreeMap::new,Collectors.counting())) .forEach((k, v) -> System.out.printf("%s	%s
",k,v)); } _

この回答には、Java 8で使用できる_Scanner.findAll_のバックポートが含まれています。

gil.fernandes · Answer

Scannerメソッドを使用して正規表現とfindWithinHorizonを併用したい場合は、正規表現を文字列のストリームに変換することもできます。ここでは、従来のwhileループ中に使用すると非常に便利なストリームビルダーを使用します。

次に例を示します。

private Stream<String> extractRulesFrom(String text, Pattern pattern, int group) { Stream.Builder<String> builder = Stream.builder(); try(Scanner scanner = new Scanner(text)) { while (scanner.findWithinHorizon(pattern, 0) != null) { builder.accept(scanner.match().group(group)); } } return builder.build(); }