web-dev-qa-db-ja.com

文を単語に分割しますが、C#の句読点に問題があります

私はいくつかの同様の質問を見ましたが、私はこれを達成しようとしています。

文字列が与えられると、str = "月は私たちの自然衛星です。つまり、月は地球の周りを回転します!"単語を抽出して配列に格納したいと思います。予想される配列要素はこれです。

the 
moon 
is 
our 
natural 
satellite 
i.e. 
it  
rotates 
around 
the 
earth

String.split( '、'\t '、'\r ')を使用してみましたが、正しく機能しません。 。やその他の句読点も削除してみましたが、「i.e。」のような文字列が必要です。解析されることもあります。これを達成するための最良の方法は何ですか?また、regex.splitを使用してみましたが役に立ちませんでした。

string[] words = Regex.Split(line, @"\W+");

確かに正しい方向にいくつかの微調整をいただければ幸いです。

13
Richard N

正規表現ソリューション。

(\b[^\s]+\b)

そして、本当に最後の.i.e.で修正したい場合はこれを使用できます。

((\b[^\s]+\b)((?<=\.\w).)?)

これが私が使用しているコードです。

  var input = "The moon is our natural satellite, i.e. it rotates around the Earth!";
  var matches = Regex.Matches(input, @"((\b[^\s]+\b)((?<=\.\w).)?)");

  foreach(var match in matches)
  {
     Console.WriteLine(match);
  }

結果:

The
moon
is
our
natural
satellite
i.e.
it
rotates
around
the
Earth
30
TheCodeKing

あなたが探している解決策は、あなたが思っているよりもはるかに複雑だと思います。ピリオドが単語の一部であるか文の終わりであるかを判断できるように、実際の言語分析の形式、または少なくとも辞書を探しています。あなたはそれが両方をするかもしれないという事実を考慮しましたか?

許可されている「句読点を含む単語」の辞書を追加することを検討してください。これはあなたの問題を解決する最も簡単な方法かもしれません。

8
Greg D

これは私のために働きます。

var str="The moon is our natural satellite, i.e. it rotates around the Earth!";
var a = str.Split(new char[] {' ', '\t'});
for (int i=0; i < a.Length; i++)
{
    Console.WriteLine(" -{0}", a[i]);
}

結果:

 -The
 -moon
 -is
 -our
 -natural
 -satellite,
 -i.e.
 -it
 -rotates
 -around
 -the
 -Earth!

結果の後処理、コンマやセミコロンの削除などを行うことができます。

2
Cheeso
Regex.Matches(input, @"\b\w+\b").OfType<Match>().Select(m => m.Value)
1