Streamreaderを使用してテキストファイルを読み取ります。
using (StreamReader sr = new StreamReader(FileName, Encoding.Default))
{
string line = sr.ReadLine();
}
行区切り文字を\n
not \r
。どうすればそれができますか?
string text = sr.ReadToEnd();
string[] lines = text.Split('\r');
foreach(string s in lines)
{
// Consume
}
私はジョージの答えのようなものを実装しますが、ファイル全体を一度にロードすることを避ける拡張メソッドとして(テストされていませんが、このようなもの):
static class ExtensionsForTextReader
{
public static IEnumerable<string> ReadLines (this TextReader reader, char delimiter)
{
List<char> chars = new List<char> ();
while (reader.Peek() >= 0)
{
char c = (char)reader.Read ();
if (c == delimiter) {
yield return new String(chars.ToArray());
chars.Clear ();
continue;
}
chars.Add(c);
}
}
}
これは次のように使用できます:
using (StreamReader sr = new StreamReader(FileName, Encoding.Default))
{
foreach (var line in sr.ReadLines ('\n'))
Console.WriteLine (line);
}
@Peteの答えが気に入りました。少し変更を加えたいと思います。これにより、単一の文字ではなく、文字列の区切り文字を渡すことができます。
using System;
using System.IO;
using System.Collections.Generic;
internal static class StreamReaderExtensions
{
public static IEnumerable<string> ReadUntil(this StreamReader reader, string delimiter)
{
List<char> buffer = new List<char>();
CircularBuffer<char> delim_buffer = new CircularBuffer<char>(delimiter.Length);
while (reader.Peek() >= 0)
{
char c = (char)reader.Read();
delim_buffer.Enqueue(c);
if (delim_buffer.ToString() == delimiter || reader.EndOfStream)
{
if (buffer.Count > 0)
{
if (!reader.EndOfStream)
{
yield return new String(buffer.ToArray()).Replace(delimiter.Substring(0, delimiter.Length - 1), string.Empty);
}
else
{
buffer.Add(c);
yield return new String(buffer.ToArray());
}
buffer.Clear();
}
continue;
}
buffer.Add(c);
}
}
private class CircularBuffer<T> : Queue<T>
{
private int _capacity;
public CircularBuffer(int capacity)
: base(capacity)
{
_capacity = capacity;
}
new public void Enqueue(T item)
{
if (base.Count == _capacity)
{
base.Dequeue();
}
base.Enqueue(item);
}
public override string ToString()
{
List<String> items = new List<string>();
foreach (var x in this)
{
items.Add(x.ToString());
};
return String.Join("", items);
}
}
}
ドキュメントによると:
http://msdn.Microsoft.com/en-us/library/system.io.streamreader.readline.aspx
行は、一連の文字とそれに続く改行( "\ n")、キャリッジリターン( "\ r")、またはキャリッジリターンの直後に改行( "\ r\n")として定義されます。
デフォルトでは、StreamReaderのReadLineメソッドは、\ nまたは\ rの両方で行を認識します。
これはsovemp回答の改善です。申し訳ありませんが、私の評判ではそうすることはできませんが、コメントしたいと思います。この改善により、2つの問題が解決されます。
ストリームの最後の文字が区切り文字に等しい場合、関数は区切り文字を含む文字列を誤って返します。
using System;
using System.IO;
using System.Collections.Generic;
internal static class StreamReaderExtensions
{
public static IEnumerable<string> ReadUntil(this StreamReader reader, string delimiter)
{
List<char> buffer = new List<char>();
CircularBuffer<char> delim_buffer = new CircularBuffer<char>(delimiter.Length);
while (reader.Peek() >= 0)
{
char c = (char)reader.Read();
delim_buffer.Enqueue(c);
if (delim_buffer.ToString() == delimiter || reader.EndOfStream)
{
if (buffer.Count > 0)
{
if (!reader.EndOfStream)
{
buffer.Add(c);
yield return new String(buffer.ToArray()).Substring(0, buffer.Count - delimeter.Length);
}
else
{
buffer.Add(c);
if (delim_buffer.ToString() != delimiter)
yield return new String(buffer.ToArray());
else
yield return new String(buffer.ToArray()).Substring(0, buffer.Count - delimeter.Length);
}
buffer.Clear();
}
continue;
}
buffer.Add(c);
}
}
private class CircularBuffer<T> : Queue<T>
{
private int _capacity;
public CircularBuffer(int capacity)
: base(capacity)
{
_capacity = capacity;
}
new public void Enqueue(T item)
{
if (base.Count == _capacity)
{
base.Dequeue();
}
base.Enqueue(item);
}
public override string ToString()
{
List<String> items = new List<string>();
foreach (var x in this)
{
items.Add(x.ToString());
};
return String.Join("", items);
}
}
}
ストリームをバイト単位で解析して分割を処理するか、/ r、/ n、または/ r/nで分割するデフォルトのReadLine動作を使用する必要があります。
ストリームをバイト単位で解析する場合は、次の拡張メソッドのようなものを使用します。
public static string ReadToChar(this StreamReader sr, char splitCharacter)
{
char nextChar;
StringBuilder line = new StringBuilder();
while (sr.Peek() > 0)
{
nextChar = (char)sr.Read();
if (nextChar == splitCharacter) return line.ToString();
line.Append(nextChar);
}
return line.Length == 0 ? null : line.ToString();
}
「\ r\n」まで読み取り、「\ n」で停止しないソリューションが必要でした。 jp1980のソリューションは機能しましたが、大きなファイルでは非常に低速でした。そこで、指定した文字列が見つかるまで、Mike Sacktonのソリューションを読み取りに変換しました。
public static string ReadToString(StreamReader sr, string splitString)
{
char nextChar;
StringBuilder line = new StringBuilder();
int matchIndex = 0;
while (sr.Peek() > 0)
{
nextChar = (char)sr.Read();
line.Append(nextChar);
if (nextChar == splitString[matchIndex])
{
if(matchIndex == splitString.Length - 1)
{
return line.ToString().Substring(0, line.Length - splitString.Length);
}
matchIndex++;
}
else
{
matchIndex = 0;
}
}
return line.Length == 0 ? null : line.ToString();
}
そして、このように呼ばれています...
using (StreamReader reader = new StreamReader(file))
{
string line;
while((line = ReadToString(reader, "\r\n")) != null)
{
Console.WriteLine(line);
}
}
「StreamReaderを使用する」と言ったとしても、「私の場合、ファイルには大量のレコードが含まれる可能性があります...」と言ったので、SSISを試すことをお勧めします。あなたがやろうとしていることに最適です。非常に大きなファイルを処理し、行/列の区切り文字を簡単に指定できます。
このコードスニペットは、「\ n」が見つかるまでファイルから行を読み取ります。
using (StreamReader sr = new StreamReader(path))
{
string line = string.Empty;
while (sr.Peek() >= 0)
{
char c = (char)sr.Read();
if (c == '\n')
{
//end of line encountered
Console.WriteLine(line);
//create new line
line = string.Empty;
}
else
{
line += (char)sr.Read();
}
}
}
このコードは文字ごとに読み取るため、使用可能なメモリに制約されることなく、任意の長さのファイルで動作します。