Scalaパーサーコンビネーターを使用してCSVファイルを解析する

Question

Scalaパーサーコンビネーターを使用してCSVパーサーを作成しようとしています。文法は RFC418 に基づいています。次のコードを考え出しました。ほとんど機能しますが、異なるレコードを正しく分離することができません。何を見逃しましたか？

object CSV extends RegexParsers { def COMMA = "," def DQUOTE = "\"" def DQUOTE2 = "\"\"" ^^ { case _ => "\"" } def CR = "
" def LF = "
" def CRLF = "
" def TXT = "[^\",
]".r def file: Parser[List[List[String]]] = ((record~((CRLF~>record)*))<~(CRLF?)) ^^ { case r~rs => r::rs } def record: Parser[List[String]] = (field~((COMMA~>field)*)) ^^ { case f~fs => f::fs } def field: Parser[String] = escaped|nonescaped def escaped: Parser[String] = (DQUOTE~>((TXT|COMMA|CR|LF|DQUOTE2)*)<~DQUOTE) ^^ { case ls => ls.mkString("")} def nonescaped: Parser[String] = (TXT*) ^^ { case ls => ls.mkString("") } def parse(s: String) = parseAll(file, s) match { case Success(res, _) => res case _ => List[List[String]]() } } println(CSV.parse(""" "foo", "bar", 123""" + "
" + "hello, world, 456" + "
" + """ spam, 789, Egg""")) // Output: List(List(foo, bar, 123hello, world, 456spam, 789, Egg)) // Expected: List(List(foo, bar, 123), List(hello, world, 456), List(spam, 789, Egg))

更新：問題は解決しました

デフォルトのRegexParsersは、正規表現[\s]+を使用して、スペース、タブ、キャリッジリターン、改行などの空白を無視します。上記のパーサーがレコードを分離できないという問題は、これが原因です。 skipWhitespaceモードを無効にする必要があります。 whiteSpace定義を[ ]}だけに置き換えても、フィールド内のすべてのスペースが無視されるため（したがって、CSVの「foobar」は「foobar」になります）、問題は解決しません。これは望ましくありません。したがって、パーサーの更新されたソースは

import scala.util.parsing.combinator._ // A CSV parser based on RFC4180 // http://tools.ietf.org/html/rfc4180 object CSV extends RegexParsers { override val skipWhitespace = false // meaningful spaces in CSV def COMMA = "," def DQUOTE = "\"" def DQUOTE2 = "\"\"" ^^ { case _ => "\"" } // combine 2 dquotes into 1 def CRLF = "
" | "
" def TXT = "[^\",
]".r def SPACES = "[ 	]+".r def file: Parser[List[List[String]]] = repsep(record, CRLF) <~ (CRLF?) def record: Parser[List[String]] = repsep(field, COMMA) def field: Parser[String] = escaped|nonescaped def escaped: Parser[String] = { ((SPACES?)~>DQUOTE~>((TXT|COMMA|CRLF|DQUOTE2)*)<~DQUOTE<~(SPACES?)) ^^ { case ls => ls.mkString("") } } def nonescaped: Parser[String] = (TXT*) ^^ { case ls => ls.mkString("") } def parse(s: String) = parseAll(file, s) match { case Success(res, _) => res case e => throw new Exception(e.toString) } }

psp · Accepted Answer

見逃したのは空白です。私はいくつかのボーナスの改善を投入しました。

import scala.util.parsing.combinator._ object CSV extends RegexParsers { override protected val whiteSpace = """[ 	]""".r def COMMA = "," def DQUOTE = "\"" def DQUOTE2 = "\"\"" ^^ { case _ => "\"" } def CR = "
" def LF = "
" def CRLF = "
" def TXT = "[^\",
]".r def file: Parser[List[List[String]]] = repsep(record, CRLF) <~ opt(CRLF) def record: Parser[List[String]] = rep1sep(field, COMMA) def field: Parser[String] = (escaped|nonescaped) def escaped: Parser[String] = (DQUOTE~>((TXT|COMMA|CR|LF|DQUOTE2)*)<~DQUOTE) ^^ { case ls => ls.mkString("")} def nonescaped: Parser[String] = (TXT*) ^^ { case ls => ls.mkString("") } def parse(s: String) = parseAll(file, s) match { case Success(res, _) => res case _ => List[List[String]]() } }

Maciej Biłas · Answer

Scala 2.11以降の標準ライブラリからのScala標準ライブラリからのパーサーコンビネータライブラリ）では、はるかにパフォーマンスの高いParboiled2ライブラリを使用しない理由はありません。 Parboiled2のDSLのCSVパーサーのバージョン：

/* based on comments in https://github.com/sirthias/parboiled2/issues/61 */ import org.parboiled2._ case class Parboiled2CsvParser(input: ParserInput, delimeter: String) extends Parser { def DQUOTE = '"' def DELIMITER_TOKEN = rule(capture(delimeter)) def DQUOTE2 = rule("\"\"" ~ Push("\"")) def CRLF = rule(capture("
" | "
")) def NON_CAPTURING_CRLF = rule("
" | "
") val delims = s"$delimeter
" + DQUOTE def TXT = rule(capture(!anyOf(delims) ~ ANY)) val WHITESPACE = CharPredicate(" 	") def SPACES: Rule0 = rule(oneOrMore(WHITESPACE)) def escaped = rule(optional(SPACES) ~ DQUOTE ~ (zeroOrMore(DELIMITER_TOKEN | TXT | CRLF | DQUOTE2) ~ DQUOTE ~ optional(SPACES)) ~> (_.mkString(""))) def nonEscaped = rule(zeroOrMore(TXT | capture(DQUOTE)) ~> (_.mkString(""))) def field = rule(escaped | nonEscaped) def row: Rule1[Seq[String]] = rule(oneOrMore(field).separatedBy(delimeter)) def file = rule(zeroOrMore(row).separatedBy(NON_CAPTURING_CRLF)) def parsed() : Try[Seq[Seq[String]]] = file.run() }

Daniel C. Sobral · Answer

RegexParsersパーサーのデフォルトの空白は\s+、これには新しい行が含まれます。したがって、CR、LF、およびCRLFは、パーサーによって自動的にスキップされるため、処理される機会がありません。