CSVファイルの整合性を検証するのに適したsites/servicesはありますか?
W3Cバリデーター と同じですが、CSVですか?
最近、Google Refineに出会いました。CSVファイルを検証するためのサービスではなく、ローカルにダウンロードするツールですが、データを操作したり異常を検出したりするための多くのツールを提供します。
http://code.google.com/p/google-refine/
返信で述べたように、「CSV」は不明確な用語になりました。これは、主に、区切り文字で区切られたデータを使用するときに、人々が真の道をたどらないためです。
http://www.catb.org/~esr/writings/taoup/html/ch05s02.html
編集/更新(2016-08-09):
CSVは現在W3C CSVワーキンググループにより明確な用語になっています
Open Data Instituteは、ユーザーがデータの構造を確認し、単純なスキーマに対して検証できるようにするCSV検証サービスを開発しています。
このサービスはまだアルファ版ですが、ここで見つけることができます:
アプリケーションと基礎となるライブラリのコードは両方ともオープンソースです。
https://github.com/theodi/csvlint
https://github.com/theodi/csvlint.rb
ライブラリ内のREADMEは、生成可能なエラーと警告の概要を提供します。次のタイプのエラーを報告できます。
:wrong_content_type
-コンテンツタイプはtext/csvではありません:ragged_rows
-行の列数が異なります(ファイルの最初の行とは異なります):blank_rows
-完全に空の行、例:空白行またはすべての列の値が空の行:invalid_encoding
-行の解析時のエンコードエラー。無効な文字のため:not_found
-データ取得時のHTTP 404エラー:quoting
-引用の問題、例えば引用符が欠落しているか失われている、引用符で囲まれていないフィールド:whitespace
-引用符で囲まれた列の先頭または末尾に空白があります次の種類の警告を報告できます。
:no_encoding
-HTTPリクエストで返されるContent-Typeヘッダーにcharsetパラメーターがありません:encoding
-文字セットはUTF-8ではありません:no_content_type
-Content-Typeヘッダーなしでファイルが提供されています:Excel
-Content-Typeヘッダーなし、ファイル拡張子は.xls:check_options
-CSVファイルには1つの列のみが含まれているようです:inconsistent_values
-同じ列の一貫性のない値。値の90%未満が同じデータ型(数値または句読点を含む英数字のいずれか)であると思われる場合に報告されますCSVファイルを検証するには、Visual Studio CodeでRainbow CSV拡張機能を使用し、ExcelでCSVファイルを開きます。
National Archivesは、Javaで記述されたソフトウェア CSV Schema Language および CSV Validator を開発しました。オープンソースです。
CSV Lint csvlint.com(.io:ではない)は、この問題を解決するために構築しているサービスです。セルごとにユーザー定義の検証ルール/スキーマに対してCSVファイルをチェックします。
ユーザーが1行のコードなしでビジネスニーズを満たす複雑な検証ルール/スキーマを簡単に作成できるように、UIの調整に多くの時間を費やしました。
オフライン検証機能により、ユーザーは複数の大きなサイズ(数百万行以上)のファイルを検証する場合でも結果をリアルタイムで確認できます。最も重要なことは、ユーザーデータのプライバシーを100%保護することです。