ユーザーが独自のフォームをデザインし、データをExcelにエクスポートできるアプリケーションがあります。 1つの問題は、nullまたは空のデータの表現です。サポートする必要がある2つのシナリオがあります。
Excel/csvでこれの最も良いデフォルトの表現は何ですか?現在、シナリオ1のセルは空のままにしています。シナリオ2の適切な表現を見つけるのに苦労しています。このための要件は次のとおりです。
考え?
データエンジニアとして、次の2つの理由が考えられるため、空のデータセルに「NA」または「NAN」を使用できることをお勧めします。
それを簡単に目立たせたい場合は、誰かが最初にテキストを処理する必要のない何か明らかに視覚的を使用する必要があります。そこには次のオプションがあります。境界線の色と太さの変更。背景色;とコンテンツ。
以下に3つの例を示します。 4番目は、スキャンするのが難しいため、使用が非常に遅い一般的なソリューションを示しています。これの使用はお勧めしません。
あなたは2つの異なる理由のためにデータが欠落している可能性がある状況にあります。他の人が示唆したように、欠落データを表す方法はたくさんあります:(空白)、N/A
、NaN
、∅
、---
、—
など。したがって、任意の2つ(たとえば、最初の2つ)を選択して完了できます。ただし、ここに問題があります。エンドユーザーは、どれがどれであるかをどのように覚えているのでしょうか。論理的な理由がない、または少なくともニーモニックがないと、ユーザーは永遠に混乱します。
これは、人間が正確に1ビットの情報を記憶することで悪名高いことで有名です( 例 を参照)。その理由は、いったん何かについて混乱していて、答えを見つけた場合、次回は、その答えが非常に短くて目立たないため、混乱をはるかに鮮明に覚えることになります。
とにかく、私はExcel/CSVでこの状況から標準的な方法があるとは思いません。しかし、スタタ(統計分析ソフトウェア)についてお話ししましょう。 Stataでは、最大27の異なる欠損値タイプを使用できます。 「標準」欠損値.
、および「拡張」欠損値.a
、.b
、...、.z
。したがって、たとえばあなたのケースでは、最初の欠落している答えを.a
として、2番目のケースを.b
として示します。これをどのように記憶することができますか?さて、あなたは欠けている答えを得る2つのチャンスがあります:最初に、質問が欠けている可能性があります。第二に、質問は存在した可能性がありますが、ユーザーは答えませんでした。シチュエーションには明確な論理的順序があり、それらのエンコードには明確なアルファベット順があります。明確です。
回答のデータを2列でエクスポートします
この理由には、
データが失われた方法をユーザーが正確に確認できる情報は失われません。
値の列は1つのタイプであり、平均、合計などが可能です。
計算を除外する必要がある場合は、割引の対象を示すフラグがあります