(理想的には無料のオープンソースの)データマスキングツールを探しています。そのようなものはありますか?
注:この関連質問では、テストデータを生成するためのツールを扱いますが、この質問では、実際のデータから始めて、テスト目的で興味深い特別な関係を失うことなくテストで使用するためにそれをマスキングすることにもっと興味があります。生成されたデータは、いくつかのテスト目的では問題ありませんが、実際のデータは、考えられなかった問題を引き起こします。 テストデータの大きなデータセットを生成するツール
このための一般的なツールがあったとしたら、私は非常に驚きます。機密データが何で何がそうでないかをどのように「知る」のでしょうか。たとえば、すべてのデータを調べて、クレジットカード番号、電話番号、郵便番号、電子メールアドレス、および機密と見なされるその他のデータのすべての可能な形式を認識する必要があります。また、スキーマについてもスマートにする必要があります。すべての顧客の電子メールアドレスを "[email protected]"に書き換える必要がありますか?または、データベース、アプリケーション、その他のツールの一部は、顧客の電子メールアドレス(またはSSNなど)が一意であると想定していますか?または、クレジットカード番号をチェックサムするアプリケーションの一部がありますか?それらをすべて0000 0000 0000 0000にリセットすると壊れますか?または、テレフォニーシステムは、顧客のダイヤルコードが住所の国と対応していると想定していますか?
基本的に、それを実行するためのツールの構成は、アプリケーションの知識を使用して、独自のスクリプトを作成することと同じかそれ以上の作業になります。私のサイトでは、そのようなデータを含む列を追加するすべてのユーザーが、すべての列を見つけてバージョン1を書き込む最初の監査の後に、スクリプトを更新して同時に匿名化することをポリシーにしています。
そのようなアイテムを見たことはありませんが、私の時代にいくつかの機密データセットを使用していたため、スクランブルする必要がある主なものは、人々のアイデンティティまたは個人を特定する情報です。このすべきは、データベース内のいくつかの場所でのみ出現します。
マスキング操作は、データの統計的特性と関係を保持する必要があり、実際の参照コード(または少なくともある種の制御された変換メカニズム)を保持して、実際のデータと照合できるようにする必要があります。
この種のことは、フィールド内の名前の明確なリストを取得し、それをFirstNameXXXX(XXXXはシーケンス番号で、それぞれの個別の値に1つ)のようなものに置き換えることによって実現できます。個人情報の盗難に使用される可能性のあるクレジットカード番号や同様の情報は、開発環境ではノーノーである可能性が非常に高いですが、支払い処理システムをテストする場合は、実際の番号のみが必要です。通常、ベンダーから特別なコードが提供されますダミーアカウント用。
この種の匿名化手順を書くことは特に難しいことではありませんが、ビジネスで匿名化する必要があるものを正確に合意する必要があります。必要に応じて、データベースをフィールドごとに調べます。 「はい/いいえ」を尋ねると、望まない誤検知が発生します。特定のデータを匿名化しない理由、または結果または規制上の影響についてビジネス担当者に説明してもらいます。
データベースが小さく、データモデルが単純で、現在のDBAがよく理解している場合、スクリプトが「可能性がある」かもしれません。ただし、要件の変更、機能の追加、開発者/ DBAの出入りなどにより、一般的なデータベースを手動で分析してマスクする作業(およびコスト)が手に負えなくなる可能性があります。
オープンソースのデータマスキング製品については知りませんが、合理的に包括的で比較的使いやすく、驚くほどリーズナブルなコストで利用できる市販の製品があります。それらの多くには、機密データ(SSN、クレジットカード、電話番号)を識別および分類するためのすぐに使用できる検出機能と、チェックサム、電子メールアドレスのフォーマット、データのグループ化などを維持して、データをマスクする機能が含まれていますリアルに見えます。
しかし、あなたは私の(確かに偏った)Wordをそのために取る必要はありません。ガートナーやフォレスターなどの業界アナリストに、マスキングに関する役立つ公平なレポートが多数ある場合は、それらを参考にしてください。
うまくいけば、これらのコメントは、内部スクリプトの開発だけでなく、商用製品の探索を検討するようにあなたを励ますでしょう。結局のところ、最も重要なことは、私たちの多くが日々の業務で実際に見る必要のない機密データを保護することです。リスクのあるデータ。
Camouflage Software Inc.、シニアインテグレーションスペシャリスト、Kevin Hillier氏.
私は数週間前に同じ仕事をしました。私たちはいくつかのソフトウェアシステムを評価しましたが、それらのほとんどは、たった1種類のデータベースのみを対象としています。 Oracleとその使用は非常に複雑であることが多いので、これを評価するのに最適な方法はありません。数週間かかりました。
データマスキングスイートのプロフェッショナルバージョンを購入することにしました。また、データをマスクする優れた可能性もあります。メールアドレスを実際に見えるものに変更できます。 ... @ siemens.comから[email protected]へ。
私が覚えている限り、約500(?)レコードで無料で試すことができます。
こちらがリンクです http://www.data-masking-tool.com/
私は数年前にこの道筋を最初に述べ、それ以来、この実践に基づいたコンサルタントを築いてきました。
目的は、データにアクセスする担当者が実稼働情報を表示する権限を持っていないテスト環境で使用するためのテストデータを構築することであると想定しています。
最初に確立することは、どのデータ要素をマスクする必要があるかということであり、そのためにはSchema Spy(オープンソース)などのデータ検出ツールから始めるのが最善であり、このタスクに関連するjdbcドライバーが必要になりますが、プロセスの非常に便利なステップです。
Talend Open Studioは、ETL機能のいくつかを実行するために私が近年使用した最高のツールの1つであり、値をランダムまたはに置き換えることで、いくつかの基本的なマスキングプラクティスを実行することもできます。検索/置換-一貫性を維持するために-マップコンポーネントを使用します。
しかし、実際のデータマスキングツールを探しているのであれば、適切なオープンソースツールが見つかりません。ツールに非常に適度な予算がある場合は、Data Maskerをお勧めしますが、MS SQLまたはOracleはこれらのプロトコルを介してのみ接続するため、インポートおよびエクスポートを行う必要があります。
データマスキング、データマスキングに関する情報については、 http://www.datakitchen.com.au/2012-08-14-15-04-20/data-masking/data-masker-toolset を確認してください。方法論、データ発見、テストデータ管理。 http://www.dataobfuscation.com.a にも便利なブログがあります。
これを行う私の方法:
column to be masked
))私が一番好きなのは、IRI FieldShield( https://www.iri.com/products/fieldshield )で、汎用性(ほとんどのデータマスキング機能)、速度(内部のデータ移動のためのCoSortエンジン)の面で、およびエルゴノミクス(大量のDBおよびファイル接続を備えたEclipse GUIでサポートされる単純な4GLジョブ)。価格的にはIBMとInformaticaの約半分ですが、「ビッグ」データの変換、移行、BIのための大規模なデータ統合スイートでも利用できます。したがって、どちらも無料ではありませんが、いくつかのオープンソース(IDE、およびOpenSSLとGPGを使用できます)を使用し、スクリプトはWindows、Linux、およびその他のUnixフレーバーで実行されます。
今年は、求められていることを実行すると主張するIBM Optimと協力する機会があります。無料ではありませんが、問題なく動作します。
Informatica ILM(TDM)と呼ばれるInformaticaの市場で入手可能なツールがあります。これは、PowerCenterをETLのバックボーンとして使用し、さまざまなマスキングオプションを使用してデータをマスクします。データアナリストまたはSMEは、データをマスクする方法を理解できる人が必要です。ツール自体はどのフィールドをマスクする必要があるかについての情報を提供しませんが、内部アルゴリズムまたは手順またはプロセスがあります名前、ID列、番号、クレジットカード、SSN番号、アカウント番号などの機密データフィールドを識別するため.