これは複数の部分からなる質問で、すべてメインの質問に戻ります。
(現在のバージョン、バニラのメインブランチディストリビューション-他の人について聞くことはできますが)。多くの調査と調査の結果、私はひどいことは思いつきませんでした...
私のシナリオはサービスプロバイダーで、いくつかの大企業の顧客からの大量のデータをホストして処理します(マルチテナント)。これらの顧客は、Hadoopに直接アクセスするのではなく、SaaSアプリケーションを介してのみアクセスします。しかし、これらの顧客は、多くの場合、直接的な競合相手であり、しばしば非常に偏執狂的です他者に対するスパイ活動...)。
私の昔ながらのつまらない反応は、顧客ごとに個別の孤立したインスタンスをデプロイすることです。ただし、これは実用的ではなく、Hadoopの利点と機能を活用することもできません。
また、Hadoopのすべての大規模なユーザーにとって、これらの問題に対する適切な解決策はないとは信じられません...
特に、私はこれらの問題を見ています:
私はいくつかの方向を考え出すことができましたが、これらが良い方向であるかどうか、またはより良い解決策があるかどうかを確認できませんでした。
それは本当にあなたがあなたのデータを保護しようとしているwhoに依存します。
各ノードで eCryptfs を使用するHadoopクラスターをセットアップして、ノード間でデータを透過的に共有できるようにすると同時に、ディスクに書き込む前にすべてのデータを暗号化するようにしました。これにより、クラウド環境で仮想マシンの基盤となるディスクまたはリモートネットワークストレージの物理的な盗難に対してデータを保護する場合に、測定可能なレベルのプライバシーと保護が提供されます。
完全な開示:私は著者の1人であり、eCryptfsユーザースペースユーティリティの現在のメンテナーです