web-dev-qa-db-ja.com

並列vs分散vs従来のファイルシステム

私はこれら3つのファイルシステムの違いを非常に基本的なレベルで理解しようとしています。

  • 分散FS:HDFS
  • パラレルFS:光沢
  • 従来のFS:ext4/ext3/NTFS/FATなど.

これら3つのファイルシステムの基本的な概念の違いを知りたいです。私の知識のほとんどは、従来のファイルシステム、つまりext3/4 スーパーブロック、iノードなど に関するものです。

  • A MPIベースのプロセス(np = 8)がファイルシステムからファイルの読み取りまたはファイルAの書き込みを試みる場合、これらのコンテキストでファイルアクセスメカニズムはどのように異なりますか
  • また、この環境でファイルはどのように保存されますか?つまり、ファイルAは複数のディスクに分割されるか、ファイルAのストレージに冗長コピーがあります。または、より単純なシナリオでは、複数のユーザーがWord文書を開いて保存すると、これら3つのシナリオでライトバック/同期がどのように異なりますか。

これまでのところ、私はいくつかの概念を形成しました:-

  • ローカルファイルシステムでは、ストレージはサーバー/ノードに物理的にマウントされます。
  • 並列ファイルシステムでは、ディスクは複数のノードで共有(マウント)され、
  • 分散FSでは、複数のノードに複数のローカルストレージがありますが、それらはすべて何らかのメカニズムによって同期されます。

A、Bがワークステーションで、C、Dがディスクの場合:

  1. Cが物理的にAにマウントされ、ext4としてフォーマットされている場合、それは従来のファイルシステムです。
  2. Cがストレージサーバーに物理的にマウントされている場合、Z + CはAとBの両方にネットワークマウント(NFS)されており、これはクラスターFSです。
  3. Cが物理的にAにマウントされ、ネットワークがBにマウントされている場合、Dは物理的にBにマウントされ、ネットワークはAにマウントされます。これにより、分散FSが発生します。

いくつかの回答 メタデータとデータは並列ファイルシステムの別々のサーバーにあると述べていますが、ここでも分散ファイルシステムでメタデータがどのように管理されているかを理解したいと思いますか?

4

AFAICS、「並列ファイルシステム」という用語は、B.S。のマーケティングです。つまり、ファイルシステムドライバーは、複数のプロセスが同時にファイルに書き込むことができることを理解して構築されているため、適切なブロック割り当て戦略を使用して、ファイルを断片化するのではなく、ディスクのさまざまな部分に連続して書き込みます。お互いの。これは、20年間、UNIXシステムでの標準的な方法です。

クラスタ化されたファイルシステムは、SANに格納するように設計されたファイルシステムであり、「ディスク」(実際にはSANディスクボックス)のハードウェアに実装されたRAIDアレイである可能性があります)に複数のユーザーが直接アクセスできます。ホスト(共有SCSI接続を介して)であり、ファイルシステムドライバーが互いに踏まないように特別な注意を払うため、複数のホストによって同時にマウントできます。これは、ネットワークを介して通常のファイルシステムを共有することとはまったく異なります。 NFSまたはCIFS。

分散ファイルシステムはネットワークファイルシステムに似ていますが、内部的に複数サーバーと通信して、ユーザーに対してほとんど透過的な方法でサーバー間で負荷を分散します。例はafsです。

1
psusi

NASSANの違いは削除されています。進行中の議論があります。私はそれらの間に違いがない側にいます。

それらをマウントする方法はもう違いはありません。従来のファイルシステムなどの質問をすることで、機能上の利点に焦点を当てることがより理解しやすくなります。分散またはクラスター化されていますか?分散ファイルシステムとクラスター化ファイルシステムについて同じ質問をすることができ、分散クラスター化ファイルシステムがあります。

何がファイルシステムを分散またはクラスター化するのかという質問により、短い名前の混乱を取り除くことができます。クラスター化されたシステムに期待するのは、セッションの共有と同期です。これは、現在のクラスター化されたファイルシステムから得られるものではありません。CAPが制限されているため、非同期に似ています。

0
hakkican