Hdfs3、snakebite、その他がいくつかあります。どれが最もサポートされ、包括的ですか?
私の知る限り、考えられるほど多くの可能性はありません。しかし、私は公式のPythonパッケージhdfs 2.0.12
website をダウンロードするか、ターミナルから次のコマンドを実行してダウンロードできます。
pip install hdfs
いくつかの機能:
Snakebite、hdfs3、hdfsを試しました。
Snakebiteはダウンロードのみ(アップロードは不可)をサポートしているので、私には不向きです。
これら3つのうち、hdfs3のみがHAセットアップをサポートしているため、それが私の選択でしたが、 マルチホームネットワーク でデータノードのホスト名を使用して機能させることができませんでした(ここで説明する問題: https ://rainerpeter.wordpress.com/2014/02/12/connect-to-hdfs-running-in-ec2-using-public-ip-addresses/ )
アップロードをサポートしているので、hdfs(2.0.16)を使用することになりました。 HAをサポートするには、bashを使用して回避策をいくつか追加する必要がありました。
PS。 Hadoopファイルシステムと対話するために開発されたPythonライブラリを比較する興味深い記事があります http://wesmckinney.com/blog/python-hdfs-interfaces/
pyarrow
、Apache Arrowのpython実装には、十分に維持され、文書化されたHDFSクライアントがあります: https://arrow.Apache.org/docs/python/filesystems .html
非常に便利なpydoop
があります。