Pysparkを使用してZeppelinノートブックでDeltaLakeを使用しようとしていますが、モジュールを正常にインポートできないようです。例えば.
%pyspark
from delta.tables import *
次のエラーで失敗します。
ModuleNotFoundError:「delta」という名前のモジュールがありません
ただし、delta
形式を使用してデータフレームを保存/読み取ることは問題ありません。また、scala spark %spark
を使用すると、モジュールを正常にロードできます。
ツェッペリンとpysparkでデルタ湖を使用する方法はありますか?
ついにそれをツェッペリンpysparkにロードすることができました。 jarファイルを明示的に含める必要があります
%pyspark
sc.addPyFile("**LOCATION_OF_DELTA_LAKE_JAR_FILE**")
from delta.tables import *