Scala SparkContextのバージョンにはプロパティがあります
sc.hadoopConfiguration
私はこれを使ってHadoopプロパティを設定することに成功しました(Scalaで)
例えば.
sc.hadoopConfiguration.set("my.mapreduce.setting","someVal")
ただし、SparkContextのpythonバージョンにはそのアクセサーがありません。PySparkコンテキストで使用されるHadoop構成にHadoop構成値を設定する方法はありますか?
sc._jsc.hadoopConfiguration().set('my.mapreduce.setting', 'someVal')
動作するはずです
PySparkのソースコード(context.py)を調べましたが、直接同等のものはありません。代わりに、いくつかの特定のメソッドは、(キー、値)ペアのマップでの送信をサポートしています。
fileLines = sc.newAPIHadoopFile('dev/*',
'org.Apache.hadoop.mapreduce.lib.input.TextInputFormat',
'org.Apache.hadoop.io.LongWritable',
'org.Apache.hadoop.io.Text',
conf={'mapreduce.input.fileinputformat.input.dir.recursive':'true'}
).count()
ジョブの送信中に--conf
パラメーターを使用して、Hadoopプロパティを設定できます。
--conf "spark.hadoop.fs.mapr.trace=debug"