ScalaのPathsのSequence
にあるファイルを読み取ろうとしています。以下は、サンプル(擬似)コードです。
val paths = Seq[String] //Seq of paths
val dataframe = spark.read.parquet(paths: _*)
さて、上記のシーケンスでは、いくつかのパスは存在しますが、いくつかは存在しません。 parquet
ファイルの読み取り中に欠落しているパスを無視する方法はありますか(org.Apache.spark.sql.AnalysisException: Path does not exist
を避けるため)?
私は以下を試しましたが、うまくいっているようですが、その後、同じパスを2回読んでしまいます。これは避けたいものです:
val filteredPaths = paths.filter(p => Try(spark.read.parquet(p)).isSuccess)
options
のDataFrameReader
メソッドをチェックしましたが、ignore_if_missing
に似たオプションはないようです。
また、これらのパスはhdfs
またはs3
(このSeq
はメソッド引数として渡されます)であり、読み取り中に、パスがs3
またはhdfs
であるかどうかわかりませんしたがって、s3
またはhdfs
固有のAPIを使用して存在を確認することはできません。
@Psidomの答えのように、無関係なファイルを除外できます。スパークでは、内部のspark hadoop設定を使用するのが最善の方法です。sparkセッション変数は「spark」と呼ばれます。
import org.Apache.hadoop.fs.FileSystem
import org.Apache.hadoop.fs.Path
val hadoopfs: FileSystem = FileSystem.get(spark.sparkContext.hadoopConfiguration)
def testDirExist(path: String): Boolean = {
val p = new Path(path)
hadoopfs.exists(p) && hadoopfs.getFileStatus(p).isDirectory
}
val filteredPaths = paths.filter(p => testDirExists(p))
val dataframe = spark.read.parquet(filteredPaths: _*)
最初にpaths
をフィルタリングする方法は次のとおりです。
paths.filter(f => new Java.io.File(f).exists)
例えば:
Seq("/tmp", "xx").filter(f => new Java.io.File(f).exists)
// res18: List[String] = List(/tmp)