sparkでJSON文字列をデータフレームに変換する方法

Question

以下の文字列変数をスパークのデータフレームに変換したい。

val jsonStr = "{ "metadata": { "key": 84896, "value": 54 }}"

JSONファイルからデータフレームを作成する方法を知っています。

sqlContext.read.json("file.json")

しかし、文字列変数からデータフレームを作成する方法がわかりません。

JSON文字列変数をデータフレームに変換するにはどうすればよいですか。

Jean Logeart · Accepted Answer

Spark 2.2 + の場合：

_import spark.implicits._ val jsonStr = """{ "metadata": { "key": 84896, "value": 54 }}""" val df = spark.read.json(Seq(jsonStr).toDS) _

Spark 2.1.x の場合：

_val events = sc.parallelize("""{"action":"create","timestamp":"2016-01-07T00:01:17Z"}""" :: Nil) val df = sqlContext.read.json(events) _

ヒント：これはsqlContext.read.json(jsonRDD: RDD[Stirng])オーバーロードを使用しています。 Jsonファイルを直接読み取るsqlContext.read.json(path: String)もあります。

旧バージョンの場合：

_val jsonStr = """{ "metadata": { "key": 84896, "value": 54 }}""" val rdd = sc.parallelize(Seq(jsonStr)) val df = sqlContext.read.json(rdd) _

markus · Answer

RDDからJSONを読み取るための関数はSpark 2.2で廃止されたため、これは別のオプションになります。

val jsonStr = """{ "metadata": { "key": 84896, "value": 54 }}""" import spark.implicits._ // spark is your SparkSession object val df = spark.read.json(Seq(jsonStr).toDS)

Dinesh Shinkar · Answer

Json文字列のリストをSpark 2.2 =>のDataFrameに変換するには

val spark = SparkSession .builder() .master("local") .appName("Test") .getOrCreate() var strList = List.empty[String] var jsonString1 = """{"ID" : "111","NAME":"Arkay","LOC":"Pune"}""" var jsonString2 = """{"ID" : "222","NAME":"DineshS","LOC":"PCMC"}""" strList = strList :+ jsonString1 strList = strList :+ jsonString2 val rddData = spark.sparkContext.parallelize(strList) resultDF = spark.read.json(rddData) resultDF.show()

結果：

+---+----+-------+ | ID| LOC| NAME| +---+----+-------+ |111|Pune| Arkay| |222|PCMC|DineshS| +---+----+-------+

Andrushenko Alexander · Answer

Java（Spark 2.2+））でJson文字列をDataframeに変換する方法の例を次に示します。

String str1 = "{\"_id\":\"123\",\"ITEM\":\"Item 1\",\"CUSTOMER\":\"Billy\",\"AMOUNT\":285.2}"; String str2 = "{\"_id\":\"124\",\"ITEM\":\"Item 2\",\"CUSTOMER\":\"Sam\",\"AMOUNT\":245.85}"; List<String> jsonList = new ArrayList<>(); jsonList.add(str1); jsonList.add(str2); SparkContext sparkContext = new SparkContext(new SparkConf() .setAppName("myApp").setMaster("local")); JavaSparkContext javaSparkContext = new JavaSparkContext(sparkContext); SQLContext sqlContext = new SQLContext(sparkContext); JavaRDD<String> javaRdd = javaSparkContext.parallelize(jsonList); Dataset<Row> data = sqlContext.read().json(javaRdd); data.show();

結果は次のとおりです。

+------+--------+------+---+ |AMOUNT|CUSTOMER| ITEM|_id| +------+--------+------+---+ | 285.2| Billy|Item 1|123| |245.85| Sam|Item 2|124| +------+--------+------+---+

kaushalop · Answer

simple_json = '{"results":[{"a":1,"b":2,"c":"name"},{"a":2,"b":5,"c":"foo"}]}' rddjson = sc.parallelize([simple_json]) df = sqlContext.read.json(rddjson)

答えへの参照は https://stackoverflow.com/a/49399359/2187751

linehrr · Answer

dataset [String]からjsonを直接読み取ることができるようになりました。 https://spark.Apache.org/docs/latest/sql-data-sources-json.html

val otherPeopleDataset = spark.createDataset( """{"name":"Yin","address":{"city":"Columbus","state":"Ohio"}}""" :: Nil) val otherPeople = spark.read.json(otherPeopleDataset) otherPeople.show() // +---------------+----+ // | address|name| // +---------------+----+ // |[Columbus,Ohio]| Yin| // +---------------+----+