how to convert json string to dataframe on spark

Question

I want to convert string variable below to dataframe on spark.

val jsonStr = "{ "metadata": { "key": 84896, "value": 54 }}"

I know how to create dataframe from json file.

sqlContext.read.json("file.json")

but I don't know how to create dataframe from string variable.

How can I convert json String variable to dataframe.

val df = spark.read.json(spark.createDataset(jsonStr :: Nil)) — RaHuL VeNuGoPaL
– RaHuL VeNuGoPaL, Commented Feb 23, 2023 at 20:16

AmirHd · Accepted Answer · 2019-04-08 05:27:51Z

76

For Spark 2.2+:

import spark.implicits._
val jsonStr = """{ "metadata": { "key": 84896, "value": 54 }}"""
val df = spark.read.json(Seq(jsonStr).toDS)

For Spark 2.1.x:

val events = sc.parallelize("""{"action":"create","timestamp":"2016-01-07T00:01:17Z"}""" :: Nil)    
val df = sqlContext.read.json(events)

Hint: this is using sqlContext.read.json(jsonRDD: RDD[Stirng]) overload. There is also sqlContext.read.json(path: String) where it reads a Json file directly.

For older versions:

val jsonStr = """{ "metadata": { "key": 84896, "value": 54 }}"""
val rdd = sc.parallelize(Seq(jsonStr))
val df = sqlContext.read.json(rdd)

edited Apr 8, 2019 at 5:27

AmirHd

10.3k11 gold badges44 silver badges60 bronze badges

answered Jul 8, 2016 at 16:42

Jean Logeart

54.1k11 gold badges88 silver badges120 bronze badges

Sign up to request clarification or add additional context in comments.

7 Comments

Dan Ciborowski - MSFT Over a year ago

Out of date, see below answer for Spark 2.2

Rohan Over a year ago

Is there a solution for python?

devinbost Over a year ago

@Rohan yeah, just remove the "val" keywords, and it's basically Python.

user1326784 Over a year ago

@Jean, how to convert a json string(not a json file) to a dataframe in Spark Java

Joshua Stafford Over a year ago

@devinbost Seq is also not Python.

|

Ram Ghadiyaram · Accepted Answer · 2018-12-04 18:16:09Z

17

Since the function for reading JSON from an RDD got deprecated in Spark 2.2, this would be another option:

val jsonStr = """{ "metadata": { "key": 84896, "value": 54 }}"""
import spark.implicits._ // spark is your SparkSession object
val df = spark.read.json(Seq(jsonStr).toDS)

edited Dec 4, 2018 at 18:16

Ram Ghadiyaram

29.4k16 gold badges102 silver badges133 bronze badges

answered Oct 16, 2017 at 16:31

markus

3,2182 gold badges22 silver badges13 bronze badges

Comments

Andrushenko Alexander · Accepted Answer · 2018-12-20 13:27:47Z

Here is an example how to convert Json string to Dataframe in Java (Spark 2.2+):

String str1 = "{\"_id\":\"123\",\"ITEM\":\"Item 1\",\"CUSTOMER\":\"Billy\",\"AMOUNT\":285.2}";
String str2 = "{\"_id\":\"124\",\"ITEM\":\"Item 2\",\"CUSTOMER\":\"Sam\",\"AMOUNT\":245.85}";
List<String> jsonList = new ArrayList<>();
jsonList.add(str1);
jsonList.add(str2);
SparkContext sparkContext = new SparkContext(new SparkConf()
        .setAppName("myApp").setMaster("local"));
JavaSparkContext javaSparkContext = new JavaSparkContext(sparkContext);
SQLContext sqlContext = new SQLContext(sparkContext);
JavaRDD<String> javaRdd = javaSparkContext.parallelize(jsonList);
Dataset<Row> data = sqlContext.read().json(javaRdd);
data.show();

Here is the result:

+------+--------+------+---+
|AMOUNT|CUSTOMER|  ITEM|_id|
+------+--------+------+---+
| 285.2|   Billy|Item 1|123|
|245.85|     Sam|Item 2|124|
+------+--------+------+---+

kaushalop · Accepted Answer · 2019-01-27 23:53:19Z

4

simple_json = '{"results":[{"a":1,"b":2,"c":"name"},{"a":2,"b":5,"c":"foo"}]}'
rddjson = sc.parallelize([simple_json])
df = sqlContext.read.json(rddjson)

The reference to the answer is https://stackoverflow.com/a/49399359/2187751

answered Jan 27, 2019 at 23:53

kaushalop

9189 silver badges14 bronze badges

Comments

Mickael Maison · Accepted Answer · 2018-08-02 09:00:56Z

3

To convert list of json Strings into DataFrame in Spark 2.2 =>

val spark = SparkSession
          .builder()
          .master("local")
          .appName("Test")
          .getOrCreate()

var strList = List.empty[String]
var jsonString1 = """{"ID" : "111","NAME":"Arkay","LOC":"Pune"}"""
var jsonString2 = """{"ID" : "222","NAME":"DineshS","LOC":"PCMC"}"""
strList = strList :+ jsonString1
strList = strList :+ jsonString2

val rddData = spark.sparkContext.parallelize(strList)
resultDF = spark.read.json(rddData)
resultDF.show()

Result:

+---+----+-------+
| ID| LOC|   NAME|
+---+----+-------+
|111|Pune|  Arkay|
|222|PCMC|DineshS|
+---+----+-------+

edited Aug 2, 2018 at 9:00

Mickael Maison

27.2k8 gold badges90 silver badges81 bronze badges

answered Aug 2, 2018 at 8:31

Dinesh Shinkar

1295 bronze badges

Comments

linehrr · Accepted Answer · 2019-06-10 18:22:17Z

3

you can now directly read json from Dataset[String]: https://spark.apache.org/docs/latest/sql-data-sources-json.html

val otherPeopleDataset = spark.createDataset(
  """{"name":"Yin","address":{"city":"Columbus","state":"Ohio"}}""" :: Nil)
val otherPeople = spark.read.json(otherPeopleDataset)
otherPeople.show()
// +---------------+----+
// |        address|name|
// +---------------+----+
// |[Columbus,Ohio]| Yin|
// +---------------+----+

answered Jun 10, 2019 at 18:22

linehrr

1,76819 silver badges27 bronze badges

1 Comment

padavan Over a year ago

how is do for python ?

MD Rijwan · Accepted Answer · 2019-12-10 13:22:31Z

2

There will be some error in some case like Illegal Patter component : XXX so for that you need to add .option with timestamp in spark.read so updated code will be.

val spark = SparkSession
          .builder()
          .master("local")
          .appName("Test")
          .getOrCreate()
import spark.implicits._
val jsonStr = """{ "metadata": { "key": 84896, "value": 54 }}"""
val df = spark.read.option("timestampFormat", "yyyy/MM/dd HH:mm:ss ZZ").json(Seq(jsonStr).toDS)
df.show()

answered Dec 10, 2019 at 13:22

MD Rijwan

4911 gold badge6 silver badges15 bronze badges

Comments

PeterS · Accepted Answer · 2023-10-27 16:04:14Z

0

val jsonStr = """{ "metadata": { "key": 84896, "value": 54 }}"""

val df = spark.read.json(spark.createDataset(jsonStr :: Nil)) 

display(df.withColumn("key",$"metadata.key").withColumn("value",$"metadata.value"))

edited Oct 27, 2023 at 16:04

PeterS

2203 silver badges13 bronze badges

answered Feb 23, 2023 at 20:16

RaHuL VeNuGoPaL

5295 silver badges7 bronze badges

1 Comment

jmoerdyk Over a year ago

While this code may solve the question, including an explanation of how and why this solves the problem would really help to improve the quality of your post, and probably result in more up-votes. Remember that you are answering the question for readers in the future, not just the person asking now. Please edit your answer to add explanations and give an indication of what limitations and assumptions apply

Collectives™ on Stack Overflow

how to convert json string to dataframe on spark

8 Answers 8

7 Comments

Comments

Comments

Comments

Comments

1 Comment

Comments

1 Comment

Your Answer

Linked

Hot Network Questions

Collectives™ on Stack Overflow

8 Answers 8

7 Comments

Comments

Comments

Comments

Comments

1 Comment

Comments

1 Comment

Your Answer

Sign up or log in

Post as a guest

Linked

Related