猿问

如何使用SparkDataFrames查询JSON数据列?

如何使用SparkDataFrames查询JSON数据列?

我有一个Cassandra表,为了简单起见,它看起来如下所示:

key: text
jsonData: text
blobData: blob

我可以创建一个基本的数据框架,用火花和火花卡桑德拉连接器使用:

val df = sqlContext.read  .format("org.apache.spark.sql.cassandra")
  .options(Map("table" -> "mytable", "keyspace" -> "ks1"))
  .load()

不过,我很难将JSON数据扩展到它的底层结构中。我最终希望能够根据json字符串中的属性进行筛选,并返回BLOB数据。类似于jsonData.foo=“bar”并返回bobData。这是目前的可能吗?


绝地无双
浏览 955回答 3
3回答
随时随地看视频慕课网APP
我要回答