如何使用SparkDataFrames查询JSON数据列?
我有一个Cassandra表,为了简单起见,它看起来如下所示:
key: text jsonData: text blobData: blob
我可以创建一个基本的数据框架,用火花和火花卡桑德拉连接器使用:
val df = sqlContext.read .format("org.apache.spark.sql.cassandra") .options(Map("table" -> "mytable", "keyspace" -> "ks1")) .load()
不过,我很难将JSON数据扩展到它的底层结构中。我最终希望能够根据json字符串中的属性进行筛选,并返回BLOB数据。类似于jsonData.foo=“bar”并返回bobData。这是目前的可能吗?
相关分类