如何在 pyspark 中以秒为单位获取 datediff()？

在中pyspark.sql.functions，datediff不幸的是，有一个函数只能计算天数差异。为了克服这个问题，您可以将两个日期转换为 unix 时间戳（以秒为单位）并计算差异。让我们创建一些示例数据，计算滞后，然后计算差异（以秒为单位）。from pyspark.sql.functions import col, lag, unix_timestampfrom pyspark.sql.window import Windowimport datetimed = [{'id' : 1, 't' : datetime.datetime(2018,01,01)},\ {'id' : 1, 't' : datetime.datetime(2018,01,02)},\ {'id' : 1, 't' : datetime.datetime(2018,01,04)},\ {'id' : 1, 't' : datetime.datetime(2018,01,07)}]df = spark.createDataFrame(d)df.show()+---+-------------------+| id|                  t|+---+-------------------+|  1|2018-01-01 00:00:00||  1|2018-01-02 00:00:00||  1|2018-01-04 00:00:00||  1|2018-01-07 00:00:00|+---+-------------------+w = Window.partitionBy('id').orderBy('t')df.withColumn("previous_t", lag(df.t, 1).over(w))\  .select(df.t, (unix_timestamp(df.t) - unix_timestamp(col('previous_t'))).alias('diff'))\  .show()+-------------------+------+|                  t|  diff|+-------------------+------+|2018-01-01 00:00:00|  null||2018-01-02 00:00:00| 86400||2018-01-04 00:00:00|172800||2018-01-07 00:00:00|259200|+-------------------+------+

如何在 pyspark 中以秒为单位获取 datediff()？

1回答