如果位于和之间,我试图从df1 中选择记录(仅允许三个范围的 date2、date3 组合、逐行)。df1.date1df2.date2df2.date3
就我而言,没有共同的变量来建立“加入”标准。我尝试了不同的 pyspark.sql 函数,例如 'filter'、'when'、'withColumn'、'date_sub'、'date_add' 等,但无法找到解决方案。
我确实浏览了几篇 SO 帖子,但是,他们中的大多数建议使用“加入”,这可能不适合我的问题!
df1
+----------+-----------+
| emp_id | date1 |
+----------+-----------+
| 67891 | 11-13-2015|
| 12345 | 02-28-2017|
| 34567 | 04-07-2017|
+----------+-----------+
df2
+------------+------------+
| date2 | date3 |
+------------+------------+
|01-28-2017 | 03-15-2017 |
|07-13-2017 | 11-13-2017 |
|06-07-2018 | 09-07-2018 |
+------------+------------+
预期记录:
+----------+-----------+
| emp_id | date1 |
+----------+-----------+
| 12345 | 02-28-2017|
+----------+-----------+
慕神8447489
相关分类