AWS Athena 误读日期格式

AWS Athena 误读日期格式

我正在尝试将 pandas 数据帧上传到 S3 存储桶，然后使用 Athena 进行查询。我已按以下格式上传日期时间：

pd.to_datetime(df["myDateTime"], format='%Y-%m-%d %H:%M:%S')

2019-08-07 08:04:43.942000+00:00

df.dtypes

myDateTime datetime64[ns, UTC]

当我尝试在 Athena 中查询结果时，我得到了这样的结果：

+51568-02-09 14:52:22.000

CREATE EXTERNAL TABLE IF NOT EXISTS default.dashboardtable(

`myDateTime` timestamp,

我尝试更改 Pandas 中的日期格式以排除微秒，但这似乎不起作用。

HUWWW

浏览 169回答 2

2回答

汪汪一只猫

我假设您正在 S3 中的镶木地板文件上构建 Athena 表。这意味着您可能正在使用该to_parquet()方法将数据帧导出到镶木地板文件。如果您使用的是 pyarrow 引擎，您可以传递一个coerce_timestampskwarg 来to_parquet()将日期时间的精度从 ns 降低到 ms（或其他不与 Athena/presto.conf 冲突的单位）。所以你的 to_parquet 方法应该是这样的df.to_parquet(parquet_path, engine='pyarrow', coerce_timestamps='ms')此解决方案不适用于其他镶木地板引擎，例如fastparquet.

0

0

RISEBY

我遇到了类似的问题。我最终将结果整数除以 1000 并from_unixtime在查询时使用该函数。

0

0

随时随地看视频慕课网APP

相关分类

Python