Hudi JARs 包含在 AWS EMR 图像中。如有需要,可以下载。
AWS: 如何在EMR上从EKS下载Hudi JARs
一个介绍AWS EMR 镜像包含了 Apache Hudi JAR 文件。如有必要,这些 Apache Hudi JAR 文件可以从 AWS EMR 镜像中下载。
这里有一些步骤,你可以按照它们来实现它。
第一步:拉取EMR的图像
首先,找到你想要下载Apache Hudi的JAR文件的AWS EMR映像。
以下链接列出了 AWS EMR Image 包含的应用程序版本。
参考一下,AWS EMR 图像版本文档在 EMR on EKS 中仅描述了 EMR on EKS 特定的内容。Amazon Web Services Elastic MapReduce(Amazon EMR)专业术语在此首次出现时应加以说明。
https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-release-components.html
更多详情请参阅:
- https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-release-components.html
- https://docs.aws.amazon.com/emr/latest/EMR-on-EKS-DevelopmentGuide/emr-eks-7.0.0.html
docker pull public.ecr.aws/emr-on-eks/spark/emr-6.15.0:latest
执行上述命令以从公共 Amazon ECR 仓库拉取最新的 EMR on EKS Spark 版本。
获取AWS EMR图像
步骤 2:确认 Hudi JAR 文件的位置在 EMR 图像中。在 AWS EMR 镜像中,库文件夹位于路径 /usr/lib
下。Apache Hudi 的 JAR 文件可以在 /usr/lib/hudi
下找到。
执行以下命令来启动Docker容器,该容器包含了最新的EMR 6.15.0 Spark版本。
docker run -it public.ecr.aws/emr-on-eks/spark/emr-6.15.0:latest /bin/bash
路径
- 根目录路径: /usr/lib/
- Hudi JAR文件路径: /usr/lib/hudi/
- Spark文件路径: /usr/lib/spark/jars/
确认EMR映像中的Hudi JAR文件的路径
步骤 3:从 EMR 镜像中把 Hudi JAR 复制到主机上检查完Apache Hudi JARs的路径之后,可以使用以下命令下载。
docker cp <container_id>:/usr/lib/hudi/hudi-spark3-bundle_2.12-0.14.0-amzn-0.jar .
docker cp <container_id>:/usr/lib/hudi/hudi-utilities-bundle_2.12-0.14.0-amzn-0.jar .
==
# 在我的情况下,容器ID 是 `e8686bdc772e`.
docker cp e8686bdc772e:/usr/lib/hudi/hudi-spark3-bundle_2.12-0.14.0-amzn-0.jar .
docker cp e8686bdc772e:/usr/lib/hudi/hudi-utilities-bundle_2.12-0.14.0-amzn-0.jar .
将 Hudi JARs 从 EMR 镜像复制到主机