AWS Sagemaker 多项训练作业

以下是一些想法：1. 有谁知道如何在 AWS Sagemaker 中实现一个系统，从而对于数十万个单元，我们可以为每个单元拥有一个单独的经过训练的模型工件？有没有办法使用 SKLearn 估计器为 1 个 sagemaker 训练作业输出多个模型工件？我不知道 30 个训练作业并发数是否是一个硬性限制，如果它是一个障碍，您应该尝试打开支持票询问是否是这样，并尝试提高它。否则，正如您所指出的，您可以尝试在一项作业中训练多个模型，并生成多个工件，您可以 (a) 手动发送到 S3，或 (b) 保存，以便将opt/ml/model它们全部发送到模型。 S3 中的 tar.gz 工件。请注意，如果这个工件变得太大，这可能会变得不切实际2. 提交训练脚本时，Sagemaker如何利用多个CPU？这是否必须在训练脚本/估计器对象中指定，还是自动处理？这取决于您使用的训练容器的类型。SageMaker 内置容器由 Amazon 团队开发，旨在高效利用可用资源。如果您在 Sklearn 容器中使用自己的代码（例如自定义 python），则您有责任确保您的代码高效编写并使用可用的硬件。因此框架的选择非常重要:)例如，一些sklearn模型支持显式使用多个CPU（例如随机森林n_jobs中的参数），但我不认为Sklearn原生支持GPU、多GPU或多节点训练。

AWS Sagemaker 多项训练作业

1回答