目前,我们有一个在 AWS Sagemaker 上运行的系统,其中多个单位拥有自己经过训练的机器学习模型工件(使用带有 Sagemaker SKLearn 估计器的 SKLearn 训练脚本)。
通过使用 Sagemaker 的多模型端点,我们能够在单个实例上托管所有这些单元。
我们面临的问题是,我们需要扩展这个系统,以便我们可以为数十万个单元训练单个模型,然后将生成的模型工件托管在多模型端点上。但是,Sagemaker 对可以并行训练的模型数量有限制(我们的限制是 30)。
除了批量训练我们的模型之外,有谁知道如何在 AWS Sagemaker 中实现一个系统,从而对于数十万个单元,我们可以为每个单元拥有一个单独的经过训练的模型工件?
有没有办法使用 SKLearn 估计器为 1 个 sagemaker 训练作业输出多个模型工件?
此外,提交训练脚本时,Sagemaker如何利用多个CPU?这是否必须在训练脚本/估计器对象中指定,还是自动处理?
慕后森
相关分类