AI 快讯 编译自 aws_ml_blog #功能更新#AWS#ML特征存储

SageMaker Feature Store 新增 Lake Formation 集成与 Iceberg 管理

AWS 宣布 SageMaker Python SDK v3.8.0 为 Feature Store 带来三项新能力:原生 Lake Formation 集成实现列/行/单元格级访问控制、Apache Iceberg 表属性管理控制元数据膨胀、以及 SDK v3 模块化升级。本文详解这些功能如何解决特征存储的安全与成本痛点,并提供代码示例。

编译发布 2026/05/24 原文发布 2026/05/19

一句话看懂

Amazon SageMaker Feature Store 新增原生 Lake Formation 集成和 Iceberg 表属性管理,让特征数据安全治理和存储成本控制自动化,无需手动配置。

详细发生了什么

Amazon SageMaker Feature Store 是一个全托管的 ML 特征存储服务,用于存储、共享和管理机器学习模型的特征数据。它已支持 Apache Iceberg 表格式、流式摄取、可扩展批量摄取,以及通过 AWS Lake Formation 实现细粒度访问控制。

随着组织将 ML 平台从实验推向生产,两个运营挑战日益突出:一是保护敏感特征数据的访问安全,但不想为每个新特征组手动配置;二是高频流式工作负载产生的 Iceberg 元数据不断增长,导致存储成本失控。例如,一个零售分析团队发现,基于 Iceberg 的离线存储一年内积累了超过 50 TB 的元数据文件,带来了意外的 S3 费用。

为此,AWS 在 SageMaker Python SDK v3.8.0 中推出三项新能力:

  1. 原生 Lake Formation 集成:在创建特征组时自动注册离线存储到 Lake Formation,实现列级、行级和单元格级访问控制,无需手动设置。
  2. 额外的 Iceberg 表属性:在创建或更新特征组时控制元数据保留和快照生命周期策略,防止元数据堆积,降低存储成本。
  3. SageMaker Python SDK v3 支持:v3.8.0 采用模块化架构,安装更快、体积更小,完整支持 Feature Store 所有功能。

中文圈视角

对于国内使用 AWS 的 ML 团队,这三项更新直接解决了两个常见痛点:

  • 安全合规:金融、医疗等行业的特征数据通常包含敏感信息(如用户ID、交易金额),需要细粒度权限控制。此前需要手动注册 S3 位置、撤销 IAMAllowedPrincipals 组、配置数据过滤器,流程繁琐且易出错。现在通过 LakeFormationConfig 参数一键开启,自动完成注册和权限设置,大幅降低合规门槛。
  • 成本控制:Iceberg 表格式虽然强大,但元数据文件膨胀是普遍问题。国内用户如果使用 AWS 的 Iceberg 离线存储,可设置 write.metadata.delete-after-commit.enabledwrite.metadata.previous-versions-max 等属性,自动清理历史元数据,避免类似 50TB 元数据的意外账单。

不过,这些功能依赖 AWS Lake Formation 和 Iceberg,国内用户若使用阿里云 MaxCompute、华为云 MRS 等替代方案,需关注其是否提供类似的自动化治理能力。对于自建 Kubernetes + 开源 Feature Store(如 Feast)的团队,这些功能可作为参考,但无法直接复用。

几条值得记住的细节

  • SDK v3.8.0 发布日期:2026 年 4 月 16 日,可通过 pip install --upgrade "sagemaker>=3.8.0" 安装。
  • Lake Formation 集成:支持混合访问模式(hybrid_access_mode_enabled=True),允许 IAM 和 Lake Formation 权限共存,适合逐步迁移。
  • Iceberg 属性示例write.metadata.delete-after-commit.enabled=truewrite.metadata.previous-versions-max=10 可控制元数据保留。
  • 现有特征组也可启用:使用 FeatureGroupManager.enable_lake_formation() 对已有特征组激活 Lake Formation 控制。
  • 前提条件:需要配置至少一个 Lake Formation 数据湖管理员,且拥有 S3、Glue 和 Lake Formation 权限。

一句话总结

如果你的 ML 特征存储面临安全合规或 Iceberg 元数据成本问题,SageMaker Feature Store 这次更新让你无需手动折腾,一键搞定。