Amazon S3 Tables和Amazon S3 Metadata现已与Apache Iceberg表兼容,客户可以使用亚马逊云科技分析服务以及开源工具,包括Amazon Athena、Amazon QuickSight和Apache Spark,轻松查询他们的数据。 Amazon S3 Table:以简便快捷的方式执行Amazon S3中的Apache Iceberg表分析 如今,许多客户都以表格数据来组织他们用于分析的数据,这些数据通常存储在Apache Parquet 中,这是一种针对数据查询进行优化的文件格式。Parquet已成为Amazon S3中增速最快的数据类型之一。客户越来越多地希望能够查询这些不断增长的表格数据集,他们通常会使用开放表格式(open table formats,OTF),这是一种以表格存储数据的开源标准,有助于更有效地管理、更新和跟踪大量数据的变化。Iceberg管理Parquet文件,已成为最流行的OTF。客户使用Iceberg处理包含PB乃至EB级数据的数十亿文件。但随着客户规模的扩大,客户管理Iceberg极具挑战,往往需要专业的团队来构建和维护系统,进行表维护、数据压缩以及管理访问控制。这些外部系统不仅成本高昂和复杂,同时还需要专业的团队来维护,占用了企业诸多宝贵资源。 Amazon S3 Tables专为管理数据湖中的Apache Iceberg表构建。Amazon S3 Tables专门针对分析工作负载进行优化,与通用Amazon S3存储桶相比,提供了高达3倍的查询性能和10倍的每秒事务处理量(TPS)。Amazon S3 Tables能够自动管理表维护任务,包括为更好的查询性能而进行的压缩,以及快照管理,随着客户数据湖的不断扩展和演进,实现对查询性能和存储成本进行的持续优化。客户仅需创建一个表存储桶,即可使用S3 Tables优化存储和查询完全托管的Iceberg表中的数据。借助Amazon S3 Tables,客户可受益于Iceberg的诸多功能,如行级事务处理、通过时间旅行功能查询快照以及模式演进等。此外,Amazon S3 Tables还提供了表级访问控制,让客户精准能够定义数据访问权限。 Genesys是全球领先的AI驱动体验编排服务商,正计划使用Amazon S3构建数据湖。借助Amazon S3 Tables对托管Iceberg的支持,Genesys希望为其多元化的数据分析需求构建一个材料化视图层。Amazon S3 Tables内置对Iceberg表的支持将极大简化复杂的数据工作流程,通过自动执行关键维护任务,如表压缩、快照管理以及未引用文件的清理等。Genesys期待能从兼容Iceberg的分析工具中获得性能提升和广泛支持,这些工具可直接从Amazon S3中读写Iceberg表。Amazon S3 Tables将成为Genesys未来数据战略的基石,帮助Genesys提供更快、更灵活、更可靠的数据洞察,以支持其AI驱动的客户和员工体验解决方案。 Amazon S3元数据:更轻松、快捷地探索和理解Amazon S3中的数据 随着越来越多的客户将Amazon S3作为其中央数据存储库,数据量与数据种类呈指数级增长。元数据作为理解和组织海量数据的一种方式变得越来越重要,以便客户能够找到他们所需的确切对象。为有效应对这一挑战,许多客户不得不构建并维护复杂的元数据获取与存储系统,来深化他们对数据的认知。但这些元数据系统不但成本高昂、耗时,而且资源密集,通常需要数据工程师在元数据流经处理管道时,手动跟踪和更新元数据;同时,还要求数据分析师手动遍历海量的对象存储,以找到用于分析和AI/ML数据处理工作流所需的特定数据。 Amazon S3 Metadata能够近乎实时地自动生成可查询的对象元数据,从而加速数据发现并提升数据理解能力,帮助客户消除构建和维护复杂元数据系统的负担。借助Amazon S3 Metadata,客户可以查询、发现并使用数据,以支持业务分析、实时推理应用等。Amazon S3 Metadata能够自动生成对象元数据,包括系统定义的详情,如对象的大小和来源,并可通过新的Amazon S3 Tables进行查询。随着对象的增加或删除,Amazon S3 Metadata会实时更新Amazon S3 Tables中的对象元数据,确保客户获得最新的数据视图。客户还可以使用对象标签添加自定义元数据,为对象注释特定的业务信息,如产品SKU、交易ID、内容评级或客户详细信息。客户还可以通过简单的SQL查询轻松检索元数据,快速查找和准备数据,以支持业务分析、实时推理应用、基础模型微调、检索增强生成(RAG)、数据仓库与分析工作流集成,以及执行有针对性的存储优化任务等。 各种规模的企业都将受益于Amazon S3 Metadata的数据发现和理解。领先的生物技术公司罗氏(Roche),计划借助Amazon S3 Metadata加速其未来生成式AI计划。随着罗氏对先进大型语言模型(LLM)应用的开发,如复杂的内部聊天机器人,罗氏预计其用于检索增强生成(RAG)的非结构化数据量将面临成倍增长。Amazon S3 Metadata将简化可扩展元数据系统的构建,自动为新数据的摄入生成并更新元数据。Roche期望通过定制的Lambda函数提取复杂的、特定于业务的元数据,并将其与Amazon S3 Metadata无缝集成到综合Amazon Glue目录中。这将让企业更有效率,并快速识别可为前沿AI应用提供支持的相关数据集,让罗氏聚焦于个性化医疗领域的突破性创新。 Cambridge Mobile Telematics (CMT) 是全球最大的远程信息处理服务提供商。该公司从设备收集传感器数据,并使用上下文数据对其进行增强,从而创建车辆与驾驶员行为统一的视图,供汽车保险公司、汽车制造商、商业移动公司以及公共部门用于支持风险评估、安全、理赔和驾驶员改进计划。CMT存储并分析来自全球数百万物联网设备的多PB级数据。随着公司规模的扩大,为提出新见解和开发新模型而定位特定数据变得越来越有挑战性。借助Amazon S3 Metadata(包括系统元数据和自定义元数据),CMT能够查询PB级元数据,使查找相关数据变得简单且经济高效。 Amazon S3 Tables现已正式可用,Amazon S3 Metadata现推出预览版。Amazon S3 Tables与Amazon Glue Data Catalog集成现已预览可用,客户可使用亚马逊云科技的分析服务(如 Amazon Athena、Amazon Redshift、Amazon EMR 和 Amazon QuickSight)对包括Amazon S3 Metadata Tables在内的数据进行查询和可视化操作。 欲获取更多信息,请访问:
『本文转载自网络,版权归原作者所有,如有侵权请联系删除』 |
关于我们|手机版|EDA365电子论坛网 ( 粤ICP备18020198号-1 )
GMT+8, 2025-6-29 05:36 , Processed in 0.093750 second(s), 29 queries , Gzip On.
地址:深圳市南山区科技生态园2栋A座805 电话:19926409050