欢迎来到云栖网

免费注册

在re:Invent 2022大会上,我们看到了云计算的未来

云栖网 2022-12-05 09:19 来源:机器之心Pro

云栖网云技术到了变革的节点。

AI 圈里很多人都听说过开源 AI 作画扩散模型 Stable Diffusion,见识过 AI 图片横扫朋友圈。最近大模型兴起除了造梗图之外,应用前景也在逐渐清晰,AIGC(人工智能生成内容)成为了众多科技公司正在尝试的领域。

在re:Invent 2022大会上,我们看到了云计算的未来

不过,大模型的缺点就是太大:最初版本的 Stable Diffusion 动用了 256 块 A100 GPU,花费了 15 万 GPU 小时进行训练,仅这一项就是 60 万美元。

Stable Diffusion 刚刚推出 2.0 版,背后的公司 Stability AI 就宣布和亚马逊云科技展开了合作。

在re:Invent 2022大会上,我们看到了云计算的未来

Stability AI 未来的基础模型也要用 Amazon SageMaker 构建。

科技界最新的独角兽和最大云服务公司宣布合作的消息,正是在一年一度的亚马逊云科技 re:Invent 全球大会上。和往年一样,这场「云计算春晚」上,亚马逊云科技发布的众多新技术吸引了全球的目光。

除了成为 Stability AI 首选云供应商之外,亚马逊云科技一口气推出了十余款新产品——从自研芯片、AI 工具到数据平台,云技术的未来被完整地展示了出来。

自研芯片,面向 AI 大模型、高性能计算

想要让人人都能跑得起大模型,首先得提升算力,亚马逊云科技有着丰富的芯片自研经验。自 2013 年推出 Amazon Nitro 系统以来,其推出了五代 Nitro 系统、提升多种工作负载性能的三代 Graviton 芯片、用于加速机器学习推理的两代 Inferentia 芯片,以及用于加速机器学习训练的 Trainium 芯片。

在 re:Invent 上,亚马逊云科技宣布了为其云服务提供基础的多款新硬件,包括新版本的 Nitro、新实例类型和基于 Arm 架构的新一代 Graviton 3E 芯片。新一代芯片在各类云计算任务上都实现了大幅度的进步:

在re:Invent 2022大会上,我们看到了云计算的未来

应用新处理器的云服务实例是 Hpc7g,与当前的 C6gn 相比,其浮点性能提高了两倍,与 Hpc6a 相比性能提高了 20%,这为 HPC 工作负载提供了超高的性价比。

更加令人关注的的是 AI 训练和推理芯片。前不久,应用机器学习训练芯片 Trainium 的 AI 专用实例 Trn1 正式上线,它是第一个具有高达 800 Gbps EFA 网络带宽的 EC2 实例,拥有 512 GB 的高带宽内存,提供高达 3.4 petaflops 的 FP16/BF16 计算能力。

在超大规模集群 EC2 UltraClusters 中,用户最多可以扩展到多达 3 万块 Trainium,相当于使用一台 6.3 exaflops 算力的超算。

在re:Invent 2022大会上,我们看到了云计算的未来

旨在为 AI 推理提供加速的 Inf2 实例配备了亚马逊自研的最新 Inferentia2 推理芯片,为运行多达 1750 亿参数的深度学习大模型进行了专门优化。与当前一代 Inf1 实例相比,新实例可提供高达 4 倍的吞吐量,还能降低多达 10 倍延迟,以最低的成本为 Amazon EC2 上的机器学习推理提供动力。

值得一提的是,亚马逊云科技为实现更快的芯片迭代速度,在芯片设计和验证中使用了基于云的电子设计自动化,从而使团队能够更快地将芯片提供给客户。

通过自研芯片,亚马逊云科技在云服务基础设施性能上保持了领先位置,在多种任务上实现了性能、效率和成本的优化。

持续降低软件开发门槛,完善端到端数据治理

在强大的算力基础之上,亚马逊云科技进一步降低了技术应用的门槛,发布了一系列 AI 开发能力,和用于数据治理的创新工具。

在re:Invent 2022大会上,我们看到了云计算的未来

Amazon SageMaker 是业内第一个基于云的机器学习开发平台,最早于 2017 年推出,用于构建、训练和部署深度学习算法。新推出的功能可以让开发者更快地进行机器学习模型的端到端部署。

在 SageMaker Studio Notebooks 上,现在 AI 可以帮助开发者发现数据处理过程中的错误,当你选择系统建议的补救方法时,工具会自动生成实施所需的代码。部署使用 Jupyter 创建的神经网络通常是一项耗时的任务。

SageMaker Studio Notebooks 现在也可以将神经网络打包到软件容器中,无需开发者手动操作,不同团队现在也可以更方便地共享 AI 模型代码和其他软件组件。

使用 SageMaker 构建神经网络后,现在人们可以进行 shadow testing 测试,通过亚马逊云科技的人工智能算法来评估神经网络的可靠性。

在re:Invent 2022大会上,我们看到了云计算的未来

在 AI 治理工作上,亚马逊提出了一系列工具,Amazon SageMaker Role Manager 让管理员可以轻松控制用户对公司 SageMaker 环境的访问,Amazon SageMaker Model Cards 则帮助软件团队管理项目机器学习部分产生的数据。最后是 Amazon SageMaker 模型仪表板,可用于在 AI 模型部署到生产环境后监控其可靠性

在主 Keynote 演讲中,亚马逊云科技 CEO Adam Selipsky 多次强调了 ETL(Extraction-Transformation-Loading)对于数据工程师工作的挑战,它代表了大数据任务中数据抽取、转换和加载等一系列工作。在大数据任务中,ETL 经常会花费整个项目的 1/3 的时间。

亚马逊云科技希望消灭 ETL,让用户只需要专注于自己的业务逻辑,引入了 Amazon Aurora zero ETL 与 Amazon Redshift 的集成,让使用 Aurora 数据库和 Redshift 数据仓库的客户能够快速将数据应用于自家机器学习服务 SageMaker 打造 AI 应用,而无需自定义数据管道。

在re:Invent 2022大会上,我们看到了云计算的未来

现在,亚马逊云科技支持 Amazon EMR、Glue 和 Amazon SageMaker 上的 Apache Spark,具有完全兼容且专门优化的性能,比开源版本速度快 3 倍。

随着数据量的爆炸性增长,AI 理所当然地成为了数据治理的新思路。Amazon DataZone 是一项数据管理服务,可以帮助企业编目、发现、共享及管理自有数据,其中管理并组织数据内容的工作都被交由机器学习来自动完成。

在re:Invent 2022大会上,我们看到了云计算的未来

此外,Amazon Security Lake 可以帮助安全团队轻松地自动收集、组合和分析 PB 级的安全数据。

「在数据领域,亚马逊云科技基本实现了端到端的无服务器能力,接管了全部的数据处理,」Adam Selipsky 说道。「亚马逊云科技引导了开发模式的变更,实现了基于事件驱动的任务处理。」

解决实际行业难题

面向行业和应用,亚马逊云科技还发布了一系列工具。前段时间很多行业都遭遇了供应链问题,Amazon Supply Chain 可帮助供应链领导者降低风险和成本以提高供应链弹性,提供实时可视化地图功能,显示每个位置的库存水平和健康状况,提醒人们注意潜在风险,并提供库存重新平衡建议。

在受保护数据环境 Amazon Clean Rooms 中,多方分析组合数据时无需担心隐私泄露——一家拥有客户忠诚度数据的公司可以与另一家拥有用户广告点击行为数据的公司合作研究用户行为,同时又无需共享用户的原始和可识别数据。

在最前沿的 AI 加医疗领域,亚马逊云科技提出了基因组学数据服务 Amazon Omics,可帮助研究人员存储、分析基因组学、转录组学和其他组学的数据并从中生成见解。

re:Invent 上发布的 Amazon SimSpace Weaver 吸引了很多人的眼球,这是一种计算服务,允许开发人员在云中大规模运行城市规模的模拟,如自然灾害以测试应急响应系统、大型体育比赛对交通流量的影响等。面对此类复杂的情况,云上模拟优势之一是能够让多个外部方实时远程查看模拟结果并与之交互。

在re:Invent 2022大会上,我们看到了云计算的未来

SimSpace Weaver 可以将算力划分为实例和分区,自动管理内存和网络用于实体的跨分区传输,创建了一个可以跨实例构建大型模拟器的基础。如此规模的模拟甚至可以是游戏大作画质,亚马逊云科技表示,Unity 和 Unreal Engine 5 开发人员可以通过 SimSpace Weaver 插件访问该系统。

在re:Invent 2022大会上,我们看到了云计算的未来

亚马逊云科技首席执行官 Adam Selipsky(亚当·塞利普斯基)在 re:Invent 大会上。

这场大会上,探索未知的主题贯穿始终,亚马逊云科技希望能够通过自己提供的基础能力,让所有客户都能大胆地探索新的领域,实现更大的成就。

正如 Adam Selipsky 所说的:「我们为大家提供创新保障,你们就可以走出去,实现各自的探索了。」