欢迎来到云栖网

免费注册

GPU集群助力百度为行业提供高效定制化AI训练和推理平台

云栖网 2018-07-05 13:32 来源:云栖网

云栖网:在刚刚结束的“百度Create2018”百度开发者大会上,百度发布了升级版的开源深度学习框架PaddlePaddle,可谓深度学习模型设计的利器,让开发者只需关注模型的高层结构,而无需担心底层的搭建问题。同时,百度在2017年11月发布了以此框架为基础的,定制化训练和服务平台EasyDL(http://ai.baidu.com/easydl/),即使零机器学习算法基础,也能全程通过可视化操作获取定制化AI服务。

百度作为全球人工智能核心技术和研究的领军企业,通过搭建AI开放平台(ai.baidu.com)和PaddlePaddle深度学习框架将百度大脑中领先的核心能力赋能到更为广泛的行业生态、科研院所和开发者社区中,提供了全球领先的AI服务基础设施。在以平台化开放百度大脑中的核心基础能力的同时,百度也非常关注各个行业中对AI模型和服务的定制化需求。

百度AI开放平台团队基于PaddlePaddle打造了EasyDL这一全球领先的定制化模型训练和推理平台。目前EasyDL已经在图像分类(ImageClassification),物体检测(ObjectDetection)等方向支持零算法基础的定制化模型训练与服务。除了云端服务(CloudComputing),EasyDL还支持定制化模型在设备端的本地计算(EdgeComputing),是一个端云一体的平台。用户通过将平台的定制能力与行业场景结合,实现了大量人工智能创新。自2017年上线以来,EasyDL已累计创建模型破万,已覆盖20多个行业。

在赋能行业的平台的背后,EasyDL依托于NVIDIA的TeslaGPU深度学习平台,搭建了用于深度学习模型训练(Training)和服务(Inference)阶段的GPU集群。该集群能支持高效的大规模深度神经网络模型并发训练,并大幅缩短模型训练周期,显著减少定制服务调用阶段的响应时间,从而为EasyDL提供了坚实的技术保障。

GPU集群助力百度为行业提供高效定制化AI训练和推理平台

图1 不同行业对人工智能的定制化需求是通用AI能力难以满足的

行业AI定制化需求对训练和推理算力提出高要求

满足不同行业对AI的定制化需求,其实存在诸多业务和技术上的挑战。首先,提出定制化AI需求的行业用户虽然是各自行业的领域专家但对于人工智能及深度学习的技术知之甚少,要求他们直接通过深度学习框架训练得到定制化模型是不切实际的。其次,这些用户也往往不具备用于模型训练和服务部署的大规模GPU集群,更没有资源投入到长期的服务升级和运维工作中。更为重要的是,定制化模型的训练和基于推理的服务都必须足够的快,用户才能及时得到反馈,调整训练数据和方案,优化训练效果;才能在服务调用时满足严苛的时效性要求;平台才能实现大规模并发训练和并发服务请求。

GPU集群助力百度为行业提供高效定制化AI训练和推理平台

图2 EasyDL技术框图,学习和服务环节依托大规模NVIDIA GPU集群

如图2所示,百度基于其开源深度学习框架PaddlePaddle实现EasyDL的核心训练和服务引擎,在计算视觉的图像分类和物体检测等定制化方向上,使用了基于Inception、SSD、ResNet、FasterRCNN等多个深度神经网络原型算法优化的模型。模型的训练和服务阶段采用了大规模的NVIDIATeslaP4为主的GPU集群,通过数据比对可以看到,基于GPU集群性能远超CPU集群。

大规模NVIDIATeslaP4GPU集群加速AI训练与推理

目前,百度EasyDL团队基于单机4卡TeslaP4GPU的服务器搭建了数十台深度神经网络模型训练和推理的GPU加速集群,能稳定承载每天数百个并发训练任务,以及数千个并发定制模型推理请求。


TeslaP4加速器的单精度浮点数(FP32)计算能力达到了5.5TFLOPS,集群单节点GPU的单精度浮点计算能力可达到22TFLOPS。TeslaP4可将任何超大规模基础架构的延迟降低15倍,并可以提供比CPU高60倍的能效,可助力实现许多过去由于延迟限制而无法实现的应用。

在典型业务场景下,对集群单节点的承载和时延性能进行压力测试,可以看到基于GPU集群的性能显著优于CPU集群。其中,图像分类上单节点每秒并发承载能力(QueryPerSecond)GPU节点是CPU节点的6倍多,响应时延则仅为CPU节点的58%左右;物体检测中更为明显,GPU单节点并发承载能力达到CPU节点的31倍,响应时延则仅为CPU节点的25%。由于基于GPU集群的训练和服务都足够快,因此,在用户体验方面,EasyDL的用户最快5分钟即可完成定制模型的训练并获得服务,对比同类需求通常需要数天的训练周期大幅提升了效率。这解决了定制化模型训练和服务中的核心挑战。同时,为EasyDL场景和行业覆盖的迅速规模化打下了扎实的基础。也确保了EasyDL更轻快、高精度等特性。

GPU集群助力百度为行业提供高效定制化AI训练和推理平台

真实业务场景数据并发和时延压测比对

5分钟完成定制模型训练与推理,零基础也能快速上手

为降低行业用户的使用门槛,实现零机器学习基础,零代码获得定制化深度学习模型及接口服务,百度EasyDL提供了简单且完善的平台业务系统,用户只需上传数据、发起训练、验证效果、发布模型四个步骤,就能快速获得定制化接口服务。

GPU集群助力百度为行业提供高效定制化AI训练和推理平台

图3 极简业务流程使得EasyDL对普通用户可即用

为了使得模型训练、部署和推理对用户透明,百度EasyDL团队打造了结合大数据Spark系统和AI分布式训练Kubernetes工具的AIWorkflow引擎,实现了从数据处理到推理上线的全自动流程。如此一来,就解决了业务人员不懂代码,程序员不懂业务的痛点难点,使得AI技术能够迅速被业务人员学习和掌握,从而专注于精进业务能力。

GPU集群助力百度为行业提供高效定制化AI训练和推理平台

图4 全自动AI Workflow引擎

图像识别准确率大幅提高,人力成本显著降低

在NVIDIATeslaP4加速器的强大算力助力下,百度EasyDL已经在多个行业落地应用。比如在制造业中,百度EasyDL平台也在帮越来越多的企业提升效率并节约人力。比如蝶鱼科技将百度EasyDL接口与工业摄像头、工业光源、激光测距仪、PLC控制气缸等设备组成综合检测系统,在制造和组装键盘流水线上,自动识别键盘组装后的合格性,包括缺件、错装、正常三类,通过3000+张图片的验证(每类1000张),识别准确率99%以上,远超蝶鱼科技的预期。同时,每条生产流水线每年可以节省12万人工检测员人力成本。

GPU集群助力百度为行业提供高效定制化AI训练和推理平台

图5 键盘组装质量检测

在GPU的助力下,包括百度EasyDL平台在内的诸多行业客户,获得了深度学习和推理应用的能力和智慧,进而定制出丰富、个性化、不断动态升级的AI行业解决方案,同时也对传统的行业应用提供了创新思路,随着基于行业的AI生态不断通过百度EasyDL这样的平台聚合与裂变,以AI为核心特征的新应用大爆发时代已经来临。