首页 科技产品 阿里deep模型(阿里巴巴开源平台)

阿里deep模型(阿里巴巴开源平台)

电子科技网 科技产品 2023-12-18 05:41:46 997

3月4日,阿里巴巴宣布全面开源其自研支持10万亿模型的分布式深度学习训练框架EPL(Easy Parallel Library,原名鲸鱼),进一步完善深度学习生态。

EPL由阿里云机器学习平台PAI团队自主研发。 PAI是面向开发者和企业的机器学习/深度学习工程平台。提供数据标注、模型构建、模型训练、编译优化、推理部署等全方位的AI开发。链接服务内置140余种优化算法和丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程能力。

阿里deep模型(阿里巴巴开源平台)

EPL是PAI团队对于大规模深度学习分布式自动化训练的探索。 EPL希望简化深度学习模型从单机训练到分布式开发和调试的过程。 EPL通过统一抽象和封装不同的并行化策略,在一套分布式训练框架中支持多种并行策略,并对显存、计算、通信等进行全方位的优化,提供了一个易用、高效的分布式训练框架。

EPL适用于不同场景的模型。阿里巴巴已经支持图像、推荐、语音、视频、自然语言、多模态等多种业务场景。同时,EPL还支持不同规模的模型,已完成最大规模10万亿规模的M6模型的训练。与之前发布的大型号GPT-3相比,M6仅用1%的能耗就实现了相同的参数规模。最新测试结果表明,使用EPL的管道+数据并行来优化Bert Large模型,训练速度相比数据并行提升了66%。

阿里云高级技术专家九峰表示,“近年来,随着深度学习的普及,模型的参数规模快速增长,这也给训练框架带来了更大的挑战。” ,我们开发了EPL,EPL的功能也随着业务需求的迭代也在逐步完善,未来我们会继续在软硬件一体化优化、全自动策略探索等几个探索方向上进行投入。我们将全面开源EPL,希望将其与深度学习训练框架相融合,开发者或者深度学习从业者之间将会有更多更好的沟通与共建,深度学习生态将会不断完善。”