生活 理财 投资 股票知识 贷款 基金
早泄 皮肤补水 白癜风 雀斑 癫痫 高血压 肝硬化 青光眼 尿毒症 腹泻 腰肌劳损 预防肝癌 牙龈肿痛 改善哮喘 痛经 前列腺炎 广告
首页 > 资讯> 热点资讯 > 正文

MLPerf已全面步入生成型人工智能(AI)时代 谷歌、英特尔、英伟达在生成式人工智能训练领域展开较量

2023-11-13 10:22 投稿:admin258
核心提示:今年早些时候,MLPerf增加了一个针对训练大型语言模型(LLM)的测试,特别是GPT-3。本月,它又添加了一个基于文本生成图像的测试——Stable Diffusion。搭载英伟达和英特尔处理器的计算机接受了这一新基准的挑战。此外,在训练GPT-3的领域,这两个竞争对手还迎来了谷歌的加入。

最近,作为计算机系统训练机器学习神经网络能力的公开标准测试,MLPerf已全面步入生成型人工智能(AI)时代。

 
nvidia-culitho,英伟达,芯片
 
今年早些时候,MLPerf增加了一个针对训练大型语言模型(LLM)的测试,特别是GPT-3。本月,它又添加了一个基于文本生成图像的测试——Stable Diffusion。搭载英伟达和英特尔处理器的计算机接受了这一新基准的挑战。此外,在训练GPT-3的领域,这两个竞争对手还迎来了谷歌的加入。
 
所有三家公司都投入了庞大的系统来完成这一任务——其中,英伟达的10,000 GPU超级计算机是迄今为止测试过的最大系统——这种规模对于生成型AI来说是必要的。即便是英伟达最大的系统,也需要工作八天才能完成其LLM任务。
 
总体而言,19家公司和机构提交了200多个结果,显示出过去五个月以来2.8倍的性能提升,以及自MLPerf成立五年来49倍的增长。
 
英伟达继续以其H100 GPU构建的系统主导MLPerf基准测试。然而,最引人注目的是来自公司新的10,752-GPU AI超级计算机Eos的结果。Eos在不到4分钟的时间内完成了GPT-3训练基准的任务。微软的云计算部门Azure测试了同等规模的系统,仅落后Eos几秒钟。(Azure支持GitHub的编码助手CoPilot和OpenAI的ChatGPT。)
 
Eos的GPU能够实现总计42.6亿亿次浮点运算(exaflops),并且通过Nvidia的Quantum-2 Infiniband互联技术,实现了每秒1.1百万亿字节的传输速度。英伟达AI基准测试和云计算总监Dave Salvatore表示:「这些速度和数据的规模令人震惊,这是一台极其强大的机器。」
 
Eos将绑定到单一机器中的H100 GPU数量增加了三倍。这三倍的增长获得了2.8倍的性能提升,或93%的扩展效率。高效的扩展是持续改进生成型AI的关键,这些AI每年都在以10倍的速度增长。
 
Eos应对的GPT-3基准测试并非GPT-3的完整训练,因为MLPerf希望多家公司都能够达到这一水平。相反,它涉及将系统训练到一个特定的检查点,证明给予足够时间,训练将达到所需的准确性。而这些训练确实需要时间。从Eos的4分钟结果推断,完成训练需要8天,而这或许是迄今为止建造的最强大的AI超级计算机。相比之下,一个更为合理大小的计算机——搭载512个H100的系统——将需要4个月的时间。
 
与此同时,英特尔也在逐步缩小差距。英特尔提交了使用Gaudi 2加速器芯片的系统结果,以及仅依赖其第四代至强CPU的系统结果。与上一轮训练基准相比,最大的变化是公司启用了Gaudi 2的8位浮点(FP8)功能。在过去10年中,使用低精度数字(如FP8)是GPU性能大幅提升的主要原因。在GPT-3和其他Transformer神经网络的部分环节中使用FP8,已经在英伟达的H100结果中显示出其价值。现在,Gaudi 2也看到了性能提升。
 
英特尔Habana Labs的首席运营官Eitan Medina表示:「我们预计启用FP8将带来90%的性能提升。我们交付的成果超出了预期——384加速器集群的训练时间缩短了103%。」
 
这一新结果使得Gaudi 2系统的速度略低于英伟达系统的三分之一,并且是谷歌TPUv5e的三倍。在新的图像生成基准测试中,Gaudi 2的速度也大约是H100的一半。这一轮,FP8仅启用于GPT-3基准测试,但Medina表示他的团队目前正在为其他测试开启FP8。
 
Medina继续强调,与H100相比,Gaudi 2在价格方面有显著优势,因此在价格和性能的综合指标上具有优势。Medina预计,随着英特尔下一代加速器芯片Gaudi 3的推出,这一优势将会增长。Gaudi 3将于2024年投入大规模生产,采用与英伟达H100相同的半导体制造工艺。
 
此外,英特尔还提交了仅基于CPU的系统结果。再次展示了多个基准测试中训练时间从几分钟到几小时不等的情况。除了MLPerf基准测试之外,英特尔还分享了一些数据,显示一个包含AMX矩阵引擎的4节点至强系统可以在不到五分钟内微调图像生成器Stable Diffusion。微调是指对已经训练好的神经网络进行专门化,以适应特定任务。例如,英伟达的芯片设计AI是对现有大型语言模型NeMo的微调。

本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件至whzhuomai@163.com 举报,一经查实,本站将立刻删除。

男性健康 健康导购
大家关注
最新热点一周热点
健康导购更多
举报/反馈
链接地址:*
举报内容问题:*请选择举报类型
原创文章链接:
其他理由:
更多问题及建议:
联系方式: