相比于GPT-4 Turbo等国外大模型国产大模型的突围之路在哪里?

2023-11-13 12:11 投稿：admin258 广告

中医专业治疗鼻炎妇科炎症苦不堪言？肛周湿疣中医治疗配方 30岁后该怎么有效减肥和抗衰老吃什么食物丰胸的效果好管不住嘴如何控制食欲减肥

核心提示：国产大模型要实现自己的创新，就不能单纯复制世界顶尖水平的技术路径。从技术发展上来看，早期预训练模型有几个类型，比如GPT、BERT还有T5，每个训练框架都有适合的某些任务和场景。在早期，BERT的效果比GPT-1和GPT-2更好，直到参数规模更大的GPT-3出现。

国产大模型要实现自己的创新，就不能单纯复制世界顶尖水平的技术路径。从技术发展上来看，早期预训练模型有几个类型，比如GPT、BERT还有T5，每个训练框架都有适合的某些任务和场景。在早期，BERT的效果比GPT-1和GPT-2更好，直到参数规模更大的GPT-3出现。它开启了基础模型发展的新时代，其在语言生成、上下文学习和知识（常识）理解等方面展现出惊人能力。但我们从2020年底，选择了从0到1研发GLM预训练架构。

当时选择该路径的原因，是希望把不同预训练模型的优势组合到一起。还有一个更重要的原因是，当时中国没有自己的预训练模型框架。无论是GPT、BERT，还是T5，都是西方的科学家提出的底层技术，路径是被西方垄断的状态。我们希望打破垄断，所以没有完全复刻OpenAI的路径。如今，从数据到训练集群运维再到核心算法，智谱AI都实现了完全的自研，我们也将它视为突围的起点。

想实现国产大模型的突围之路，就要正视国产大模型与国际领先水平的差距，也要有信心去追赶甚至超越。在我们眼里，GPT-4只是一个阶段性的成果，它不是我们的终极目标。我们的终极目标和OpenAI很接近，那就是实现通用人工智能。所以在很多选择上，我们第一步就是虚心学习。他们做了很多创新，如果我们觉得有道理的，也要想办法去实现。

比如前段时间我们瞄向GPT-4V实现的技术升级，包括：多模态理解能力的CogVLM、代码增强模块Code Interpreter、网络搜索增强WebGLM等。国产大模型与国外大模型之间的差距依然存在，但我们也一直在不断创新的路上。

在商业化方面，要打造分层的生态圈，联手踏实落地，避免”重复造轮子”的内耗。

如今，中国大模型赛道正在从拥挤走向分层。大部分技术进步大抵如此：新技术产生，大家一拥而上；当技术发展到一定程度，自然而然地会沉淀，会分层——有些人解决底层的问题，有些人解决中间的问题，有些人解决上层的问题——这是自然而然形成的，会变成相对稳固而不是混乱的生态，大家互相促进。

我们希望做的，就是能用通用智能水平比较高的模型去赋能大家，让大家去做行业应用。所谓行业模型、通用模型之间的差别和关系到底是什么？我更愿意接受华为的说法，就是L0层（指基础模型）、L1层（指行业模型）和L2层（面向更加细分场景的推理模型）。三者并不独立，行业模型（L1）和细分场景的推理模型（L2）理论上来说应该是基于通用模型（L0）增强出来的。

基于此，我们也提出了大模型行业内的首个合作伙伴计划，面向生态开放商业合作资源和底层技术能力，与全球顶尖合作伙伴共建千行百业大模型，打造产业智能新生态。我们做好L0的层面，赋能伙伴和客户做好L1和L2。

我们认为，国产大模型就是要依靠“做更适合中国企业的大模型”这样强强联手的方式来实现突围。自2022年初，GLM系列模型已支持在昇腾、神威超算、海光DCU架构上进行大规模预训练和推理，当前已支持10余种国产硬件生态，包括昇腾、神威超算、海光DCU、海飞科、沐曦曦云、算能科技、天数智芯、寒武纪、摩尔线程、百度昆仑芯、灵汐科技、长城超云等。通过与国产芯片企业的联合创新，性能不断优化，期待有一天国产原生大模型与国产芯片能够在国际舞台上闪光。

本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至whzhuomai@163.com 举报，一经查实，本站将立刻删除。

延伸阅读

男性健康 健康导购

相比于GPT-4 Turbo等国外大模型 国产大模型的突围之路在哪里?

相比于GPT-4 Turbo等国外大模型国产大模型的突围之路在哪里?