生活 理财 投资 股票知识 贷款 基金
早泄 皮肤补水 白癜风 雀斑 癫痫 高血压 肝硬化 青光眼 尿毒症 腹泻 腰肌劳损 预防肝癌 牙龈肿痛 改善哮喘 痛经 前列腺炎 广告
首页 > 资讯> 热点资讯 > 正文

相比于GPT-4 Turbo等国外大模型 国产大模型的突围之路在哪里?

2023-11-13 12:11 投稿:admin258
核心提示:国产大模型要实现自己的创新,就不能单纯复制世界顶尖水平的技术路径。从技术发展上来看,早期预训练模型有几个类型,比如GPT、BERT还有T5,每个训练框架都有适合的某些任务和场景。在早期,BERT的效果比GPT-1和GPT-2更好,直到参数规模更大的GPT-3出现。

国产大模型要实现自己的创新,就不能单纯复制世界顶尖水平的技术路径。从技术发展上来看,早期预训练模型有几个类型,比如GPT、BERT还有T5,每个训练框架都有适合的某些任务和场景。在早期,BERT的效果比GPT-1和GPT-2更好,直到参数规模更大的GPT-3出现。它开启了基础模型发展的新时代,其在语言生成、上下文学习和知识(常识)理解等方面展现出惊人能力。但我们从2020年底,选择了从0到1研发GLM预训练架构。

 
当时选择该路径的原因,是希望把不同预训练模型的优势组合到一起。还有一个更重要的原因是,当时中国没有自己的预训练模型框架。无论是GPT、BERT,还是T5,都是西方的科学家提出的底层技术,路径是被西方垄断的状态。我们希望打破垄断,所以没有完全复刻OpenAI的路径。如今,从数据到训练集群运维再到核心算法,智谱AI都实现了完全的自研,我们也将它视为突围的起点。
 
想实现国产大模型的突围之路,就要正视国产大模型与国际领先水平的差距,也要有信心去追赶甚至超越。在我们眼里,GPT-4只是一个阶段性的成果,它不是我们的终极目标。我们的终极目标和OpenAI很接近,那就是实现通用人工智能。所以在很多选择上,我们第一步就是虚心学习。他们做了很多创新,如果我们觉得有道理的,也要想办法去实现。
 
比如前段时间我们瞄向GPT-4V实现的技术升级,包括:多模态理解能力的CogVLM、代码增强模块Code Interpreter、网络搜索增强WebGLM等。国产大模型与国外大模型之间的差距依然存在,但我们也一直在不断创新的路上。
 
在商业化方面,要打造分层的生态圈,联手踏实落地,避免”重复造轮子”的内耗。
 
如今,中国大模型赛道正在从拥挤走向分层。大部分技术进步大抵如此:新技术产生,大家一拥而上;当技术发展到一定程度,自然而然地会沉淀,会分层——有些人解决底层的问题,有些人解决中间的问题,有些人解决上层的问题——这是自然而然形成的,会变成相对稳固而不是混乱的生态,大家互相促进。
 
我们希望做的,就是能用通用智能水平比较高的模型去赋能大家,让大家去做行业应用。所谓行业模型、通用模型之间的差别和关系到底是什么?我更愿意接受华为的说法,就是L0层(指基础模型)、L1层(指行业模型)和L2层(面向更加细分场景的推理模型)。三者并不独立,行业模型(L1)和细分场景的推理模型(L2)理论上来说应该是基于通用模型(L0)增强出来的。
 
基于此,我们也提出了大模型行业内的首个合作伙伴计划,面向生态开放商业合作资源和底层技术能力,与全球顶尖合作伙伴共建千行百业大模型,打造产业智能新生态。我们做好L0的层面,赋能伙伴和客户做好L1和L2。
 
我们认为,国产大模型就是要依靠“做更适合中国企业的大模型”这样强强联手的方式来实现突围。自2022年初,GLM系列模型已支持在昇腾、神威超算、海光DCU架构上进行大规模预训练和推理,当前已支持10余种国产硬件生态,包括昇腾、神威超算、海光DCU、海飞科、沐曦曦云、算能科技、天数智芯、寒武纪、摩尔线程、百度昆仑芯、灵汐科技、长城超云等。通过与国产芯片企业的联合创新,性能不断优化,期待有一天国产原生大模型与国产芯片能够在国际舞台上闪光。

本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件至whzhuomai@163.com 举报,一经查实,本站将立刻删除。

男性健康 健康导购
大家关注
最新热点一周热点
健康导购更多
举报/反馈
链接地址:*
举报内容问题:*请选择举报类型
原创文章链接:
其他理由:
更多问题及建议:
联系方式: