◎零一万物表示,原始出发点是为了充分测试模型,并非刻意隐瞒来源。
每经记者 赵雯琪 每经编辑 刘雪梅
公开发布首款预训练大模型Yi-34B一周时间,李开复和他的创业公司零一万物陷入质疑漩涡中。
近日,在Yi-34B的Hugging Face(一家开源模型库)开源主页上,有开发者质疑零一万物发布的模型使用了Meta LLaMA的架构,只对两个张量(Tensor)名称进行了修改等等。所谓张量,是深度学习概念中的多维数组,其目的是能够创造更高维度的矩阵、向量。
对此,11月14日,“零一万物”公司正式公开回应了此事,该公司开源团队总监Richard Lin承认了修改Llama张量名称的做法不妥,将会按照外界建议把“修改后的张量名称从Yi改回LLaMA”。
11月15日,零一万物正式公开了对Yi-34B训练过程的说明。李开复也在朋友圈转发了该说明,并表示:“零一万物Yi-34B模型训练的说明也回应这两天大家对于模型架构的探讨。全球大模型架构一路从GPT2-->Gopher-->Chinchilla-->Llama2->Yi,行业逐渐形成大模型的通用标准(就像做一个手机app开发者不会去自创iOS、Android以外的全新基础架构)。01.AI起步受益于开源,也贡献开源,从社区中虚心学习,我们会持续进步。”
零一万物在训练过程说明中表示,模型训练过程好比做一道菜,架构只是决定了做菜的原材料和大致步骤,这在大多数人的认知中也逐步形成共识。要训练出好的模型,还需要更好的“原材料”(数据)和对每一个步骤细节的把控(训练方法和具体参数)。由于大模型技术发展还在非常初期,从技术观点来说,行业共识是与主流模型保持一致的模型结构,更有利于整体的适配与未来的迭代。
零一万物同时表示,原始出发点是为了充分测试模型,并非刻意隐瞒来源。零一万物对此提出说明,并表达诚挚的歉意,我们正在各开源平台重新提交模型及代码并补充LLaMA协议副本的流程中,承诺尽速完成各开源社区的版本更新。
作为李开复亲自下场的创业项目,零一万物自诞生以来即受到业内广泛关注,《每日经济新闻》记者此前获悉,零一万物已完成由阿里云领投的10亿美元融资。目前,零一万物估值已超10亿美元,跻身独角兽行列。
在大模型发布时,李开复曾公开表示,零一万物坚定进军全球第一梯队目标,从招的第一个人,写的第一行代码,设计的第一个模型开始,就一直抱着成为‘World's No.1’(世界第一)的初衷和决心。
今年以来,生成式AI成为资本市场最大的热点和风口。不过在大模型创业浪潮下,很多业内人士不免担心行业泡沫的问题,大模型创业公司澜舟科技创始人兼CEO周明在接受媒体采访时公开表示,中国对新技术的追求和自驱能力较强,但是行业需要注意泡沫问题。“花很大的功夫训练一个不好不赖的模型,对厂商自己是一个学习锻炼的过程,但对社会可能不一定有用。哪怕创业,可能白白浪费了很多创业资本和投入。”周明说。
浙江大学国际联合商学院数字经济与金融创新研究中心联席主任、研究员盘和林也曾向《每日经济新闻》记者表示,当前国内AI大模型,虽然很多,但能够被用户认可的大模型还不多,很多大模型仅仅在测试中能够对标ChatGPT等国外产品,且当前国内的大模型发展也受制于算力。
1本文为《每日经济新闻》原创作品。
2 未经《每日经济新闻》授权,不得以任何方式加以使用,包括但不限于转载、摘编、复制或建立镜像等,违者必究。