◎下半年,国内大模型创业公司也进入了产品的密集发布和融资关键期。不过,现阶段大模型企业要脱颖而出,应该在用户口碑中拔得头筹,大模型企业要抢占先机,推出应用要快,要早。
每经记者 赵雯琪 每经编辑 刘雪梅
距离宣布亲自下场大模型创业“不仅仅要做中文ChatGPT”仅仅8个月,李开复和他的AI公司迎来实质性进展。
11月6日,李开复带队创办的AI 2.0公司零一万物正式开源发布首款预训练大模型Yi-34B,同时宣布启动下一个千亿参数模型的训练。目前该AI大模型已开放商用申请,并在阿里云魔搭社区ModelScope首发。
《每日经济新闻》记者同时获悉,零一万物已完成由阿里云领投的10亿美元融资。目前,零一万物估值已超10亿美元,跻身独角兽行列。这也就意味着,创业8个月,李开复再收获一家AI独角兽公司。
今年以来,生成式AI成为资本市场最大的热点和风口。国内大模型创业赛道中涌现出上百家创业公司,多个科技大厂也亲自下场。如今随着越来越多头部企业发布产品并陆续获得融资,国内大模型激战也进入新的阶段。
浙江大学国际联合商学院数字经济与金融创新研究中心联席主任、研究员盘和林在接受《每日经济新闻》记者采访时表示,大模型如今正呈现百舸争流、千帆竞渡的景象,实质上大模型的基础算法并不难,难的是通过数据学习和参数积累形成一个通用人工智能,并被用户广泛认可,现阶段大模型企业要脱颖而出,应该在用户口碑中拔得头筹,大模型企业要抢占先机,推出应用要快,要早。
据零一万物介绍,此次开源发布的Yi系列模型,包含34B和6B两个版本。在Hugging Face英文测试公开榜单Pretrained预训练开源模型排名中,Yi-34B各项性能以70.72的分数位列全球第一,公开资料显示,Hugging Face是全球最受欢迎的大模型、数据集开源社区,被认为是大模型领域的GitHub,在大模型英文能力测试中具有相当权威性。
值得一提的是,作为国产大模型,Yi-34B更“懂”中文。对比大模型标杆GPT-4,在CMMLU、E-Eval、Gaokao三个主要的中文指标上,Yi-34B也具有优势,能更好地满足国内市场需求。
各评测集得分:Yi模型v.s.其他开源模型 图片来源:零一万物
《每日经济新闻》记者从零一万物了解到,此次开源的Yi-34B模型,将发布全球最长、可支持200K超长上下文窗口(context window)版本,可以处理约40万汉字超长文本输入。相比之下,OpenAI的GPT-4上下文窗口只有32K,文字处理量约2.5万字。
据了解,在语言模型中,上下文窗口是大模型综合运算能力的金指标之一,对于理解和生成与特定上下文相关的文本至关重要,拥有更长窗口的语言模型可以处理更丰富的知识库信息,生成更连贯、准确的文本。
此外,在文档摘要、基于文档的问答等下游任务中,长上下文的能力发挥着关键作用,行业应用场景广阔。在法律、财务、传媒、档案整理等诸多垂直场景里,更准确、更连贯、速度更快的长文本窗口功能,可以成为人们更可靠的AI助理,让生产力提升。
然而,受限于计算复杂度、数据完备度等问题,上下文窗口规模扩充从计算、内存和通信的角度存在各种挑战,因此大多数发布的大型语言模型仅支持几千tokens的上下文长度。为了解决这个限制,零一万物技术团队实施了一系列优化,包括:计算通信重叠、序列并行、通信压缩等。通过这些能力增强,实现了在大规模模型训练中近100倍的能力提升,也为Yi系列模型上下文规模下一次跃升储备了充足“电力”。
李开复表示,零一万物坚定进军全球第一梯队目标,从招的第一个人,写的第一行代码,设计的第一个模型开始,就一直抱着成为‘World's No.1’(世界第一)的初衷和决心。
“我们组成了一支有潜力对标OpenAI、Google等一线大厂的团队,经历了近半年的厚积薄发,以稳定的节奏和全球齐平的研究工程能力,交出了第一张极具全球竞争力的耀眼成绩单。Yi-34B可以说不负众望,一鸣惊人。”李开复表示。
创业8个月,如今随着首款大模型的发布,大模型赛道再添新的竞争力。
《每日经济新闻》记者在零一万物官网发现,零一万物预测,AI 2.0时代将诞生比移动互联网大十倍的平台机会,将把既有的软件、使用界面和应用重写一次,改写用户的交互和入口。AI 2.0时代将诞生新一批AI-first(AI为先)的应用,催生以AI为内核的应用生态,催生未来的超级App及崭新的商业模式。
这或许也是李开复亲自下场加入AI大模型创业并以最快速度推出首款产品的主要原因。
今年以来,大模型赛道吸引了包括阿里、百度、字节跳动等头部大厂和李开复、王慧文、王小川等科技大佬的关注,围绕大模型的创业和竞争异常激烈。根据创业邦研究中心发布的《2023年H1 AIGC产业报告》,2023年上半年,国内AIGC领域的融资事件共57起,已披露融资总额63.13亿元,涉及投资机构数66家。
到了下半年,国内大模型创业公司也进入了产品的密集发布和融资关键期。公开数据显示,截至2023年8月,我国已发布的大模型已经达到156个,10亿级参数规模以上大模型超80个,“百模大战”蓄势待发。
不过,在大模型创业浪潮下,很多业内人士不免担心行业泡沫的问题,大模型创业公司澜舟科技创始人兼CEO周明在接受媒体采访时公开表示,中国对新技术的追求和自驱能力较强,但是行业需要注意泡沫问题。“花很大的功夫训练一个不好不赖的模型,对厂商自己是一个学习锻炼的过程,但对社会可能不一定有用。哪怕创业,可能白白浪费了很多创业资本和投入。”周明说。
盘和林则认为,当前国内AI大模型,虽然很多,但能够被用户认可的大模型还不多,很多大模型仅仅在测试中能够对标ChatGPT等国外产品,且当前国内的大模型发展也受制于算力。
“我认为现阶段大模型企业要脱颖而出,应该在用户口碑中拔得头筹,这个用户口碑的关键还是C端用户,对用户来说,好玩和有用的东西才能广泛传播,而一旦某个大模型用户培养了使用习惯,则此大模型将成为一种新的互联网生态产品,继而获得马太效应,所以,大模型企业要抢占先机,推出应用要快,要早。”盘和林表示。
封面图片来源:每经记者 赵雯琪 摄
1本文为《每日经济新闻》原创作品。
2 未经《每日经济新闻》授权,不得以任何方式加以使用,包括但不限于转载、摘编、复制或建立镜像等,违者必究。