多模态成2024 WAIC关键词之一对话岩芯数智CEO刘凡平：让每个设备都拥有个性化的智能

作为全球人工智能领域最具影响力的行业盛会之一，世界人工智能大会（以下简称“WAIC”）可以被视为观察人工智能发展的一个窗口。

WAIC 2024刚刚落幕，据《每日经济新闻》记者持续几日在大会现场观察，多模态已经是当之无愧的行业关键词之一。

岩芯数智CEO刘凡平在接受《每日经济新闻》记者专访时表示，就今年而言，大模型的多模态能力肯定比去年有所进步。“但我认为，整个行业肯定还要再进步，目前我们已经做到了多模态的输入和输出，距离完全像人一样地实时人机交互，还要一点时间。”

作为一家以认知智能为基础的创新企业，岩芯数智Rock AI在今年1月份发布了全国首个非Attention机制的Yan架构通用大模型，开辟了非Transformer架构的一条新路径。这次WAIC，岩芯数智展示了Yan1.2版本的阶段性成果，主要展示Yan架构在更广泛、更低算力设备上的离线部署及多模态应用能力。

图片来源：每经记者陈婷摄

岩芯数智之外，据记者了解，今年WAIC期间，不少从业者强调了多模态的重要性。阶跃星辰创始人、CEO姜大昕博士表示：“攀登AGI山峰，‘万亿参数’和‘多模融合’缺一不可。”MiniMax副总裁刘华更是认为，多模态大模型有望引领新一轮科技革命。

除了存在感居高不下的多模态外，今年WAIC，对于大模型应用落地的讨论更多元了，对于安全治理的见解也更深入了。

今年WAIC大模型更“百花齐放”

官方资料显示，今年WAIC大会展览面积超5.2万平方米，500余家知名企业、超1500项展品参展，50余款新品首发首秀，均达历史最高。此外，近百个大模型集中展现，18台人形机器人矩阵亮相，国内首款全尺寸通用人形机器人开源公版机发布。

“目前来看，具身智能是挺多的。”刘凡平表示，就当前来看，具身智能的大脑可能还不够成熟，“未来，具身智能大脑仍需持续突破”。

大会现场，岩芯数智的研发团队展示了一款部署了Yan1.2多模态大模型的智能机器人小智，它基于Yan1.2的语音和视觉处理能力，能实时识别环境、准确理解用户的模糊指令和意图，并据此控制其机械躯体高效完成各类复杂任务。

据记者了解，此次“小智”机器人搭载的核心硬件是以低算力著称的树莓派第五代芯片，在极低算力的设备上实现了多模态能力。

现场，岩芯数智的工作人员向记者介绍了“小智”的能力。面对记者，它不但能依据指令向记者鞠躬，还能描述出记者身上穿的衣物特征。此外，小智还有文字类图像的理解能力。现场，工作人员在小智面前展示了书本的一页内容，很快，小智就能总结、复述出书本文字的大致意思。

刘凡平用“百花齐放”形容今年的WAIC。他表示：“当大模型真正发展落地的时候，其实不能再用以前的思维和大众思维思考这个问题，还是要以未来的视角去思考现在如何演进。”

据记者了解，今年WAIC，创业公司和大厂各有千秋。

阿里巴巴推出“通义十二时辰”，展示了对话、效率、智能体、视觉四个核心场景中的AI助手能力。此外，快手再次升级视频生成大模型“可灵”，腾讯则携混元大模型及多款AI应用亮相。

图片来源：每经记者陈婷摄

与此同时，记者了解到，大会期间，创业公司阶跃星辰首发了三款Step系列通用大模型新品：Step-2万亿参数语言大模型正式版、Step-1.5V多模态大模型、Step-1X图像生成大模型。

此外，据MiniMax副总裁刘华介绍，MiniMax将海螺AI、星野和MiniMax开放平台带到了本次世界人工智能大会。海螺AI可为用户分析财报、速读长文、创作文案，聆听用户的想法和烦恼，捕捉、理解用户情绪。

据悉，海螺AI背后接入了MiniMax自研的多模态大模型，包括万亿参数MoE大语言模型abab6.5、语音大模型和图像大模型。

关于未来的探讨：让每个设备都拥有个性化的智能

在本届WAIC期间，还出现了不少探讨AI未来发展方向的声音。

刘凡平便有一个更高的目标：就是在实现通用人工智能的同时，将AI与每个人独特的地方结合在一起，模型具备自主学习能力，让每个设备都拥有个性化的智能。

“我觉得值得惊艳的突破，不在于模型本身已有的知识能力。”刘凡平表示。虽说大家现在都在比参数量，但在他看来，更需要比较的是大模型自主学习的能力有多强。

“举个例子，小苍蝇、小壁虎、小兔子，它们的脑容量是不一样的，但它们都具备智能。”刘凡平认为，智能和参数量没有直接相关的关系，“因为人与人之间的比较也是这样，从来不是比较谁了解的知识比谁多，而是比较谁的学习能力更强，所以我认为大模型之后的比较方向应该是自主学习能力。”

刘凡平表示，当大模型具备了自主学习的智能，才是通用人工智能真正的开始，“现有的并不是（自主学习），现有的是一种压缩算法”。

图片来源：每经记者陈婷摄

对于大模型的未来，MiniMax副总裁刘华也表达了看法。他认为，随着多模态大模型技术的持续演进，文本、语音、视觉这三种模态的融合模型正逐步迈向成熟。一旦此类大模型技术达到成熟阶段，其应用场景将会进一步拓展，实现更多的实际应用。

刘华认为，在短期内，对多模态大模型的大规模落地应用预期应保持审慎态度，不过从中长期来看，坚决不应低估多模态大模型的重要性，它有望引领新一轮的科技革命。

另据媒体报道，旷视科技联合创始人、CTO唐文斌接受采访时表示，相比语言模型，增加训练数据量和参数量对于计算机视觉模型的提升和收益，目前看并没有那么大，而多模态会是大模型的未来。腾讯集团副总裁蒋杰也表示，大模型行业正经历从单模态到多模态，再到全模态的演进。

刘凡平也注意到了大模型在多模态能力上的进步，他还表示，与去年相比，今年WAIC在智能化上也有所提升，但基础变化还不是很大，硬件层次则更难。他推断，未来人工智能一定会走向硬件化，“当已经完全硬件化的时候，就是完全可商用的时候，任何人都可以用得起”。

他认为，今后大家可能会选用一种全新的算法替代现有的Transformer架构。“Transformer架构依赖的算力非常大，同时数据量要求非常高，这两个条件限制了它的发展。”

记者发现，即便大多选择从B端出发，但很多大模型公司已有面向C端的动作。

以阶跃星辰为例，其在WAIC现场展示了面向C端用户的自研产品。据报道，阶跃星辰副总裁李璟在接受媒体采访时表示，目前，C端仍在早期阶段，还在进行用户体验的收集和打磨，随着C端模型能力提升，将产生很强的爆发力。而B端需求相对明确和稳定，已经涌现出非常多的确定性应用机会。刘华也表示，MiniMax坚持To B与To C业务并重的发展策略。

记者也从岩芯数智了解到，当前商业化的重心正逐渐从B端部署到C端，以软硬件结合的方式抢占C端市场先机。

多模态成2024 WAIC关键词之一对话岩芯数智CEO刘凡平：让每个设备都拥有个性化的智能

今年WAIC大模型更“百花齐放”

关于未来的探讨：让每个设备都拥有个性化的智能

关联专题

版权声明

多模态成2024 WAIC关键词之一 对话岩芯数智CEO刘凡平：让每个设备都拥有个性化的智能

今年WAIC大模型更“百花齐放”

关于未来的探讨：让每个设备都拥有个性化的智能

关联专题

版权声明

多模态成2024 WAIC关键词之一对话岩芯数智CEO刘凡平：让每个设备都拥有个性化的智能