◎ 本周,AI界展开“军备赛”,OpenAI、谷歌和马斯克旗下xAI等科技巨头相继发布重磅AI产品,引发业界关注。这些创新涵盖了AI视频生成、多模态输出和屏幕共享等多个领域。在第七天的活动上,OpenAI还故意放了个AGI(通用人工智能)的“彩蛋”。随着AI大厂之间的竞争日趋白热化,2025年AI的发展将呈现什么新的趋势呢?《每日经济新闻》记者采访复旦大学计算机科学技术学院副教授郑骁庆进行解读。
每经记者 郑雨航 每经实习记者 宋欣悦 岳楚鹏 每经编辑 兰素英
本周,一场激烈的“军备竞赛”在AI界上演。
OpenAI自12月5日开启的12天特别活动已经过去了一半,期间发布了不少惊喜,包括期待已久的AI视频生成模型Sora、解锁高级视频对话和屏幕共享的ChatGPT,以及ChatGPT接入苹果“全家桶”,赚足了外界的眼球。在第七天的活动上,OpenAI还故意放了个“彩蛋”:一个项目标注着“AGI(即通用人工智能,请勿现场演示)”,吸引了大量关注。
科技巨头谷歌、马斯克旗下xAI自然不会坐以待毙,也竞相发布新产品。尤其是谷歌新推出的人工智能大模型Gemini 2.0 Flash,除了能生成文字外,还能直接生成图片和语音,而且延迟还特别低。
在一系列新品的“轰炸”之下,用户也是激动不已,纷纷涌入各大平台,希望抢得一手体验。哪知道,ChatGPT、Sora,以及Meta的一系列产品却在本周出现了全球范围的宕机,持续了数小时,让用户叫苦不迭。但OpenAI和Meta都没有详细说明服务中断的原因,但据猜测,这与算力和服务器的需求激增有关。有行业人士介绍,在大模型时代,算力需求每2个月就要翻倍。
随着AI大厂之间的竞争日趋白热化,2025年AI的发展将呈现什么新的趋势呢?复旦大学计算机科学技术学院副教授郑骁庆在接受《每日经济新闻》采访时表示,“个性化”将是关键词之一。
借着12天12场的新品活动,OpenAI在科技界掀起了一场前所未有的波澜。xAI和谷歌自然也不会缺席这场盛宴,也相继发布新产品,在这场年末狂欢中刷了一波存在感。
图片来源:每经制图
截至目前,OpenAI的这场圣诞特别活动已经过去一半,期间发布的产品不乏重磅之作,例如被OpenAI称为“今年最重要的AI功能之一”的Projects In ChatGPT、等了300天才上线的视频生成模型Sora 和“装上眼睛”的ChatGPT。
Sora与今年2月发布的预览版相比,则增加了文本生成视频、动画图像和混合视频等功能。用户可生成分辨率高达1080p、时长最长为20秒的视频。此外,用户还可以导入自己的素材,用于扩展、重新混合或融合内容,甚至直接从文本生成全新的视频。
知名数码科技博主马克·布朗利(Marques Brownlee)表示,Sora在风景镜头处理方面表现出色,能生成媲美专业素材的无人机航拍镜头。然而,这款产品仍存在一些局限性。比如,在物理模拟方面,模型对物体运动的理解还不够深入,常常出现动作不自然、物体突然消失等问题。
ChatGPT的高级语音(Advanced Voice)模式也无疑是一大“王炸”,不仅支持实时视频通话,还能实时共享屏幕和上传图像。这一技术迭代使得ChatGPT不仅能听会说,还解锁了视觉能力,通过摄像头睁眼“看”世界,可以说“人味”十足。
在强化AI视觉理解能力方面取得进展的还有谷歌。在ChatGPT高级语音模式发布的前一天,多次在新品发布上遭遇OpenAI狙击的谷歌也“放了大招”,官宣了新模型Gemini 2.0系列的“先头兵”——Gemini 2.0 Flash。凭借强大的多模态输出功能和良好的用户体验,Gemini 2.0总算是给谷歌扳回了一局。
有科技博主体验后直接惊呼:这绝对是世界上首个真正把语音 + 视觉全模态能力做到实时、无卡顿感交互的AI模型。
面对竞争对手的强劲势头,OpenAI在接下来的活动中还将释放什么惊喜呢?
在第七天(12月14日)的发布会上,OpenAI埋了个“彩蛋”:一个项目标注着“AGI(请勿现场演示)”,吸引了大量关注。此外,在用于演示的iPhone上,还似乎设置了一个名为“超级秘密AGI”的日历活动,进一步增添了神秘色彩。
而在11日,OpenAI研究人员卡琳娜·阮(Karina Nguyen)在社交平台上发布帖子时附上了一张新功能展示界面截图,界面上出现了一个陌生的名字——ChatGPT ε。网友猜测,这极可能就是之前被传出的下一代模型“猎户座”(Orion)。网友还给出了“充分”的理由:天文学中,猎户座腰带上的中心恒星Anilam,用巴耶命名法表示正是猎户座ε。
图片来源:Reddit
新产品发布如火如荼,渴望抢先体验的用户也跃跃欲试。然而,让人意想不到的是,OpenAI和Meta旗下产品却出现了全球范围的服务中断。
当地时间12月11日下午3点左右,ChatGPT、Sora及API开始出现中断。15分钟后,OpenAI在X平台上致歉。直到晚上9点,OpenAI才宣布基本恢复了服务。
图片来源:X平台截图
中断期间,一些用户不停发出抱怨之声,称OpenAI严重耽误了他们的工作了。有用户不无调侃地表示:“ChatGPT宕机了,我现在不得不像个山顶洞人一样备战期末考试。”
而在ChatGPT和Sora宕机前约6小时,Meta旗下多个产品也出现“宕机”。上午10点,中断数据追踪网站Downdector报告的Facebook中断数量激增至超过九万七千份,Instagram的中断报告数量激增至六万七千份以上,其他Meta产品也出现了不同程度上的中断。数小时后,问题得以解决。
图片来源:X平台截图
OpenAI和Meta都没有详细说明服务中断的原因,但有人猜测与算力和服务器的需求激增有关。
本周早些时候,Sora 一经开放便吸引了大量用户,导致服务器一度被“挤爆”。许多注册用户无法生成视频,并收到一条消息,称“OpenAI的服务器已满负荷”。
算力资源的不足在AI领域已经不是什么新鲜话题。有行业人士介绍,在“深度学习”时代之前,算力需求每24个月翻倍;在“深度学习”时代,算力需求每3至4个月翻倍;在大模型时代,算力需求每2个月就要翻倍。
目前,算力需求和算力基础设施存在供需缺口。上个月,阿尔特曼就曾透露,由于计算能力的明显短缺,GPT-5的发布将被推迟至明年。
随着AI大厂之间的竞争日趋白热化,2025年AI的发展将呈现什么新的趋势呢?
复旦大学计算机科学技术学院副教授郑骁庆在接受《每日经济新闻》记者采访时表示,“个性化”将是2025年AI发展的关键词之一。
他对记者补充称,要实现个性化和数据隐私之间的平衡,云+端的协作模式将成AI发展的趋势。如果所有数据都在云端,会消耗大量算力。未来,需要快速响应的、涉及个人隐私的数据可能会在端侧(如PC、智能手机),而需要更强计算能力才能解决的复杂问题,会上传至云端进行计算。
美国硅谷风险投资公司a16z近期综合公司50位合伙人洞察而发布的“Big Ideas in Tech for 2025”报告也对明年AI领域的发展进行了展望。
Justine Moore表示,AI将成为你的“第二大脑”。借助大语言模型(LLMs),每天产生的大量数字信息可以被整合为一个“数字大脑”。在未来,AI将成为一个无限记忆库,记录我们的想法,提供建议,指导个人成长。AI可以整理总结信息,生成数字日记,帮助我们进行更明智的决策。
而James da Costa提到,2025年,每个白领都将有一个AI助手帮助处理繁琐任务,让人们专注于更具创造性或战略性的工作。未来,某些角色可能几乎完全由AI agents(智能体)自动化完成。
Sarah Wang认为,2025年将是AI原生应用层崛起的一年。在大多领域内,最佳的创始团队本质是应用AI的工程团队。他们探索与模型互动的最佳方法,以解决客户“最后一公里”难题。成功的AI应用可能会结合多个大模型+自训练的小模型,提供从通用到有价值的AI体验。未来成功的AI应用公司,绝不会被简单视为“GPT套壳”。
Guido Appenzeller则表示,生成式AI将无处不在,AI不再仅运行在云端大服务器,也会运行在小型设备和应用上。
封面图片来源:视觉中国-VCG31N2008742366
1本文为《每日经济新闻》原创作品。
2 未经《每日经济新闻》授权,不得以任何方式加以使用,包括但不限于转载、摘编、复制或建立镜像等,违者必究。