AIGC行业周报 | OpenAI“超级智能对齐”团队解散； OpenAI、谷歌、字节跳动发布新大模型；阿尔特曼称GPT-5会很特别

开栏语：《大模界》是每日经济新闻旗下专注AIGC领域报道的栏目。从本周开始，我们推出子栏目《AIGC行业周报》，梳理AIGC行业一周内发生的重要动态，产品发布和业内大咖的最新观点。

图片来源：每经制图

一、企业动态

1、OpenAI安全主管离职

5月18日凌晨，OpenAI安全主管、“超级智能对齐团队”负责人Jan Leike在社交平台宣布，离开OpenAI。这也是本周三OpenAI联合创始人兼首席科学家Ilya Sutskever辞职之后，又有一名高管辞职。

Jan Leike在X上公开透露了他离职的部分原因。他的潜台词是，他与OpenAI高层在公司的核心优先事项上存在长期分歧，最终双方的分歧已经严重到无法调和的地步。团队在推动其研究项目和争取计算资源时遇到了重大阻碍，缺乏资源会严重影响研究的进度和质量。

2、“超级智能对齐团队”解散

本周五（当地时间5月17日），OpenAI证实，由Ilya和他的亲信Jan Leike共同领导的“超级智能对齐团队”已经解散。此后，该团队的研究工作将被整合到OpenAI的其他研究小组中。至此，一度几乎导致OpenAI分崩离析的宫斗事件终于尘埃落定。

OpenAI首席执行官Sam Altman感谢并肯定了Jan Leike在OpenAI的贡献和领导能力。并表示，未来几天内会发表一篇更长的文章，来阐述OpenAI对于产品安全的规划和所做的事情。

而现在AI风险团队解散是公司内部最近出现动荡的又一证据，也再次引发了人们对该公司在开发AI产品时如何平衡速度与安全的质疑。OpenAI章程规定，必须安全地开发通用人工智能(AGI)，即可以与人类匹敌或超越人类的技术。

3、百度AI转型：AI First Business战略下的增长与创新

北京时间5月16日，百度在2024年Q1财报中展示了其净利润的同比增长，超出市场预期，彰显了公司从Internet Centric Business向AI First Business转型的决心和成果。李彦宏强调，AI技术正在全面重构百度的产品和服务，尤其在搜索业务上，百度正在通过AI生成的搜索结果和智能体平台AgentBuilder，提升用户体验和商业效率。百度App的月活用户持续增长，智能云业务实现盈利，文心大模型成为云业务的重要增长点。此外，百度在自动驾驶领域取得突破，发布了支持L4级自动驾驶的大模型Apollo ADFM，并推出了价格合理的萝卜快跑第六代无人车，展现了百度在AI技术应用和商业化方面的领先地位和未来的增长潜力。

4、智源研究院发布国内外140+大模型评测结果

北京时间5月17日，智源研究院在大模型评测发布会上推出了智源评测体系，公布了对国内外140余个开源和商业闭源的语言及多模态大模型的全方位能力评测结果。评测从主观和客观两个维度进行，涵盖简单理解、知识运用、推理能力等七大能力。结果显示，在中文语境下，国内头部语言模型综合表现接近国际一流水平，但在安全与价值观对齐方面存在差异。多模态模型在中文语境下的文生图能力和文生视频能力上表现出色，尤其是Sora在视频生成方面具有明显优势。智源研究院还首次联合教育机构进行大模型K12学科测试，发现模型在综合学科能力上与学生平均水平有差距，尤其在文理学科和图表理解能力上。此外，中国传媒大学智能媒体计算实验室负责人提出需要系统化构建文生视频模型的主观评价体系。智源评测体系旨在促进模型性能优化和产业落地，推动大模型技术应用的有序发展。

二、产品动态

1、OpenAI发布全能大模型GPT-4o，免费开放Plus功能并提供API

美东时间5月13日周一，OpenAI推出了最新旗舰大模型GPT-4o，该模型不仅免费开放，还具备听、看、说的能力，能够实时流畅地进行视频通话，无延迟地响应，与人类对话反应速度一致。GPT-4o的"o"代表"Omni"，即全能，能够接受文本、音频和图像的任意组合作为输入，并生成相应的输出。此外，GPT-4o将提供API，价格优惠，速度提升，调用次数增加。OpenAI还展示了GPT-4o在实时翻译、视觉识别等方面的应用，并进行了两个ChatGPT模型之间的对话演示，展现了其端到端训练的神经网络处理语音、文本和图像的能力。

尽管GPT-4o在图像识别、情绪判断、视频内容分析以及语言翻译等方面表现出色，在某些特定任务上仍有局限。OpenAI计划在未来几周内推出GPT-4o的语音功能alpha版，Plus用户将优先体验。GPT-4o的演示和体验揭示了AI在提供情绪价值、模拟人类对话以及多模态交互方面的潜力，预示着AI技术在日常生活中的应用将更加广泛和深入。

同时，OpenAI在其ChatGPT平台推出了一项新功能，允许用户直接打开数据文件并进行实时交互式数据分析。用户可以通过Google Drive或Microsoft OneDrive上传文件，ChatGPT将创建一个交互式表格，支持数据分组、四舍五入等操作，并能够创建图表和总结结论。

此外，用户还可以自定义和下载图表，以便在演示文稿和文档中使用。这些新功能预计将在未来几周内向ChatGPT Plus、团队和企业用户开放。有网友推测，这些新功能背后可能使用了名为ADA V2(GPT-4)的数据分析新模型。OpenAI强调，企业用户的数据不会被用于训练，ChatGPT Plus用户可以选择开启隐私保护功能。

2、谷歌推出Project Astra和Veo模型，与OpenAI的GPT-4o展开竞争

北京时间15日凌晨1点，在OpenAI发布GPT-4o后，谷歌DeepMind首席执行官哈萨比斯推出了名为Project Astra的AI助手，该助手基于Gemini系列模型，旨在提供日常生活帮助，并通过摄像头直接读取代码。此外，谷歌还推出了Veo视频生成模型，能够生成最长超过1分钟的1080p高质量视频。谷歌进一步将Gemini模型集成到全线产品中，包括谷歌搜索、Android系统、谷歌Photos和谷歌Workspace，显著提升了AI在搜索、手势识别搜索、图片视频查找以及工作生产力工具中的应用。谷歌还宣布了第六代TPU Trillium，将在今年向云客户提供，其性能和能效比前代有显著提升。

3、字节跳动发布豆包大模型家族，以低价格和多场景应用为特点

北京时间5月15日，字节跳动通过其火山引擎首次公开亮相了豆包大模型家族，共9个成员，包括通用模型pro和lite两个尺寸。这些模型专注于实际应用效果，而非仅仅追求参数规模和榜单分数。豆包大模型的价格显著低于行业标准，旨在实现广泛的应用和使用。火山引擎强调通过大规模使用量来不断优化模型，其大模型自上线以来，每天处理的token数量高达1200亿，生成图片3000万张，并在50多个场景中进行实践和验证。此外，火山引擎还升级了火山方舟平台，发布了扣子专业版，旨在简化企业级AI应用的开发和落地。

三、前沿观点

1、Sam Altman：GPT-4o幕后揭秘，GPT-5会很特别

当地时间5月16日，OpenAI首席执行官Sam Altman（阿尔特曼）在接受红点风险投资公司董事LoganBartlett的专访中，深入讨论了GPT-4o多模态大模型的创新特点，包括其跨文本、视频、音频推理的能力，以及低延迟带来的应用场景拓展。Altman还透露了GPT-5的发展方向，暗示其将具有类似“虚拟大脑”的功能，帮助用户处理各种任务。

此外，他表达了对开源大模型领域的认可，并认为编程领域将是未来12个月最有前途的应用程序领域之一。他还提到了AI芯片厂的建设计划，以及对AGI（人工通用智能）的看法，认为AGI将能够极大地提高工作效率。

2、甲子光年发布2024中国AI新风向30条判断

北京时间5月15日，甲子光年创始人兼CEO张一甲在“2024甲子引力X科技产业新风向”大会上发布了关于中国AI发展的30条判断。这些判断涵盖了AI对生产力变革的影响、AI技术发展的四个阶段（AI生产时代、AI原生时代、AI创生时代、AI文明时代）、以及AI在不同阶段的意义和作用。张一甲还讨论了AI与人类生产活动的关系、AI对社会经济结构的深远影响、以及AI发展所面临的挑战和争议。此外，她还提出了关于AI是否真的创造新需求、人类与AI之间相互作用的反思性问题，并探讨了AI对经济权重、文化形态的影响，以及AI与人类文明共生的可能性。

AIGC行业周报 | OpenAI“超级智能对齐”团队解散； OpenAI、谷歌、字节跳动发布新大模型；阿尔特曼称GPT-5会很特别

一、企业动态

二、产品动态

三、前沿观点

关联专题

版权声明