OpenAI新模型GPT-4o“炸裂登场”

当地时间5月13日，OpenAI首席技术官Mira Murati在备受期待的直播演示中宣布，推出名为GPT-4o的新旗舰AI模型，这是其已经问世一年多的GPT-4模型的更新版本。同时，OpenAI还推出了台式机版本的ChatGPT以及新的用户界面（UI）。

GPT-4o模型基于来自互联网的大量数据进行训练，更擅长处理文本和音频，并且支持50种语言。更值得一提的是，GPT-4o最快可以在232毫秒的时间内响应音频输入，几乎达到了人类的响应水平。

Murati称新模型面向所有人，而不仅仅是付费用户，为“我们的免费用户带来GPT-4级别的智能水平”。不过，GPT-4o的应用程序接口中尚未为所有客户提供语音功能。鉴于滥用风险，OpenAI计划在未来几周内首先向“一小部分可信赖的合作伙伴”推出对GPT-4o新音频功能的支持。

GPT-4o发布后，网友对其褒贬不一。英伟达科学家Jim Fan评论称，从技术角度来看，总体来说是一个数据和系统优化问题。有网友也称，感觉到目前为止，OpenAI没有那么大的开创性。不过，也有网友认为，OpenAI进一步拉开了和苹果的差距，现在该轮到苹果的Siri“满头大汗”了。

GPT-4o最快可以在232毫秒的时间内响应音频输入，几乎达到了人类的响应水平。图为OpenAI的CEO阿尔特曼出席会议。视觉中国图

GPT-4o核心能力有三

GPT-4o中的“o”代表“omni”，意为“全能”。OpenAI官网介绍称，GPT-4o向更自然的人机交互迈进了一步，因为它接受文本、音频和图像的任意组合作为输入内容，并生成文本、音频和图像的任意组合输出内容。

那GPT-4o到底有多强，有哪些核心能力呢？

能力一：“实时”互动，表达富有情感，视觉功能更强

OpenAI表示，GPT-4o显著提升了AI聊天机器人ChatGPT的使用体验。虽然ChatGPT长期支持语音模式，可将ChatGPT的文本转为语音，但GPT-4o在此基础上进行了优化，使用户能够像与助手互动一样自然地使用ChatGPT。

例如，用户现在可以在ChatGPT回答问题时中断它。而且，新模型能够提供“实时”响应，甚至能够捕捉到用户声音中的情感，并以不同的情感风格生成语音，如同真人一般。此外，GPT- 4o还增强了ChatGPT的视觉功能。通过照片或屏幕截图，ChatGPT现在可以迅速回答相关问题，从“这段代码是做什么用的”到“这个人穿的是什么品牌的衬衫”。

美国科技媒体Quartz报道称，GPT-4o的技术让人印象深刻。OpenAI的演示表明，机器人现在可以与人类进行实时对话，与真人水平几乎没有区别。如果最终版本像OpenAI官方的演示一样，那么OpenAI似乎已经从某种程度上验证AI将在多大程度上改变我们的世界。

能力二：多语言表现出色，响应速度几乎与真人无异

GPT-4o的多语言功能得到了增强，在50种不同的语言中表现更佳。在OpenAI的API中，GPT-4o的处理速度是GPT-4（特别是GPT-4 Turbo）的两倍，价格则是GPT-4 Turbo的一半，同时拥有更高的速率限制。

OpenAI官网介绍称，GPT-4o 最快可以在232毫秒的时间内响应音频输入，平均响应时间为320毫秒，这与人类在对话中的响应时间相似。它在英语文本和代码方面的性能与GPT-4 Turbo的性能一致，并且在非英语文本方面的性能有了显著提高。

用户只需发出简单的“嘿，ChatGPT”语音提示，即可获得代理的口语回应。然后，用户可以用口语提交查询，并在必要时附上文字、音频或视觉效果——后者可包括照片、手机摄像头的实时画面或代理能“看到”的任何其他内容。

能力三：在推理及音频翻译方面树立新标杆

据OpenAI研究人员William Fedus透露，GPT-4o实际上就是在LMSYS模型竞技场上引起整个AI圈疯狂试用的GPT-2模型的另一版本，并附上了GPT-4o的基准测试评分对比图，相比GPT-4 Turbo提升了超过100个单位。

在推理能力方面，此次发布的GPT-4o在MMLU、GPQA、MATH、HumanEval等测试基准上均超越GPT-4 Turbo、Claude 3 Opusn、Gemini Pro 1.5等前沿模型，取得最高分。

音频ASR（智能语音识别）性能方面，GPT-4o相比Whisperv3，在所有语言的语音识别性能上均大幅提高，尤其是资源较少的语言。

音频翻译方面，GPT-4o也树立了新的标杆，在MLS基准测试中优于Whisper-v3以及Meta、谷歌的语音模型。

评价褒贬不一

虽然并未在OpenAI这次重磅直播演示中现身，但OpenAI的CEO阿尔特曼对这次演示进行了重要的总结。阿尔特曼称，OpenAI在ChatGPT中免费提供了世界上最好的模型，新的语音和视频模式是他用过的最好的计算交互界面，感觉就像电影里的人工智能一样，达到了与人类相似的响应速度和表达能力。

目前，GPT-4o的文本和图像功能开始在ChatGPT中免费推出，Plus用户可以享受到5倍的调用额度。在接下来的几周内，OpenAI将在ChatGPT Plus中推出Voice Mode新版本，该版本带有GPT-4o。

而在社交媒体平台X（原推特）上，网友对GPT-4o的评价却褒贬不一。

英伟达科学家Jim Fan评论称，从技术角度来看，总体来说是一个数据和系统优化问题（大多数事情都是如此）。

对于OpenAI推出的新模型和UI更新，有网友称，感觉到目前为止OpenAI没有那么大的开创性。

也有网友指出，GPT-4o不仅可以将语音转换为文本，还可以理解和标记音频的其他特征，例如呼吸和情感，但不确定这在模型响应中是如何表达的。

但大部分网友还是给出了非常积极的看法。

对于阿尔特曼在X上留下的一句“her”，这似乎是暗示ChatGPT实现了经典电影《她》（Her）中像人类一样“有血有肉”的AI。有网友对此评论：“你终于做到了。”并配了一张将电影《她》剧照中的AI“换头”成OpenAI的梗图。

另有网友评价称，这太疯狂了。OpenAI刚刚推出了GPT-4o，它将彻底改变人工智能助手的竞赛。该网友还列举了10个GPT-4o的“疯狂”案例，例如实时视觉辅助等。

也有网友觉得OpenAI进一步拉开了和苹果的差距，还发了一张人满头大汗的动图，称现在苹果的语音助手Siri应该就是这个样子。

对于这点，Quartz报道称，GPT-4o的情感属性使AI聊天机器人比苹果的Siri更加个性化。Siri给人的感觉就像在和一个机器人对话，但OpenAI的演示清楚地表明，GPT-4o具有“人工情感智能”，能够识别用户的情感并与你的情绪相匹配。这让GPT-4o感觉就像一个真正的伴侣，为用户的智能手机操作系统增添了一丝人性。

实际上，为了应对技术威胁，苹果也在与OpenAI进行合作洽谈。Wedbush分析师Dan Ives在一份报告中预计，苹果将在6月10日的WWDC（苹果全球开发者大会）大会上官宣和OpenAI的合作伙伴关系，并推出基于苹果LLM的AI聊天机器人。

封面图片来源：视觉中国

OpenAI新模型GPT-4o“炸裂登场”

关联专题

版权声明