每经编辑 黄胜 每经实习编辑 宋欣悦
7月30日,英伟达CEO黄仁勋(Jensen Huang)和Meta创始人马克·扎克伯格(Mark Zuckerberg)在美国丹佛举行的SIGGRAPH 2024计算机图形大会上,首次公开进行了对话。
黄仁勋和扎克伯格就基础研究如何引领人工智能领域取得突破性进展,以及生成式人工智能与开源软件如何赋能开发者与创作者进行了深入探讨。双方还进一步交流了生成式人工智能在构建虚拟世界中的核心作用,以及这一虚拟世界如何成为推动未来人工智能与机器人技术新浪潮的潜力源泉。
在对话结束后,扎克伯格从背后拿出一件皮夹克赠予黄仁勋,而黄仁勋也慷慨回赠,两人互换皮夹克,台下观众报以热烈掌声。
扎克伯格分享了Meta在生成式AI方面的进展,并深入探讨了这些技术如何为公司的运营带来革新,以及如何助力引入更多前沿的新功能。
扎克伯格认为,基础模型的发展正在加速。“即便基础模型方面的进展现在停滞不前了(尽管我并不这么认为),业界也至少需要五年时间来进行产品创新,以探索如何最高效地利用迄今为止所构建的一切。但实际上,我认为基础模型以及基础研究的进展正在加速,这使得当前正处于一个极为激动人心的时期。”
他还特别提到了FAIR(Meta的AI研究实验室),以及PyTorch在计算机视觉、语言模型和实时翻译方面的开创性应用。
扎克伯格指出,未来的AI将不仅用于内容推荐系统,还将用于即时内容生成和从现有内容中整合新内容,这将彻底改变Instagram和Facebook等平台的信息流和推荐系统。
扎克伯格认为,AI不仅能提升内容推荐的质量,还能通过更广泛的数据池和更通用的推荐模型,实现更高效的内容分发。
黄仁勋也表示:“我认为很少有人意识到,推荐系统是世界上设计出的最大计算系统之一。”
两位科技领袖还深入探讨了生成式人工智能与开源软件如何赋能开发者与创作者。黄仁勋和扎克伯格都认为,开源软件对于赋能开发者和创作者至关重要。
黄仁勋还称赞了Meta在开源方面的贡献,特别是Llama 2.1的开源。黄仁勋表示:“我认为Llama 2可能是去年AI领域最重大的事件。我之所以说它是最大的事件,是因为当它发布时,它激励了每一家公司、每一个企业、每一个行业。”
扎克伯格提到,Meta的开源并非全然出于无私,是因为开源可以促使其开发产品达到最优状态。“这不仅仅关乎打造一款软件,而是需要构建一个围绕它的生态系统。若我们不开放源代码,它几乎就无法被有效利用。我们之所以这么做,并非因为我们是纯粹的利他主义者,我们这样做是因为坚信这能促使我们正在开发的产品达到最优状态。”
扎克伯格强调,开源与闭源各有其存在的合理性和独特优势。然而,他指出:“我们确实会做一些封闭源代码的项目。我们发布的并不都是开源的。但我认为,总的来说,对整个行业来说,如果软件开源,那将带来不可估量的巨大价值。”
在讨论生成式AI在构建虚拟世界中的作用时,扎克伯格表示,Meta一直在努力开发逼真的化身技术和先进的显示系统,以提升用户的虚拟现实体验。
扎克伯格强调了Meta在AI领域的持续投入和创新。他回顾了Meta在2018年展示的一些早期手部追踪技术,以及在VR和MR头戴设备上取得的进展,以及这些技术如何使虚拟体验更加逼真。
扎克伯格还提到,这些技术的发展不仅提升了用户体验,也为创作者提供了更多可能性,使他们能够创造出更加丰富和互动的虚拟内容。
在讨论的最后,两位CEO都认为虚拟世界将成为推动未来AI与机器人技术新浪潮的潜力源泉。扎克伯格提到了Meta在智能眼镜和混合现实头戴设备上的愿景,以及这些设备如何成为下一代计算平台。
他表示:“智能眼镜会成为下一代计算平台的移动版,混合现实头戴设备则更像是你的工作站或游戏主机。”这些设备的发展将使人们能够以更加自然和直观的方式与虚拟世界互动,从而推动AI和机器人技术的进步。
黄仁勋则从更广泛的角度看待这一问题,他认为,生成式AI和虚拟世界的结合将为各个领域带来革命性的变化。他表示:“生成式AI正在每一个领域中进行根本性转变。”
黄仁勋表示,从气候技术到生物技术,再到物理科学,生成式AI的应用正在推动科学和技术的发展,为未来的创新提供了无限可能。
以下是黄仁勋和扎克伯格的对话节选:
黄仁勋:我想问你的第一个问题是,你如何看待Meta目前在生成式AI方面的进展,以及你是如何利用这些技术来优化运营或开发新能力的?
扎克伯格:在2018年,我们展示了VR和混合现实头戴设备的一些早期手部追踪技术。我想我们已经详细讨论了我们在高保真化身技术方面取得的进步,这些化身可以从消费者的头戴设备中驱动,我们正逐步实现这一目标,对此我们感到非常兴奋。
此外,我们在显示系统方面也做了大量工作。我们正在进行的一些未来原型和研究旨在使混合现实头戴设备变得更加轻薄。这需要使用先进的光学堆叠技术和集成显示系统。我们通常首先在这里展示我们的最新成果,所以今年能来参加感到非常兴奋,我们不仅讨论了反向工程的内容,还涉及了所有与AI相关的领域。
正如你所说,我们从FAIR,即AI研究中心开始。那时还是Facebook,现在是Meta,在我们成立Reality Labs之前,我们已经在这个领域耕耘了一段时间。
生成式AI技术正在引发一场有趣的革命。我认为它将最终以有趣的方式改变我们所做的每一个产品。我亲历了这一切的发展。你可以看看我们已有的主要产品,比如Facebook和Instagram的动态和推荐系统。我们一直在不断地发展这些产品,它们已经从最初的与朋友联系功能发展到了更多。
未来,大量内容也将通过这些工具被创造出来。其中一部分将是由创作者使用这些工具创作的新内容。我认为,其中一部分内容最终将根据你的需求即时生成,或者是通过整合全球各地的不同资源来创造的。
黄仁勋:然而,我认为很少有人意识到,推荐系统是世界上设计出的最大的计算系统之一。
扎克伯格:确实,这是一个全新的方向,不是吗?
例如,我们曾有一个模型专门用于短视频的排名和推荐,另一个模型则用于长视频。通过产品开发,我们使得系统能够在线显示任何类型的内容。随着你创建出能够覆盖所有内容的通用推荐模型,这些模型会变得越来越精准。
我梦想着有一天,Facebook或Instagram几乎可以由一个单一的AI模型驱动,这个模型能够整合不同的内容类型和系统,这些系统在不同的时间尺度上有着各自的目标。有些内容是向你展示今天你可能感兴趣的有趣内容,而有些则是长期帮助你扩展社交网络,你可能认识的人或你可能想关注的账户。
黄仁勋:多模态模型通常在识别模式和微弱信号方面表现更出色。人们总是对AI在你公司中的深度应用感到好奇,毕竟你们一直在构建GPU基础设施,并且运行这些大型推荐系统已经有一段时间了。
现在,生成式AI真正酷的地方在于,当我使用WhatsApp时,我感觉我正在与它合作。当我打字时,它正在实时生成图像。我回头修改我的文字,它就会生成不同的图像。
扎克伯格:一方面,我认为它将为我们的工作流程和产品带来一次重大升级。但另一方面,它还将催生出许多全新的创意。因此,Meta AI是拥有一个能够帮助处理各种任务的AI助手,这将是极具创造性的。但重要的是,它们非常通用,因此不必局限于特定用途。随着时间的推移,它将能够回答任何问题。当我们从Llama 3类模型过渡到Llama 4类模型及其更高级版本时,这种体验将不再局限于简单的聊天机器人模式。不再是你给出提示,它就回应,然后你再给出提示,它再回应。相反,它将迅速发展,能够根据你的意图独立工作,跨越多个时间框架。
黄仁勋:因此,今天的AI主要功能是接收输入并做出回应。但当我们面对一个任务或问题时,我们通常会考虑多个选项,甚至可能构建一个决策树来考虑每种可能的选择所带来的不同结果。这就是我们在进行规划的过程。未来的AI也将执行类似的操作。当我听到你阐述关于创作者AI的愿景时,我感到非常兴奋。这个想法确实令人振奋。请向大家介绍一下创作者AI以及这个AI工作室,它将如何帮助大家实现这一目标。
扎克伯格:确实,我们之前提到过,但今天我们正在将这个项目扩展到更广泛的范围。我们的愿景是,不会只有一个AI模型。有些公司似乎在构建一个中央代理,但我们会提供一个Meta AI助手供大家使用。更重要的是,我们希望赋予所有使用我们产品的人创建自己代理的能力。我们现在开始推广的项目被称为AI Studio。
AI Studio是一套工具,最终将帮助每个创作者构建一个AI版本的自己,作为社区可以与之互动的代理或助手。让我有些意外的是,Meta AI目前一个非常受欢迎的应用场景是人们用它来模拟即将面临的复杂社交情境。例如,在职场中:我想问我的经理,如何才能获得晋升或加薪?或者我与朋友发生了争执,再或者我和女朋友之间出现了棘手的问题。这样的对话该如何展开?这个平台提供了一个完全无压力的环境,你可以在这里模拟不同的对话场景,观察对话的进展,并获得有益的反馈。
然而,许多人并不满足于只与单一类型的AI代理互动,无论是Meta AI、ChatGPT还是其他流行的选择,人们渴望创造属于自己的内容。这就是我们AI Studio的发展方向。
黄仁勋:我认为这非常酷,如果你是一名艺术家并且拥有自己的风格,你可以将这种风格和你所有的作品集,微调成AI模型。现在,你可以向这个模型提出请求,让它根据你的艺术风格来创作。你甚至可以提供一件艺术品,如一幅画或一个草图,作为灵感。我可以为你生成作品。你可以通过我的AI来获取这样的服务。未来,每家餐厅、每个网站可能都会有这样的AI。
扎克伯格:是的,我认为在不久的将来,就像现在每个企业都有一个电子邮件地址、网站和社交媒体账户一样,未来每个企业都会有一个AI代理来与客户互动。
黄仁勋:那我能否使用AI Studio来优化我的图片以及我的图片集?
扎克伯格:是的,我们将会实现这个功能。
黄仁勋:然后我可以把我写过的所有内容都加载进去,基本上把它当作我的个人助理。每次我回来时,它都会重新加载记忆,记得我们上次对话停在哪里。然后我们可以继续对话,就像之前从未中断过一样。
扎克伯格:就像所有产品一样,它会随着时间的推移而不断改进。训练工具也会变得更好。我相信我们很快就能实现这一目标。这些技术并不遥远,而且发展速度非常快,这让人感到非常兴奋。有很多新的内容等待我们去创造。
即使基础模型的进步现在停止了,但我认为这不会发生,我们仍然有大约五年的时间来进行产品创新,让整个行业学会如何有效地利用已经开发出的所有技术。但实际上,我认为基础模型和基础研究的进展正在加速,现在是一个非常激动人心的时期。
黄仁勋:我喜欢你关于这个愿景的想法,每个人都应该有一个AI,每个企业都应该在我们的公司有一个AI。我想让每个工程师和每个软件开发者都拥有一个或多个AI。我喜欢你的愿景的原因是,你也相信每个人和每个公司都应该能够创造自己的AI。所以,当你开源Llama时,我认为这是非常棒的。顺便说一下,Llama 2,我认为Llama 2可能是去年AI领域最重大的事件。
我之所以说它是最大的事件,是因为当它发布时,它激励了每一家公司、每一个企业、每一个行业。突然间,每个医疗保健公司都在建立AI。每个公司都在建立AI,无论是大型公司、小型公司还是初创公司都在建立AI。它使得每一个研究人员都能重新启动AI,因为他们有了一个起点来做事情。
你开源了PyTorch,它是现在运行AI的主要框架。随后,你又开源了Llama 3.1并围绕它建立了一个完整的生态系统。我认为这非常棒,这一切的起源是什么?
扎克伯格:随着时间的推移,我们已经做了很多开源工作。我认为其中一部分,我们是在其他一些科技公司之后开始建设的,或者像分布式计算基础设施和数据中心这样的东西。而且,正因为如此,当我们建造这些东西的时候,它已经不是一个竞争优势了。所以我们就想,好吧,我们不妨将其开放,然后我们将从围绕它的生态系统中受益。我们有很多这样的项目。
我认为最大的影响可能是我们公布了服务器设计、网络设计,最终是数据中心设计。通过使这些成为行业标准,供应链几乎完全围绕它组织起来,这对所有人都有节省成本的好处。因此,通过开源,我们实际上节省了数十亿美元。
扎克伯格:有一种很大偏见,每个人都只关注移动端,因为封闭的生态系统,苹果基本上赢了。我知道实际上有更多Android手机,但苹果基本上占据了更大的市场份额。并且,所有的利润都集中在苹果身上。
在发展上,Android基本上都在追随苹果。所以苹果在这一代中显然是赢家,但情况并不总是如此。如果你回顾过去,苹果在封闭系统方面有所作为。但微软,虽然它不是一个完全开放的公司,但与苹果相比,Windows运行在所有不同的OEM和不同的软件、硬件上,形成了一个更加开放的生态系统。
在个人电脑时代,Windows是领先的生态系统,可以看作是开放生态系统。我对下一代的计算抱有希望,那就是我们将会回到开放生态系统占主导地位的那个时代。再次强调,总是会有封闭的和开放的两种选择。我认为两者都有其合理性,都有其好处。我并不是在这个问题上偏执。我的意思是,我们确实会做一些封闭源代码的项目。我们发布的并不都是开源的。但我认为,对于整个行业正在构建的计算平台,尤其是软件开源,这将为整个行业带来巨大的价值。因此,这确实影响了我对AI和Llama,以及我们在AR和VR领域所做工作的看法。我们基本上是在为混合现实构建Horizon OS,类似于Android或Windows的开放操作系统。
黄仁勋:这真是太好了。我认为这是一个很好的世界,有人致力于构建尽可能好的AI。他们构建它并将其作为服务提供给世界。
但如果你想构建自己的AI,你也可以自己构建。所以完全使用AI的能力,你可以提供伟大的服务,令人难以置信的服务,同时保持开放性。
扎克伯格:我认为我们的目标是一致的。我们这样做并不是因为我们很无私,这会使我们正在构建的东西通过一个坚固的生态系统变得更好。
黄仁勋:看看有多少人为PyTorch生态系统做出了贡献。仅英伟达,我们就有几百人致力于让PyTorch变得更好、更可扩展和性能更高等等。
扎克伯格:是的,当某件事成为行业标准时,其他人会围绕它进行工作。所以所有的硬件和系统最终都会被优化,以便非常高效地运行这个东西,会造福所有人,并且也会很好地与我们正在构建的系统协同工作。我认为这只是这种方法如何变得非常有效的例子之一。所以,我认为开源策略作为商业策略将会是一个好策略。我认为人们仍然没有完全理解这一点。
黄仁勋:我们非常喜欢它,围绕它建立了一个生态系统。我们建立了这个基础。
扎克伯格:每次我们推出新产品,你们总是第一个发布并进行优化,使其正常工作。所以,我对此表示感激。
黄仁勋:我也认为Llama真的很重要。我们构建了这个概念,围绕AI建立了一个AI工厂,以便我们能够帮助每个人建立和获取AI。对他们来说,拥有AI非常重要,因为这使得他们公司的机构知识得以编码和嵌入到AI中。
扎克伯格:是的,我认为帮助人们从大型模型中提炼出自己的模型,将是一件非常有价值的新事物。每个人都在同一水平上与之交流。我不认为会有一个模型被每个人使用。
黄仁勋:我们拥有芯片设计的AI,软件编码AI,以及理解我们的软件编码AI,因为我们使用USD为Omniverse项目编码。我们还有理解vlog的软件AI,以及理解我们的bug、知道如何帮助我们分类bug并将它们发送给正确工程师的软件AI。每个AI都是从Llama衍生出来的,我们对其进行微调和设置护栏。因此,我认为每个公司将为它们的每一个功能拥有AI,他们很可能为这些功能构建AI。
扎克伯格:是我认为未来人们将面临的一个问题是,他们将多大程度上使用更大的、更复杂的模型,而不是只为他们的特定用途训练自己的模型。至少我会打赌,我们将看到大量不同模型的出现。
黄仁勋:让我们谈谈下一个问题。你知道的,我真的很喜欢你们所做的工作之一,计算机视觉。你将AI带入虚拟世界的愿景真的很有趣。你可能知道,英伟达现正致力于通过视频训练AI模型,目的是更深入地理解世界模型。我们将这些AI模型与Omniverse平台相连接,以便更精确地模拟和呈现现实世界。这样,我们就能让机器人在Omniverse的虚拟世界中顺畅地运作。
你提到的雷朋的Meta类应用程序,以及将AI技术融入虚拟世界的创新愿景,都非常引人入胜。能否详细分享一下这方面的信息。
扎克伯格:当我们考虑下一个计算平台时,我们倾向于将其视为混合现实的世界。包括头戴设备以及智能眼镜。我认为人们更容易接受这个概念,因为今天几乎每个人都戴眼镜,而这些眼镜最终都会升级为智能眼镜。世界上有超过十亿人,这将会是一个巨大的变革。
VRM是指头戴设备,有些人可能觉得它对游戏或其他用途很有趣,而有些人则不这么认为。然而,我认为智能眼镜和混合现实头戴设备都将存在于我们的世界中。我认为智能眼镜将类似于移动手机,是下一个计算平台的一种始终在线的版本。而混合现实头戴设备则将像你的工作站或游戏机,当你需要更深入的沉浸式体验和更多的计算能力时使用。眼镜的体积非常小,因此在形态上有许多限制,就像你不能在手机上完成同样水平的计算一样。
黄仁勋:它恰好在所有这些重大突破和生成式AI技术出现的时候问世了。
扎克伯格:是的,所以对于智能眼镜,我们基本上是从两个方向着手解决这个问题。一方面,我们一直在研发我们认为是理想全息AR眼镜所需的技术。我们正在进行所有定制硅芯片和显示堆栈的工作,这些都是为了让这种技术能够在眼镜中得以实现,这并不是一个头戴设备,也不像VR或MR头戴设备。它们看起来像普通眼镜,但与你现在戴的眼镜相比,还有一定的差距。我的意思是,那些眼镜虽然非常薄,但即使是雷朋和我们生产的,目前也还不能将实现全息AR所需的所有技术都集成进去。不过,在未来几年里,我们将越来越接近这个目标。我认为我们会更接近实现它。这个产品仍然会相当昂贵,但我想它将开始成为一个实际的产品。
我们解决这个问题的另一个方法是,从设计精美的眼镜开始,与世界顶尖的眼镜制造商合作。他们拥有众多知名品牌,比如雷朋、Oakley、Oliver Peoples等。我们与他们合作开发雷朋眼镜,目前我们已经进入第二代产品。我们的目标是,首先将智能眼镜的设计限制为美观大方。然后在这样一款眼镜中,我们尽可能多地集成技术,尽管我们知道可能无法完全达到理想的技术集成状态。
但最终,它将是一款看起来非常棒的眼镜。目前,我们已经集成了相机传感器,所以你可以拍照和录视频。我甚至可以直播Instagram,你可以在WhatsApp上进行视频通话,并将画面实时传输给对方。它还配备有麦克风和扬声器。你可以用它来听音乐,非常受欢迎。人们也喜欢用它来接听电话。但后来我们发现,那个传感器套件恰好是我们与AI交流所需的关键。这有点像是意外的收获。
如果你五年前问我,我们会先实现全息AR还是AI?我可能会说,AI可能会先实现,对吧?我的意思是,这一切就像是虚拟和混合现实技术的进步,以及显示技术的进步。我们正在持续朝着这个方向取得进展。
幸运的是,由于我们一直在开发各种不同的产品,我们现在处于一个非常好的位置。但我想最终你会看到一系列不同价格和不同技术水平的潜在眼镜产品。所以,基于我们现在对雷朋眼镜的观察,我猜测在300美元价格点上。无显示AI技术将是一个非常成功的产品,最终可能有数千万甚至数亿人使用。你将拥有一个非常互动的AI,可以与之交流。
黄仁勋:正如你刚才展示的,你拥有视觉语言理解能力。你还具备实时翻译功能。因此,你可以使用一种语言与我交流。
扎克伯格:当我听到另一种语言时,显示效果当然也会非常好。但这也会给眼镜增加一些重量,并使其价格更高。因此,我想对于很多人来说,他们可能更喜欢全息显示的眼镜。但同时,也会有许多其他人,他们希望最终能拥有像非常薄的眼镜一样的产品,无论是工业应用、工作应用,还是消费者产品。你这么认为吗?是的,我的意思是,我在疫情期间一直在思考这个问题,当时每个人都在远程工作了一段时间。就像你在Zoom上花费了所有的时间。虽然我们现在有了这些技术,但在未来,我们不会离得太远,就能实现虚拟会议,比如,虽然我不在物理位置上,但我的全息图可以出现,让人感觉我们都在同一个地方,就像我们物理上都在场一样。
黄仁勋:我们可以合作开展某项工作,但我认为这对于AI用户来说将尤为重要,因为可以与一个不必随时佩戴的设备一起生活。
扎克伯格:是的,但我想我们最终会实现这一点。在眼镜设计中,有更薄的框架和更厚的框架,还有各种风格。但我想,我们离拥有全息眼镜还有一段时间。不过,我认为在一副时尚的、更厚框架的眼镜中实现这一点并不遥远。
黄仁勋:我们正经历一个令人难以置信的时期,整个计算堆栈正在被重新发明,我们思考软件的方式也在变化。生成式AI这项技术,是我所见过的影响消费者、企业行业和科学速度最快的技术之一。它能够跨越从气候技术到生物技术再到物理科学的各个领域。生成式AI正处于这些领域根本转变的核心。
每日经济新闻综合自公开消息
1本文为《每日经济新闻》原创作品。
2 未经《每日经济新闻》授权,不得以任何方式加以使用,包括但不限于转载、摘编、复制或建立镜像等,违者必究。