清华大学智能产业研究院院长张亚勤：现在大模型无法知道“我不知道什么”丨大模界

2024年6月14日，AI行业盛会“2024北京智源大会”在中关村展示中心开幕。《每日经济新闻》在现场注意到，在全体大会中的主题讨论环节，零一万物CEO李开复与清华大学智能产业研究院院长、智源学术顾问委员张亚勤对谈。

图片来源：主办方提供

张亚勤谈到了大模型的“三个做对了”和“三个目前需要改进”。

关于“三个做对了”，张亚勤提出：

首先，规模定律Scaling Law。规模定律的实现，主要得益于对海量数据的利用以及算力的显著提升。再加上现在的Diffusion和Transformer架构能够高效地利用算力和数据，使得“飞轮效应”得以正循环。尽管有人质疑Scaling Law在2~3年后是否仍然有效，但张亚勤个人认为至少在未来5年里，它仍将是产业发展的主要方向。

其次是“Token-Based”统一表述方式。在大模型中，“Token”是一个基本元素。无论是文本、语音、图像、视频，还是自动驾驶中的激光雷达信号，甚至是生物领域的蛋白质和细胞，最终都可以抽象为一个Token。Token之间的训练、学习和生成是核心环节，这与我们大脑中的神经元工作原理相似，无论执行何种任务，其基础机制都是相同的。

最后是通用性。这与Token紧密相关。现在的通用性不仅体现在文本处理上，还扩展到了多模态领域，甚至可以生成如蛋白质等复杂结构。此外，它在物理世界（如具身智能）和生物世界（如生物智能）中也有着广泛的应用前景。

以上这三个是大模型做对的，而关于现阶段的主要问题，张亚勤也提出了三个点：

第一个，效率较低。特别是大模型的计算效率低下问题，与人类大脑的高效性形成了鲜明的对比。人类大脑拥有860亿个神经元，每个神经元又有数千个突触连接，却只需要20瓦的能量，重量还不到三斤；而GPT4这个万亿参数模型则需要巨大的算力和能源，与人脑相比相差1000倍之多。此外，人脑能够根据不同的情境灵活调用不同区域的神经元，而大模型却每次输入一个问题都要调用和激活几乎大量参数。因此，如何借鉴人类大脑的计算方法，在降低计算耗能、提高效率方面进行探索和创新，是一个值得关注的方向。

第二个，大模型目前还未能真正理解物理世界，相关的推理能力、透明性以及幻觉等问题都还在深入研究中。有一个重要的问题是，即使我们的大模型做得再好，它在生成式表述与对真实世界的描绘之间仍存在矛盾。因此，我们需要探索如何将生成式的概率大模型与现有的“第一性原理”或真实模型、知识图谱相结合。目前，虽然已经有了一些尝试，如采用RAG技术或进行微调，并取得了一定的进展，但张亚勤认为这些方法并非根本解决方案。张亚勤预测，在未来五年内，将会有一个全新的架构出现，这个架构有望取代目前的Transformer和Diffusion模型。

第三个欠缺的地方是边界问题。现在大模型无法知道“我不知道什么”，这是目前要解决的问题，是它的边界效应。

封面图片来源：主办方提供

2024年6月14日，AI行业盛会“2024北京智源大会”在中关村展示中心开幕。《每日经济新闻》在现场注意到，在全体大会中的主题讨论环节，零一万物CEO李开复与清华大学智能产业研究院院长、智源学术顾问委员张亚勤对谈。图片来源：主办方提供张亚勤谈到了大模型的“三个做对了”和“三个目前需要改进”。关于“三个做对了”，张亚勤提出：首先，规模定律Scaling Law。规模定律的实现，主要得益于对海量数据的利用以及算力的显著提升。再加上现在的Diffusion和Transformer架构能够高效地利用算力和数据，使得“飞轮效应”得以正循环。尽管有人质疑Scaling Law在2~3年后是否仍然有效，但张亚勤个人认为至少在未来5年里，它仍将是产业发展的主要方向。其次是“Token-Based”统一表述方式。在大模型中，“Token”是一个基本元素。无论是文本、语音、图像、视频，还是自动驾驶中的激光雷达信号，甚至是生物领域的蛋白质和细胞，最终都可以抽象为一个Token。Token之间的训练、学习和生成是核心环节，这与我们大脑中的神经元工作原理相似，无论执行何种任务，其基础机制都是相同的。最后是通用性。这与Token紧密相关。现在的通用性不仅体现在文本处理上，还扩展到了多模态领域，甚至可以生成如蛋白质等复杂结构。此外，它在物理世界（如具身智能）和生物世界（如生物智能）中也有着广泛的应用前景。以上这三个是大模型做对的，而关于现阶段的主要问题，张亚勤也提出了三个点：第一个，效率较低。特别是大模型的计算效率低下问题，与人类大脑的高效性形成了鲜明的对比。人类大脑拥有860亿个神经元，每个神经元又有数千个突触连接，却只需要20瓦的能量，重量还不到三斤；而GPT4这个万亿参数模型则需要巨大的算力和能源，与人脑相比相差1000倍之多。此外，人脑能够根据不同的情境灵活调用不同区域的神经元，而大模型却每次输入一个问题都要调用和激活几乎大量参数。因此，如何借鉴人类大脑的计算方法，在降低计算耗能、提高效率方面进行探索和创新，是一个值得关注的方向。第二个，大模型目前还未能真正理解物理世界，相关的推理能力、透明性以及幻觉等问题都还在深入研究中。有一个重要的问题是，即使我们的大模型做得再好，它在生成式表述与对真实世界的描绘之间仍存在矛盾。因此，我们需要探索如何将生成式的概率大模型与现有的“第一性原理”或真实模型、知识图谱相结合。目前，虽然已经有了一些尝试，如采用RAG技术或进行微调，并取得了一定的进展，但张亚勤认为这些方法并非根本解决方案。张亚勤预测，在未来五年内，将会有一个全新的架构出现，这个架构有望取代目前的Transformer和Diffusion模型。第三个欠缺的地方是边界问题。现在大模型无法知道“我不知道什么”，这是目前要解决的问题，是它的边界效应。

清华大学智能产业研究院院长张亚勤：现在大模型无法知道“我不知道什么”丨大模界

关联专题

版权声明