复旦大学教授张奇：认清大语言模型能力边界非常关键

9月25日上午，“解码未来：全球数智趋势”专题论坛在上海浦东成功举办。论坛由工业和信息化部工业文化发展中心、上海市经济和信息化委员会、上海市浦东新区人民政府主办。

本次专题论坛是工业文明国际论坛的分论坛之一。主论坛以“工业文明·中国力量”为主题，设一个主论坛和三个分论坛，来自多个国家的政府代表和专家、企业家，聚焦工业文明变迁、人工智能和在线新经济、新能源和智能网联汽车、先进材料、生物医药、产城人文、工业博物馆等热点议题展开讨论。

在“解码未来：全球数智趋势”专题论坛上，复旦大学计算机科学技术学院教授张奇以“大语言模型能力边界与发展思考”为题发表了主题演讲。张奇认为，围绕长上下文建模、多任务学习、跨语言迁移性、文本生产能力这些核心能力，与场景做结合，将有巨大的价值。对于未来的大模型，清晰认知它的能力边界非常重要。如果对能力边界有共识，对于未来投资的力度和方向就有很好的把握。但是可能还需要一定的时间，或许一年、两年的时间才能完成确认（认知能力边界）。

张奇发表主旨演讲图片来源：主办方供图

张奇提到，2023年，大家认为大模型无所不能，所有的地方都可以使用，可以写code（代码），可以做医疗，能够做很多东西。但是干了一年后，大家发现，大模型落地总是差那么一口气。

他举例，去问大模型一句诗的下一句是什么，它可以做得很好，但是如果让它回答一句诗的前面一句是什么，或者一个成语的中间一个字是什么，结果会变得非常差。这也就让我们思考，为什么大模型会出现这些情况，它能做什么，不能做什么。

对于微调阶段，张奇认为，这和前一阶段的训练数据非常相关，想让它有什么样的能力，就得准备什么样的训练数据，而且是非常精心地准备，这和自然语言处理的逻辑非常不同。过去可以大量加训练数据，现在完全不是。

关于大模型能力边界，张奇认为，目前可以确认的大模型的能力是上下文建模、多任务学习、跨语言迁移性、文本生成能力。

文本生产能力方面，张奇称，在ChatGPT之前，自然语言处理研究者是不敢做自然语言生成的，因为难度非常大。模型大到现在这种程度之后，自然语言生成就可以做得非常好了。

张奇表示，可确认的就是这四个能力。“但是推理怎么样，我觉得OpenAI还是做了非常值得研究的过程，去年我们也做了很多过程型的推理，但是它的泛化能力怎么样，以及未来是什么，我觉得还需要非常仔细地研究。”张奇说道。

复旦大学教授张奇：认清大语言模型能力边界非常关键

关联专题

版权声明