◎天壤创始人、CEO薛贵荣表示:别把大模型神话,最好把它分拆下来,分成10步走,它就会非常好。通过这一轮大模型的输出,变成下一轮的输入,变成下一轮提示词的一部分,你能拿到更好的结果。
每经记者 朱成祥 每经编辑 张海妮
近日,天壤创始人、CEO薛贵荣在位于上海徐汇滨江的天壤总部接受了《每日经济新闻》记者的专访。
天壤创立于2016年,几年间,从AI围棋到用AI分析蛋白质结构,乃至设计蛋白质,天壤一直紧跟AI发展的潮流。进入大模型时代,在2023世界人工智能大会上,天壤也连发三款大模型产品。
如何使如今QA(一问一答)形式的大模型更容易使用呢?薛贵荣表示:“要把它(大模型)变成一个企业可用的东西,还需要加一层所谓的操作系统。目前大语言模型能跟人对话,已经很好了。但真正商用,还缺一层操作系统。”
图片来源:每经记者 刘雪梅 摄(资料图)
很多人第一次被AI震撼,是来自于其在围棋领域的表现。
尧造围棋,以教子丹朱。自围棋发明以来,在这纵横19路的棋盘上,上演了许多可歌可泣的故事。但这些故事,都是发生在人与人之间。
直到2016年3月,谷歌旗下DeepMind公司研发的“AlphaGo”与曾经的一代王者李世石激战5盘,最终以4:1获胜。人工智能第一次在围棋项目上,战胜了人类顶尖职业棋手。
这鼓舞了无数AI人。“当时大家都在想,是不是逼近了通用人工智能(AGI)。”薛贵荣回忆。
但很快,薛贵荣就发现AlphaGo这类模型的局限性,“那时我们做了一段时间,发现它的领域还是相对有限,是非常特定领域的小问题。相对于通用人工智能,还是比较小众。”
因此,薛贵荣认为,这个东西(AlphaGo)可能是通用人工智能的起点。从算法角度,叫深度学习+强化学习。“我觉得这两者(深度学习+强化学习)结合起来,能够适应环境的变化,算法能够作出自身的反应。”
于是,类似于AlphaGo的天壤AI围棋诞生。记者查询天壤官方微信发现,在2018年5月第一届2050大会上,天壤AI围棋击败了世界围棋冠军朴廷桓。
薛贵荣也讲述了彼时的研发难度:一方面,算法的能力还比较有限,类似Transformer这样的架构还未出现;其次算力水平也比较低,当时天壤买了很多V100;此外还有系统难题,分布式超大模型的训练还没有搞定。
对于系统难题,其详细解释道:“直白一点,现在就是给你100块卡,让你去训练一个大的模型,你都算不出来。因为那时(指2017年、2018年)网络、训练体系都偏向于(用)一台机器处理。这里面我们碰到非常多的系统问题,比如模型需要来回不断传输,怎么把模型从这台机器搬到另一台机器。”
在算力有限、算法水平有限以及面临众多系统问题的背景下,天壤依然突破了AI围棋模型。但这个过程也让薛贵荣团队认识到,通用人工智能可能真的要等一等。
“2018年,我们那时的结论是,得稍微等一等,这个技术没有那么成熟,推动会很费力。”
这时,DeepMind推出了蛋白质预测模型AlphaFold。于是,天壤把方向转向蛋白质结构分析。
在研究分析蛋白质结构的同时,天壤也紧盯着AI发展潮流。薛贵荣说道:“我们一直Follow(跟随)两家实验室,DeepMind和OpenAI。因为这两家实验室的理念是一致的,即走向AGI(通用人工智能)。DeepMind是AI for Science,更偏研究性;而OpenAI更偏向工程化。”
2022年初,薛贵荣认为其蛋白质分析已经基本成型。在此背景下,天壤希望迎接全新的挑战。于是,在研究了OpenAI的GPT后,把关注点投向大语言模型。
关于大模型,薛贵荣给出了他的见解。未来,大模型或许能通过提示词直接生成文章。但是目前,有人写了1000字的提示词,仍然无法控制文章生成自己想要的方向。
对此,薛贵荣表示:“这种应用还是比较朴素的。我说的朴素是指,只是写了提示词,一下子(让大模型)把文章搞出来。人做事都不是这样子的。人类要是写文章,首先是查询资料;其次是资料整合;第三开始写;第四修改。目前大模型没有这方面(的)能力。”
薛贵荣也给出了他的解决方案:“首先帮你查资料;第二帮你整理资料;第三是拟文章的脉络;第四把内容放进来,再去适当润色;第五再检查。”
其强调称:“大语言模型的两大准则,第一要尽可能清晰明了,不要带很多假设让它做事。你如果想假设,就把假设写进去。第二,要给大模型时间思考。如果希望大模型一次性出结果,就没有给它提供足够的思考时间。”
薛贵荣进一步表示:“大家别把大模型神话,最好把它分拆下来,分成10步走,它就会非常好。”
简而言之,通过大模型撰写稿件,不要追求一步到位。
薛贵荣表示:“我们现在碰到企业,很多都希望一步到位。这是大家的理想。实际上,把问题分拆,会拿到更好的结果。比如说,1000多字的提示词,这么长的提示词本身就存在逻辑不自洽的东西。你写(提示词)的时候没有感觉,但是从模型的角度一定会发现逻辑不自洽的东西。”
那么,是否可以通过连续提问,强化大模型对上下文的理解呢?对此,薛贵荣表示认可,并介绍了另一种方案。“通过这一轮大模型的输出,变成下一轮的输入,变成下一轮提示词的一部分,你能拿到更好的结果。”
对于如果使用大模型撰稿,薛贵荣认为应分三步走。第一步,先做Planning(规划过程);第二步梳理文章提纲;第三步,往里填充内容。但大部分都是机器完成,不是由作者完成,作者只是Planning。
薛贵荣笑称:“其实我们人类,做很多事情是有Planning的,但当我们把问题给到GPT上,就变成一个QA。QA和Planning是两回事,QA能解决一个Planning的事吗?本来思维就是很复杂的事,你不能通过一个QA(解决问题),应该变成10次,甚至更多。”
记者想通过大模型解决写文章的问题,企业同样希望通过大模型获得价值。“我觉得本质问题就是(大模型)对我们的价值。大模型一定要有用,而且要有核心的价值。”薛贵荣总结道。
但目前的大模型,仍然缺乏落地的应用。薛贵荣描述道:“今年ChatGPT确实提供了(AI)大脑。但只有一个脑,那是个植物人。今天的大语言模型,我觉得一定程度上,还得配上手和脚,还得有个躯干。目前大模型没有躯干,没有手、没有脚。”
1本文为《每日经济新闻》原创作品。
2 未经《每日经济新闻》授权,不得以任何方式加以使用,包括但不限于转载、摘编、复制或建立镜像等,违者必究。