每日经济新闻

    清华教授孙茂松:大模型已经是AI巅峰对决的战场,成都不能缺席

    每日经济新闻 2023-09-12 16:30

    “我觉得成都的人工智能发展还是不错的,但是大模型相关的研究相对落后。我们好像一下子想不出有支团队在做大模型,这是一个短板,所以成都应该着重考虑这个问题。”孙茂松认为,成都应该主打模型,特别是大模型在垂直领域的应用,通过应用要培育一支有这种能力的科研队伍。

    每经记者 淡忠奎    每经编辑 杨欢

    欧洲人文和自然科学院外籍院士,清华大学人工智能研究院长聘教授、常务副院长孙茂松 图片来源:每经记者 淡忠奎 摄

    “大模型已经成为目前人工智能巅峰对决的一个终极战场,如果我们没有能力去参与,这肯定是一个短板,对成都的人工智能产业发展会带来不利影响。”9月11日,第二十一届中国西部海外高新科技人才洽谈会开幕式暨天府论坛上,欧洲人文和自然科学院外籍院士,清华大学人工智能研究院长聘教授、常务副院长孙茂松分享了对ChatGPT为代表的生成式人工智能的最新观察和思考。

    今年5月发布的《中国人工智能大模型地图研究报告》显示,我国已有79个10亿级以上参数规模的大模型,被外界称作进入“百模大战”时代。不论是人工智能企业,还是地方政府,都纷纷入局“新赛道”。

    那么,现阶段大模型的发展逻辑是怎样的,如何才能让它“说真话”?“百模大战”时代,国内大模型企业如何才能制胜未来?像成都这样布局较晚的城市,又该如何加速塑造自己的竞争优势?孙茂松在论坛期间,接受了《每日经济新闻》记者采访。

    策略:下一个词预测

    “以ChatGPT为代表的生成式人工智能,这一年来火爆全球。但它的算法其实非常简单,就是一个策略——下一个词预测(自监督学习)。”孙茂松举出一个例子,就像“我昨天晚上吃了饭”这句话,可以让机器在任何一个位置停下来,比如,“我今天吃了—”,让机器预测下一个词。

    人共享智能算法就会调动它内在的机制,让机器去确定应该就是“饭”,这个策略就叫自监督学习。机器可以在互联网上任意规模的语料上做这件事,进而覆盖整个互联网。在这种条件下,你给出一个上文“我昨天吃了”,它就会给出下一个词的概率分布——

    比如,“吃饭”概率是4.5%,“饺子”概率是3.5%,“桌子”的概率很低,但也不至于是0,“因为有寓言说大象可能吃了桌子”。倘若上文换成“我昨天晚上吃了北京”,可能35%的概率是“北京烤鸭”。

    孙茂松认为,方法看似简单,但要做到准确的估计非常难。就像我们平常去掷骰子,必须掷足够多的次数才能确定骰子每个面出现的概率。这里涉及两个关键因素,一个是骰子有6个面,但是我们词语有五六万个,也就是五六万面。更麻烦的是,上文是无限的,所以它的面实际上是两个因素相乘,“就是五六万个词,再加上几乎无限数量的上文”。

    这就要依靠“三驾马车”——大模型+大数据+大算力。与此同时,AIGC(人工智能生成内容)的特点就是强大的内容生产能力,以及天马行空般的创造性。假设句子中每个位置平均有100种“合理”的字接续,则可能形成“比较通顺”的五律数量约为10^80个。

    凭借强大的内容生成能力和创造性,生成式AI能够有力助推数字经济的发展,甚至可能带来产业生态的重新洗牌。比如,在内容辅助生产方面,生成式AI从商业应用到文化创意产业的应用,能够显著降低制作成本、准入门槛,显著提升生产效率、产品质量;芯片设计领域,生成式AI的使用能够强化学习优化半导体芯片设计(布图规划)中的元件位置,将产品开发周期从几周(使用人类专家)缩短到几小时。

    这正是生成式AI赋能千行百业的缩影。

    机会:“大地基上盖房子”

    8月31日,首批通过《生成式人工智能服务管理暂行办法》备案的大模型百度文心一言、百川智能、商汤商量SenseChat宣布面向全社会开放服务。在商用之外,大模型面向普通人开放被视作人工智能产业的一个里程碑。

    这不仅是面向普通人开放赋能工具、生活助手,更是意味着大模型将获得庞大规模的中文语料投喂和更丰富的原生应用场景。“大模型有点像水电,它是一种智能信息处理的一个基础设施,现在只要垂直领域需要用到信息处理,只要是数字化高度发达的应用场景,它就有可能(发挥作用)”。

    就像是一个通用的底座,孙茂松告诉《每日经济新闻》记者,就像你要盖房子,它实际上是一个地基,可以在上面盖各种各样的房子。以前,相当于每个应用都要打一个自己的地基,盖一个小房子,“现在是搞了一个特别大的地基,你就只需要考虑房子怎么盖。”

    这也给大模型的发展带来新的想象空间。根据IDC预测,2026年我国AI市场规模有望达264.4亿美元,2023-2026年CAGR约21.5%。而被比喻为目前阶段“A终极战场”之一的大模型,更是其中的引领性力量。

    中信证券研报称,大模型是连接底层算力和上层应用的重要一环,成熟的大模型能力和生态是真正的实现涌现人工智能和未来应用端繁荣的基础,拥有更强计算和推理能力、更高通用性的大模型企业有望把握AI时代的流量入口和话语权。

    从国内来看,大模型已经是人工智能企业的必争之地,“百模大战”渐成趋势。不过,孙茂松认为,“百模”也不一定多。这些大模型可以分为两类,一类是真正有实力做底座的,另一类实际上是拿别人开源的大模型去做应用训练,“这两块的‘质’是不一样的,真正有实力能和国际上PK的可能一个都没有。”

    他指出,很多大模型企业都会转到垂直应用,甚至可能进入的时候就没准备要做底座,而是要做垂直领域应用,“如果进入聚焦做垂直应用,还是值的鼓励的。”大模型归根究底要落地于具体的行业应用,细分领域还有更多机会。

    城市:要发挥应用场景优势

    “我觉得成都的人工智能发展还是不错的,但是大模型相关的研究相对落后。我们好像一下子想不出有支团队在做大模型,这是一个短板,所以成都应该着重考虑这个问题。”孙茂松认为,成都应该主打模型,特别是大模型在垂直领域的应用,通过应用要培育一支有这种能力的科研队伍。

    这是他在天府论坛上给成都开出的一剂“药引”。孙茂松告诉《每日经济新闻》记者,现在国内基础大模型主要在北京、上海、深圳等城市,要想现在来做已经有些晚。后发城市应该着重来做大模型在垂直领域的应用,这一块四川和成都是有优势的,“有很多独特的应用场景,别的地方不一定有。”

    换句话说,不论是AI企业,还是竞逐大模型的城市,都应该重点把握垂直领域的机会。不久前,2023世界人工智能大会也传递出这样的信号。多位人工智能专家告诉记者,大模型是AI爆发式成长的基石,要着重引导既有大模型技术与垂直领域经济发展深度融合。

    与此同时,上海市徐汇区副区长俞林伟亦指出,“全面推动生成式人工智能在医疗、金融、智能网联汽车、社交等领域率先发力,所有的行业都值得用大模型再做一遍。”在这种背景下,大模型的“应用战”成为城市无法缺席的一场角逐。

    “现在大家都在争大模型,我们如果没有这方面人才,可能就会丧失一些发展机会,而且跟成都的城市地位是不符的。”孙茂松认为,这一块的短板应该尽快补上,毕竟成都是有这个实力的,“成都要跟北京、上海去比,而不是跟中游城市比”。

    在他看来,有些省份或城市培养不出这样的人才,所以需要想方设法去引进人才。但成都不一样,川大、电子科大等高校水平都很高,但是可能因为对相关领域的重视程度不够高,做这方面研究的人相对较少。当地需要进一步提高对大模型相关研究和人才的重视程度。

    “现在像美国那些最重要的几个(大模型)公司,都还在致力于打地基,今年也已经开始努力建‘大房子’。但是这些小房子它还没顾上,成都其实可以去做不同领域的‘小房子’。这要盖好也是很有挑战性的。”他说。

    版权声明

    1本文为《每日经济新闻》原创作品。

    2 未经《每日经济新闻》授权,不得以任何方式加以使用,包括但不限于转载、摘编、复制或建立镜像等,违者必究。

    上一篇

    金雷股份:业绩说明会定于9月14日举行

    下一篇

    联合国安理会将就西方向乌提供武器问题举行会议



    分享成功
    每日经济新闻客户端
    一款点开就不想离开的财经APP 免费下载体验