王江平表示,人工智能是靠数据来驯化的,既需要公共数据来支撑,又需要专业数据来发挥关键作用,当前专业数据集不完善是制约人工智能进入实体经济的最大障碍。“具体到一些行业数据更多掌握在头部企业、工程设计院、大学科研院所等手里,要通过一种商业模式把他们手里的数据集成起来,让大家共享数据集产生的价值。”他说。
每经记者 杨弃非 淡忠奎 每经编辑 杨欢
3月5日,十四届全国人大三次会议开幕会在北京人民大会堂举行。国务院总理李强在政府工作报告中提出,要持续推进“人工智能+”行动,将数字技术与制造优势、市场优势更好结合起来。
当前,在DeepSeek大模型热潮带动下,“人工智能+”赋能实体经济的探索不断加速,而背后的数据、算力等瓶颈问题也成为今年全国两会代表、委员们关注的焦点之一。
全国政协委员、工信部原副部长王江平在接受《每日经济新闻》(以下简称“NBD”)记者采访时表示,人工智能是靠数据来驯化的,既需要公共数据来支撑,又需要专业数据来发挥关键作用,当前专业数据集不完善是制约人工智能进入实体经济的最大障碍。
“具体到一些行业数据更多掌握在头部企业、工程设计院、大学科研院所等手里,要通过一种商业模式把他们手里的数据集成起来,让大家共享数据集产生的价值。”他说。
NBD:您认为,当前人工智能赋能实体经济面临的最大障碍是什么?
王江平:人工智能有推动效率提升的作用,但进入到实体经济,它面临最大的障碍还是数据集的问题。因为人工智能是靠数据来驯化的,专业的数据驯化出的模型就会比较专业。反之,如果数据不专业,就达不到这样的效果。
所以,现在我们要推动人工智能进入实体经济,就迫切需要解决专业化数据集不足的问题,这个颗粒度越细越好。现在来看,我们通识性的数据已经有了,但是一些很专业的数据还需要去丰富,这是当前要迫切解决的问题。
接下来,就是商业模式的问题。人工智能进入实体经济需要什么样的商业模式,这是一个探索的过程。在我看来,至少有这样几个商业模式值得去探索——
第一个就是模型托管,模型做出来放在哪里,涉及云服务的问题;第二是模型服务,模型做出来以后要进入到每一个具体的行业。也就是说,做模型的人要懂实体经济,推动模型进入实体经济就是模型服务。
最后就是数据治理和交易问题。一个行业的数据治理完不完整非常关键,只有一个科学的、完整的数据治理体系才可能提供一个高水平的、专业化的数据集。有数据集就会涉及到交易的问题。
还有生产装备的智能化,现在我们的AI PC、AI手机,甚至AI家居等等,这些装备制造的AI化也值得探索。当然,模型的评估测试等服务也自然会跟着起来。
NBD:作为支撑AI算法运行的基础,大模型的算力瓶颈问题也受到越来越多的关注。您如何看待这一问题?
王江平:算力确实是我们的一个短板,但我认为通过综合施策是可以解决的。算力包括芯片、网络,以及供电这样一些综合型基础设施,或者叫算力基础设施。这些基础设施中,芯片是我们的一个短板。
在人工智能时代,特别是DeepSeek出来以后,我预测这种专用芯片(ASIC芯片)会在今明两年有一个大爆发的机会。我们过去的CPU是通用型芯片,而大模型出来以后,可能会有越来越多大模型专用的算力芯片出现。
NBD:您认为,现在人工智能在哪个领域的应用最为成熟?
王江平:不论哪个领域都应该主动地去拥抱人工智能,而行业的数据集越好、越快,应用也就会越深入。我觉得现在医疗行业的人工智能应用发展比较快,而工业行业里门类较多,反而可能是一些关注度不高、规模较小、企业不多的行业会率先突破,因为它的数据集更容易建设,数据的共享更容易做起来。
实际上,一方面人工智能确实给我们的很多岗位带来了替代效应,但另一方面它也会增加很多新的岗位。不论是对企业,还是个人而言,一定要抓住这个机会去主动地拥抱人工智能。
NBD:行业AI应用落地程度,很大程度上取决于专业数据集的完善程度。您提到要建立一些“颗粒度更细”的数据集,目前还有哪些难点?应该如何去解决?
王江平:在过去,人工智能模型还是一个高大上的东西,它的进入门槛是比较高的,但当DeepSeek模型开源以后,它的应用门槛大幅降低。这样一来对人工智能模型的需求就显得非常迫切,但我们的数据集其实还没有完全准备好,这是需要有个过程的。
另一方面,数据集本身涉及到企业生产、能耗等关键数据,对企业而言是非常重要的,一般不太愿意去共享,所以我们要探索一种共享机制来推动这种数据集的建设。
我们的数据集既需要公共数据来支撑,更需要多个“颗粒度很细”的行业数据来发挥关键作用。而具体到一些行业数据更多又是掌握在头部企业、工程设计院、大学科研院所等手里,所以,下一步我们要通过一种商业模式把他们手里的数据集成起来,能够让大家共享数据集产生的价值。这样形成的数据就会很有价值,用它驯化的模型就可以更容易地进入具体的行业里去应用。
NBD:专业数据集的建设能否解决AI幻觉的问题?
王江平:其实,AI幻觉与数据集的质量、丰富性有很大的关系。就推理模型来讲,幻觉是比较高的。如果某些特定领域数据集不完整,就会产生幻觉。因为人工智能有一个“补白机制”,它自己数据库里有这些数据就会按照一定的权重去算,等于是一个输出的结果。
但当它没有这样丰富的数据集时,就会降低它的权重,最后补白出来,就可能会产生幻觉。我们一般人看不出来,但是专业人士就会看出来这是胡编乱造的。所以,归根究底,幻觉问题也是一个数据集的质量问题。
1本文为《每日经济新闻》原创作品。
2 未经《每日经济新闻》授权,不得以任何方式加以使用,包括但不限于转载、摘编、复制或建立镜像等,违者必究。