◎产业大模型是通用域大模型的进阶版。其同时需要通用大模型的常识能力,和各个产业侧的know-how。京东云已经基于内部实践构建了通用大模型;到今年年底这段时间,京东将经由高复杂场景大规模训练,迭代出产业服务;预计在2024年初,会将大模型能力向外部严肃商业场景开放。
每经记者 王郁彪 每经编辑 刘雪梅
预热多时,京东大模型“这盘菜”终于端上桌。
7月13日,2023京东全球科技探索者大会上,京东千亿级参数言犀大模型正式亮相。中国大模型已“狂飙”半年,京东如今“交卷”显得姗姗来迟。
不过拉长时间轴,从2021年十亿级大模型“K-PLUG”,到2022年百亿级大模型Vega,京东在大模型上一直在不间断地探索与尝试。
“京东不会把一盘色香味不俱全的菜端上桌。”京东集团CEO许冉在现场如此回应。因为面向产业,是京东大模型区别于市面绝大多数竞品的“特色选项”。
这一方面源于部分产业数据的补足。《每日经济新闻》记者现场注意到,京东言犀大模型有70%的数据来自通用领域,剩下的30%则来自不同产业板块,如,13.6%来自零售,6.7%来自健康等。
另一方面,一个编造得并不准确的GPT式回答,可能并不会给使用者造成多大影响,但在严肃的商业场景下,一个小数点的偏差,恐会造就无法挽回的损失。所以,面向产业的大模型,京东认为需要“小火慢炖”。
但国产大模型的争端,更是在牌桌之上。上半年,各家入场,多方角力,但下半年,商业场景的落地与规模应用,很快会被提上日程。新一代人工智能的多面性与先进性,让长期All in变得笃定,但最终仍然需要市场“投票”。
“这几个月,一直有人问我,京东怎么还不发大模型。显得比我都急迫。”京东集团技术委员会主席、京东云事业部总裁曹鹏现场笑称,“虽然对话类通用大模型产品时下很热,但我认为这不应该是全部,大模型也不应该只是拿来聊天、写诗、作画的玩具。”
中国大模型“狂飙”半年,好像所有人都以一种“时不我待”的姿态冲了进来。科技部《中国人工智能大模型地图研究报告》显示,截至今年5月,中国研发的10亿参数规模以上大模型已发布79个,位居全球第二。在7月上旬刚刚结束的2023世界人工智能大会上,据不完全统计,有24款大模型新品在大会上发布或宣布即将发布。
“百模大战”开启序章。从模式角度而言,在如今国内大模型的语境下,对“通用大模型”和聚焦各细分应用场景的“垂类大模型”的争论不断,两方也各有支持者,但究竟哪条路更易跑通,更易抢占先机,仍无定论。
但从技术角度出发,绝大部分企业均为基于transformer做大规模预训练,并不断地进行调优。“我相信国内的大模型在中文方向将很快超越国外的对话产品。”京东探索研究院院长、京东科技智能服务与产品部总裁何晓冬如此预测。
但他同时认为,产业大模型是通用域大模型的进阶版。其同时需要通用大模型的常识能力,和各个产业侧的know-how。
这几乎是两方的深度结合,和更具广度的覆盖。这当然是最具价值,也是难度最大的一条路。
《每日经济新闻》记者现场注意到,发布大模型的同时,京东也更新了后续大模型的进程。目前,京东云已经基于内部实践构建了通用大模型;到今年年底这段时间,京东将经由高复杂场景大规模训练,迭代出产业服务;预计在2024年初,会将大模型能力向外部严肃商业场景开放。目前,京东已经走到了第二步。
何晓冬公布京东言犀大模型三步走进程。图片来源:企业供图
“某种意义上,我们的大模型相当于既做了通识教育,又读了四年专业性的本科教育”,何晓冬如此比喻。
虽然大模型的难点,会慢慢从技术突破转向产业纵深的突围,但若想真正深入千行百业,“本科学历”或许还只是入场券。
“所有行业都值得用大模型再做一次”虽已成为行业共识,但背后必然需要技术平台与产业侧的多方协同。而协同多方,才是最难的事。
释出大模型的同时,京东官宣“言犀AI开发计算平台”,支持一站式大模型开发。这是京东给出的又一种思路。言犀AI开发计算平台除支持言犀大模型外,同时还支持其他主流开源模型。
记者了解到,在言犀AI开发计算平台上,汇有京东零售、物流、健康、金融等行业知识,部署100多种训练和推理优化工具,结合低代码应用平台,可以提供数据建设、模型应用等服务。
“1到2个算法人员在此环境中,不到一周就能完成数据准备、模型训练和模型部署,造一个垂直大模型出来。”曹鹏对比称,“此前这一工作,需10余人的科学家团队协作完成。”何晓冬则补充说,京东的数据是“鲜活的”,京东每年产生数百亿的交互数据,这保证了模型的持续迭代和优化。
产业大模型的B面,则需要更严谨的输入与输出,精准是最为重要的追求之一。公开数据显示,目前通用大模型85%左右的准确率,之于普通用户已经足够,但在严肃的商业场景下,失之毫厘,差之千里。
一个编造的GPT式回答可能只会让使用者付之一笑,但产业大模型的数据偏颇,需要更严肃的审定。
何晓冬此前曾举例称,“一个大模型回答143开平方,给出的答案是11.5,但实际应约为11.96,如果在严肃商业场景的应用中,这个细微偏差的答案,将会带来无法计量的损失。”他认为,大模型走向产业的难题是知识深度、内容准度、模型迭代、安全可控等。
大模型的下半场,印证着新的AI三要素:场景、产品和新型算力。从ChatGPT的“引爆”,到“百模齐放”,再到“通用模式”与“垂直模式”之争,新一代人工智能的发展随着浪潮波动起伏,但他终会向各行各业渗透去。
一场严肃的技术革命,需要真实的应用与落地。需要时间、投入,需要数据在场景中历练。大模型下半场之争,当然需要一盘“色香味俱全”的菜肴上桌,但一如细微偏差造就完全不同的答案,新的选择也将在两难中,最终揭晓。
封面图片来源:企业供图
1本文为《每日经济新闻》原创作品。
2 未经《每日经济新闻》授权,不得以任何方式加以使用,包括但不限于转载、摘编、复制或建立镜像等,违者必究。