每日经济新闻

    “百模大战”鏖战正酣,“卖水人”过得如何?创业者、投资人这样说

    每日经济新闻 2024-03-22 17:40

    每经记者 姚亚楠    每经编辑 彭水萍

    “百模大战”进入下半场,在大模型底座的国产化浪潮和应用层的火热之外,一些原本并不起眼的中间层公司开始走入公众视野。

    一个被反复提及的例子是,大洋彼岸一家名为Scale AI的数据服务公司被爆2023年年化收入运行率(annualized revenue run-rate)达到7.5亿美元,猛增3倍,一跃成为当前收入最高的AI初创公司之一,比肩OpenAI。

    事实上,在底层大模型和最上层是各类应用之外,还有大量的中间环节,包括数据处理、模型训练、工具开发等等,海外新兴的大模型创业公司也大多集中在中间层和应用层。

    “当所有人都在掘金时,你就应该卖铲子”,如今国内“百模大战”鏖战正酣,这些提供基础设施服务的“卖水人”过得如何?近日,《每日经济新闻》记者进行了多方采访。

    行业淘汰赛提前拉开帷幕

    章磊此前在海外从事算法工作,深知数据的重要性,2017年回国后,他发现国内市场在数据基础设施方面存在缺失,于是着手创立了星尘数据。

    训练一个大模型,数据处理工作就要占到60%,对于ChatGPT引爆的这一轮AIGC创业潮,星尘数据的感受很直观。“我们接到大模型和数据管理的订单明显增多,这类业务目前在公司占比有三成左右”,章磊向《每日经济新闻》记者介绍称,这一年来,随着技术的演进和应用的深入,大模型公司的数据处理需求复杂度也随之攀升:从最初的获取基座模型预训练的数据集,到对模型进行SFT(supervised fine-tuning)调整,进一步地,随着行业应用的深入,出现了对特定垂直领域的定制化和专业化数据需求,以及对大模型能力进行评估的benchmark评测,数据处理的难度不断加大。此外,在数据模态的演进过程中,客户需求也从处理单一模态数据转变为处理多模态数据集,模型的训练过程也由静态的数据处理转向了动态的交互式人类反馈。

    得益于大模型的火热,大洋彼岸一家名为Scale AI的数据服务公司2023年营收增长迅猛,一跃成为收入比肩OpenAI的AI初创公司之一,引发市场对数据服务的关注。在国内,虽然底层大模型掀起国产化浪潮,应用层生态迎来百花齐放,但章磊说,数据服务公司还没有如愿迎来闷声赚大钱的舒服日子;恰恰相反,随着大模型客户对数据服务要求的进一步提高,行业淘汰赛提前拉开帷幕,很多单纯依靠廉价劳动力做纯手工数据标注的公司已经倒下。

    “大模型公司对于高质量标注数据有着持续强烈的需求,但单纯拼低价人力的数据标注商无法提供与之匹配的服务。此外,国内以自动驾驶公司为代表的客户不仅回款慢,并且其采购体系存在一定问题,这使得国内数据标注行业很难以最高效率运行,不少公司直接被拖垮了”,章磊向记者分析称。

    不过,市场需求仍在加速释放,随着科技大厂、算法公司等更多玩家参与其中,自动化标注及更智能的数据闭环产品涌现,整个行业正从劳动密集型向技术密集型转变,新兴的数据服务公司需要开拓出属于自己的成长空间。

    章磊告诉记者,在AI数据的整个生命周期当中,数据标注只是其中非常小的一部分,星尘数据的应对策略是,从数据标注向搭建数据基础设施进化,培养经验丰富的数据策略专家,推出AI全生命周期数据管理平台MorningStar,帮助客户建立高效的数据闭环系统,实现数据价值最大化和模型效果最优化。

    投资“卖水人”,VC/PE有点纠结

    Scale AI如今估值超70亿美元,背后有Y Combinator、Tiger Globa等诸多知名机构支持,国内投资人如何看待这波“卖水人”的机遇?

    创世伙伴资本合伙人聂冬辰长期关注AI领域的早期投资机遇,过去一年,围绕着AIGC这座金矿,以及金矿边的“卖水人”,聂冬辰看过很多项目,他看好包括数据处理、模型训练、工具开发在内的中间环节短期内存在一定的创业与投资机遇。

    “AIGC这个产业链上,最赚钱的环节要么是大模型底座,要么是离用户更近的上层应用,中间环节相比上下游来看,天花板和价值可能相对偏低一些”,聂冬辰表示。

    九合创投创始人王啸也认可中间环节的价值,“大模型部署到业务流程中,有适配的成本,使用大模型有训练和推理成本,中间层可以帮助使用大模型的企业降本增效”。不过,当前大模型公司的主要目标是交付更高水平的大模型,到实现商业化还有一段距离。长期来看,大模型公司需要找到商业化的路径,王啸担心这个过程可能会挤压“卖水人”的利润,因此,现阶段他更关注应用层的机会。

    王啸向记者举例称,九合创投在国内也看到过类似Scale AI的项目,“但国内和国外的商业环境不同,国内的AI公司更关注数据能否和模型业务更好的贴合,大多倾向于在公司内部处理数据,以更好的控制数据质量”。

    不过,上述担忧并非无解,聂冬辰认为,对于这类公司而言,出海是一个很好的选择。海外市场产业链分工更清晰明确,企业付费意识普遍更强,这些公司面临上下游公司的挤压会少一些,“如果产品能力足够强,有能力进入到海外巨大的市场,那么企业的成长空间还是足够大的”。

    市场“日更”,创业者心态变了

    在近来与创业者的接触中,聂冬辰明显感觉到创始人的心态有了很大变化,“去年大模型刚诞生时,我们接触到的创业者大多斗志昂扬,充满期待憧憬,摩拳擦掌想要做出点什么来。但今年以来,尤其是文生视频大模型Sora横空出世,很多创业者的感受是无奈”,聂冬辰说,OpenAI的一次产品迭代可能就瞬间抹掉了部分创业者一年来的技术积累和优势,游戏规则顷刻改变。

    不过,即便在大模型在以“日更”进展的当下,聂冬辰认为,部分领域依然存在机会,值得创业者努力。首先是垂直领域模型,这些行业由于其数据的独特性和封闭性,往往难以被OpenAI或大型科技公司的通用模型所充分覆盖,创业者如果专注于这些数据壁垒较高的领域,利用对行业深入的理解和专业知识,可以开发出针对这些行业的定制化模型。

    其次是硬件领域,OpenAI作为一家以软件为核心的公司,未来会持续提升其模型的性能,同时积极寻找市场上的新兴应用,整合到其基础功能中以扩展软件的覆盖范围,但是对于与硬件直接相关的领域,OpenAI可能不会亲自投入太多精力,中国公司在智能硬件制造方面有很强的实力,大模型与智能硬件的结合是他今年重点关注的方向。

    “今年我们对大模型项目是否有造血能力的考察比重继续在增加”,王啸告诉《每日经济新闻》记者,在大模型训练成本普遍较高的情况下,创业公司要更加关注变现,在当前的环境下如果自身造血能力短期内无法跟上,会非常考验团队的融资能力。今年他将对大模型应用层的机会持续保持关注,包括多模态的发展、具身智能、垂直行业AI应用、To C应用场景等。

    封面图片来源:视觉中国-VCG41N1408722861

    版权声明

    1本文为《每日经济新闻》原创作品。

    2 未经《每日经济新闻》授权,不得以任何方式加以使用,包括但不限于转载、摘编、复制或建立镜像等,违者必究。

    上一篇

    美国2年期和10年期美债收益率倒挂创纪录

    下一篇

    中国银河给予舍得酒业推荐评级,仍有韧性和潜力



    分享成功
    每日经济新闻客户端
    一款点开就不想离开的财经APP 免费下载体验