每经AI快讯,有投资者在投资者互动平台提问:请问中文语料和贵公司的AI训练数据集是一种东西吗? 如果不是的话,可以给我们科普下中文语料和训练数据分别是什么?分别用在训练大模型的那个阶段?
海天瑞声(688787.SH)4月3日在投资者互动平台表示,按照我们理解,您提到的“中文语料”可能指的是大模型预训练阶段使用的未经标注的原始中文文本数据,大模型通过对大量的原始文本数据的学习来完成预训练阶段的基础能力训练,该类数据服务本就是公司业务类型范畴内的一种;此外,公司现阶段更主要的业务内容是进行更高质量、更具规模化的训练数据生产,即在前述原始数据基础上进行一系列的工程化、结构化人类加工反馈(包括但不限于清洗、标注等),使其成为更高浓度、更容易被算法理解的结构化训练数据,广义上的训练数据可应用于大模型训练的各类环节,尤其是在对于大模型更为重要的强化学习以及垂向拓展等环节。 未来,公司也将紧密跟随大模型等新技术的发展,及时更新公司数据服务能力、及相关业务形态,更好助力相关领域客户的发展。
(记者 张喜威)
免责声明:本文内容与数据仅供参考,不构成投资建议,使用前核实。据此操作,风险自担。
1本文为《每日经济新闻》原创作品。
2 未经《每日经济新闻》授权,不得以任何方式加以使用,包括但不限于转载、摘编、复制或建立镜像等,违者必究。