每日经济新闻

    250万条数据十大严谨步骤 400家好口碑公司这样出炉

    每日经济新闻 2016-10-21 00:35

    每经编辑 每经记者 左越    

    ◎每经记者 左越

    近期,由每日经济新闻主办的“2016中国上市公司口碑榜”,携手独家舆情大数据服务提供商慧科讯业,共同发布了中国资本市场首份舆情大数据榜单——2016上市公司舆情榜,获得业内各方的广泛认可与关注。

    值得一提的是,未来最终登上“2016中国上市公司口碑榜”9大榜单的获奖公司,也将从舆情榜单排名靠前的400位公司名单中产生。

    那么,这份万众瞩目的舆情榜单是如何出炉的?背后又隐藏着怎样的故事?今日,每日经济新闻为您揭秘,这一份含金量十足的榜单,究竟是怎样出炉的。

    总体来说,2016上市公司舆情榜通过梳理多达250万条的海量舆情信息,并通过十大严谨的步骤和指数计算公式的反复推敲,来确保舆情榜单的客观与公正。

    一、新闻大数据积累:

    慧科讯业每天24小时全网监测主流中文媒体,在数据库中不断积累海量的新闻大数据。

    二、媒体信源确定:

    根据慧科讯业科学的媒体评级,选定了国内100份最重要的财经类或综合新闻类媒体,作为本次评选的信源。

    三、原始新闻回溯:

    慧科讯业研发部根据慧科讯业内部的上市公司关键词表,从过去一年的指定100家媒体的海量大数据中回溯相关新闻约250万条。

    四、新闻属性判断标准确定:

    从经营状况是否良好、行业地位、是否遵纪守法、大股东是否信守承诺、获得哪些荣誉等方面,来确定了每条新闻正面、负面、中性的判断标准。

    五、人工先行判断部分新闻(辅助AI学习):

    随机抽取部分新闻,供资深财经编辑根据相关标准对6000条新闻样本进行人工标注(正面、负面、中性),供机器学习。

    六、AI(人工智能)学习:

    AI根据人工判断新闻的素材进行学习,不断调整模型和算法,最终达到理想的准确率和召回率水平。

    七、AI大批量判断:

    AI机器对250万条上市公司相关新闻进行自动判断(正面、负面、中性),并对机器感到困惑的新闻打上相应的标签。

    八、人工调整:

    人工对于标签有疑问的新闻进行重点检查,从而完成所有新闻的正面负面中性判断。

    九、确定指数计算标准并排名:

    慧科讯业公司媒体管理总监王勤介绍,我们结合媒体评级、新闻总量、正负面净好评比等参数,制定舆情榜指数计算标准,按此方式进行运算和排名。

    简单地说,根据2800多家上市公司在2015年8月1日~2016年9月18日这段时间在主流财经媒体上的新闻报道来计算和排名的,一家上市公司的正面报道量越多,负面报道量越少,那么排名就越靠前。但只计算净好评率还不够,我们引入了新闻量这个因子,让每家公司的新闻报道量也发挥作用。在计算过程中我们要做一些统计方面的处理,例如会涉及到对数标准化、参数权重、以及将计算结果换算成100以内的数字的映射处理等,最终形成一份完整有价值的榜单。

    十、榜单提交及后续追踪:

    未来,慧科讯业还将持续跟踪舆情,如有入选公司发生重大负面,将及时对2016上市公司舆情榜进行调整。

    正是经过250万条海量舆情信息的科学计算,以及上述十大严谨步骤的筛选后,2016上市公司舆情榜最终出炉。接下来,舆情榜中排名靠前的400家公司,将经过南开大学中国公司治理研究院投资者关系管理研究团队所建立的科学评价模型筛选,以及百家顶级机构的审慎投票,最终诞生“2016中国上市公司口碑榜”九大榜单,135家获奖公司。

    版权声明

    1本文为《每日经济新闻》原创作品。

    2 未经《每日经济新闻》授权,不得以任何方式加以使用,包括但不限于转载、摘编、复制或建立镜像等,违者必究。

    上一篇

    多维度揭秘首轮400家好口碑公司:医药制造业最多 中小创占逾六成

    下一篇

    慧科讯业CEO车慧诗:财报反映过去 舆情大数据透视未来



    分享成功
    每日经济新闻客户端
    一款点开就不想离开的财经APP 免费下载体验