每日经济新闻

    大数据信息采集超175万条 口碑榜第二阶段筛选时间过半

    每日经济新闻 2017-09-05 19:09

    2017中国上市公司口碑榜进入大数据筛选阶段已有半个月,完成了“政治关”筛选后,评选正式开始“舆情关”筛选。我们对1205家上市公司设置了相应的关键词,并根据这些关键词组,采集到了超过175万条的新闻量;之后,将根据口碑榜指数计算标准进行运算,甄选出600家入围上市公司。

    每经编辑|每经记者 左越    

    每经记者 左越  每经编辑 肖鴻月

    上周,2017中国上市公司口碑榜完成了对提名上市公司的“政治关”筛选,并有31家上市公司折戟,1205家上市公司成功进入“舆情关”筛选。算算时间,第二阶段大数据筛选的时间也已经过去一半。

    根据最新进展,慧科讯业已经完成了对这1205家上市公司的新闻数据采集工作;在接下来的10余天时间,还将通过大数据技术手段,对超过175万条新闻信息数据进行计算。按照此前已制定好的口碑榜计算标准、计算公式进行舆情评分后,得分最高的600家上市公司将进入2017中国上市公司口碑榜入围名单。

    超175万条大数据信息

    2017中国上市公司口碑榜进入大数据筛选阶段已经有半个月的时间,在这半个月当中,慧科讯业已经完成了“政治关”筛选,现已进入“舆情关”筛选阶段。

    在经历了“政治关”的一票否决之后,进入“舆情关”筛选的上市公司数量变为1205家。慧科讯业正是在这一阶段对这1205家上市公司运用大数据手段,展开全方位的筛选。

    具体来看,慧科讯业对这1205家上市公司设置了相应的关键词,关键词量超过6000组。根据这些关键词组,慧科讯业采集到的新闻量超过了175万条。值得注意的是,每组关键词都包含了上市公司的全称、简称和别称。举个例子,浦发银行对应的一组关键词就是,“上海浦东发展银行股份有限公司”、“浦发银行”、“浦发行”。

    这些被采集的新闻,正是从此前《每日经济新闻》与慧科讯业共同选定的100家最重要的财经类,或综合新闻类重要媒体,通过标题命中方式抓取相关新闻,回溯相应时间段内,关于入围上市公司的相关新闻报道。采集时间跨度为过去的11个月,即2016年10月1日~2017年8月20日。

    1205家公司舆情得分正在运算中

    截至目前,慧科讯业已经完成“舆情关”新闻数据的采集工作。慧科讯业相关负责人也向《每日经济新闻》记者介绍道,“之后,将由慧科人工智能研究院对数据进行‘正、中、负’情感分析;慧科媒体管理部根据媒体评级、新闻总量及情感分析结果,进行榜单计算。”

    在随后的两周时间中,慧科讯业将根据此前已经确定的口碑榜指数计算标准进行运算和排名。在这一阶段里,将要用到的口碑榜指数计算标准,正是根据此前《每日经济新闻》与慧科讯业共同确定的媒体评级、新闻总量、正负面的净好评率等参数来构建。

    每家上市公司的舆情得分结果,是将净好评率、正负面新闻数量等指标赋予不同权重,加权得到的最终结果数值。当净好评率大于0时,正面、中性数据越多,指数越大;反之,当净好评率小于0时,意味着负面越多,指数越小,说明这家上市公司的相对较差。

    根据时间安排,所有大数据筛选工作预计将在9月20日完成,2017中国上市公司口碑榜的600家入围公司名单也将随之诞生。

    一路过关斩将,大数据筛选阶段的完成却远非最后终点。想要到达最终的胜利彼岸,成为2017中国上市公司口碑榜“最亮的星”,入围的600家上市公司还需在此后将近2个月时间中,接受最后两大阶段的全方位考验。在9月20日入围名单诞生后,600家上市公司也将进入口碑榜第三阶段“科学模型精准丈量”的评选,即用每经研究院精心构建的科学模型,进行更为严苛的筛选。

    欲了解更多关于2017中国上市公司口碑榜的新闻动态,您可点击链接(http://www.nbd.com.cn/corp/20170809koubeibang/)查看。

    数据支持:

    版权声明

    1本文为《每日经济新闻》原创作品。

    2 未经《每日经济新闻》授权,不得以任何方式加以使用,包括但不限于转载、摘编、复制或建立镜像等,违者必究。

    上一篇

    大盘三连阳 一大问题或将决定后期走势——道达投资手记

    下一篇

    兑奖了:森霸股份中签号出炉 中签号码共40000个



    分享成功
    每日经济新闻客户端
    一款点开就不想离开的财经APP 免费下载体验