在2017中国上市公司口碑榜第二阶段的评选中,我们运用了舆情数据采集、处理、分析等手段。
《每日经济新闻》专访了本次口碑榜独家数据支持慧科讯业的相关部门负责人,以期向您展示他们对大数据行业未来发展的深思。
每经编辑 每经记者 左越
每经记者 左越 每经编辑 肖鴻月
上周,2017中国上市公司口碑榜结束第二阶段的筛选,诞生了600家上市公司的入围名单。
在第二轮筛选中,大数据起到了至关重要的作用。《每日经济新闻》(以下简称NBD)专访了本次口碑榜独家数据支持慧科讯业(以下简称Wisers)的相关部门负责人,为您揭秘大数据技术在口碑榜中的运用。
NBD:作为2017中国上市公司口碑榜独家数据提供商,慧科讯业在对舆情数据采集、处理、分析上,具备哪些独特的实力呢?
Wisers:慧科讯业1998年成立于香港,是全球领先的全媒体大数据智能商业情报专家。慧科基于近20年的海量媒体数据积累,凭借先进的人工智能技术,通过科学的分析建模,为全球超过2500家客户提供创新的产品服务和解决方案。
数据采集方面,慧科全媒体数据库从1998年累积至今,目前的文章存储量已经达到了590亿篇,每天新增文章量有6800万篇。全方位覆盖了报刊、网站、APP、微博、微信、论坛、问答、视频、电视等各类媒介;除了中国大陆,还有来自港澳台及海外其他地区的媒体数据,目前信息来源总数将近50万,这个数据还会随着新媒体的发展不断增长。
处理和分析方面,慧科拥有自己的人工智能研究院,专注研发文本分析挖掘引擎,结合深度的行业知识图谱,可以实时提取新闻和社交媒体中涉及各类主体,比如公司、品牌、产品、人物、股票等相关信息,并通过句法分析和机器学习,对这些不同主体进行情感判断与关联。
与其他大数据公司相比,慧科始终致力于媒体大数据的商业应用,助力企业及机构客户进行口碑声誉管理、提升品牌价值、发掘市场情报、强化商业风控、辅助战略决策等。我们的客户来自财富500强、上市公司、央企集团、政府机关、教育以及媒体机构,经过多年合作,都对慧科的服务高度认可。
NBD:能谈谈舆情大数据在对上市公司的日常经营和对投资者的投资上,有哪些作用和帮助吗?
Wisers:随着移动互联网的发展,媒体的话语权越来越去中心化。在主流媒体之外,以微博、微信为主的社交平台,各种资讯类APP以及多平台分布的自媒体,都会对上市公司的口碑,甚至资本市场表现产生影响。
现在,大多数上市公司都会采用舆情监测服务及时跟踪行业动态、国家相关政策、发现自身及竞争对手的资讯,尤其是那些可能影响股价的敏感新闻,做好风险管控;另外,舆情大数据还可以帮助上市公司了解自身在各利益相关方,包括媒体、股东、客户、合作伙伴、员工等心目中的形象,并根据各方反馈做好对外沟通,尤其在舆情危机管理方面,第一时间将危机的影响最小化。
对于投资者来说,舆情其实是市场对于上市公司的态度与信心的反映。舆情大数据能够帮助投资者在投资之前,更加客观全面地了解企业现状,衡量投资风险。比如许多境外投资者与投资机构,会利用社交媒体去了解企业在本土的口碑与形象,作为参考,辅助投资决策。
以此次口碑榜为例,慧科与每日经济新闻共同制定的评选标准会综合考量公司的经营合规性、盈利能力、高管团队声誉等可能影响股价波动的因素,口碑指数高的公司相对而言也更稳定,更可靠,盈利能力更强,对投资者来说就是一种有效参考。
NBD:在舆情服务上,慧科讯业还涉足了金融及风险监测解决方案等多个业务范畴。在这些业务范畴上,慧科讯业成绩如何?
Wisers:慧科根据多年服务金融客户的经验,结合客户需求和我们的人工智能技术,开发了系列分析模型,用来解决金融及风险监测领域的问题。
根据慧科金融产品总监李晓伟介绍,目前比较应用比较成熟的有三大模型:
第一个,是AI尽调决策模型,依托宏观、中观和微观三种数据,实现某个企业的尽调分析,其中宏观数据包括,国民经济数据、各地区经济数据、政府相关政策及法律、金融政策与环境、国际政治经济环境等;中观数据包括,行业整体现状及趋势,行业政策、行业重大事件等;微观数据包括,公司公开披露数据、政府或监管执法机构公开数据、第三方评级研究数据、媒体及社交媒体数据等,前这个模型已经服务于银行类客户的风控体系中。
第二个,是企业全息画像,通过企业在股权投资、公司集团及家族图谱、高管、工商、税务、行业、上下游、借贷及担保关系中的表现展开关联分析和挖掘,自动化生产企业标签;通过识别关联关系中跨境、动态、联动的风险,来评估企业外围潜在风险,整体评估企业发展环境。
第三个,是量化分析的情绪因子模型,通过对上市公司股价波动、公司运营信息、意见领袖言论,个人投资者情绪、机构评级等各路数据,建立投资者情绪指标,为投资和监管提供依据,目前这个模型主要服务于多家证券、私募公司,成为他们量化指标体系构成元素之一。
NBD:近一两年来,国内大数据公司数量渐多,虽然领域各有侧重但其中也难免重叠。慧科讯业在面对大数据行业的竞争当中,拥有哪些优势呢?
Wisers:大数据是个很宽泛的概念,具体到每个领域,都需要长期、系统的数据积累和专业精深的数据挖掘能力。大数据的商业应用,有四个关键要素,一是数据,二是AI人工智能技术,三是业务知识体系,四是后台大数据计算与存储系统。
数据方面,刚才已经提到过,慧科拥有全球领先的中文全媒体大数据资讯库。
慧科数百位专职语言学编辑团队在服务各行业客户的同时,也在不断提供大量标注数据供AI研究院训练人工智能分析模型,以适应快速变化的信息世界。
根据慧科研究部总监何超博士的介绍,2014年创建的慧科人工智能技术研究院拥有20多个世界知名院校博士硕士组成的专家团队,成功研发出了一系列覆盖媒体资讯自动化处理与大数据挖掘各个层面的自有先进技术,包括分词、实体识别、关系抽取、话题分类、文本聚类、情感分析、事件发现、知识图谱、与图像识别等。这些技术名称并不新奇,但慧科的每一项分析技术都是基于自身拥有的全媒体数据库,并从实际的商用场景出发,不断尝试及优化的成果。
业务知识体系方面,慧科在近二十年服务2500多家客户的过程中,积累了大量的行业知识,借助AI技术对第三方公开的或者一些授权数据进行了整合,形成了慧科商业知识图谱,包含了公司、品牌、产品、地点、人物在内的30多万知识节点,以及50多万关联关系,而且这个图谱还在持续扩展。
后台大数据计算与存储方面,慧科一直采用云端平台的产品模式,积累了大量的后台大数据计算、存储、与查询的技术和经验;并不断与时俱进,借鉴和应用最新的大数据处理与存储框架。
慧科在媒体大数据方面的努力,已经得到了专业机构的认可,也拿到了不少国内外的奖项。今年6月,中国最大的大数据公益组织——中国首席数据官联盟正式发布《中国大数据企业排行榜V4.0》,慧科讯业连续第三次上榜,并在基础设施排行“文本数据挖掘”类别排名上升至第二名,彰显了慧科大数据技术综合实力不断提高,持续不断地产品创新获得市场高度认可。今年1月,慧科还被全球知名市场研究机构Outsell列为全球十大重点关注的公关解决方案和社交媒体监测领域企业之一。
NBD:在您看来,舆情大数据行业在发展中面临有哪些机遇和挑战?
Wisers:首先,新媒体时代的来临,信息的传播渠道日益多元,对企业来说,要应对的舆情环境,相较过去复杂了很多。对处于这个行业中的大数据公司来说,如何帮助企业从容应对日益复杂的媒体环境,是一种挑战。慧科为此很早就做好了准备,成立了专门的媒体管理咨询部,定期对中国媒体现状及发展趋势做梳理,每当有新的媒体形式出现,就会对其进行深入全面的调研,并思考这类信源对客户的口碑及声誉管理意味着什么?是否值得监测?从技术角度如何监测?监测到的数据又该如何评估?机遇总是留给那些早有准备的头脑,慧科就是在这样不断升级换代中建立起多层次媒体信源的舆情管理体系,帮助企业从容应对新媒体时代的各种挑战,从而赢得客户的高度认可。
其次,自然语言理解,尤其是汉语的自然语言理解仍然面临很多挑战。以深度学习为代表的技术,对解决这些问题提出了一种新的思路,但是同样会面临瓶颈。据长远来讲,必须以科学的方式,将语言学的理论及特征和机器学习结合起来,才有可能实现更大的突破。
目前,有很多开源的机器学习或深度学习的软件包,进入人工智能大数据领域的门槛降低很多,所以市场上充斥着大量的大数据公司。但是如果从业人员不深入研究理解各种人工智能模型成立背后的假设条件,只懂得简单盲目地试用各种开源模型,然后选一个看上去训练结果最好的模型,很可能在假设条件不成立的实际场景中,会出现严重的错误。而慧科的人工智能的开发工作从一开始就与实际商业应用场景紧密结合,换句话说,是经过市场检验并获得资本认可的,因此能一直走在行业前端。
最后,舆情大数据行业的进一步发展,应该着重于如何将企业或政府内部的数据与外部的媒体大数据结合起来,将舆情资讯紧密结合进机构的日常运营与决策,从而发掘更多的数据关联与洞察资讯,带来更大的商业价值和社会价值。
NBD:您如何看待大数据公司和媒体的合作?
Wisers:根据慧科媒体管理部总监王勤的介绍,去年以来,国内各大媒体都成立了数字新闻部并引入大数据合作伙伴。慧科已经和国内三大商业财经报刊以及新京报等重要媒体,在上市公司、消费品牌、金融科技以及社会民生多方面,联合发布基于大数据分析的各类专题新闻报道及榜单评选。
媒体的优势在于对热门事件的敏锐嗅觉,以及前线采访整理出的独家观点,这些媒体视角可以帮助大数据公司进一步发掘其数据价值。例如慧科此次与每日经济新闻合作的上市公司口碑榜,就是基于慧科日积月累的全媒体大数据,将其中关于上市公司的数据筛选出来,再根据双方商定的舆情表现评选标准进行分析,就形成了有价值的上市公司口碑榜。
而大数据公司对媒体的价值,可以概括为两点:
首先,媒体对新闻事件的洞察需要数据的佐证,从而使新闻内容更具有客观性、说服力。例如去年我们和每日经济新闻合作的欧冠杯数据专题,通过对微博平台上数万条用户对欧冠杯讨论的数据分析,我们捕捉到了球迷们最关注的球星、最津津乐道的场外话题以及提及最多的体育类概念股。这些结论,在过去,可能主要倚赖专业编辑的敏锐度,或者线下采访与读者调研,而借助慧科的全媒体数据库,不到一周就可以把线上用户的评论口碑采集下来,经过进一步的数据清洗、处理、分析,得到更加全面而客观的结论。
其次,大数据还可以为媒体的新闻挖掘提供更多的切入点,还以这次口碑榜为例,这次我们基于每日经济新闻初选后的1200多家公司进行口碑评选,我们采集了主流媒体上有关这一千多家公司的175万条新闻报道,通过AI技术全量分析每条新闻的情感态度,进而得到每家上市公司的舆情表现及排名。每日经济新闻可以通过这个完整的舆情数据表,对比不同上市公司之间的口碑差异,也可以结合上市公司的其他特征,如上市板块、总市值、市盈率等内容,与口碑进行关联分析,挖掘上市公司口碑与其资本市场表现之间的关系。
1本文为《每日经济新闻》原创作品。
2 未经《每日经济新闻》授权,不得以任何方式加以使用,包括但不限于转载、摘编、复制或建立镜像等,违者必究。