每经记者 张韵 每经实习记者 赵雯琪 刘洋 每经编辑 陈俊杰
“旅行之前,先上马蜂窝。”2018年世界杯期间一则广告席卷网络,在北京马蜂窝网络科技有限公司(以下简称马蜂窝)收获大波流量的3个月后,这个凭借用户原创内容(UGC)逐步壮大的在线旅游平台,被一个叫乎睿数据的团队(深圳乎睿数据有限公司)揭开了疑似数据造假的一角。
10月21日晚间,自媒体“小声比比”在已发布《估值175亿的马蜂窝竟是一座僵尸和水军构成的鬼城?》一文后,如约发布了第二篇指马蜂窝充斥僵尸和水军的报告文章。随着舆论发酵,马蜂窝于22日上午发布公开声明表示,针对该文中歪曲事实的言论,和已被查证的有组织攻击行为,马蜂窝将采取法律手段维护自身权益。10月22日晚间,马蜂窝起诉深圳乎睿数据有限公司、丁子奎名誉侵权案获立案。
值得关注的是,马蜂窝“数据造假”风波有了新进展。10月22日晚6点49分左右,马蜂窝“数据造假”爆料人、自媒体“小声比比”公众号作者“梓泉”发布朋友圈,贴上一封诉讼服务告知书,并配文称“开战今晚第三篇”。
2014年4月,马蜂窝CEO陈罡曾经在微博公开炮轰去哪儿网通过虚假评论造假,称去哪儿网的刷点评行为已经动摇到了行业诚信的根基。如今,马蜂窝“被捅”,有何说法?
马蜂窝陷“抄袭门”
10月21日,一篇由自媒体“小声比比”发布的《估值175亿的马蜂窝竟是一座僵尸和水军构成的鬼城?》的文章在网络刷屏,作者梓泉根据乎睿数据团队提供的数据报告在文中表示,马蜂窝2100万“真实点评”中有1800万条是通过机器人从竞争对手平台上抄袭而来。
文章一经发布,公众号便收到了马蜂窝“损害商业信誉”的投诉,梓泉在次日的推文中称,不仅如此,“在文章发出来8个小时以后提及的账号从搜索栏屏蔽,点评内容也在个人页被删除了。”
10月22日,乎睿数据团队以邮件形式向《每日经济新闻》记者发送了一份关于马蜂窝的25页数据报告,该报告显示马蜂窝疑似存在评论搬运、游记掺水、问答抄袭的现象。
乎睿数据团队在报告中表示,经初步探索马蜂窝UGC和用户数据并与竞品比照,结果发现,包括官方账号在内的许多蚂蜂窝用户,人均抄袭了数百名大众点评网用户的评论以及大量来自携程、艺龙、Agoda、Yelp等知名网站的用户内容,甚至还屡次在官方有奖活动中拔得头筹。
10月22日下午,《每日经济新闻》记者通过“小声比比”公众号联系上该自媒体作者梓泉,其向记者透露,文章的素材来自于乎睿数据对马蜂窝用户点评等数据的分析报告。谈及撰写并发布马蜂窝一文的原因,“梓泉”向记者透露,一开始是乎睿数据通过公众号联系上他,“先确定兴趣,然后签保密协议,然后再看报告。”“梓泉”说。当日,马蜂窝相关负责人则告诉《每日经济新闻》记者,“目前正在走法律程序。”对此,“梓泉”表示,截至当时只看到马蜂窝对公众号两篇文章的投诉,没有公司联系到他本人。
10月22日晚间消息,针对自媒体报道的马蜂窝数据造假一事,马蜂窝已向北京市朝阳区人民法院提起诉讼,称乎睿数据侵犯名誉权,目前已获立案。
马蜂窝否认85%点评造假
上述报告显示,乎睿数据团队经过数据分析发现,马蜂窝上有7454个抄袭账号,合计从竞品网站上抄袭搬运了572万条餐饮点评与1221万条酒店点评,占到官网声称总点评数的85%。
乎睿数据团队剔除“抄袭账号”后,在余下的所有账号中选择了15000个最活跃的账号,发现用户在答题、点评等行为时间上高度一致,且与其他同类型评论网站发布时间差异较大,大多是工作时间(周一至周五10时至12时、14时至17时)更为活跃。
乎睿数据团队还发现,一批在游记攻略中植入广告的商家通过抄袭、拼接等“做号”、“洗稿”手段批量炮制出含有广告内容的游记、问答、回复,再由大量的小号、马甲进行人工置顶,达到以低成本对平台上亿用户打广告的目的。
乎睿数据团队“捅了”马蜂窝,一时间舆论如潮。马蜂窝于22日上午7点45分在微博发布声明称,马蜂窝的UGC内容数据中,游记和攻略占比78.91%,嗡嗡(旅行故事)占比7.92%,问答占比10.26%。这些数据背后是用户真实的情感与回忆,也是马蜂窝内容的真正价值。
马蜂窝进一步表示,点评内容在马蜂窝整体数据量中仅占比2.91%,涉嫌虚假点评的账号数量在整体用户中的占比更是微乎其微,马蜂窝已对这部分账号进行清理,其认为“自媒体文章所述的马蜂窝用户数量与事实和第三方机构数据都严重不符”。与此同时,一直以来,马蜂窝严厉打击游记和问答中违规广告的行为,平均每周处理26000条违规广告信息、查封15000个违规账号。
对于报告数据挖掘选用的工具与分析的科学性与准确性等问题,《每日经济新闻》记者22日通过邮件向乎睿数据团队提问,但截至发稿尚未收到回复。
数据爬虫业内屡见不鲜?
2018年10月21日,马蜂窝旅游网对全站游记、攻略、嗡嗡(旅行故事)问答、点评等数据进行了核查,并对涉嫌虚假的信息展开查处。
马蜂窝在公开声明中表示,餐饮点评不是马蜂窝的内容核心,且部分点评来自于游记、问答的内容的提取,自媒体将马蜂窝用户内容生产的活跃周期,与餐饮等本地生活服务类APP相对比,并解读为马蜂窝员工有组织地抄袭,存在明显的误导倾向。
实际上,就此事业内也有不同的观点。
“马蜂窝承认部分点评来自内容提取,让UGC行业或多或少地暴露出原创内容端的不足、不同端口资源共用等问题。”业内人士分析认为,马蜂窝被疑抄袭的内容存在一定的被“反爬”迹象,比如点评中出现翻译提供方的字样等恰恰说明这是行业比较常见的操作。
电子商务研究中心生活服务电商分析师陈礼腾认为,有些平台从其他平台抓数据的目的是为了制造流量很大的假象,既给用户看、商家看,更是给投资人看。由于不涉及到数据库门槛,在技术上没有难度,任何一个爬虫工程师就可以做到,也可以批量处理,通常是“机器抓取+人工编辑”。
“互联网公司利用爬虫技术,从其他平台抓取数据的行为应该说较为常见。”陈礼腾表示。
此外,从事旅游平台管理的技术员小王告诉《每日经济新闻》记者,讨论行业共性问题时首先要清楚这次报告显示的数据抓取和分析是否存在系统性偏差或者内定指标。他建议,可以同样抓取相关平台数据做行业对比分析才有说服力,除此之外应把平台系统性造假和用户自身一稿多投的问题区分开。“前者是蓄意欺骗,后者算是监管不严。”
爬虫抓取、抄袭和造假在互联网行业并不少见,陈礼腾表示,甚至已经成为很多平台屡试不爽的一大“捷径”,但对于像马蜂窝这样的企业而言,或许入驻马蜂窝平台的商家为吸引人气和流量所为的可能性更大。
究其原因,业内人士认为,正是因为用户原创内容愈发趋于商业化,在此情况下想要获取带有流量的原创内容的成本变得越来越高。“在用户从确定旅游目的地到购买旅游产品的场景中,企业仅仅依赖UGC基础上的广告营收是远远不够的,变现、盈利成为生存难题,而反过来这些客源也势必会成为企业间争夺的核心资源。”
平台形象遭遇危机
电子商务研究中心特约研究员、北京志霖律师事务所赵占领律师指出,用户点评版权存争议的核心问题是存在法律“空白”,任何一家平台未经允许擅自抓取其他平台上用户所发布的信息的行为如果属实,就涉嫌不正当竞争。
陈礼腾进一步指出,如该事件属实,消费者对于平台的信任度将大打折扣,造成用户流失,品牌形象、未来经营都将受到一定影响。
从旅游社区起步的马蜂窝诞生于2006年,在2011年10月及2013年4月,分别获得A、B两轮融资。2015年1月获得高瓴资本等投资的8500万美元C轮融资,同年发布自由行战略后探索出了一条从内容到数据再到交易的商业模式,目前已在2017年完成1.33亿美元的D轮融资。
彼时,马蜂窝CEO陈罡在D轮融资的内部信里表示,每月有1亿活跃用户,其中85%来自移动应用程序,“三年后,蚂蜂窝将成为中国最大的旅游流量平台”。马蜂窝曾公开表示该网站的用户每月发布超过13.5万篇旅游文章,当时预计2017年个人旅游产品的销售额会超过90亿元人民币。
目前,无论马蜂窝平台背后的真实数据占比多少,其核心价值势必受到投资者的关注与考量。但从估值影响上看,陈礼腾认为,对于投资者言这些数据仅仅是一些参考指标,并非其核心内容,最终还是要看马蜂窝的转化率及盈利能力如何。如此看来,该事件对于马蜂窝的投资人信任与核心估值是否会产生较大影响尚难定论。
马蜂窝在此次的声明中表示,2016年以前,马蜂窝曾激励用户发表点评,点评数据出现快速增长。但随着马蜂窝全方位移动互联网化及用户量级的增长,以游记、攻略为代表的长内容,以嗡嗡(旅行故事)、问答为代表的短内容产品成为运营重心,它们共同构成马蜂窝的核心竞争力。
根据消费者权益保护法和新出台的电商法等相关法律,陈礼腾说,若上述自媒体曝光信息属实,马蜂窝的做法或已涉嫌违法;若只是平台上商家所为,马蜂窝作为平台享有“避风港原则”规定的一定的免责权利,具体是否该承担责任,则要看平台有没有尽到应尽的商家管理、平台治理、信息审查这方面的义务。
1本文为《每日经济新闻》原创作品。
2 未经《每日经济新闻》授权,不得以任何方式加以使用,包括但不限于转载、摘编、复制或建立镜像等,违者必究。