◎人造数据已经达到极限,接下来是AI“喂养”AI的世界?
每经记者 文巧 蔡鼎 谭玉涵 每经编辑 孙宇婷
8月16日,《纽约时报》称若未提前获得书面同意,原则上禁止将新闻报道和图片等用于人工智能开发。这或许是一个信号,意味着未来可供科技公司用于大模型训练的高质量数据或越来越受限。据悉,可用于训练的高质量数据或于2026年耗尽。目前,微软、OpenAI等公司已经在测试用计算机合成的数据用于训练其AI系统。合成数据真的是AI时代的“新锂矿”?它有哪些风险?
本周,梅西率迈阿密国际首次闯入美联杯决赛,贝克汉姆随后在Instagram上发帖庆祝。据外媒报道,随着梅西的加入,迈阿密国际在明年将成为美职盟历史上第一支估值超过10亿美元的足球队。贝克汉姆的商业版图有多大?"一周人物"带你走近从球员到球队老板的贝克汉姆。
8月18日凌晨,大型加密货币突然集体暴跌。数据显示,近24小时,共有17.1万人爆仓。此外,Arm IPO计划引华尔街全体出动,目前已聘请28家机构担任承销商。
更多内容,尽在《一周国际财经》。
数据荒来了!可用于训练的高质量数据或于2026年耗尽
合成数据成AI时代的“新锂矿”?
图片来源:视觉中国
人造数据已经达到极限,接下来是AI“喂养”AI的世界?
8月16日,据报道,《纽约时报》变更了服务条款,称若未提前获得书面同意,原则上禁止将新闻报道和图片等用于人工智能(AI)开发。这意味着未来可供科技公司任意使用来训练大型语言模型(LLM)的高质量数据越来越有限。
ChatGPT引起的AI竞争如火如荼,科技公司为了喂养自己LLM,不得不使出浑身解数寻找训练数据,伴随而来的是一轮数据大战。经济学人报道称,谷歌和Meta这两家科技巨头的最新AI模型已经接受了超过1万亿个单词的训练。数据,已经是AI时代的“新锂矿”了。
由于对数据的需求增长如此之快,研究机构Epoch ai认为,到2026年,可用于训练的高质量文本库存可能会耗尽。但随着生成式AI软件变得越来越复杂,数据需求越来越高,即使是财力雄厚的AI公司也将耗尽易于访问的高质量数据来进行训练。
合成数据就成了一个新的出路。金融时报在上月爆料,微软、OpenAI和Cohere等公司已经在测试用计算机合成的数据用于训练其AI系统,来进一步提高LLM的能力。
今年5月,在伦敦举行的一次活动中,OpenAI 首席执行官Sam Altman被问及是否担心监管机构对ChatGPT潜在侵犯隐私的调查,Altman称他“非常有信心很快所有数据都将成为合成数据”。
为生成式AI提供动力的超大型模型依赖于海量数据。目前,为 ChatGPT 和Bard 等聊天机器人提供支持的LLM主要通过抓取互联网数据来进行培训,用于训练这些系统的数据包括数字化书籍、新闻文章、博客、搜索查询、X(前Twitter)和Reddit的帖子、YouTube 视频和Flickr图像等内容。
据经济学人报道,谷歌和Meta(前Facebook)这两家科技巨头的最新AI模型已经接受了超过1万亿个单词的训练。相比之下,在线百科全书维基百科上的英语单词总数约为40亿个。
数据的价格是高昂的,早在2018年,微软就斥资高达75亿美元收购了软件代码存储库GitHub作为专门的数据信息集,用于开发一种代码编写AI工具。
随着数据需求越来越大,为了构建更强大的模型,模型构建者们也急于寻找越来越多的新数据源来维持疯狂的“喂养”。正是看中这种巨大的需求,拥有大量此类数据资源的公司正在权衡如何最好地从中获利,他们也理所当然地拥有了更多的议价能力。
例如,Reddit和 Stack Overflow增加了访问其数据的成本,X已采取措施限制机器人抓取该网站的能力,并且现在向任何希望访问其数据的人收费。每经记者查询Reddit官网发现,免费使用该网站数据API的速率限制为:每个客户端ID每分钟仅能查询100次;若不使用客户端ID,则每分钟仅能查询10次;若要超过这些限制,则需要为每1000个API请求(API Call)付费0.24美元。
尽管如此,为了获取更多数据来训练出更优秀的LLM,科技公司们当然不惜掏空腰包。
7 月,OpenAI与美联社签署了一项协议。最近,该公司还扩大了与图库摄影提供商 Shutterstock 的协议,Meta也与Shutterstock达成了协议。8 月,谷歌被曝正在与唱片公司环球音乐进行讨论,以授权艺术家的声音来支持AI歌曲创作。这些合作都未透露具体的金额。
随着数据需求的增大,初创公司也纷纷涌入,渴望分得一杯羹。4 月份,专注于人工智能的数据库公司Weaviate筹集了5000 万美元,估值达2亿美元;不到一周后,另一家数据初创公司PineCone以7.5亿美元的估值筹集了1亿美元;本月早些时候,Neon又筹集了4600万美元的资金。
科技公司争先恐后入局生成式AI,造成“僧多粥少”的局面也是必然的。研究机构Epoch ai认为,对数据的需求增长如此之快,到2026年,可用于训练的高质量文本库存可能会耗尽。
面对数据短缺的困境,微软、OpenAI和Cohere开始率先转向合成数据作为新的解决方案。合成数据是指使用AI模型来生成与真实数据相似但不完全相同的数据,用于训练其他AI模型。
例如,为了训练高等数学模型,Cohere会使用两个相互对话的AI模型,其中一个充当数学导师,另一个充当学生。人类作为监督的角色,如果模型说错了什么,就会介入并纠正。
Cohere 的首席执行官Aidan Gomez表示:“如果你能从网络上获取所需的所有数据,那就太棒了。但事实上,网络是如此嘈杂和混乱,以至于它并不能真正代表你想要的数据。网络并不能满足我们所需的一切。”
微软研究院的两个研究表明,使用合成数据“喂养”AI是可行的。以用GPT-4生成的一个“四岁儿童小说”数据集TinyStories为例,这个数据集被证明虽然只包含4岁小孩能理解的单词,但用于训练一个大模型之后,同样可以生成语法正确、阅读体验流畅的故事。
另一篇论文则表明,AI可以通过合成Python代码进行训练,并且这些代码在编码任务上表现相对较好。
图片来源: arXiv.org
Gomez指出,为了提高LLM的性能,并能够应对科学、医学或商业方面的挑战,AI模型将需要独特且复杂的数据集。这些数据要么必须由科学家、医生、作家、演员或工程师等世界专家创建,要么从制药、银行和零售商等大公司获取专有数据。“然而,这些人类创建的数据非常昂贵。”而合成数据的成本优势则非常明显,因为它不需要收集和标注真实数据。
随着合成数据这一新趋势的出现,Scale AI和Gretel.ai等初创企业如雨后春笋般涌现,专注为科技公司提供合成数据服务。在这些公司中,Gretel还获得了谷歌、汇丰银行、Riot Games和Illumina等公司的支持。而在SemiAnalysis爆料GPT-4“大花边”的新闻中,还提到GPT-4的数据集中,有数百万行是来自Scale AI和内部的指令微调数据。
这意味着,越来越多的大型公司开始介入合成数据的领域了。
不过,虽然合成数据看起来很有前景,但也有批评声指出它不能反映或改进现实世界的数据。合成数据的质量和可靠性取决于生成它的AI模型的水平和方法,如果生成的数据与真实数据存在差异或错误,那么训练出来的模型也可能会出现问题。
随着AI生成的文本和图像开始充斥互联网,AI公司在网络上抓取训练数据很可能最终将不可避免地使用其自己模型的原始版本生成的原始数据——这种现象被称为“dog-fooding”。
牛津大学和剑桥大学等大学最近的一项名为The Curse of Recursion: Training on Generated Data Makes Models Forget的研究就警告称,根据自己的原始输出(可能包含虚假或捏造的内容)训练AI模型,随着时间的推移可能会破坏和降低技术性能,从而导致“不可逆转的缺陷”。
该论文作者、剑桥大学和爱丁堡大学安全工程教授Ross Anderson直言:“正如我们用塑料垃圾布满了海洋,用二氧化碳填满了大气层,我们即将用废话填满互联网。”
对于这一点,Gretel首席执行官Ali Golshan也同意,“网络上的内容越来越多地由AI生成,我确实认为随着时间的推移,这将导致内容退化,因为语言模型正在产生重复的知识,没有任何新的见解。”
从球员到老板,贝克汉姆率迈阿密国际走向估值超10亿美元俱乐部
图片来源:Instagram截图
美东时间8月16日,梅西领衔的迈阿密国际在北美联杯半决赛上4:1完胜费城联队。至此,距离这只成立仅5年的俱乐部史上的第一座冠军奖杯,只剩下一场决赛。
赛后,作为球队老板之一贝克汉姆在Instagram上更新了动态,晒出梅西庆祝进球的照片,并配文道:“又一个美妙的夜晚,对我们的球队、球迷、俱乐部来说是多么棒的时刻,这是我们@迈阿密国际历史上第一次的决赛。”
其实,贝克汉姆的职业生涯,始终伴随着“商业化”三个字。球员期间他就受到不少品牌的青睐,代言范围广泛,已经赚的钵满盆满。退役后小贝的收入不减反增,这都得益于他2007年转投美国职业足球大联盟(下称MLS)时签下的两条协议。
2007年登陆MLS洛杉矶银河时,贝克汉姆年薪虽然只有650万美元,但他的合同中,包含两个特殊条款:其一,获得俱乐部总收入的分成;其二,贝克汉姆与MLS签下合约,退役之后,他能以2500万美元的价格,买下一支球队进军MLS。随着近年来MLS入场费的暴增,贝克汉姆当年签下的条款换来人生的再次腾飞。有体育商业专家指出,在美国踢球、收购运营俱乐部,贝克汉姆赚了超过5亿美元!
在洛杉矶银河退役后不久,贝克汉姆2013年就开始着手筹建新球队。2018年9月,贝克汉姆宣布在美职联成立一家名为“迈阿密国际”的足球俱乐部。这支球队的标志是两只粉色的火烈鸟,寓意着迈阿密的热情和多元化。贝克汉姆表示,他希望这支球队能够吸引全世界的球迷,并且打造出一支有竞争力和魅力的球队。
由于足球这项运动在美国的受欢迎程度并不如篮球和橄榄球,加上俱乐部场馆建设的巨大开销,贝克汉姆成立迈阿密国际的早期并谈不上一帆风顺。
然而,梅西的加盟让迈阿密国际的估值大涨。据美国体育产业媒体去年9月的报道,迈阿密国际当时的估值仅为5.85亿美元,位于MLS联盟29支球队中的第10位。美国体育产业记者迈克尔·金尼迪预计,因为梅西的加盟,迈阿密国际在下一个自然年将成为美国职业联盟(下称MLS)历史上第一支估值超过10亿美元的足球队。
而贝克汉姆的商业版图,远远不止目前因为梅西的到来而红遍全美的迈阿密国际。例如,仅仅在成立迈阿密国际不到半年时间里——2019年年初,贝克汉姆就宣布买下英格兰乙级联赛球队索尔福德城股份10%的股份,与“92班”的队友吉格斯、斯科尔斯、尼基·巴特、加里和菲尔·内维尔一起,成为该俱乐部老板。
退役后的贝克汉姆涉足体育以外的商业版图,时间甚至要更早。
2014年,贝克汉姆在好友的帮助下成立了Beckham Brand Holdings Ltd.,该公司旗下除了时尚品牌Victoria Beckham Ltd以外,还有一家投资公司DB Ventures Ltd.,负责处理贝克汉姆相关的肖像权、品牌授权和其他商业用途。
DB Ventures旗下的“David Beckham”品牌包括贝克汉姆黑格俱乐部威士忌品牌,帝舵表、百事可乐、三星和阿迪达斯、澳门金沙度假区、玛莎拉蒂、健身特许经营商F45 Training的代言活动以及GemForex亚洲品牌大使和其他代言活动等。此外,DB Ventures投资与收购的公司包括XIX、Guild Esports(电子竞技公司)、Cellular Goods、Lunaz Design等。
贝克汉姆还与人共同创办了一家舞蹈和音乐表演的活动管理和制作公司Footwork Production, LLC;携手欧莱雅集团创立了男士美容品牌House 99;创办了一家电视制作公司Studio 99等。
在房地产投资上,贝克汉姆也有着广泛的投资组合,拥有:伦敦西部荷兰公园一栋价值3150万英镑的联排别墅、美国迈阿密一套价值2000 万英镑的公寓,以及全球其他豪宅。
在影视领域,2023年年初,贝克汉姆还和迪士尼进行合作,主演一部名为《Save Our Squad》的足球主题电视剧,并在其中饰演一位少年队的教练,片酬高达7位数美金。
在贝克汉姆的商业合伙人名单里,其妻子维多利亚扮演着重要的作用。她既是Victoria Beckham Ltd.的创始人, 也是贝克汉姆品牌控股公司、维多利亚贝克汉姆公司和维多利亚贝克汉姆控股公司的董事会成员。
惨烈崩盘!17万人爆仓
马斯克曝出大动作!
图片来源:视觉中国
8月18日凌晨,大型加密货币突然集体暴跌,日内最大跌幅超13%,一度跌穿2.5万美元关口,截至发稿,比特币最新价格回升至26086美元,较7月高点累计跌幅超18%;另外,以太坊日内最大跌幅超13%,一度下破1600美元关口,现报1662美元。
据coinglass数据显示,最近24小时,共有17.1万人爆仓,爆仓总金额达10.18亿美元(约合人民币74亿元)。
据《华尔街日报》8月17日报道,马斯克旗下的SpaceX 在去年和2021年总共减记了价值3.73 亿美元的比特币,并且已经出售这些加密货币。但尚未确认3.73亿美元比特币是否已经全部出售。另外,根据特斯拉的财报显示,该公司在2022年第二季度以9.36亿美元的价格卖出了3万多枚比特币,约占其最初15亿美元比特币持仓的75%。
Arm IPO,华尔街全体出动
图片来源:每经记者 朱成祥 摄
据彭博社报道,知情人士透露,全球最大半导体IP厂商Arm已经聘请28家机构担任今年首次公开募股(IPO)承销商,预计最快将于8月21日披露IPO计划。
Arm的IPO几乎让华尔街全体出动。巴克莱银行、高盛、摩根大通和瑞穗四家大型投行将担任主承销商,另外还有10家二级承销商和14家三级承销商,前者包括美银、花旗、德银,后者也囊括了汇丰、大和证券和法兴银行等。
外媒援引知情人士的话报道称,软银最近收购了旗下愿景基金持有Arm25%的股份,该交易对ARM的估值略高于640亿美元,这表明软银可能希望通过下月在纽约进行的Arm的IPO实现这一估值。预计软银最早将于下周一公布其F-1文件,这份文件将列出Arm的财务和运营细节。软银计划在此次发行中出售该公司约10%的股份。
SpaceX终于赚钱了!
最新估值1500亿美元,与英特尔相近
图片来源:视觉中国
据《华尔街日报》当地时间周四报道,亿万富翁埃隆・马斯克旗下太空探索公司SpaceX的财务数据显示,该公司2023年第一季度的收入为15亿美元(约109.65亿元人民币),总利润达到5500万美元(约4.02亿元人民币)—— 该公司在经历了两年大幅亏损(但亏损幅度不断收窄)之后,终于实现了小幅度的盈利。
今年7月中旬马斯克旗下SpaceX告诉部分投资者,预计2023年该公司将实现约80亿美元的营收,大约是上一年收入的两倍。
该公司还向投资者保证,以不包括制造火箭和卫星相关费用的标准计算,预计今年将获得约30亿美元(当前约214.5亿元人民币)的营业利润,至少以不包括与制造火箭和卫星相关的费用的衡量标准而言是这样。
在创立超过20年后,SpaceX已经成为在美国市场具有统治地位的火箭发射公司,也是NASA往国际空间站接送美国宇航员的唯一渠道。根据早些时候的报道,SpaceX给公司股票定的最新估值为1500亿美元,大致与英特尔相近。
买家支付能力创近40年新低
巴菲特却在楼市押下重注
图片来源:视觉中国
供应紧张引发的房价上涨,加上抵押贷款利率的上升,已经将美国的房地产买家们的住房负担能力压低至近40年来的最低水平。
美东时间周四(8月17日),房地美30年期固定抵押贷款的平均利率从一周前的6.96%跃升至7.09%,创2002年以来新高,且较一年前的5.13%大幅上涨。对于房地产市场内的潜在买家来说,等待融资成本回落就像是一场风险极高的赌博。
而在这样的行情下,巴菲特却开始在楼市押下重注。伯克希尔哈撒韦本周一提交给SEC的文件显示,该公司已投资美国三大房屋建筑商:霍顿房屋、莱纳建筑以及NVR Inc.,持股总价值超过8亿美元。这三家公司年初至今的累计涨幅均超过30%。
对此,全球房产科技公司居外IQI集团联合创始人兼集团CEO Kashif Ansari在接受《每日经济新闻》记者采访时指出,“利率的高企使的业主们越来越不愿卖掉手头现房,因此更多的买家会转向新房市场,这对房屋建筑商是一个利好。同时,越来越多的买家会转向出租房市场,从而推高房租,出租公寓市场会变得引人关注。”
VinFast上市不到一周,股价过山车
越南首富失血230亿美元
“越南版特斯拉”VinFast Auto(VFS)周五收跌23%,收报15.40美元,美股盘初一度跌至11.61美元、日内最大跌幅达到惊人的42%。至此,VFS已经连续第三个交易日下跌。
本周二,VinFast完成与一家特殊目的收购公司(SPAC)Black Spade Acquisition的合并,在纳斯达克交易。当日其股价一路高歌,盘中最高触及38.78美元,报收37.06美元,收盘涨幅达254.64%。
伴随着VinFast股价的巨震,自其美国上市以来,Pham Nhat Vuong董事长兼创始人、持有VinFast绝大多数股票的越南首富潘日旺的净财富也大幅波动。据彭博,潘日旺在IPO当日的身家暴增390亿美元,这是财富计算指数有史以来最大的增幅之一。不过根据最新的彭博亿万富翁指数,其身家在三天内暴跌了约52%,失血230亿美元,至212亿美元。尽管如此,潘日旺的财富仍然比VinFast上市前大幅增加。
免责声明:本文内容与数据仅供参考,不构成投资建议,使用前核实。据此操作,风险自担。
记者:文巧 蔡鼎 谭玉涵
编辑:孙宇婷
视觉:刘青彦
排版:谭玉涵
封面图片来源:视觉中国-VCG41N1369014355
1本文为《每日经济新闻》原创作品。
2 未经《每日经济新闻》授权,不得以任何方式加以使用,包括但不限于转载、摘编、复制或建立镜像等,违者必究。