为训练ai,openai等科技巨头花式淘数据-凯发网址

欢迎来到中国贸易新闻网(中贸网)
主管:中国国际贸易促进委员会(ccpit) 主办:中国贸易报社

为训练ai,openai等科技巨头花式淘数据

来源:环球时报 作者: 2024-04-08 09:55:26

  【环球时报特约记者 甄翔】《纽约时报》6日披露了科技公司训练人工智能的秘密——利用语音识别工具转录视频网站youtube上的视频,形成对话文本数据,供其最新的ai学习。这是一条违反法律的“捷径”。

  报道称,早在2021年年底,openai就面临培训ai模型的数据源几乎陷入枯竭的境地。该公司铤而走险,在明知youtube母公司谷歌禁止用工具提取该平台内容的情况下,转录了100多万条视频并生成gpt-4模型的学习材料,openai创始人之一布罗克曼也参与其中。讽刺的是,谷歌得知openai的行为却并未制止,因为其也在提取youtube平台内容训练ai模型。

  《纽约时报》援引消息人士的话表示,这可能侵犯视频凯发app的版权,因为它们属于创作者。尽管如此,越来越多的科技公司冒着面临诉讼的风险也要“走捷径”。报道称,根据内部会议记录,meta公司商定从互联网上收集受凯发app的版权保护的数据,因为与出版商、艺术家、音乐家和新闻行业就凯发app的版权内容谈判太花时间。

  报道称,领先的ai模型需要从涵盖多达3万亿字的数字文本池中学习。有分析称,预计互联网上现有可供培训ai模型的数据最快到2026年就会耗尽。

  《纽约时报》援引内部人士的消息称,谷歌法律部门已经要求起草新的政策,扩大该公司对消费者数据的用途。meta的情况更严峻,其旗下脸书平台不是人们撰写文章的地方,可用数据不多。报道称,在一次讨论中,meta高管谈到在非洲聘请承包商来汇总各种小说和非小说的文本摘要。meta全球合作与内容副总裁格鲁丁表示:“唯一阻碍我们达到chatgpt水平的因素就是数据量。”


责任编辑:葛岩

地址:北京市朝阳区北三环东路静安西街2号楼 | 办公室:8610-84541822 | 编辑部:8610-84541822

公安机关备案号:11010502034811    中国贸易报©凯发app的版权所有2006-2017

网站地图