不过我试了一下,现在倒是会提醒版权限制了,但是关键内容依然会以摘要的形式进行展现。
更让媒体无法接受的,是他们激进的数据抓取手段。
根据云安全公司的报告,存在绕过网站规则、抓取受保护内容的行为。当网站的.txt协议明确表示“谢绝爬虫”时,的机器人会通过修改自己的代理信息,伪装成普通的浏览器用户,以此蒙混过关。
说实话,看完来龙去脉后,我觉得这么做确实有那么点不厚道。
这也难怪,读卖新闻在最后的诉求里要赔偿21.68亿日元(约合1.06亿元人民币)的损失。
内容源头“说不清”成了大模型的“原罪”
有趣的是,如今所面临的围攻,并非孤例。
事实上,放眼整个AI行业,类似的争议早已屡见不鲜,几乎成了所有AI巨头都无法绕开的“原罪”。
这片战火,早已经从新闻业蔓延至文学、艺术乃至软件编程的每一个角落。
在文本领域,2023年末,《纽约时报》正式对提起诉讼,指控其非法使用数百万篇文章来训练。诉状中最致命的证据,莫过于展示了在特定提示下,能够几乎逐字逐句地复述自家的付费版权内容。
(图源:US GOV)
紧随其后的,是一个由众多知名作家组成的“复仇者联盟”,包括《权力的游戏》作者乔治·R·R·马丁在内的美国作家协会共同发起集体诉讼,控诉自己毕生的心血之作,在未经许可、未获分文报酬的情况下,沦为了大模型“不劳而获”的训练素材。
在图像领域,冲突同样白热化。全球最大的图库Getty 在诉讼中声称, AI非法抓取了其超过1200万张图片进行训练,部分生成的图像中,甚至还能看到Getty 那标志的隐藏水印。
此起彼伏的争议,指向了当前生成式AI发展的两个根本性问题。
首先,是模型对大规模训练数据的需求。 要让一个AI变得更智能,开发者就必须为其投喂更大的数据集,这种对数据的需求,决定了AI公司必然会采用“地毯式”的扫荡策略,将互联网上一切可及的数据都纳入囊中。
其次,是AI公司试图重塑互联网生态的野心。不仅要做网页、插件,更是最近推出了Comet浏览器,旨在成为新的“互联网入口”,希望用答案彻底取代传统的网页链接。
这种商业模式的本质,就是流量截留,可以说直接动摇了整个内容产业的根基。
(图源:)
面对排山倒海而来的诉讼,表示自己根本就不是做AI大模型的,试图以自己只是一个代理应用为由撇责,他们认为抓取网页信息的机器人应该被视为用户驱动的AI助手,但这并不能解释为什么他们能够不经允许直接输出别家网站的内容。
至于那些在训练大模型的AI公司们,则不约而同地举起了一面法律大旗——合理使用,他们声称,使用受版权作品训练AI就像一个学生为了学习写作而博览群书,其目的在于技术创新,而非市场替代,当前出现原文的情况只是BUG而已。
要我说,这种说法多少也有点甩锅的意思。
内容版权问题成AI产业的关键之殇
你还别说,这次事件的关注度还蛮高的。
一边是老牌传统媒体,一边是新兴AI巨头,事情发生后,立刻就有人把这次的案件,拔到了AI版权纠纷里程碑的高度。
(图源:X)
甚至,还有不少科技、媒体圈的大佬亲自下场站队,但是一直到现在,也没人能说得清楚到底谁对谁错。
给一众吃瓜群众,看得是一愣一愣的。
有趣的是,尽管官司打得震天响,但截至目前,还没有任何一家大型AI公司,因为在训练数据方面的版权争议而被法庭最终裁定需要支付巨额赔偿。
这是因为,在法庭之外,一种默契正在悄然形成。为了规避法律风险,许多AI公司都开始选择花钱买平安,主动与内容出版商达成授权协议,、苹果等巨头,更是已在积极寻求与各大媒体的内容合作。
(图源:Axios)
这揭示了一个略显残酷但必须承认的现实——
一方面,我们无法否认AI公司在发展初期存在着对版权的漠视,其带来的利益纠纷是真实且深刻的;另一方面,我们也不得不承认,没有海量的数据滋养,就没有今天我们所见到的、能够极大提升生产力的强大AI。
继续停留在偷与抓的混乱状态,对双方都是一种消耗,或许是时候跳出二元对立,建立一个规范化的、覆盖全行业的数据使用和共享机制了。
依雷科技之见,这个机制完全可以借鉴音乐产业的版税系统。
这样AI公司不再需要偷偷摸摸地去抓取数据,而是可以通过向这个组织支付许可费用,合法地获取高质量、经过授权的训练数据,而该组织则根据数据被使用的频率等指标,将收入分配给作为内容源头的媒体、作家和艺术家们。
如此一来,AI的发展便有了合法、稳定、高质量的材料,而内容创作者们的辛勤劳动也能获得应有的回报,从而促成良性循环。
323AI导航网发布