纽约时报状告OpenAI，OpenAI或将赔偿数十亿美元，并且ChatGPT面临销毁？

最近，技术圈中最火爆的新闻，莫过于OpenAI和微软正式被《纽约时报》起诉！索赔金额，达到了数十亿美元。

指控内容是，OpenAI和微软未经许可，就使用纽约时报的数百万篇文章来训练GPT模型，创建包括ChatGPT和Copilot之类的AI产品。

并且，要求销毁「所有包含纽约时报作品的GPT或其他大语言模型和训练集」。

《纽约时报》作为西方传统媒体中影响力最大的机构之一，下场与代表AI技术「最先进生产力」的OpenAI开撕，本身就话题性十足。

一位传统媒体人Jason Kint，在读完了《纽约时报》的起诉书之后，觉得《纽约时报》的确理由充分。

他把起诉书中的重点总结了出来发到推上，一天之内就发酵了280万的阅读量。

NYT诉状证据确凿

Jason Kint总结的《纽约时报》起诉书中，从版权法的起源开始，总结了版权保护对于传统媒体获取新闻的重要性。

而ChatGPT侵权行为最重要的证据，是《纽约时报》提供的100多个GPT-4输出内容和《纽约时报》报道文章高度相似的例子。

纽约时报表示，OpenAI和微软进行的非法知识数据采集和传播行为损害了该报获得订阅、版权许可、广告和其他附带收入的能力，造成的损失高达数十亿美元，虽然没有透露索赔金额，但明确要求销毁任何相关的AI模型和训练数据。

文件中，NYT提供了许多关键事实。比如，NYT是Common Crawl中用于训练GPT的最大的专有数据集。

从下表中，可以看出有1750亿参数的GPT-3训练数据中，大部分的数据集都来自Common Crawl，所占权重高达60%。

这些高度相似的输出案例对于法官判断是否存在侵犯版权的情况，将会起到关键作用。

OpenAI的律师尚未对起诉讼做出回应，认为部分索赔应被驳回。因为根据美国版权法中的合理使用原则，他们有合理的使用权。

以下是美国版权法中第107条确定的，在判断合理使用时，需要考虑的四个关键因素。

1.使用的目的和性质：会评估使用是否具有商业性质或非营利教育目的，一般而言，非商业性和教育性使用更有可能被认定为合理。

同时，变革性使用也更可能被认为是合理的。所谓 "变革性 "使用，是指增加了新的内容，具有进一步的目的或不同的性质，而不是取代原有的使用。

OpenAI和微软坚持的就是基于“变革性使用”，所以部分内容不应该算侵权。

2.作品的性质：这一因素关注的是作品本身的性质，比如事实性作品相对于创意性作品更有可能支持合理使用的主张；未发表作品通常不太可能被认为合理使用。

3.使用的数量和实质性：法院会考量所使用的作品内容的量和质，使用大量或“核心”部分的内容可能不支持合理使用的主张。

4.对原作市场或价值的影响：法院会审视使用是否损害了原版权作品的现有或潜在市场，如果未经许可的使用取代了原作或对其销售造成损害，可能被视为不公平的使用。

《纽约时报》状告OpenAI和微软的事在外网引发了讨论，截至2023年12月28日北京时间晚上10点，知名律师Cecilia Ziniti发起的有关帖子约有260万查看。

经过研读《纽约时报》的诉讼文件，她表示「OpenAI 很难在不对指令进行大幅更改并就技术运作方式进行大量诉讼的情况下为这种做法辩护。与其进行争斗，与《纽约时报》达成和解更为明智」。

不过她也提到了一个观点，「版权保护的是创造力，而不是努力」，这确实是内容资产保护的难点，「这个案件可能是AI 和版权领域的一个分水岭时刻。很多人认为OpenAI 应（为《纽约时报》的创造力）支付费用」。

这个案子的结果可能对未来的AI创新和创意内容资产的保护产生深远影响。

媒体对于AI的态度

随着AI的发展，新闻媒体公司在“训练AI”上分成了两大阵营。

一方是“同意派”，美联社于7月与OpenAI签署合作协议，同意提供过去的报道用于数据学习。

《华尔街日报》新闻集团也正在考虑向AI开发人员收取使用其中内容的费用，将生成式AI视为未来业绩的支持。

另一方是以《纽约时报》为首的“反对派”。事实上近一段时间，《纽约时报》对于AI的评论文章一直偏消极。

例如12月28日的报道——《人工智能可以创造出人性化的艺术。这是谁的错？》；

12月26日的报道——《人工智能是摄影的未来。这是否意味着摄影已死？》；

12月21日的报道——《陌生人如何从ChatGPT中获取我的电子邮件地址？》。

然而《纽约时报》并不否认AI的发展和其光明前景，它在今年6月给员工的邮件中写道：

“我们决定寻找战略性创新的方法，AI于我们只是一种补充人类专业知识的数字工具。

我们为技术的发展感到欣慰，但也需要在热情与事实中保持清醒的平衡。当AI威胁到我们时，我们将诉诸法律武器。”

《好莱坞时报》指出，《纽约时报》可能会面临一场艰苦的斗争，尤其在AI愈加成为各个行业不可阻挡的趋势后。

一些创作者决定与OpenAI就训练GPT产品的内容达成协议，选择每月获得一笔可观的版权费，而不是发起法律诉讼。

另一方面，《纽约时报》也并不孤独。在它发起诉讼后，《卫报》报道文章——《纽约时报指控科技巨头OpenAI和微软侵犯版权——事实确实如此》表明，这个机构已经站在了《纽约时报》的阵营。

今年4月，美国媒体业亿万富翁巴里·迪勒（Barry Diller）警告道，除非科技公司能够尊重版权法，对训练AI加以控制，否则人工智能将对新闻业造成破坏性影响。

迪勒还考虑与一群主要出版商一起起诉使用版权内容训练人工智能系统的开发者。

媒体大亨默多克领导的“新闻集团”公司（News Corp）是受到AI打击最严重的企业之一，CEO罗伯特·汤姆森（Robert Thomson）指出新闻媒体的知识产权将被AI“偷走”，它不仅能收集和抓取故事，还能吸收和合成故事。

这些故事包含了伟大新闻从业者的努力，但却被AI轻而易举盗取，导致读者永远不会再访问新闻网站，从而对新闻业造成不可逆的致命打击。

Midjourney吐出「原图」？

不仅仅是OpenAI、微软，就连最强的AI作图神器Midjourney也将在未来面临一大波的起诉。

Midjourney V6升级后惊艳了全网，但同时有人发现，其输出的图片完全和好莱坞等电影剧照毫无差别。

曾为漫威工作的插画家兼电影概念艺术家Reid Southen表示，只需要15分钟，就能找到Midjourney侵犯版权和剽窃的证据。

如下的图片中，可以看出生成的图像与电影原作非常接近，仅在镜头角度或姿势等方面存在细微差别。

他还制作了一段视频，展示了自己使用Midjourney V6进行的剽窃实验。因为他发表的评论，Southen已经被踢出了Midjourney Discord小组。

当网上50%的漫威作品最终都是人工智能的山寨品时，品牌形象问题和消费者的困惑又将如何解决？

《蒙娜丽莎》这样的经典艺术品，只提供两个字的提示，就能完全复刻原图。

而且在这种情况下，这种行为并不会在法律上被判为“剽窃”，因为《蒙娜丽莎》的年代久远，已经属于公有版权。

为了最大限度地提高性能，新模型可能会在相同的数据上反复强化训练，导致输出结果与训练数据几乎完全相同。

这就是所谓的「过拟合」，此前研究表明这种情况可能会发生。

ChatGPT也会出现文本过拟合的迹象。全新的V6模型很可能是一枚重磅炸弹。

目前，Midjourney已经卷入了至少一起诉讼。以后网上这些画面究竟是原动画还是AI生成，恐怕没人能分得清了。

rompt: scene from the simpsons [character] --ar 16:9 --style raw --v 6

Prompt: scene from finding nemo [character] --ar 16:9 --style raw --v 6

Prompt: scene from frozen --ar 16:9 --style raw --v 6

DC生肖网

纽约时报状告OpenAI，OpenAI或将赔偿数十亿美元，并且ChatGPT面临销毁？

探我元宇宙