网络污染，逼疯用户！应该怎样正确使用呢？

在Internet上失去使用价值、无法利用的文件是时代和科技发展的附带产物，不可避免会有它的产生，但会是体验度下降，还有很大的潜在风险。一份来自英国与加拿大的调查结果显示，随着人们使用它产生的信息愈来愈多。特别是它所产生的误差会逐渐叠加，导致新一代高新科技对真实世界的认知发生了偏差，很快就会遗忘掉大量的原始信息，不能分辨真假。

研究者用一种形象的比喻来形容：就好像在海洋中撒下了大量的塑料垃圾，又或者在大气层中撒下了二氧化碳，我们正在促进了它的崩溃。因此，如何利用海量信息来建立新的建模方法，将会面临极大的挑战。更糟糕的是，这些信息服务提供商想要建立一道围墙，把高质量的公共信息挡在外面。

早些时候，“美国论坛”红皮书打算向 AI收取 API费用，理由是这些视频都是免费供 AI学习的。Reddit首席执行官说 Reddit的数据库是如此的宝贵，以至于他们不愿意将其作为一个大网站来免费使用。Reddit对 API的收取费用，对于像 OpenAI有足够的实力，也并没有什么太大的作用，但是对于这些创业企业来说，想要获得他们的信息，却是一件非常困难的事情。而一直和 Reddit合作的第三方软件，也受到了影响，率先宣告失败。

当然，这也是出于商业考虑， Reddit或许是为了挽救自己，以前的收入都是依靠广告收入，现在却把 Reddit的数据转化成了商机，甚至还有一些 UGC网站也有这个打算，这对于许多新成立的 AI公司而言并不是什么好消息。不仅仅是要将数据公之于众，很多 AI创业公司都想在金融、医疗等领域建立一个模型，但想要获得一个专属的训练数据集并不是一件容易的事情。

掌握着这种信息的公司，一般都会选择与那些技术实力强大的大公司进行业务上的合作，毕竟他们的信誉更高，对信息的分析能力也更强，对信息的安全性也更有保证。高品质的数据是护城河，但从这些数据中获得更多的信息，就像是一座孤岛，又像是一座军事竞争的战场。互联网该怎么做，才能得到更好的数据，进行更好的调整，成为了一个悬念。

甚至可以说是“自足”。剑桥大学的罗斯·安德森博士说，现在大部分的网上文字是人工书写，但是他们被用于GPT-3.5和GPT-4的培训，将来会有更多的文字是用大型的语种模式书写的。因此，怎样才能防止互联网所产生的作品出现一代比一代更差的品质呢？有研究小组建议了两个方案。一是保持原数据的拷贝，防止被其所产生的信息所影响，并根据此信息对其进行周期性的更新和更新。二是采用新的，干净的，人工产生的，新的，无干扰的，用于模型的学习。ChatGPT的资料来源截止到了2021年九月，到那时，因特网也许就成了一个无人打扰的地方了。从此，我们步入了一个暗潮汹涌的社会，困难就在面前，解决办法就是悬而未决。创造的东西被用来制作垃圾，让它变得更加肮脏，但这并不能完全归咎于它。实际上，这些处理技术应该被用于提升信息质量，而在 GPT的先驱GPT-3时期，一些人就把GPT-3用作书写工具。人工智能从一个刚开始玩的小玩意，转变成一个提高工作效率的手段，这是一个大势所趋，毕竟它掌握了大量的信息，又善于编写文字与程序，若是经过人工审查与修改，在品质上，甚至超过了许多“内容农场”。“内容农场”是一种能够迅速生产出大量内容的站点，以此来获取流量和广告费用。

这种类型的网站，一般都没有找到作者，只会充斥着大量的广告，占据着搜索页的第一排。这些站点的内容大多都是没有独创性和真伪保障的，有很多都是剽窃或者是将别人的作品拼凑在一起。而如今，可被用来创造新的“数据源”，这也是人们为了自身的利益而做出的决定。不仅是虚假的消息与照片，还有大量制造出来的虚假信息，如电子书网站，科幻小说杂志等等。

一名调查的专家说：“看见如此多的废品浮出水面，真是令人沮丧。“更令人担忧的是，这些视频中有不少是年轻人，随着 TikTok玩得越来越久，他们对自己所见的东西也越来越信任，于是系统便会向他们提供更多与之匹配的视频，从而产生一种无法抗拒的刺激，将他们团团围住。同样的情况还有很多。社会上充斥着一些断章取义、支离破碎的信息，而一些正经的信息却会被人以“过多的不想读”来回应。

粗制滥造的短片，或者是一些家庭琐碎的照片，或者是一些毫无意义的趣闻轶事，令人忍不住要咒骂一声“没有消息就不要发布”。若一味地沉浸在科技带来的视觉享受中，观众或许会逐渐丧失自己的独立思维能力。这就是我们的时代。制造和消费可视化的、简短的、情感化的内容是其侵蚀因特网的沃土，并削弱了对错误消息的抵抗力。

DC生肖网

网络污染，逼疯用户！应该怎样正确使用呢？

云伟聊科技