网络污染,逼疯用户!应该怎样正确使用呢?

云伟聊科技 2023-06-29 15:58:21

在Internet上失去使用价值、无法利用的文件是时代和科技发展的附带产物,不可避免会有它的产生,但会是体验度下降,还有很大的潜在风险。一份来自英国与加拿大的调查结果显示,随着人们使用它产生的信息愈来愈多。特别是它所产生的误差会逐渐叠加,导致新一代高新科技对真实世界的认知发生了偏差,很快就会遗忘掉大量的原始信息,不能分辨真假。

研究者用一种形象的比喻来形容:就好像在海洋中撒下了大量的塑料垃圾,又或者在大气层中撒下了二氧化碳,我们正在促进了它的崩溃。因此,如何利用海量信息来建立新的建模方法,将会面临极大的挑战。更糟糕的是,这些信息服务提供商想要建立一道围墙,把高质量的公共信息挡在外面。

早些时候,“美国论坛”红皮书打算向 AI收取 API费用,理由是这些视频都是免费供 AI学习的。Reddit首席执行官说 Reddit的数据库是如此的宝贵,以至于他们不愿意将其作为一个大网站来免费使用。Reddit对 API的收取费用,对于像 OpenAI有足够的实力,也并没有什么太大的作用,但是对于这些创业企业来说,想要获得他们的信息,却是一件非常困难的事情。而一直和 Reddit合作的第三方软件,也受到了影响,率先宣告失败。

当然,这也是出于商业考虑, Reddit或许是为了挽救自己,以前的收入都是依靠广告收入,现在却把 Reddit的数据转化成了商机,甚至还有一些 UGC网站也有这个打算,这对于许多新成立的 AI公司而言并不是什么好消息。不仅仅是要将数据公之于众,很多 AI创业公司都想在金融、医疗等领域建立一个模型,但想要获得一个专属的训练数据集并不是一件容易的事情。

掌握着这种信息的公司,一般都会选择与那些技术实力强大的大公司进行业务上的合作,毕竟他们的信誉更高,对信息的分析能力也更强,对信息的安全性也更有保证。高品质的数据是护城河,但从这些数据中获得更多的信息,就像是一座孤岛,又像是一座军事竞争的战场。互联网该怎么做,才能得到更好的数据,进行更好的调整,成为了一个悬念。

甚至可以说是“自足”。剑桥大学的罗斯·安德森博士说,现在大部分的网上文字是人工书写,但是他们被用于GPT-3.5和GPT-4的培训,将来会有更多的文字是用大型的语种模式书写的。因此,怎样才能防止互联网所产生的作品出现一代比一代更差的品质呢?有研究小组建议了两个方案。一是保持原数据的拷贝,防止被其所产生的信息所影响,并根据此信息对其进行周期性的更新和更新。二是采用新的,干净的,人工产生的,新的,无干扰的,用于模型的学习。ChatGPT的资料来源截止到了2021年九月,到那时,因特网也许就成了一个无人打扰的地方了。从此,我们步入了一个暗潮汹涌的社会,困难就在面前,解决办法就是悬而未决。创造的东西被用来制作垃圾,让它变得更加肮脏,但这并不能完全归咎于它。实际上,这些处理技术应该被用于提升信息质量,而在 GPT的先驱GPT-3时期,一些人就把GPT-3用作书写工具。人工智能从一个刚开始玩的小玩意,转变成一个提高工作效率的手段,这是一个大势所趋,毕竟它掌握了大量的信息,又善于编写文字与程序,若是经过人工审查与修改,在品质上,甚至超过了许多“内容农场”。“内容农场”是一种能够迅速生产出大量内容的站点,以此来获取流量和广告费用。

这种类型的网站,一般都没有找到作者,只会充斥着大量的广告,占据着搜索页的第一排。这些站点的内容大多都是没有独创性和真伪保障的,有很多都是剽窃或者是将别人的作品拼凑在一起。而如今,可被用来创造新的“数据源”,这也是人们为了自身的利益而做出的决定。不仅是虚假的消息与照片,还有大量制造出来的虚假信息,如电子书网站,科幻小说杂志等等。

一名调查的专家说:“看见如此多的废品浮出水面,真是令人沮丧。“更令人担忧的是,这些视频中有不少是年轻人,随着 TikTok玩得越来越久,他们对自己所见的东西也越来越信任,于是系统便会向他们提供更多与之匹配的视频,从而产生一种无法抗拒的刺激,将他们团团围住。同样的情况还有很多。社会上充斥着一些断章取义、支离破碎的信息,而一些正经的信息却会被人以“过多的不想读”来回应。

粗制滥造的短片,或者是一些家庭琐碎的照片,或者是一些毫无意义的趣闻轶事,令人忍不住要咒骂一声“没有消息就不要发布”。若一味地沉浸在科技带来的视觉享受中,观众或许会逐渐丧失自己的独立思维能力。这就是我们的时代。制造和消费可视化的、简短的、情感化的内容是其侵蚀因特网的沃土,并削弱了对错误消息的抵抗力。

0 阅读:27

云伟聊科技

简介:大家好