(相关资料图)
随着生成式AI的成本降低,越来越多的“垃圾网站”通过使用爬虫抓取其他网站内容,并利用AI重新生成信息。据报道,目前已经追踪到超过200个此类网站。 今年年初,一家机构开始标记这些使用AI生成内容的网站。在今年四月份,他们登记了49个相关网站,到了六月已经超过200个。这些被称为“AI垃圾场”的网站缺乏人类监管,信息杂乱无章,没有任何可信度,其存在的目的只是为了从在线广告中获取收益。 调查显示,这些“垃圾网站”以诱导用户点击访问为主,通过显示的广告赚取收入。
其中有一个名为TNN的网站每天可以生成超过1200篇文章,该网站完全由爬虫和AI脚本控制。 到六月26日为止,已经追踪标记了277个“AI垃圾网站”,这些网站涵盖了13种语言,包括中文、英文、阿拉伯语、捷克语、荷兰语、法文、印尼文、意大利文、韩文、葡萄牙语、菲律宾语、泰文及土耳其语等。 事实上,这种利用爬虫批量抓取其他媒体信息,并在抓取的页面中加入大量广告,并通过吸引访问者获取广告补贴的网站,在AI时代来临之前就已经相当常见,而生成式AI的普及只是降低了这些网站的运营成本。 同时,一些在线广告平台的政策明确表示,不允许在自动生成的内容网站文章中使用它们的广告API,但这些“垃圾网站”大多数都违反了这一政策。