2024年5月28日至6月4日,一个足以改写互联网底层逻辑的数据出现在Cloudflare Radar的实时统计中:全球所有HTML网页请求流量里,57.5%来自机器人——包括搜索引擎爬虫、AI训练数据抓取器、自动化脚本及各类API客户端,而通过真人浏览器发起的请求仅占42.5%。这是机器人流量首次在统计意义上超越人类,标志着互联网的“人口”结构发生质变。
更值得关注的是,如果放大到所有HTTP流量(包含API、图片、视频等),人类参与度被进一步稀释。按返回内容分类,JSON格式(机器间通信的默认语言)以33.1%的份额高居榜首,而代表网页浏览的HTML仅占12%。换句话说,互联网的主要矛盾已不再是“人类如何获取信息”,而是“机器如何喂饱机器”。从搜索引擎索引内容,到ChatGPT、Claude等大模型持续爬取语料,再到各类自动化运维脚本和第三方数据接口,机器人已悄然将人类用户挤到了流量的次要位置。
这一趋势并非突然降临。过去十年间,Cloudflare、Akamai等CDN平台反复报告过爬虫流量的攀升,但始终未突破50%的临界点。2022年OpenAI发布ChatGPT后,AI训练爬虫的井喷式增长加速了转折。与传统的SEO友好型爬虫不同,AI抓取器往往以更大频率、更少限制地抽取页面内容,甚至迫使部分网站采用Cloudflare旗下“AI审计”工具来监测异常流量。今年2月,Reddit与Google达成价值约6000万美元的数据许可协议,已预示优质内容正成为稀缺资源,而机器流量正是这场争夺战最直接的量化指标。
对于内容产业,最紧迫的教训是:今后必须同时服务于“人”和“爬虫”。纯粹的HTML页面已不再是流量的终点,JSON格式的API输出反而可能成为主要带宽消耗者。网站运营者需要重新考虑robots.txt策略——是全面屏蔽AI爬虫(如部分新闻媒体对OpenAI采取封锁),还是通过结构化数据主动为机器提供解析友好版本?同时,如何区分善意爬虫(搜索引擎bot、学术索引)与恶意采集(训练盗版、数据抓取)?Cloudflare已推出“机器人分数”功能,但中小站点若缺乏技术投入,很可能在不自知的情况下成为AI模型的免费训练原料。
更深远的影响在于商业模式。当机器流量占比过半,基于页面浏览量的广告模型面临根本性动摇——因为越来越多的“访问”来自无人观看的脚本。内容付费、API调用计费、数据授权签约等to-B收入模式,或许会取代传统CPM广告,成为可持续的选择。正如Cloudflare CEO Matthew Prince在近期博客中所提:“互联网正在从一个以人为中心的信息目录,演变为一个以机器为中心的数据管道。”这个演变的终点,将由每个网站的服务器日志、每条API请求记录和每份流量账单共同书写。