互联网流量变天：机器人首次超过人类，占比57.5%

AIHOT小编

2026-06-04 15:53

2024年5月28日至6月4日，一个足以改写互联网底层逻辑的数据出现在Cloudflare Radar的实时统计中：全球所有HTML网页请求流量里，57.5%来自机器人——包括搜索引擎爬虫、AI训练数据抓取器、自动化脚本及各类API客户端，而通过真人浏览器发起的请求仅占42.5%。这是机器人流量首次在统计意义上超越人类，标志着互联网的“人口”结构发生质变。

更值得关注的是，如果放大到所有HTTP流量（包含API、图片、视频等），人类参与度被进一步稀释。按返回内容分类，JSON格式（机器间通信的默认语言）以33.1%的份额高居榜首，而代表网页浏览的HTML仅占12%。换句话说，互联网的主要矛盾已不再是“人类如何获取信息”，而是“机器如何喂饱机器”。从搜索引擎索引内容，到ChatGPT、Claude等大模型持续爬取语料，再到各类自动化运维脚本和第三方数据接口，机器人已悄然将人类用户挤到了流量的次要位置。

这一趋势并非突然降临。过去十年间，Cloudflare、Akamai等CDN平台反复报告过爬虫流量的攀升，但始终未突破50%的临界点。2022年OpenAI发布ChatGPT后，AI训练爬虫的井喷式增长加速了转折。与传统的SEO友好型爬虫不同，AI抓取器往往以更大频率、更少限制地抽取页面内容，甚至迫使部分网站采用Cloudflare旗下“AI审计”工具来监测异常流量。今年2月，Reddit与Google达成价值约6000万美元的数据许可协议，已预示优质内容正成为稀缺资源，而机器流量正是这场争夺战最直接的量化指标。

对于内容产业，最紧迫的教训是：今后必须同时服务于“人”和“爬虫”。纯粹的HTML页面已不再是流量的终点，JSON格式的API输出反而可能成为主要带宽消耗者。网站运营者需要重新考虑robots.txt策略——是全面屏蔽AI爬虫（如部分新闻媒体对OpenAI采取封锁），还是通过结构化数据主动为机器提供解析友好版本？同时，如何区分善意爬虫（搜索引擎bot、学术索引）与恶意采集（训练盗版、数据抓取）？Cloudflare已推出“机器人分数”功能，但中小站点若缺乏技术投入，很可能在不自知的情况下成为AI模型的免费训练原料。

更深远的影响在于商业模式。当机器流量占比过半，基于页面浏览量的广告模型面临根本性动摇——因为越来越多的“访问”来自无人观看的脚本。内容付费、API调用计费、数据授权签约等to-B收入模式，或许会取代传统CPM广告，成为可持续的选择。正如Cloudflare CEO Matthew Prince在近期博客中所提：“互联网正在从一个以人为中心的信息目录，演变为一个以机器为中心的数据管道。”这个演变的终点，将由每个网站的服务器日志、每条API请求记录和每份流量账单共同书写。