最新全国数据资源“大调查”结果出炉:2025年度数据生产总量达52.26泽字节(ZB),同比增长27.28%。全年词元(Token)调用量约21100万亿,词元(Token)正成为人工智能的新度量衡。
4月29日,第九届数字中国建设峰会在福州开幕。主论坛上,国家数据局党组成员、副局长陈荣辉发布了《全国数据资源调查报告(2025年)》。
数据显示,我国数据资源规模保持高速增长态势。2025年,全国年度数据生产总量增速较上年提升2.28个百分点。从行业和领域看,具身智能、低空经济等新兴领域数据生产量高速增长,增速分别为477.78%、75%。全国数据存储总量达2.53泽字节(ZB),同比增长21.05%。
全国年度数据生产总量变化。
在算力基础设施方面,报告指出,截至2025年底,全国智能算力规模达159万PFLOPS(FP16),通用算力向智能算力的代际更替加速,成为支撑人工智能发展的关键基础设施。智算资源集聚优势逐步显现,八大国家算力枢纽(含十大集群)智算规模占全国智算规模的80%以上。
报告还提到,国内数据流通活跃度不断提高。2025年,全国数据跨境流通总量为142.34艾字节(EB),同比增长14.88%。数据跨省流通总量为2949.12艾字节(EB),同比增长19.01%,广东、浙江、江苏、山东、河南等经济大省数据跨省流通量位居前五。
此外,数据正在赋能人工智能迈入规模化应用新阶段。当前,国内人工智能发展从通用大模型到行业垂域模型,再到代理型人工智能形态演进,对数据的需求也从基础语料到行业高质量数据集拓展。
报告发布现场。
调查表明,2025年,用于人工智能训练和推理的数据总量为199.48艾字节(EB),同比增长42.86%,推理数据量达101.34艾字节(EB),首超训练数据量。高质量数据集数量超11万个,规模超908拍字节(PB),同比分别增长61.13%和142.58%。
报告指出,当前我国数据市场建设还处于起步阶段,数据价值释放仍有较大潜力。随着数据基础制度加快健全完善、数据基础设施规模化部署和应用能力不断增强、全国一体化数据市场建设持续推进,数据要素在更大范围、更深层次参与资源配置的条件正加速形成。
放眼未来,报告认为人工智能将变革数据生产利用方式。预计2026年,全国年度数 据生产总量将超过67泽字节(ZB)。其中,以智能体(Agent)为代表的代理型人工智能快速发展,将产生大规模机器间数据。与此同时,以具身智能为代表的物理AI,也将推动数据从虚拟空间走向物理世界交互闭环,现实世界数据规模将出现新一轮跃升。
报告还提到,词元成为数据价值释放的新路径。随着人工智能应用深入,词元(Token)等新型计量方式,促进数据价值体系加速从“资源计量”向“使用计量”“效果计量”转变,数据流通交易从以数据资源为主的形态加速向“数据+算力+模型”一体化数据产品和服务模式演进。
同时报告认为,数据资源流通效率将加快提升,数据产业专业化分工体系也会不断深化。数据采集、清洗、标注、合成、开发、托管、运营等环节将涌现一批专业化服务商,催生数据标注、数据合规等新职业,促进数据供给、流通和利用的效率体系化提升,数据产业集聚效应将显现。
采写:南都N视频记者李玲 杨柳 发自福州