^-^
用舍由时,行藏在我
数据观察日报 · 2026-06-09
  1. 🎯 今日要点
  2. 📋 详细内容
    1. 1. 国家数据局发文:六大专项行动推进行业高质量数据集,2028 年底见效
    2. 2. 加强高质量数据供给:AI 训练推理数据年增 42.86%,高质量数据集超 11 万
    3. 3. 数据中台、数据空间、交易所:可信数据空间到底解决什么问题
    4. 4. 观察了三年,我把所有人用 AI 的水平分成了 10 个等级

🎯 今日要点

  1. 国家数据局印发《行业高质量数据集建设行动实施方案》,部署六个专项行动,2028 年底见效
  2. 《全国数据资源调查报告(2025)》:AI 训练推理数据 199.48 艾字节,年增 42.86%
  3. 全国高质量数据集超 11 万个、908 拍字节,公共数据开放、授权运营量同比增 31.71%/53.96%
  4. 老刘提出「数据界黑暗森林法则」:可信数据空间真正卡点在商业模式
  5. 卡兹克把 AI 使用水平拆成 4 维度、10 等级,从旁观者到造工具

📋 详细内容

1. 国家数据局发文:六大专项行动推进行业高质量数据集,2028 年底见效

原文:国数科基〔2026〕25 号文,明确「行业高质量数据集」定义——经采集、加工等处理、可直接用于 AI 模型训练、能有效提升性能的行业数据集合,含通识和专识。方案部署六个专项行动:强基扩容、标注攻坚、提质增效、应用赋能、管理服务、价值释放,构建「场景牵引数据、数据驱动模型、模型赋能应用、应用创造价值」的数据飞轮。聚焦科研、工业制造、农业、能源、交通、金融、医疗、教育、电商、人力、文旅、应急、气象、绿色低碳、公共安全、城市治理、住建、自然资源、社会信用等 19 个重点领域,外加低空经济、具身智能、智能驾驶、智慧海洋、生物制造 5 个创新领域。明确鼓励依托国家数据基础设施,运用隐私计算、可信数据空间能力开展安全存储、可信流通;标注模式从「以人为主」转向「人机协同、专家深度参与」。到 2028 年底建成一批行业数据集、典型应用场景、创新型数据企业和工具标准。(国家数据局

💬 老刘评:高质量数据集的建设可以说是当前数据行业最重要的风向了,风口。

2. 加强高质量数据供给:AI 训练推理数据年增 42.86%,高质量数据集超 11 万

原文:中科院院士李骏、复旦研究员王天栋撰文,结合《全国数据资源调查报告(2025)》解读数据供给侧的转向。报告显示 2025 年全国数据生产总量达 52.26 泽字节(同比增 27.28%),用于 AI 训练推理的数据总量达 199.48 艾字节(同比增 42.86%),全年词元调用量约 21100 万亿,日均词元已从 2024 年初的约 1000 亿涨到 2026 年 3 月的 140 万亿。高质量数据集数量超 11 万个、总数据量超 908 拍字节,同比分别增 61.13% 和 142.58%。公共数据开放数据量、授权运营数据量分别同比增 31.71%、53.96%。文章提出要以政务服务、能源电力等重点行业场景牵引高质量数据集建设,并健全任务牵引机制、安全可信流通生态、专业化数据服务产业体系。(北京数据

💬 老刘评:政务服务具备率先形成高质量数据供给示范场景的先天优势,很大一部分占比的优质数据都在公共数据中。

3. 数据中台、数据空间、交易所:可信数据空间到底解决什么问题

原文:老刘开启「可信数据空间」专栏的开篇之作。核心观点:政策是手段不是原因,可信数据空间解决的是信任问题,不是传输问题——API 能解决的场景就不需要它。他提出「数据界黑暗森林法则」,把原始数据市场博弈拆为三级猜疑链:担心违约、担心第三方安全、担心技术溢出反噬,最终导致每家企业都成孤岛。可信数据空间用「数据不出域 + 智能合约 + 连接器」打破猜疑链,把零和博弈转向正和。他用「厨房与市场」比喻三者关系:数据中台是自家厨房、数据交易所是农贸市场、可信数据空间是会员制共享中央厨房。文末提出落地三大隐患——商业动力(合规驱动撑不久,要找非它不可的场景如碳足迹追踪)、防止「空间烟囱」(必须死磕互联互通和标准化)、性能盈亏平衡点(加密计算损耗不能拖垮业务实时性)。(Nikola数说未来

💬 老刘评:现在来看,可信数据空间最大的问题是运营和商业模式。为了安全有没有必要花这么多钱做这个基础设施?

4. 观察了三年,我把所有人用 AI 的水平分成了 10 个等级

原文:卡兹克把这三年观察到的 AI 用户,按四个维度——可控性(从瞎编到精准 harness)、广度(从一亩三分地到跨行业)、形态(从 ChatBot 到 Agent 长程任务)、角色(从消费者到造 Skill 的创造者)——拆成 10 个等级。Lv.0 旁观者(全球还有 80% 在这一级)、Lv.1 尝鲜者(AI 当高级搜索引擎用、不追问)、Lv.2 对话者(开始意识到「怎么问」比「问什么」重要)⋯⋯一路到 Lv.10。结尾点题:从 Lv.0 到 Lv.9 都在讲怎么用好 AI,到 Lv.10 问题变成「我到底要成为什么样的人」——AI 把执行力拉平之后,一百个人产出差距还是一百倍,差距来自人脑子里装的东西(理解、审美、价值排序),工具平权的终局是人的不平权。(数字生命卡兹克

💬 老刘评:你是哪个等级呢?很多初学者会问我,直接在网页端输入和用 Claude Code 有什么区别。


今天 4 条剪藏正好两条主线:上半场是”高质量数据集”——国家数据局正式发文(六大行动、19+5 个领域、2028 年节点)、北京数据用《全国数据资源调查报告》给上文做注脚,政策面和数据面对上号;下半场是”基础设施 vs 用户”——老刘讲可信数据空间这个 B 端基础设施值不值得建,卡兹克讲普通人怎么爬 AI 使用度的 10 级阶梯。一上一下,行业的飞轮和人的飞轮,都得转起来。