Nikola的博客 | 用舍由时，行藏在我

数据观察日报 · 2026-06-09

🎯 今日要点
📋 详细内容

🎯 今日要点

国家数据局印发《行业高质量数据集建设行动实施方案》，部署六个专项行动，2028 年底见效
《全国数据资源调查报告（2025）》：AI 训练推理数据 199.48 艾字节，年增 42.86%
全国高质量数据集超 11 万个、908 拍字节，公共数据开放、授权运营量同比增 31.71%/53.96%
老刘提出「数据界黑暗森林法则」：可信数据空间真正卡点在商业模式
卡兹克把 AI 使用水平拆成 4 维度、10 等级，从旁观者到造工具

📋 详细内容

1. 国家数据局发文：六大专项行动推进行业高质量数据集，2028 年底见效

原文：国数科基〔2026〕25 号文，明确「行业高质量数据集」定义——经采集、加工等处理、可直接用于 AI 模型训练、能有效提升性能的行业数据集合，含通识和专识。方案部署六个专项行动：强基扩容、标注攻坚、提质增效、应用赋能、管理服务、价值释放，构建「场景牵引数据、数据驱动模型、模型赋能应用、应用创造价值」的数据飞轮。聚焦科研、工业制造、农业、能源、交通、金融、医疗、教育、电商、人力、文旅、应急、气象、绿色低碳、公共安全、城市治理、住建、自然资源、社会信用等 19 个重点领域，外加低空经济、具身智能、智能驾驶、智慧海洋、生物制造 5 个创新领域。明确鼓励依托国家数据基础设施，运用隐私计算、可信数据空间能力开展安全存储、可信流通；标注模式从「以人为主」转向「人机协同、专家深度参与」。到 2028 年底建成一批行业数据集、典型应用场景、创新型数据企业和工具标准。（国家数据局）

💬 老刘评：高质量数据集的建设可以说是当前数据行业最重要的风向了，风口。

2. 加强高质量数据供给：AI 训练推理数据年增 42.86%，高质量数据集超 11 万

原文：中科院院士李骏、复旦研究员王天栋撰文，结合《全国数据资源调查报告（2025）》解读数据供给侧的转向。报告显示 2025 年全国数据生产总量达 52.26 泽字节（同比增 27.28%），用于 AI 训练推理的数据总量达 199.48 艾字节（同比增 42.86%），全年词元调用量约 21100 万亿，日均词元已从 2024 年初的约 1000 亿涨到 2026 年 3 月的 140 万亿。高质量数据集数量超 11 万个、总数据量超 908 拍字节，同比分别增 61.13% 和 142.58%。公共数据开放数据量、授权运营数据量分别同比增 31.71%、53.96%。文章提出要以政务服务、能源电力等重点行业场景牵引高质量数据集建设，并健全任务牵引机制、安全可信流通生态、专业化数据服务产业体系。（北京数据）

💬 老刘评：政务服务具备率先形成高质量数据供给示范场景的先天优势，很大一部分占比的优质数据都在公共数据中。

3. 数据中台、数据空间、交易所：可信数据空间到底解决什么问题

原文：老刘开启「可信数据空间」专栏的开篇之作。核心观点：政策是手段不是原因，可信数据空间解决的是信任问题，不是传输问题——API 能解决的场景就不需要它。他提出「数据界黑暗森林法则」，把原始数据市场博弈拆为三级猜疑链：担心违约、担心第三方安全、担心技术溢出反噬，最终导致每家企业都成孤岛。可信数据空间用「数据不出域 + 智能合约 + 连接器」打破猜疑链，把零和博弈转向正和。他用「厨房与市场」比喻三者关系：数据中台是自家厨房、数据交易所是农贸市场、可信数据空间是会员制共享中央厨房。文末提出落地三大隐患——商业动力（合规驱动撑不久，要找非它不可的场景如碳足迹追踪）、防止「空间烟囱」（必须死磕互联互通和标准化）、性能盈亏平衡点（加密计算损耗不能拖垮业务实时性）。（Nikola数说未来）

💬 老刘评：现在来看，可信数据空间最大的问题是运营和商业模式。为了安全有没有必要花这么多钱做这个基础设施？

4. 观察了三年，我把所有人用 AI 的水平分成了 10 个等级

原文：卡兹克把这三年观察到的 AI 用户，按四个维度——可控性（从瞎编到精准 harness）、广度（从一亩三分地到跨行业）、形态（从 ChatBot 到 Agent 长程任务）、角色（从消费者到造 Skill 的创造者）——拆成 10 个等级。Lv.0 旁观者（全球还有 80% 在这一级）、Lv.1 尝鲜者（AI 当高级搜索引擎用、不追问）、Lv.2 对话者（开始意识到「怎么问」比「问什么」重要）⋯⋯一路到 Lv.10。结尾点题：从 Lv.0 到 Lv.9 都在讲怎么用好 AI，到 Lv.10 问题变成「我到底要成为什么样的人」——AI 把执行力拉平之后，一百个人产出差距还是一百倍，差距来自人脑子里装的东西（理解、审美、价值排序），工具平权的终局是人的不平权。（数字生命卡兹克）

💬 老刘评：你是哪个等级呢？很多初学者会问我，直接在网页端输入和用 Claude Code 有什么区别。

今天 4 条剪藏正好两条主线：上半场是”高质量数据集”——国家数据局正式发文（六大行动、19+5 个领域、2028 年节点）、北京数据用《全国数据资源调查报告》给上文做注脚，政策面和数据面对上号；下半场是”基础设施 vs 用户”——老刘讲可信数据空间这个 B 端基础设施值不值得建，卡兹克讲普通人怎么爬 AI 使用度的 10 级阶梯。一上一下，行业的飞轮和人的飞轮，都得转起来。

2026-06-09 该篇文章被 Nikola 归为分类: 数据观察日报