加快推进数据标注产业发展, 构建我国高质量数据服务能力体系

2025-01-18
来源:智慧中国    作者:刘阳

  随着人工智能等创新技术的快速突破,数据要素驱动下的各行业各领域数字化转型,其范围和层次都在逐步深化。而数据标注在提升数据资源质量和提高数据资源供给水平中发挥着重要作用。国内外对数据标注的重视程度与日俱增,很多地方都在积极推动数据标注产业发展。近日,国家数据局印发《关于促进数据标注产业高质量发展的实施意见》(以下简称《实施意见》),对加快数字科技探索、促进数据产业发展、发挥数据要素价值具有重要意义。

  一、数据标注是构建高质量数据服务能力体系的有机组成

  (一)数据标注是挖掘公共数据价值的重要手段

  《实施意见》提出,有序推动公共数据标注与开发,支持公共数据赋能实体经济发展。从数据资源视角来看,目前我国数据生产规模已位居世界前列,公共数据开放共享初见成效。但不同场景、不用应用对数据资源的需求差异较大,缺乏标注处理的原始数据往往难以得到充分的挖掘与利用。例如成都市通过构建“管住一级、放活二级”数据资源开发利用模式,借助数据标注处理,分阶段打造带有场景业务属性的数据应用产品。因此,释放公共数据标注需求,将有助于挖掘公共数据潜在价值,激活数据产业生态活力。

  (二)数据标注是建立行业高质量数据集的基本步骤

  《实施意见》提出,加强重点行业领域数据标注,建设行业高质量数据集。从产业实践角度分析,由于标注技术、知识机理、人才储备、资金投入等方面的限制,行业高质量数据集构建呈现出显著的漏斗效应,数据提取率极低,需要完成海量数据标注的基本工作。例如电力行业数据集构建中,原始数据转化为模型训练数据集的提取率是0.3%,而微调数据集提取率更是低于0.04%。因此,《实施意见》中推动“国有企业数据效能提升行动”,通过挖掘企业数据标注需求,发挥国有企业率先探索作用,对构建高质量数据集、支持人工智能赋能千行百业至关重要。

  (三)数据标注是构筑我国人工智能发展优势的关键保障

  《实施意见》提出,着力培育数据标注新业态,构建产业国际竞争新优势。从模型应用角度考虑,大模型训练不能一味地依赖数据投喂量和算法改进,通过提升数据质量更能显著增强模型效果。特别是我国拥有海量数据规模和丰富的应用场景,通过数据标注来改善数据供给质量,构建基于场景的高质量预训练数据集、微调数据集等人工智能数据资源,有利于推动我国人工智能产业高速发展。

  二、积极探索多元化数据标注产业高质量发展的主要路径

  (一)数据标注服务商致力于构建标准化服务能力、模块化产品工具和通用化平台能力

  《实施意见》提出,着力壮大经营主体,培育和支持一批数据标注龙头企业、科技创新型数据标注企业、瞪羚企业和独角兽企业。此类数据标注服务商依托长期的服务经验,针对特定场景建立了专业化技术能力和定制化服务能力,并拥有一定的工具链产品。但受限于需求高度定制、强依赖人工、工具标准化自动化程度低等因素,其服务能力、企业规模、产业化程度仍然有限。因此,应加强构建标准化服务能力、模块化产品工具及通用化、可适配的平台能力,围绕典型行业和场景形成更多可复制的业务模式,通过资源整合、并购重组等策略实现做大做强。

  (二)数据资源型企业可选择自建数据标注单元模块或开展互补性能力合作

  《实施意见》提出,鼓励政府部门和企业协同开展标注,加大企业数据开发利用。此类数据资源型企业是公共数据、行业数据的源头,或通过信息检索、数据合成等技术生成数据资源。考虑到数据主权及其隐私保护等方面的需求,部分数据资源型企业正通过人才引进、技术引进等方式构建针对数据标注处理环节的单元模块。然而,成本、运营、管理等因素是设立上述业务单元需要综合衡量的关键。因此,应根据实际需求、结合自身发展状况来决定是自建还是开展合作。高敏感、难脱敏、强专业性且需要长期投入的标注任务适合自建能力;反之,则可通过与数据标注服务商合作实现能力互补与互利。

  (三)第三方服务机构可通过加强产业链上下游协同合作来做好产业促进角色

  《实施意见》提出,着力健全产业生态,培育一批人力资源、供需对接、国际合作、法律审计等服务数据标注的第三方机构。此类机构可以依托自身的产业基础和服务能力,加强与产业链上下游协同合作,围绕产业实际发展需求,有序开展供需对接、标准研制、国际交流合作、赛事赛会活动以及人才实训等相关工作,助力数据标注产业快速发展。

  三、以《实施意见》为指引加快推进数据标注产业高质量发展

  《实施意见》明确了数据标注产业发展的总体要求、阶段性目标,从需求牵引、创新驱动、繁荣生态、支撑体系、保障措施等五个方面为数据标注产业高质量发展提供指引。

  (一)开展技术攻关和标准研制,加强人才队伍培育

  依托科技项目、创新载体等,推动关键技术攻关和工具设备研发,加快数据标注标准体系建立和相关标准研制,建立层次化的数据标注人才培育体系,推动数据标注人才队伍建设。

  (二)打造创新载体和服务平台,提升公共服务能力

  培育建设标注领域重点实验室和技术创新中心等载体,推动技术创新和应用验证;建立数据标注公共服务平台和开源平台,提升数据标注产业公共服务能力。

  (三)健全行业监测和监管能力,扩大产业供需对接 

  完善数据标注的安全风险识别和监测预警机制,建立产业动态监测能力;通过开展产业供需对接、学术交流、创新论坛等活动,提升产业资源汇聚与流通能力。(作者系中国信息通信研究院工业互联网与物联网研究所副总工)