数据标注产业不仅是人工智能和数字经济蓬勃发展的基石,更是构建强大数据供应链、生成高质量数据集的核心力量。党的二十届三中全会指出,要加快构建促进数字经济发展体制机制,完善促进数字产业化和产业数字化政策体系。近日,国家数据局印发《关于促进数据标注产业高质量发展的实施意见》(以下简称《实施意见》),明确要通过技术攻关、标准建设、产教融合等措施为数据标注产业注入创新活力,驱动和促进数据标注产业高质量发展,提升我国数字科技竞争力。
一、深化技术研发,引领融合创新潮流
在人工智能和数字经济的浪潮中,数据标注产业正迎来前所未有的增长机遇,同时也面临着前所未有的技术挑战。
(一)应用领域拓展下的精细化标注诉求
数据标注产业应用领域不断拓宽,催生了精细化标注需求。在智能安防中,其智能化进程依赖对人员表情与行为的精准洞察,需精细标注监控画面里的微表情与异常行为细节,以强化风险预警能力。医疗影像分析方面,因疾病诊断紧密关联影像细微特征,专业医疗人才凭借专业知识对细胞形态、器官病变特征等准确标注,这对诊断可靠性与医疗决策意义重大。
《实施意见》着重指出,针对应用领域拓展所衍生的精细化标注需求,应聚焦跨领域、跨模态语义对齐等核心技术展开攻关。积极促进不同领域知识与标注技术的有机融合,着力研发融入专家智慧的智能化工具,助力专业人才在标注过程中借助智能辅助提升标注效率与质量。应用领域拓展下,依政策推进技术融合与智能辅助是精细化标注的发展关键。
(二)标注数据类型多样化引发的新挑战
技术创新使数据标注类型走向多样化,对标注效率与质量要求愈发严苛。音频标注从单纯语音记录转向清晰度、语速、情感等多维度要素捕捉。激光雷达等设备获取的点云数据、大模型生成的文本数据不仅数量庞大,而且标注难度剧增。例如点云数据的三维特性考验标注者空间解析力,大模型文本标注面临语义逻辑难题。
《实施意见》面对挑战提出推进前沿技术研发与流程优化。例如,4D标注综合时空信息为自动驾驶精准标注,大模型文本标注则依靠专用工具与一体化平台打通流程,实现与大模型协同。应对标注数据类型多样化,按政策研发前沿技术与优化流程是解决问题的核心路径。
二、制定行业标准,激发协同创新活力
数据标注产业在迅猛发展的同时,亦面临着粗放式增长带来的挑战,这些问题已成为制约产业高质量发展的瓶颈。
(一)标注结果一致性缺乏标准规范
数据标注产业快速扩张过程中,标注结果一致性难以保障的问题日益凸显。例如,从相关专利数据可知,数据标注行业的单次交付达标率不足半数,三次内交付达标率亦低于九成。这种不一致性严重影响了数据的可用性与可靠性,阻碍了数据标注产业向高质量发展迈进。
《实施意见》明确指出,要围绕数据标注的关键环节,构建数据标注标准体系框架,并制定包括技术、质量和能力在内的国家标准体系。通过明确的标准体系,能够为标注工作提供统一的准则,让不同主体的标注结果有可参照的规范,从而极大地提高标注结果的一致性。统一的标准体系是标注结果一致性的基石,是产业规范化发展的关键。
(二)数据安全与隐私保护问题突出
数据标注产业粗放式增长下,数据安全和隐私保护成为亟待解决的重大问题。数据标注工作涉及海量包含个人隐私和商业秘密的敏感信息,在缺乏完善保护机制的情况下,数据泄露或滥用的风险极高。一旦此类事件发生,个人权益将遭受严重侵害,企业的商业机密也会泄露,这对整个社会的稳定以及经济的健康运行都将产生极为负面的影响。
《实施意见》明确指出,鼓励和支持企事业单位牵头制定数据标注国际标准,以此深化数据标注领域的技术及产业国际合作。详细界定数据分类分级标准,针对不同敏感级别的数据制定差异化处理流程;确定数据脱敏的规范要求,保障数据在标注过程中敏感信息得以有效隐藏;明确数据跨境传输的安全规则,防止数据在国际交流合作中出现安全漏洞。同时,要规定对数据标注企业和人员的安全培训与监督机制,确保其具备足够的数据安全意识与防护能力。全方位构建数据安全与隐私保护标准体系,是数据标注产业可持续发展的根本保障。
三、加强产教融合,筑牢创新发展根基
数据标注产业的蓬勃发展伴随着人才与科研领域的双重挑战。
(一)高技能人才短缺与管理水平不均衡
数据标注工作的复杂性和专业性日益提升,但高技能人才短缺与管理水平不均衡问题凸显。据产业报告显示,经过系统性训练的高技能人才需求缺口可能高达百万。与此同时,各标注团队管理水平参差不齐,一些团队缺乏有效的组织架构和激励机制,难以充分挖掘人才潜力,极大地影响了工作效率与质量提升,成为产业发展道路上的关键阻碍。
《实施意见》明确指出,要支持数据标注企业与上下游合作伙伴、科研机构共同构建产教融合创新平台和协同创新基地。鼓励行业联盟、高校、科研院所与企业建立长期合作机制,加大在数据标注实践项目上的合作力度,为人才提供实战锻炼机会;开展继续教育合作,提升在职人员专业素养;建设公共实训基地,强化人才实践操作能力培养。同时,支持数据标注领域职业资格与职业技能等级的衔接互认,构建完善的人才评价体系。充实人才储备,优化管理格局,是产业跨越人才短板、迈向兴盛的核心要素。
(二)科研投入不足致技术创新薄弱
数据标注产业面临着科研投入不足而引发的技术创新与研发能力薄弱困境。由于科研资金有限、科研合作机制不完善等原因,企业与科研机构之间的成果对接和转化合作不够紧密,部分先进的科研成果未能及时应用于实际生产,导致产业技术创新难以满足快速发展的市场需求,严重限制了产业的进一步拓展与竞争力提升。
《实施意见》明确指出,培育建设数据标注领域的重点实验室和技术创新中心,集中各方资源进行基础研究和前沿技术探索。此外,通过举办数据标注领域的创新论坛、场景案例征集、学术交流等活动,以及数据标注创新大赛等赛事,促进知识共享与技术交流。整合资源、转化成果、激发活力,是产业突破科研瓶颈、实现创新发展的关键依托。
总之,《实施意见》通过深化技术研发、制定行业标准、加强产教融合三大举措,全方位推动数据标注产业高质量发展。技术研发应对应用与数据类型挑战,提升标注精度与效率,助力构建高质量数据集;行业标准弥补粗放式增长缺陷,保障数据安全与规范,稳定数据供应链;产教融合破解人才科研难题,激发创新活力。三者相互配合,推动数据标注产业高质量发展,为数字经济注入动力,增强我国数字科技竞争力与话语权,为国家的数字经济战略贡献重要力量。(作者系中国科学院大学经济与管理学院副教授)