美国、英国、德国、印度等国家和地区纷纷将数据标注产业作为数字经济发展的基础性、战略性产业,是人工智能创新发展的关键。美国是数据标注产业发展的领航者,通过政府战略、企业创新,全方位推动数据标注高质量发展;英国、德国聚焦技术创新,着力建设数据标注创新中心,强化产业核心竞争力;印度则凭借庞大的低成本数字人才优势,吸引全球科技巨头投资,成为全球重要的数据标注基地。
一、重点国家数据标注产业发展情况
(一)美国:打造数据标注全产业链
美国是数据标注产业发展的领航者,通过政府战略、企业创新、产业领先等方面,全方位推动了数据标注服务的高质量发展。
美国数据标注产业规模占全球近40%的市场份额,约640亿美元。美国除了拥有ScaleAI、Lionbridge等一批专业的数据标注公司,还有谷歌、亚马逊、微软等科技巨头的内部标注中心。美国保持领先优势,除已实现商业化应用的人工智能辅助标注、众包分布式标注平台、主动学习算法等技术外,近年还涌现了联邦学习标注、少样本学习标注、合成数据等新兴技术与解决方案。同时,借助标注工具开源、云计算、人工智能大模型等手段优化标注流程。
数据标注为美国创造大量就业岗位,形成了庞大的弹性标注人力。据Allied Market Research报告显示,仅2021年人工智能数据标注相关岗位就超过30万个,谷歌、Meta、苹果等科技巨头内部的标注中心聚集众多标注人员,主要分布于加州、纽约、德克萨斯等人工智能产业集聚地,岗位数量随技术发展持续增长。仅ScaleAI在全球就有24万标注师。
美国数据标注产业生态成熟完备,涵盖专业标注公司、基础标注工具开发商、标注众包平台、第三方质量控制机构、标准化组织等主体,各环节协同配合,形成了完整的产业链。
(二)英国:数据标注创新中心
英国政府高度重视数据标注产业发展,包括相关立法、投资计划、人才培训、产业园建设等。2018年,提出“智慧数据计划”,旨在对企业和个人授权后的数据,委托具备资质、安全合规的第三方运营管理,打破“数据孤岛”,促进数据流动和创新。伴随英国政府将人工智能列为重点发展产业,数据标注产业迎来新机遇。
据科技媒体TortoiseMedia2023年发布的全球人工智能指数报告,英国人工智能领域的综合情况目前在全球排名第四,仅次于美国、中国和新加坡。人工智能发展带来数据标注产业快速发展,以英国医疗数据标注工具市场为例,2024-2030 年的复合年增长率为 28.1%。
作为欧洲人工智能技术的重要中心,英国数据标注产业同样处于领先地位。在技术创新方面,牛津大学孵化科技公司Diffblue ,专注于使用语义技术和知识图谱自动化数据标注流程,同时利用AI自动化编写软件代码的标注。
(三)德国:法规与创新双轮驱动
德国政府高度重视人工智能和数据领域发展,已出台多项促进政策。包括拨款数十亿欧元投资人工智能、培养人才、建设试点中心等。2018年,德国政府发布“建设数字化”战略,围绕工业企业数字化转型发力,投入总共256亿欧元专项资金,使其数字经济领域发展位居前列。截止2022年,德国的数据中心数量达487个,居欧洲第一、世界第二,AI技术将为数据中心产业拓展增长空间。德国本土规模最大的数据标注公司为Clickworker,总部位于耶拿,在全球拥有120万注册标注员。科技巨头如IBM、Siemens、SAP、Bosch等也在德国设有人工智能中心,内含数据标注部门。
(四)印度:全球数据标注产业外包基地
印度在全球数据标注产业中占据重要地位,得益于庞大的人才库与较低的劳动力成本,以及政府对科技创新和数字化转型的重视。据NASSCOM报告,截至2021年,约有7万人从事数据标注工作,多语种语音数据标注是印度的优势领域。预计到2030年,印度的数据标注从业劳动力将达100万人。印度的数据标注产业为大量印度人提供了就业机会。据NASSCOM调查,目前印度超过80%的数据标注员来自农村和小城镇。印度有Infolks、iMerit、Playment等多家知名数据标注公司。它们与全球大型科技公司合作,为自动驾驶、医疗保健等多领域提供数据服务。随着全球对人工智能和机器学习需求攀升,印度有望凭借自身优势成为全球最大的数据标注服务提供国,助力全球 AI 产业发展。
二、对我国发展数据标注产业的启示
一是将数据标注产业作为数字经济发展的基础性、战略性产业。数据标注产业与人工智能产业发展相伴相生,数据标注产业起源于1984年,但从2015年起随着深度学习技术兴起,大量人工智能企业涌现,促使数据标注服务需求迅猛增长。尤其是2022年后,随着生成式人工智能技术崛起,对高质量、大规模标注数据的需求激增,数据标注产业真正进入爆发期。据《全球人工智能产业发展白皮书(2024年度)》显示,2023年全球人工智能产业规模达7078亿美元,同比增长19%。人工智能和机器学习的发展,带来大量数据标注需求,全球人工智能标注市场规模超过1400亿美元。
二是通过领军企业占据产业链高端环节。全球Top30数据标注服务提供商中美国占据18家,构建起成熟高效的产业生态体系,牢牢把控产业高端环节,深刻影响全球人工智能产业格局。美国代表性企业有ScaleAI、MightyAI、Supervise.ly等;欧洲代表性企业有Mindy Support 等,印度代表性的企业有iMerit等。这些企业引领数据标注领域技术创新。以美国数据标注独角兽 ScaleAI为例,2021年其估值从73亿美元,到2024年升至138亿美元,增幅近90%,成为全球最大的数据标注公司,引领行业发展。ScaleAI具备深度学习和计算机视觉、目标检测和语义分割、主动学习、自动化工具和平台,同时在4D标注及RLHF等标注技术也处于领先水平。
三是数据标注产业创造了大量就业岗位。数据标注带来了大量就业人才的需求,仅ScaleAI在全球就有24万标注师,美国从事数据标注的岗位超过30万,德国最大的数据标注公司Clickworker全球雇佣了120万标注员,印度到2030年数据标注人才的需求也将到100万。(作者系清华大学计算社会科学与国家治理实验室研究员)