数据标注为AI开展加工“优质质料”
发布时间:2025-01-29 09:04
◎本报记者 叶 青跟着人工智能迅猛开展,高品质练习数据缺乏逐步成为制约行业提高的一年夜瓶颈,而数据标注工业可为人工智能翻新开展供给强盛能源。国度开展改造委、国度数据局、财务部、人力资本跟社会保证部四部分日前结合印发的《对于增进数据标注工业高品质开展的实行看法》(以下简称《实行看法》),提出到2027年的开展目的:数据标注工业专业化、智能化及科技翻新才能明显晋升,工业范围年夜幅跃升,年均复合增加率超越20%。我国数据标注工业近况怎样?数据标注工业高品质开展还须要跨过哪些“门槛”?针对这些成绩,科技日报记者停止了采访。原始数据变为可用资本“艰深地说,练习人工智能年夜模子的进程就像教师教养生识字。”华南理工年夜学盘算机迷信与工程学院副院长张通抽象地说明道,数据标注就是给数据“贴标签”或许“做暗号”,须要专业职员向年夜模子阐释各个数据的标签及需履行的响应义务。他们“教诲”年夜模子参加练习的数据是什么,给图像、语音、文本等种种数据“贴标签”。高品质的数据标注,有助于呆板精准懂得、疾速进修、高效练习,明显晋升年夜模子的正确性跟泛化才能。
在练习ChatGPT时,美国开放人工智能研讨核心(OpenAI)就投入了大批资本用于数据标注。为确保标注义务高品质实现,使ChatGPT能更好地舆解人类指令,保证年夜模子的正确性与牢靠性,OpenAI聘任了浩繁“教师”。这些“教师”涵盖个别数据标注职员跟专业人士,还包含博士级其余专家。数据标注是人工智能开展的中心基石之一。“数据标注工业是对数据停止挑选、荡涤、分类、解释、标志跟品质测验等加工处置的新兴工业,其中心义务是对原始数据停止加工,使之成为可用于练习人工智能年夜模子的优质质料。”张通先容,数据标注作为练习年夜模子至关主要的一环,直接影响呆板进修模子的机能,对支持人工智能才能程度晋升有主要感化。在张通看来,未经处置的原始数据只是潜伏资本,而经由标注处置后积淀的数据,才干在市场长进行无效买卖跟流畅,从而充足开释数据因素代价。培养强大数据标注工业,对晋升数据供应品质、推进人工智能翻新开展弗成或缺。业内子士以为,跟着人工智能技巧一直成熟、利用范畴连续拓展,数据标注行业将迎来更辽阔市场空间,尤其是在高空经济、聪明都会、主动驾驶、聪明医疗等新兴科技范畴展示出宏大潜力。工业步入疾速开展阶段寰球数据标注市场现在正处于敏捷增加期。比年来,我国数据标注工业已进入疾速开展阶段,工业链条一直完美,技巧翻新结果逐渐实现市场化利用。据测算,2023年我国数据标注工业范围已达800亿元阁下。四川成都、辽宁沈阳、安徽合肥、湖南长沙等7个承当数据标注基地建立义务的都会,在年夜模子标注、主动化标注等范畴获得主要冲破。长沙信息工业园作为长沙首批数据标注基地之一,已吸引智能网联汽车、数据标注、收集保险等1万余家各种数字企业入驻,胜利打造了人工智能翻新核心算力效劳平台。广东踊跃推动数据标注练习试点跟基地建立,为年夜模子练习供给坚固数据支持。2023年9月,广东省大众数据标注练习试点正式启动。在广东省大众数据标注基地(清远),百度、燕湖科技、好思达等一批在主动驾驶、政务大众标注范畴表示凸起的企业已率先入驻。凭仗龙头企业的动员感化跟数字经济工业的会聚效应,清远的数据标注工业发达开展。“咱们以数字经济工业为中心,与数字经济工业龙头企业严密配合,努力于打造国度级数据标注工业会聚区跟产教融会树模区。”广东省大众数据标注基地(清远)担任人李艳康先容,落户在此的百度智能云(清远)人工智能基本数据工业基地已累计引进孵化数据标注企业5家,培养专业数据标注师超300人。将来,基地将连续培养孵化更多优良数据标注企业,推进清远数据效劳工业一直强大开展。复合型人才缺口依然较年夜《实行看法》的出台,将进一步晋升数据供应品质,无效处理制约人工智能工业开展的高品质数据缺乏成绩。值得留神的是,跟着人工智能利用的一直深入,对数据标注的需要也愈发细分化跟专业化。2024年7月,张通团队跟广州华银康医疗团体股份无限公司在人工智能与数字经济广东省试验室(广州)共建AI病理研讨核心,动手研发人工智能病理年夜模子,让人工智能模子能像专业大夫一样看病问诊。在此中的数据预处置环节,核心特殊聘任了3位资深的主任级医师停止数据标注。“医疗、资料等专业范畴,波及到专业工具跟术语联合的标注进程,只有专业从业职员才干胜任标注任务。并且,标注义务极端耗时、耗力、耗资本。全部标注任务并非一挥而就,而是须要在现实利用场景中优化、连续迭代,促使模子智能化程度一直进级。”张通说,以后我国数据标注行业人才缺口依然较年夜,亟待培育复合型数据标注人才,这是我国数据标注工业高品质开展必需跨过的“门槛”。《实行看法》对增强标注人才步队建立作出安排。以人才名目打算跟科技名目等为抓手,培养跟引进高端专业人才;制(修)定人工智能练习、数据标注相干职业国度职业尺度;支撑数据标注范畴职业资历与职业技巧品级连接互认……一项项举动,将为数据标注工业高品质开展供给支持。完美的工业生态建立对数据标注行业开展同样主要。《实行看法》提出,疏通数据收罗、标注、人工智能利用工业链,推进数据标注工业高低游协同开展;支撑数据标注龙头企业跟第三方机构等建立数据标注开源平台,助力中小企业开展;培养一批人力资本、供需对接、国际配合、执法审计等效劳数据标注的第三方机构,完美数据标注工业生态。“将来数据标注行业的开展,也可斟酌‘以人工智能促人工智能’的思绪,即让曾经实现进修的人工智能反哺数据标注任务,进步效力。这是值得深刻探究且极具代价的研讨偏向。”张通以为,数据标注行业的开展无望减速推进数字经济与实体经济深度融会,放慢构成新质出产力。