AI数据质检解决方案:为算法把好最后一道关
2020-03-31 20:44:52来源:民营经济网·民企动力
IDC预测,2020年全球将拥有35ZB数据量。
随着人工智能的发展,人工智能多模态、非结构化数据量愈发庞大,数据种类逐步复杂化,多模数据组合标注等需求进一步显现出来。
数据的获取方式
从企业AI数据需求角度出发,获取数据的形式主要为自行生产和委托数据服务企业两种形式。在数据服务行业中,一般也通过自制、众包、外包三种模式完成数据处理业务,这三种模式优劣势也非常明显。
自制:
优势:标准唯一数据质量高;人员专业程度高。
劣势:实施场景单一,人员培训成本高,只能为特定的客户服务。
众包:
优势:用户众多,遍布全球,线上操作,成本低效率高。
劣势:仅适用于简单易实施项目,数据零散,需专业人员统一收集再处理。
外包:
优势:承包给一个或多个外包商,外包商对数据结果负责。
劣势:对于复杂项目不能较好的理解客户需求,数据质量参差不齐。
高质量的数据是算法提升的关键
数据的质量决定了AI算法的性能。中国作为全球人口最多的国家,拥有着全球最多的数据,然而对于AI算法来说数据量大并非等同于数据质量高,只有客观、精准、自然标注数据,才是算法提升的关键。
▲李开复博士演讲中提到“AI算法固然重要,数据更重要”
目前大多数数据服务企业,只支持单一模式完成数据处理,无法同时满足客户对工期、成本、质量及数据多样化的要求。近年,也有不少人工智能企业尝试自行制作数据,却因资源缺乏、对数据处理团队管理僵化、数据处理经验不足等问题,导致数据质量参差不齐。
数据堂通过三大产品矩阵互连互通——基础数据集、数据定制服务、私有化数据标注平台,真正为客户实现一站式数据解决方案。
数据质检解决方案
数据堂凭借多年数据业务经验积累,总结出一套完善的数据质检流程。可提供高度精细、标准化QC流程的质检服务,质检数据整体准确率达96-99%。
▲质检人员办公场景
数据质检服务内容
(一)数据质检员:
对外输出专业质检员资源,可承担具体的数据质检任务,同时也支持帮助客户培训、筛选、优化现有的质检团队。
(二)项目质量管理:
制定数据质量标准:由专门负责数据质量管理人员整理,减少客户的各项直接成本(沟通、培训等)或其他隐性成本;
输出数据质检资源:由质量管理人员安排质检员进行项目质检,减少客户非核心业务的工作量,达到降低成本和提高效率的目的;
数据质量持续改善方案:避免同类错误重复出现,持续改善,减少算法应用数据的偏差;
项目质量管理报告:为客户展示数据质量的整体情况,以便定期跟踪和复盘。
(三)数据质量管理体系建设:
搭建较为全面完善的数据质量管理体系,为项目开展等提供全方位支持。
数据质检服务能力
语音数据:
中文普通话采集及标注;方言采集及标注(昆明/武汉/长沙/四川/粤语等);外语采集及标注(口音英语类:中国/西班牙/法国/德国/葡萄牙/意大利/俄罗斯/巴西/韩国/日本/加拿大/新加坡/马来西亚等国人说英语;母语类:意大利语/德语/葡萄牙语/西班牙语/日语/韩语等);特定指令及场景语音采集(唤醒词/数字文本语音/声纹识别语音/演讲语音/自然对话等)。
图像数据:
图像采集:人像采集(活体对抗采集/ 3D手势/3D人脸/人脸多姿态/亲属人脸采集/指纹采集/表情视频/人脸肤质采集等);场景采集(室内外监控/驾驶行为采集/家居环境采集/道路景象/指定物采集/360度景象采集等)。
图像标注:人像标注(人脸关键点/行为/人像服饰分割/人像抠图/人脸毛孔标注/皱纹标注等);OCR标注(问答类/游戏类/多国语言);场景标注(3D点云标注/雷达数据标注/指定物标注/深度图像标注/交通道路线/交通标志标注等)。
文本数据:
韵律标注/分词标注/词性标注/实体标注/多次交互标注/多音字标注/数字读法标注/字符读法标注/TTS-中英文拼音标注等。
质检案例
案例一:交互类语音标注数据质检
与某大型公司合作质检:2019年8月-12月,共完成18个项目、26万条数据、27批次质检任务,返工量约为0.02%。全部通过客户验收,直接被用于算法训练,高效完成客户要求,为客户节省时间成本。
参与人员:
质量管理人员——1人,负责对接客户需求、任务安排和验收;
质检专员——7人,负责数据质检和进度报告。
案例二:街景图片标注数据质检
与某互联网公司合作质检:2019年7月- 12月,共完成4356个数据质检任务,整体不良率从13.81%改善为4.50%。快速改善客户数据质量问题,为客户搭建数据质量管理体系,定期提供质量分析报告,深受客户好评。
质检方式:驻场+远程支持
▲质检人员办公场景
质检服务流程
从任务发布到质检结果交付这一过程,数据堂有完整的对接、运作体系。此过程流程化,使得可快速对接不同类型的项目,满足客户多样化需求。
数据质量管理团队,拥有7年及以上各类数据项目的实际实施经与质量管理工作经验,支持入门培训即上岗。数据堂认为,数据质量管理是算法性能的守门员,专业的AI数据质检解决方案,也是算法最后一道关,必须严格以待。
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。
责任编辑:张富强
免责声明:本文仅代表作者个人观点,与民营经济网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有问题,请联系我们!