视觉智能落地难？中国科技企业已在路上且速度比想象快得多

2020-05-12 18:36:24来源：民营经济网·民企动力

视觉智能落地难？中国科技企业已在路上且速度比想象快得多：视觉一直都是人类最重要的感知系统，如今在人工智能时代，这一能力也被“移植”过来，努力让计算机“看懂”所有东西。“让机器看到”的第...

视觉一直都是人类最重要的感知系统，如今在人工智能时代，这一能力也被“移植”过来，努力让计算机“看懂”所有东西。

“让机器看到”的第一步就是从模仿人类开始。这起源于20世纪50年代的统计模式识别的计算机视觉，主要基于二维技术研究，但结果远不如人类视觉。在如今公认的第三阶段的人工智能中，由于深度学习算法的突破，直接推动了神经网络算法的发展。有趣的是，人类的大脑皮层有一半的神经元与视觉有关，这与神经网络算法中的“神经元”很类似。一旦借鉴人类“视觉”系统之后，神经网络算法直接成为计算机视觉的技术引擎，视觉智能应用场景逐渐丰富起来。

高德：利用视觉惯导技术实现高精地图的大规模生产

导航、驾驶辅助、自动驾驶等技术的不断发展对地图的精细程度提出了更高的要求。常规的道路级地图对于智能交通系统存在很多不足，针对自动驾驶应用的需求，高德提出了利用视觉惯导技术制作高精地图的方法。

高精地图的生产主要从两类要素进行，一类是道路标志牌，例如路面导向指示牌，红绿灯等；一类是地面标识，例如车道分割线，导向箭头等。两种类别的地图要素均要先计算出位置，然后把要素和路网关联，得到要素的属性信息和几何信息。

地图要素的生产把人工作业和自动化提取融为一体。首先，通过外业采集的数据进行图像和轨迹的解算，获取自动化所需的视觉惯导信息，根据视觉惯导融合技术生成地图要素，在自动化地图的基础上采用人工进行Web编辑的模型，提高地图要素的精度，最后存储到对应的数据库中去。

目前，高德完成了全国超过32万公里高等级道路的高精地图数据，采用了搭配激光雷达采集、图像视觉惯导融合两种方式。通过图像视觉惯导结合的方式采集数据，一方面能大大降低成本。另一方面，基于图像视觉的高精地图在识别上具有一定优势，能提高车道级别要素作业的效率。

影谱科技：利用智能影像技术实现影像内容自动生产

清科研究中心发布报告指出，在计算机视觉技术中，图像识别主要是基于静态图像的识别、分析和应用，未来技术和应用的重点将转向动态图像技术，即视频的智能化获取、识别及处理，最终实现智能影像生产。目前，智能影像已经与文娱、教育、媒体等行业深度融合，形成切实有效的落地方案，体现了强大的商业化能力。而目前文娱领域是智能影像商业化程度最为领先的行业，该领域由影谱科技表现尤为突出。

影谱科技基于新的AI+Video技术组合——“机器自动化生产视频内容引擎MAPE”推出几款针对特定行业定制的AI应用组件，涵盖智能影像生产技术、平台、行业应用落地的全栈布局。该生产引擎将人工智能和互动视频技术结合，提出包括景深测算反推技术与子像素反轨技术、视频叠加技术、优化计算技术及其他技术的完整技术框架，拥有完整的视觉识别（MCVS）、视频结构化（Auto-structuring Video）、自动化视频生产AGC（Auto-Generating Video Content）三大AI组件，帮助媒体和娱乐公司应用非结构化数据，并对他们创建，获取和交付给观众的内容做出更明智的决策。

这是一个新的服务组合，有效补充了行业现有的视频内容开发及应用功能。MAPE使用结构化和非结构化视频数据，利用AI内核帮助客户理解他们的视频数据，分析和收集视频数据中的洞察力，从视频中获取洞察力、结构、情感和视觉分析。根据内容中的图片、语义识别将视频分割为逻辑场景，对内容和上下文的更深入理解来识别场景，自动生产可用的内容和上下文，从而实现视频自动生产。

百度：视觉技术全面升级，软硬结合赋能多领域

机器视觉还在不断升级中，可以模仿人类的眼睛以三维视觉对周围环境进行精确的定位。我们在侦探类作品中常看到读心术，其实这是读微表情。百度云的“情绪识别专家”，透过镜头可以捕捉人的微表情，一不小心就可能比你更懂你的情绪。现在，百度云将三维视觉应用在人脸识别上，活体识别正确率已经提升至99.55%。三维视觉技术可以广泛应用于机器人、无人驾驶、智慧工厂、虚拟/增强现实等方向。

这主要通过两个层面实现：硬件层面，百度云有适用于三维视觉的立体视觉AI传感器，并且采用三维AI视觉模组，使成本大大降低。软件层面，开发了从实时端上运算到大规模云端分布式计算等多种算法。基于百度三维视觉技术，机器可以像人一样看透世界，从而更好地在AR、新零售、工程机械等领域施展才能。

当前，百度计算机视觉技术也已全线开放，包括人脸识别、文字识别（OCR）、图像审核、图像识别、图像搜索5大类别，58项基础能力，已服务于几十万开发者。近日，百度还为自家的视觉技术（人脸识别）发布了新品牌“度目”，并发布了四款硬件产品：人脸应用套件、AI镜头模组、视频分析盒子、人脸抓拍机。“度目”代表着百度大脑整套视觉软硬一体化产品的集合，主要定位于高灵活度、高易用性、高性价比，应用于针对智慧社区、智慧园区内的人脸识别门禁、闸机，驾驶员身份验证与行为分析，视频流下的人员黑白名单识别，购物中心零售客群分析等众多应用场景。

“在人脸识别、图像分类等众多任务中，计算机视觉能比人类视觉完成的更优秀。但在其他需要推理的任务，计算机视觉还有很长的路要走。”行业专家表示，“人类能轻易明白物体彼此之间的关联，我们看到一张图就能编出一个故事。但计算机还远不能达到这种程度的理解能力和想象力。”随着计算机视觉技术的不断发展，它将会带来更多新的发现。计算机视觉和 AI 都处于各自发展的初始阶段，还有很多东西值得探索。

免责声明：市场有风险，选择需谨慎！此文仅供参考，不作买卖依据。

责任编辑：张富强

免责声明：本文仅代表作者个人观点，与民营经济网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
如有问题，请联系我们！