百度飞桨聚焦6项视觉能力更新涉及15种算法和35个预训练模型

2020-03-23 13:44:51来源：民营经济网·民企动力

百度飞桨聚焦6项视觉能力更新涉及15种算法和35个预训练模型：2020年，“新基建”正给中国科技发展带来新的重大机遇，人工智能基础设施面临全面升级。深度学习框架正是推动产业智能化进阶的重要基础设施...

2020年，“新基建”正给中国科技发展带来新的重大机遇，人工智能基础设施面临全面升级。深度学习框架正是推动产业智能化进阶的重要基础设施。近日，国内唯一开源开放、功能完备的深度学习开源平台——百度飞桨，在智能视觉领域实现重大升级。

此次，PaddleCV最新全景图首度曝光。其中，PaddleDetection、PaddleSeg、PaddleSlim和Paddle Lite重磅升级；全新发布3D视觉和PLSC超大规模分类2项能力。同时，PaddleCV新增了15个在产业实践中广泛应用的算法，整体高质量算法数量达到73个；35个高精度预训练模型，总数达到203个。

PaddleCV全景图

PaddleCV依托于飞桨底层核心技术以及百度大脑软硬一体AI大生产平台的优势，贯通了从核心技术、生态应用，再到商业化解决方案的整套体系，支撑百度视觉成为目前业内规模最大、技术栈最全面、生态体系最完善的视觉技术平台，形成可自我持续迭代优化的闭环。

如全景图所示，PaddleCV主要从三方面更新核心技术能力：

第一，核心技术能力升级，基于产业实践真实场景打磨，多场景视觉任务上模型准确率全面提升。

PaddleDetection模块种类与性能全面提升，YOLOv3大幅增强，精度提升4.3%，训练提速40%，推理提速21%；人脸检测模型BlazeFace新增NAS版本，体积压缩3倍，推理速度提速122%；新增IoU损失函数类型，精度再提升1%，不增加预测耗时。在模型方面，新增3个类型，基于COCO数据集的精度最高开源模型CBNet，高达53.3%；Libra-RCNN模型精度提升2%；Open Images V5成为目标检测比赛最佳单模型。

PaddleSeg新增基于HRNet的高精度图像分割模型，其最大的特点是将图像在整个处理过程中保持高分辨率特征，这和大多数模型所使用的从高分辨率到低分辨率网络产生的低分辨率特征中恢复高分辨率特征有所不同。同时，获得实时语义分割模型Fast-SCNN，它的最大特点是“小快灵”，即该模型在推理计算时仅需要较小的FLOPs，就可以快速推理出一个不错的结果。

Fast-SCNN网络结构图

PaddleCV还新增了3D点云分类、分割和检测的PointNet++和PointRCNN模型。PointNet++在ModelNet40数据集上，分类精度高达90%；PointRCNN在KITTI（Car）的Easy数据子集上，检测精度高达86.66%。和此前PaddleCV支持的数十种模型一样，基于飞桨框架，开发者无需全新开发代码，只要进行少量修改，就能快速在工业领域实现3D图像的分类、语义分割和目标检测任务。

图像分类新增预训练模型SENet-vd、Res2Net、HRNet系列模型。Res2Net可以更细粒度表示多尺度特征，HRNet全程都可以保持高分辨率。截至目前，飞桨图像分类模型包含了ResNet、ResNet-vd、ResNet_ACNet、MobileNet、ShuffleNet、EfficientNet等系列近20类图像分类算法，105个预训练模型，也可供目标检测、图像分割等任务应用。其中，ResNet-vd系列相比ResNet系列模型，在不增加推理耗时的情况下，精度提高1%-2%，EfficientNet推出了small版本，在GPU上速度提升1.59倍。

第二，PaddleCV端到端能力大幅提升，打通了模型开发、训练、压缩、部署全流程，更好地服务于产业实践。

目标检测模型在实际部署时，由于耗时和内存占用，仍然存在很大挑战。基于此，PaddleSlim提供了多种高效的模型压缩方法，助推PaddleDetection性能到达全新高度。使用蒸馏模型压缩方案可提升验证精度2%；裁剪模型压缩方案大幅降低FLOPs；蒸馏+裁剪模型压缩方案，基于COCO数据集进行测试，可以加速2.3倍。此外，PaddleDetection还为开发者提供了从训练到部署的端到端流程，并提供一个跨平台的图像检测模型的C++预测部署方案。

跟目标检测模型类似，语义分割模型在实际部署时也会面临耗时、内存占用的挑战。PaddleSlim为PaddleSeg提供了多种分割模型的压缩方案，FLOPs减少51%，提升部署成功率。

针对超大规模人脸识别等应用挑战，正式发布PLSC超大规模分类工具。一方面，通过多机分布式训练可以将全连接层参数切分到更多的GPU卡，从而支持千万类别分类，并且飞桨大规模分类库在理论上可支持分类类别数随着使用GPU卡数的增加而增加。另一方面，PLSC的训练精度和效率高，在多个数据集上得SOTA的训练精度，同时支持混合精度训练，单机8张Nvidia Tesla v100 GPU配置下混合精度训练速度提升42%。PLSC让开发者通过五行代码即可实现千万类别分类网络的构建和训练，提供大规模分类任务从训练到部署的全流程解决方案。同时，支持训练GPU卡数的动态调整、Base64格式图像数据预处理。

PaddleCV与飞桨领先分布式训练能力全面结合，对于人脸识别等广泛的场景应用提供了强有力的推动作用。3月初，百度开源的“戴口罩人脸识别算法”中，即通过PLSC实现了快速对数百万ID的训练数据进行训练；同时采用飞桨模型压缩库PaddleSlim进行模型搜索与压缩，产出了高性能的人脸识别模型；最后基于Paddle Lite，实现了云端和移动端的快速部署。

第三，PaddleCV全面打通了模型算法、开发框架和AI芯片，实现软硬一体化。

首先，PaddleCV基于Paddle Lite多硬件支持能力的优势，与昆仑芯片进行深度联合优化，实现端到端软硬一体能力的完全领先和自主可控。以制造业为例，百度与微亿智造联合打造了智能自动化监测设备“表面缺陷视觉检测设备”，区别于传统人工肉眼检查电子零件的方式，既保障质检环节的检查质量与效率，也进一步缓解了由于疫情原因造成的人力缺乏问题。

此次合作，借由百度昆仑芯片、百度智能云的加持，以及基于百度飞桨深度学习平台的目标检测模型，微亿构建完成了一个从智能硬件到算法软件再到算力供给的智能制造解决方案大闭环，具备了端到端软硬一体能力，实现了完全的自主可控。此外，在央视《新闻联播》2月10日报道中还提到，江苏常州的精研科技借助“表面缺陷视觉检测设备”，解决了工人无法复工情况下的生产难题，在精研科技的精密零部件制造车间，十台无人值守的智能化检测设备24小时工作，比人工检测效率提升近10倍。