推广 热搜： 免费网赚论坛中国网赚网赚qq群福缘网赚网赚博客如何网赚酷我网赚在家上网赚钱外国网赚网赚任务平台

首页 > 资讯 > 教程 > 创业指南

智能车赛道最隐秘的AI视觉玩家

日期：2023-07-07 16:28:20 浏览：94

核心提示：最近还拿了个冠军

最近还拿了个冠军

编者按：本文来自微信公众号智能车参考（ID：AI4Auto），作者：曹原，创业邦经授权转载，头图来源摄图网

智能车赛道，藏着一个最隐秘的AI视觉玩家。

这个玩家尚未官宣任何智能车相关的业务进展，但又在最核心、最前沿、最被渴求的自动驾驶系统能力上屡屡展现竞争力——全球AI顶会冠军级的统治力。

不仅具体技术上突出，在目标检测、语义分割、视觉推理等方面有诸多顶会级研究；还拿下多个自动驾驶相关比赛的冠军，甚至还用7个摄像头的纯视觉方案，完成了高速、城区和泊车环境的自动驾驶。

这个玩家不是特斯拉的AI团队，这个玩家是旷视科技。

在最近的AI顶会CVPR中，大模型加持下的视觉研究，正在驱动自动驾驶方向的新研究，而旷视研究院，在一众自动驾驶和智能车玩家参与的竞赛中，获得了考察自动驾驶环境感知能力的冠军。

AI视觉领域的超级明星，现如今在业务上还没有与智能车传出关联。

但有这样的技术研究和成果，当真会纯出于学术研究？

旷视刷榜了什么自动驾驶比赛？

旷视研究院参加的这个比赛，是CVPR 2023专门面向自动驾驶感知决策系统设立的挑战赛。

其中OpenLane拓扑关系挑战赛冠军，被旷视收入囊中。

挑战赛一共四个赛道，除了旷视参加的OpenLane拓扑关系挑战赛（OpenLane Topology），还有在线高精地图构建挑战赛（online HD Map Construction）、三维占据栅格预测挑战赛（3D Occupancy Prediction）和nuPlan规划挑战赛（nuPlan Planning）。

其中，OpenLane拓扑关系赛道主要考察自动驾驶技术理解场景的能力。

赛道要求基于OpenLane-V2（OpenLane-Huawei）数据集，输入给定环视相机照片，参赛者需要输出车道中心线和交通元素的感知结果，以及这些元素之间的拓扑关系预测。

也就是说，这个比赛不是考察以往自动驾驶感知中，对车道边缘线或者交通标志单一的识别能力，而是要求自动驾驶技术可以感知车道中心线，还要能理解车道中心线和交通元素的逻辑关系，比如绿灯亮了，这意味着哪条车道可以通行。

那么如何判定冠军？OpenLane-V2数据集提供了判定标准：OLS分数（OpenLane-V2 Score），通过计算感知结果和拓扑预测mAP的平均值判定得分。

在34个参赛队伍中，来自旷视研究院的队伍得分唯一超过55分，达到55.19分，具有明显优势。

那么，旷视用了什么样的方法？

旷视的自动驾驶纯视觉方案

首先感知阶段，对于交通元素检测和车道中心线检测两个感知任务，旷视分别采用了两个不同的模型。

对于交通元素检测，旷视使用主流2D检测模型YOLO系列中最新一代YOLOv8作为baseline，相较于其他2D检测方法YOLO速度更快，性能更准确。

△图片来源：GitHub用户RangeKing

再加上比赛使用的数据集OpenLane-V2标注了交通标识和车道的对应关系，旷视在YOLOv8训练过程中增加Strong augmentation、Reweighting classification loss、Resampling difficult samples、Pseudo label learning和Test-time augmentation共5个trick，通过和前视角图像交互生成对应交通元素的特征。

对于车道中心线检测，旷视使用自研PETRv2模型作为baseline。PETRv2提供了一个统一的纯视觉3D感知框架，可以用于3D目标检测和BEV分割。

而在这次比赛中，旷视利用PETRv2从多视角图像中提取2D特征，以及利用摄像头截锥空间中生成3D坐标，把2D特征和3D坐标输入3D位置编码器。

随后使用3D位置编码器给Transformer解码器生成key和value组件，lane queries再通过全局注意力机制和图像特征进行交互，生成3D车道中心线检测成果和对应的车道中心线特征。

而在拓扑关系预测阶段，旷视基于YOLOv8和PETRv2搭建了一个多阶段的网络框架，并利用两个感知任务生成的成果拼接对应特征，再使用两层MLP预测对应的拓扑关系矩阵。

（图注：旷视最终在验证集上的预测结果，包括边框、类别和置信度）

最后从OLS得分来看，旷视团队的这套方法在交通元素感知（DETt）、车道线之间拓扑关系预测（TOPll）和车道线与交通元素拓扑关系预测（TOPlt）方面均领先于其他参赛者。

智能车赛道最隐秘的AI视觉玩家

参加这次比赛的，是旷视研究院的MFV（Megvii-Foundation model-Video）团队。

比赛成果论文一作是吴东明，2019年在北京理工大学徐班取得学士学位，后来继续在北理攻读计算机系的博士学位，师从沈建冰教授，在2022年成为旷视研究院的研究实习生。

论文的其他作者也都来自旷视研究院，其中Chang Jiahao毕业于中国科技大，Li Zhuoling毕业于香港大学。

值得一提的是，这次挑战赛使用的PETRv2模型，还是旷视研究院创始院长孙剑博士去世前，带领研究团队发布的学术成果之一。

并且，这也不是旷视唯一的自动驾驶相关研究成果。

除了PETR系列大模型，旷视还发布过BEVDepth检测模型（可对3D目标实现高精度的深度估计），LargeKernel3D（首次证明大卷积核对3D视觉任务的可行性和必要性），BEVStereo（nuScenes纯视觉方案3D目标检测SOTA）等……都是行业领先级的技术成果。

△BEVStereo模型框架

一直以来，旷视研究院都是旷视AI技术的研发“大脑”，主攻深度学习和计算机视觉方向，也是包括AI生产力平台Brain++、开源深度学习框架天元MegEngine、移动端高效卷积神经网络ShuffleNet等成果的诞生地，已经对外发表了超过120篇全球顶会论文；斩获顶级赛事中冠军数超过40项，拥有1300余件业务相关专利授权。

而且在区别于纯研发或前沿技术预研布局的企业研究院，旷视研究院从一开始就被作为作战部队使用，所以旷视研究院的最新成果、瞄准的方向，一般都不会一时兴起，或者纯为研究而研究。

于是这也是旷视接二连三在自动驾驶、智能车赛道方向上产出顶级成果后，需要关注的地方。

相比老朋友商汤科技，旷视至今没有官宣任何智能车、自动驾驶业务或合作，而商汤则推出了专门的智能车业务品牌绝影，由联合创始人王晓刚带队，目标要成为商汤的支柱型新增长引擎。

对于智能车和自动驾驶这样的万亿规模赛道，旷视会始终心如止、按兵不动？不太可能。

更何况从技术研究能力到技术实现水平，都已经通过顶会得到了展现。

以及，旷视研究院还展示过一段自动驾驶预研Demo，仅使用7个摄像头，就能实现高速公路和城区的自动驾驶，并且还能完成水平、垂直以及侧方位停车。

这是什么水平？

作为参考，纯视觉王者特斯拉，自动驾驶感知方案最少也需要8个摄像头。

论文传送门：

https://opendrivelab.com/e2ead/AD23Challenge/Track_1_MFV.pdf

文章链接：http://900614.com/news/show-30696.html 内容来源:

标签： 创业计划书

更多>同类资讯

推荐图文

推荐资讯

点击排行

• 2024，争抢县城中产	• 音乐节遍地背后：一半以上不赚钱，投资方亏怕了
• 统一方便面不好卖，靠卖地进账3.4亿	• 孟羽童回应热搜争议；李想疑似回应P图风波；董
• 大城小县，消费边界正在消融	• 听完周鸿祎AI课，我整理出21条笔记
• 多家大润发关店，高鑫零售去留存疑	• Sora火了，抖音们慌了？
• 猛攻十八线小县城，新能源汽车卷疯了	• 中国出海电商，悄悄在日韩“造富”