感觉性周围神经病

首页 » 常识 » 常识 » 汽车零部件行业专题报告AI大模型在自动驾
TUhjnbcbe - 2024/5/13 17:08:00
白癞风 http://baijiahao.baidu.com/s?id=1707152311966142238&wfr=spider&for=pc

(报告出品方/作者:安信证券,徐慧雄,李泽)

1.AI大模型如何应用于自动驾驶算法中?

算法是决定自动驾驶车辆感知能力的核心要素。当前主流的自动驾驶模型框架分为感知、规划决策和执行三部分。感知模块是自动驾驶系统的眼睛,核心任务包括对采集图像进行检测、分割等,是后续决策层的基础,决定了整个自动驾驶模型的上限,在自动驾驶系统中至关重要。感知模块硬件部分主要为传感器,软件为感知算法,其中算法是决定自动驾驶车辆感知能力的核心要素。

1.1.神经网络加快自动驾驶感知算法发展,小模型向大模型迭代趋势明确

神经网络模型的应用驱动感知算法高速发展。早在上世纪70年代,学术院校和科研机构展开对自动驾驶技术的探索,早期的自动驾驶感知算法主要是基于传统计算机视觉技术,直到年之后随着深度学习技术的发展,神经网络被引入到自动驾驶感知算法中,自动驾驶汽车的感知效果有了质的提升。应用于感知层面的神经网络模型可以分为两类,一类是以CNN、RNN为代表的小模型,另一类是Transformer大模型。神经网络是一种受生物神经元启发而产生的深度学习方法,由众多的感知机构成。感知机类似于生物学中的神经元,输入信号经过加权平均运算,若超过某一个阈值则向后传递信号,否则被抑制。

不同的神经网络模型实际就是对感知机之间设定不同的逻辑关系。单个感知机工作的过程为:1)感知机前端相当于神经元树突,接受输入信号x,可以以向量表示x=(a,b,c),其中a、b、c分别来自上一个神经元或原始图像。2)输入信号与连接权重向量w=(w1,w2,w3)进行内积运算,这实际是对输入信号进行加权平均。3)在相当于神经元轴突的感知机后端设定一个阈值z,当加权平均值达到阈值即xwT+z0,则感知机被激活向后传递信号,否则感知机被抑制。4)此外,引入非线性因素保证输出连续,可以对xwT+b整体施加一个激活函数。

1.1.1.1.深度神经网络DNN是人工智能的开端

深度神经网络(DNN)又叫多层感知机神经网络,其中有三个基本类型的层:输入层、隐藏层(或者叫中间层,可以有多个)、输出层。不同层之间的感知机全连接,在推理时,前向(从输入层到隐藏层到输出层)传递信号得到推理结果。在学习时则将误差(真实值和推理值的偏差)反向传递(从输出层到隐藏层到输入层),实现对感知机参数(连接权重和阈值)的更新,直至找到使得误差最小的一组感知机参数。在自动驾驶感知模块中输入数据为图像,而图像具有高维数(对比时间序列通常只是一维向量),对其识别时需要设置大量输入神经元以及多个中间层,模型参数量大难以训练且消耗算力高,并可能带来过拟合的问题。

1.1.1.2.卷积神经网络CNN广泛用于特征提取

DNN识别图像的本质是对每一个像素点进行比对学习,因此效率较低。事实上,人类在对图像进行识别是并不需要对像素点进行逐个对比,而是通过图像的特征进行识别。例如识别人脸时,并不需要对每一个像素点都仔细观比对,而是先搜索脸部的轮廓以及眼睛、鼻子等特征,当这些特征同时出现,就可以判断图片中是一张人脸,基于这种思想,CNN卷积神经网络应运而生,本质上是在信息传入传统神经网络前先做一个特征的提取并进行数据降维,因此CNN图像处理高纬度向量的任务上更加高效。

CNN能够高效率处理图像任务的关键在于其通过卷积层、池化层操作实现了降维,模型需要训练的参数量相比于DNN来说大幅降低,对硬件算力的要求也相对降低。CNN的模型结构在DNN的全连接层之前增加了卷积层和池化层,用于提取图像特征并降低数据维度。举例而言,对于一个8×8(64像素)的原始图片,CNN模型中设置一个大小为3×3的滤波器(即卷积核),“覆盖”在原始图片相同大小的区域之后,对应位置元素相乘求和;完成一个位置计算后,向其他区域平移直到覆盖整个原始图片。

上述这一过程即“卷积”操作,其中卷积核的值为模型所需要学习的参数。卷积操作的优势在于卷积核与原始图像每一区域进行运算的参数相同,降低了模型所需要学习的参数量。池化(Pooling)操作是为了提取一定区域的主要特征,并进一步减少后续输入全连接层的参数量。如对卷积后6×6的特征图,选取2×2大小的窗口进行Maxpooling操作(即窗口内取最大值)后,特征图的长和宽都缩小到原来的1/2。但是CNN仍然存在一定的缺陷,多次池化会丢失一些的有价值信息,忽略局部与整体之间的关联性。例如进行面部识别时,多次池化位置信息有所损失,鼻子、眼睛、嘴特征同时出现,CNN就可能将其识别为人脸。因此CNN存在误判的概率。

1.1.1.3.循环神经网络RNN有效处理有时间序列信息

在自动驾驶场景下,感知还需要时序的信息来完成目标跟踪以及视野盲区预测等感知任务。循环神经网络RNN与CNN一样都是传统神经网络的扩展,相比于CNN在空间上进行拓展,RNN是在时间上的扩展,可以用于描述时间上连续输出的状态。例如自动驾驶场景中可能会出现前方大卡车造成遮挡,如果要判断视野盲区里是否有行人就需要结合被卡车遮挡前的信息,由此需要引入循环神经网络RNN对时序信息进行处理。RNN与DNN在结构上相近,区别在于RNN在隐藏层引入“循环”,即每一个隐藏层上的每一个记忆体(本质就是感知机)都与上一个时刻隐藏层上的所有记忆连接,这意味着某一时刻网络的输出除了与当前时刻的输入相关,还与之前某一时刻或某几个时刻的输出相关。

引入了循环的隐藏层叫做循环核,RNN借助循环核提取时间特征,从而引入了时序上的相关性实现连续数据的预测。但是RNN的局限主要在于:1)循环核需要存储,意味着硬件需要具备更大的缓存。同时记忆体个数越多存储历史状态信息的能力越强、训练效果越好,但需要训练的参数量、消耗的资源也越多,二者共同制约RNN,使其难以学到长时间距离的依赖关系。2)RNN并行能力受限,由于某一时刻网络的输出不但与当前时刻的输入相关,还与上一时刻的输出结果相关,因此RNN无法进行并行计算,使得计算效率非常受限。

1.1.2.Transformer大模型的注意力机制成为自动驾驶感知算法的利器

Transformer模型的关键在于计算输入序列元素之间的关系权重,最早在NLP领域大放异彩,年起在CV领域开始得到广泛应用。年,谷歌在NIPS发表论文《Attentionisallyouneed》提出了Transformer网络结构,其基本思想为假设一个有逻辑的序列a=(a1,a2,a3,...,ai,...),如文章的文字序列、语音的声谱序列等,Transformer模型的关键是为每个token(元素)找到与其他token的关系权重。由此可见,Transformer在处理NLP这样的序列任务上具有天然的优势,并迅速成为NLP领域的主流模型。年,VIT(VisionTransformer)网络把一个图片按序切成一个个小片(Patch)后再应用Transformer模型架构,标志着Transformer正式进军CV领域,并在目标检测、分割等任务中均表现出色。

Transformer成功的关键在于引入注意力(attention)机制。可以对注意力(attention)机制直观理解为“只

1
查看完整版本: 汽车零部件行业专题报告AI大模型在自动驾