原创长光所Light中心中国光学收录于话题#集成光学11个
撰稿人
Fortuner(西湖大学博士生)
在过去的二十年里,计算领域发生了巨大的变化,硅技术扩展的饱和开始削弱摩尔定律,因此,必须开发新的架构和集成方案来维护计算性能发展的路线图。
超高带宽互联网的出现促进了一种新的“计算即服务(Computing-as-a-Service,CaaS)”云服务计算模型,并启用了新的应用程序和服务,例如视频流,社交网络和数据驱动的商业智能。从此类服务以及针对此类服务的大量数据的可用性自然产生了从中获取价值的愿望。
然而,由于这些数据中有很大一部分是有噪声的、非结构化的或不完整的,传统的统计方法很难正常工作。这重新点燃了人们对可训练算法甚至是自学习算法的兴趣。利用当下硅技术的计算能力,人们可以设计、优化和执行大型复杂的大脑架构。人工智能(AI)已经成为研发的主要领域和我们日常生活的重要组成部分。
艺术插图/来源:长春光机所,Light学术出版中心,,新媒体工作组
当今,硅基CMOS工艺被认为是实现AI硬件的基础。为了克服冯诺依曼架构的基本内存瓶颈,CMOS需要被推进到一个新的架构,并且以“超越摩尔”的方式提高其功能性。后者的一个关键方面是将大量并行的突触互连层和非线性激活函数等基本神经网络构建模块深度嵌入到基础平台中。
神经形态计算的主要任务是计算和优化神经网络中的突触,其中传入神经元的信号通过多次乘法累加(multiply-accumulate,MAC)进行加权和求和。如果我们考虑两个网络层之间的所有突触连接,这个运算最终可以表述为一个大的向量-矩阵乘法。
为了加快在深度神经网络(deepneuralnetwork,DNNs)训练和推理过程中大量矢量-矩阵乘法的计算速度,研究人员引入了硬件加速器。例如图形处理单元(graphicsprocessunits,GPUs),张量处理单元(tensorprocessingunits,TPUs)。这样的加速器支持对MAC操作进行并行和流水线处理,从内存中获取数据并返回结果。
数据结果在不同内存位置和实际计算引擎之间来回移动,这构成了经典的冯诺依曼瓶颈,并归因于总体大量的能耗,产生大量二氧化碳(图1)。
图1.最先进的几种用于自然语言过程的深层神经网络训练(蓝色条形图)和各种日常活动(红色条形图)的二氧化碳等效排放量的比较
图源:Nanophotonics
随着处理单元的距离的增加,内存访问变得越来越耗电,并且通过更大的访问延迟降低计算速度。此外执行算术运算的能量很大程度上取决于计算精度。
为了降低当前系统的巨大能耗,目前主要有两种解决方案:
1.数据必须尽可能的保持在本地。
2.操作必须以最低的可行精度进行。
因此,一个技术改善平台必须做到:
1.克服过多的数据移动。
2.减少信号处理开销。
3.提供类似神经网络结构的突触连接。
近日,来自瑞士苏黎世IBM研究中心的BertJanOffrein等人在Nanophotonics期刊上发表综述:评述了集成光学解决方案在加速推理和人工神经网络训练方面的前景。
计算突触功能,在计算上是非常昂贵的,并且不能很好的在先进的计算平台上规模化。利用集成光学器件的线性和非线性来进行模拟信号处理,可以大幅度提高这些人工智能工作负载的性能和功率效率。集成光子学的高速运行能力为时间实时应用提供了机会,而芯片级集成为制造和封装成本效益的铺平了道路。
集成光学器件为神经形态计算提供了一些性能优势,如:形状因素、可制造性、成本、机械稳定性和可高速调制。
集成光子神经网络有哪些新机遇?
一、集成光子学RC系统
储备池计算(reservoir