如果有人朝你扔过来一个球,通常你会怎么办?——当然是马上把它接住。
这个问题是不是很简单?但实际上,这一过程是最复杂的处理过程之一:首先,在复杂的背景环境下,球进入人的视野,被视网膜捕捉到后,经视觉通路发送到大脑处理视觉信息的脑区,进行更加彻底的图像分析。同时视皮层与其他脑区协作,判断物体的种类,预测它的行进轨迹,最终通过传出神经控制肌肉的运动,决定人的下一步行动:举起双手、接住球。上述过程只在零点几秒内发生,几乎完全是下意识的行为,也很少会出差错。
为了让计算机模仿这一过程,首先需要让计算机做到像人类那样“看”,尤其是在嘈杂背景下像人类那样快速准确地“看”,成为了近年来视觉感知这一研究领域备受