雏形阶段:
20世纪50年代前后:
计算机视觉刚刚起步,依旧属于模式识别领城,主要处理对二维图像的分析和识别。
20世纪60年代中期:
Lawrence Roberts的(三维固体的机器感知》描述了从二维图片中推导三维信息的过程,开创了以理解三维场景为目标的三维计算机视觉研究。
初始阶段:
20世纪70年代:
马尔在计算机视觉领域做出了最具开创性和最重要的贡献,提出了第一个完善的视觉框架--视觉计算理论框架。在视觉计算中, 视觉被作为不同层次的信息处理过程,实现目标是计算机对外部世界的描述,以获得物体的三维形状。他提出三个层次的研究方法,即计算理论层、表征与算法层和实现层,由此提出了自上而下无反馈的视觉处理框架。
繁荣阶段:
由于视觉计算理论框架的鲁棒性不够,因此无法在工业界得到广泛应用。随后,出现了主动视觉、定性视觉、目的视觉等各个学派。
中兴阶段:
繁荣阶段持续的时间不长,且方法繁多,对后续计算机视觉的发展产生的影响并不大,犹如昙花一现。随后,人们发现多视几何理论下的分层三维重建能有效提高三维重建的鲁棒性和精度,由此,计算机视觉进入中兴阶段。
现代阶段:
1989年,Yann LeCun将反向传播算法应用于Fukushima的卷积神经网络结构
LeCun发布了 LeNet模型,这是第一个现代的卷积神经网络。
2006年前后, Geoffrey Hilton提出了用GPU来优化深度神经网络的工程方法,并在《科学》杂志上发表了论文,首次提出“深度信念网络”的概念,他赋予多层神经网络一个新名词--深度学习。
随后,深度学习在各个领域大放异彩。
2009年,FeiFeiLi在CVPR上发表了一篇名为ImageNet: A Large-Scale Hierarchical Image Database的论文,发布了ImageNet数据集,这改变了在人工智能领域人们对数据集的认识,这时人们才真正开始意识到数据集在研究中的地位,就像算法一样重要。ImageNet是计算机视觉发展的重要“推动者”,也是深度学习的关键“推动者”。
2012年,Alex Krizhevsky, Ilya Sutskever 和 Geoffrey Hinton创造了一个大型的深度卷积神经网络,即AlexNet。此模型在ImageNet数据集中表现得极为出色,识别错误率从26.2%降低到15.3%。他们的论文ImageNet Classification with Deep Convolutional Networks,被视为计算机视觉最重要的论文之一,自此,卷积神经网络成为计算机视觉的标准算法。
2014年,蒙特利尔大学提出生成对抗网络(GAN):拥有两个相互竞争的神经网络可以使机器学习得更快。一个网络尝试模仿真实数据生成假的数据,而另一个网络则试图将假数据区分出来。随着时间的推移,两个网络都会得到训练,生成对抗网络(GAN)被认为是计算机视觉领域的重大突破。
2017-2018 年,深度学习框架的开发发展到了成熟期。PyTorch 和 TensorFlow 已成为首选框架,它们都提供了针对多项任务(包括图像分类)的大量预训练模型。
2019, BigGAN,同样是一个GAN,只不过更强大,是拥有了更聪明的课程学习技巧的GAN,由它训练生成的图像连它自己都分辨不出真假,因为除非拿显微镜看,否则将无法判断该图像是否有任何问题,因而,它更被誉为史上最强的图像生成器。
2020年5月末,Facebook发布新购物AI,通用计算机视觉系统GrokNet让“一切皆可购买”。
至今,计算机视觉与其他学科交叉融合日益加深,推动了多模态感知和认知智能的研究。