2017年中国计算机视觉行业研究报告

2017年中国计算机视觉行业研究报告

时间:2020-03-10 15:43 作者:admin 点击:
阅读模式

2017年下半年,数家计算机视觉公司单笔融资上亿美元,再次将计算机视觉推向人工智能领域最受关注的方向之一。本报告聚焦于计算机视觉技术现阶段在工业界的应用与研发,将在对相关技术热点及产业整体做概述性介绍的基础上,对典型应用的具体使用场景分领域论述,希望理清现状,写明征途,供产业界、投资界、政策制定者及关注人工智能领域的社会各界以参考。因报告研究对象以技术层创业公司为主,偏颇遗漏之处,敬请指正。 报告核心观点: 1. 深度学习主要提升的是计算机视觉领域分类任务的准确率;开源环境仅降低计算机视觉领域的入门技术门槛,前沿算法的技术壁垒依然存在;计算机视觉比赛成绩、论文成果不直接代表技术团队解决实际业务问题的能力。 2. 2017年中国计算机视觉规模预期为40亿,凭借安防领域的爆发性增长,预期2020年将增长至725亿。 3. 前端嵌入式智能系统的渗透率将逐步提升,与后端协同智能计算,加速产业智能升级。 4. 算法迭代将不断提升限定场景识别准确率,加速渗透为各行业应用赋能。 5. 前沿算法之外,计算机视觉公司的商业壁垒有赖于产品、服务、市场等综合建设。

一、计算机视觉技术概述

计算机视觉横跨感知与认知智能,现阶段应用以感知为主

视觉使人类得以感知和理解周边的世界,人的大脑皮层大约有70%的活动在处理视觉相关信息。计算机视觉即通过电子化的方式来感知和理解影像,以达到甚至超越人类视觉智能的效果。从1966年学科建立(MIT:The SummerVision Project)至今,尽管计算机视觉在感知与认知智能方向仍有大量难以解决、尚待探索的问题,但得益于深度学习算法的成熟应用(2012年,采用深度学习架构的AlexNet模型,以超越第二名10个百分点的成绩在ImageNet竞赛中夺冠),侧重于感知智能的图像分类技术在工业界逐步实现商用价值,助力金融、安防、互联网、手机、医疗、工业等领域智能升级。

现阶段有较好商业化进展的主要为语义感知中的分类任务

与人类实时选择性处理视觉信息不同(如人在驾驶时不需在意公路边草地的纹理或形状,也不用知道每辆车的确切形状),计算机仍难以从实际需求出发自主选择性输入并计算影像信息,通常需要人类对具体任务进行分解并使用与之匹配的计算方法,建立完整理想的智能视觉系统仍有很大挑战。另外,与可结合常识做猜想和推理进而辅助识别的人类智能系统相比,现阶段的视觉技术往往仅能利用影像表层信息,缺乏常识以及对事物功能、因果、动机等深层信息的认知把握。

数据与算力是深度学习的重要支撑

开源环境仅降低计算机视觉领域的入门技术门槛

工业界和学术界先后推出了用于深度学习模型训练的开源工具和框架,包括Caffe、Theano、Torch、MXNet、TensorFlow、PaddlePaddle、CNTK等等,极大降低了人工智能技术在工业实践中的入门门槛。尽管不同框架各有所长,但它们并不能真正满足企业在处理实际复杂业务时所面对的挑战,性能、显存支持、生态系统完善性、使用效率等不同层面的不足要求企业需要针对性的调整框架以适合自身业务所需。而在数据处理、计算集群管理、网络设计、应用端性能优化等若干重要环节都存在各种各样非开源技术或已成熟方案所能解决,极度依赖相关技术专家去探索求解的重要问题。对于前沿算法的突破创新以及算法在不同使用环境中的优化升级,不同公司的技术高低差异依然很大。

计算机视觉比赛的意义在于推动算法思想的进步

2007年由李飞飞教授发起的ImageNet计划将人工智能领域的影像数据推向了前所未有的规模,至今已有1400万张经过人工清洗标注的图片,含有2万个分类,为计算机视觉领域做出巨大贡献。自2010年每年一度的ImageNet物体识别竞赛(对1000类接近50万张图片的单标签识别),更是成为了计算机视觉领域最受关注的比赛。2017年,ImageNet举行了最后一届图像分类竞赛,Top 5的错误率降至2.25%(大幅领先人眼),该竞赛完成了历史使命,而更多的关于图像语义分割(像素级的分类问题)、1:N人脸识别、图像及视频理解(看图写话)方向的数据集与比赛将逐步登上舞台,推动更多领域更贴近真实世界场景的算法革新。

二、计算机视觉行业概况

计算机视觉行业图谱

中国计算机视觉行业市场规模