cv是什么(四个cv塌房)

计算机视觉是人工智能的一个重要分支。它的目的是:理解画面中的内容。本文将介绍计算机视觉的基本概念、实现原理、8项任务和4种常见应用场景。计算机视觉为什么重要?几

cv是什么(四个cv塌房)

计算机视觉是人工智能的一个重要分支。它的目的是:理解画面中的内容。

本文将介绍计算机视觉的基本概念、实现原理、8项任务和4种常见应用场景。

计算机视觉为什么重要?

几乎70%的人类大脑皮层都在处理视觉信息。是人类获取信息最重要的渠道,没有之一。

在网络世界中,照片和视频(图像的集合)也在爆炸!

下图显示了网络上新数据的比例趋势。它是灰色的结构化数据,蓝色的是非结构化数据(大多是图像和视频)。很明显,图片和视频正在以指数级的速度增长。

cv是什么(四个cv塌房)

在计算机视觉出现之前,图像是计算机的黑匣子。

图片只是机器的文件。机器不知道图片里是什么,只知道这张图片是什么尺寸,MB,格式。

cv是什么(四个cv塌房)

计算机和人工智能要想在现实世界中发挥重要作用,就必须懂图!这是计算机视觉要解决的问题。

什么是计算机视觉 – CV?

计算机视觉是人工智能的一个重要分支,它要解决的问题是理解图像的内容。

例如:

图片里的宠物是猫还是狗?图片里的人是老张还是老王?这张照片里,桌子上放了哪些物品?

cv是什么(四个cv塌房)

计算机视觉的原理是什么?

目前主流的基于深度学习的机器视觉方法类似于人脑的工作原理。

人类视觉的原理是这样的:它从原始信号的摄入开始(瞳孔摄入像素),然后进行初步处理(大脑皮层的一些细胞找到边缘和方向),然后抽象(大脑确定我们面前的物体的形状是圆的),然后进一步抽象(大脑进一步确定物体是气球)。

cv是什么(四个cv塌房)

机器方法类似:构建一个多层神经网络,下层识别初级图像特征,若干个下层特征形成一个上层特征,最后通过多级组合在顶层进行分类。

cv是什么(四个cv塌房)

计算机视觉的2大挑战

人类看懂图片是一件非常简单的事情,但是对于机器来说却是一件非常困难的事情。说两个典型难点:

特征很难提取。

同一只猫在不同的角度,不同的光线,不同的动作。像素差异非常大。即使是同一张照片,旋转90度后,其像素差异也是非常大的!

所以图片中的内容是相似的,甚至是相同的,但是在像素级别,它的变化会非常大。这对特征提取是一个很大的挑战。

计算所需的数据量是巨大的。

手机随机拍的一张照片,1000*2000像素。每个像素RGB有3个参数,共1000 X 2000 X 3=6,000,000。任何照片都要处理600万个参数,然后计算日益流行的4K视频。才知道这个计算顺序有多恐怖。

cv是什么(四个cv塌房)

CNN解决了以上两个问题。

CNN属于深度学习的范畴,它解决了上面提到的两个难点:

CNN 可以有效的提取图像里的特征CNN 可以将海量的数据(不影响特征提取的前提下)进行有效的降维,大大减少了对算力的要求

CNN的具体原理这里就不解释了。有兴趣可以看看《了解卷积神经网络——CNN(基本原理+唯一值+实际应用)》

计算机视觉的 8 大任务

cv是什么(四个cv塌房)

图像分类

图像分类是计算机视觉中一个重要的基本问题。后面提到的其他任务也是基于它。

举几个典型的例子:人脸识别、图片黄色识别、相册按人自动分类等。

cv是什么(四个cv塌房)

目标检测

目标检测任务的目标是给出一幅图像或一帧视频,让计算机找出所有目标的位置,并给出每个目标的具体类别。

cv是什么(四个cv塌房)

语义分割

它将整幅图像分成像素组,然后对像素组进行标记和分类。语义分割试图从语义上理解图像中的每个像素是什么(人、车、狗、树……)。

如下图,除了识别人、路、车、树等。,我们还必须确定每个对象的边界。

cv是什么(四个cv塌房)

实例分割

案件分割除了语义分割,还对不同类型的案件进行分类,比如用五种不同的颜色标记五辆车。我们将看到多个重叠对象和不同背景的复杂场景。我们不仅要对这些不同的对象进行分类,还要确定它们之间的界限、区别和关系!

cv是什么(四个cv塌房)

视频分类

与图像分类不同,分类的对象不再是静止图像,而是由多帧图像组成的视频对象,包括语音数据、运动信息等。所以理解视频需要更多的上下文信息,不仅要理解每一帧图像是什么,包含什么内容,还要结合不同的帧才能知道上下文信息。

cv是什么(四个cv塌房)

人体关键点检测

人体关键点检测通过人体关键点的组合和跟踪来识别人的运动和行为,对于描述人体姿态和预测人体行为非常重要。

在Xbox中使用这种技术是有利的。

cv是什么(四个cv塌房)

场景字符识别

很多照片都包含一些文字信息,对理解图像有重要作用。

场景字符识别是在复杂背景、低分辨率、多种字体、图像随机分布的条件下,将图像信息转换成字符序列的过程。

停车场、收费站的车牌识别就是一个典型的应用场景。

cv是什么(四个cv塌房)

目标跟踪

目标跟踪是指在特定场景中跟踪一个或多个感兴趣的特定对象的过程。传统的应用是视频与现实世界的交互,在检测到初始物体后进行观察。

这项技术将用于无人驾驶。

cv是什么(四个cv塌房)

CV 在日常生活中的应用场景

计算机的应用场景非常广泛。下面是几个生活中常见的应用场景。

门禁、支付宝上的人脸识别停车场、收费站的车牌识别上传图片或视频到网站时的风险识别抖音上的各种道具(需要先识别出人脸的位置)

cv是什么(四个cv塌房)

这里需要说明的是,条码和二维码的扫描不是计算机视觉。

这种图像识别还是基于固定的规则,不需要处理复杂的图像,所以根本不需要AI技术。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。

作者:美站资讯,如若转载,请注明出处:https://www.meizw.com/n/176669.html

发表回复

登录后才能评论