高抬腿如何计数(高抬腿怎么计算个数)

作者:谢玄松,阿里达摩院开放视觉智能负责人艺术经纬:我好困【新智元导读】11 月 3 日,在 2022 云栖大会上,阿里达摩院联手 CCF 开源发展委员会共同推

作者:谢玄松,阿里达摩院开放视觉智能负责人

艺术经纬:我好困

【新智元导读】11 月 3 日,在 2022 云栖大会上,阿里达摩院联手 CCF 开源发展委员会共同推出了 AI 模型社区「魔搭」ModelScope。本文,阿里达摩院开放视觉智能负责人谢宣松,深入解析了魔搭社区里首批开源的 101 个视觉 AI 模型。

计算机是人工智能的基石,也是应用最广泛的AI技术。从日常手机解锁使用的人脸识别,到热门行业前沿的自动驾驶,视觉AI大显身手。

作为一名视觉AI研究者,我认为视觉AI的潜力还远远没有被充分发挥出来。耗尽我们科研人员的力量也只能覆盖少数行业和场景,远远不能满足整个社会的需求。

因此,在AI模型社区magic ModelScope中,我们决定全面开放达摩院开发的可视化AI模型,首批101个,大部分是SOTA或者已经过实践检验的。我们希望更多的开发者能够使用视觉AI,我们希望AI能够成为人类社会的驱动力之一。

原地高抬腿怎么计数(原地高抬腿是有氧运动吗)插图

魔术社区地址:modelscope.cn

背景

AI模型复杂,尤其是应用于工业场景时,往往需要重新训练,这使得AI只掌握在少数算法人员手中,很难普及。

新推出的Magic Community ModelScope,践行了模型即服务(Model as a Service)的全新理念,提供了许多前期训练的基础模型,只需对具体场景稍加调优即可快速投入使用。

达摩院率先向魔法社区贡献了300多个经过验证的高质量AI模型,其中超过三分之一是中国模型,完全开源开放,将模型变成直接可用的服务。

首批社区开源模型包括视觉、语音、自然语言处理、多模态等主要AI方向,积极探索AI for Science等新领域,覆盖60多个主流任务。

所有模型都经过专家筛选和效果验证,包括150多个SOTA(行业领先)模型和10多个大型模型,全部开源开放使用。

总结:以人为中心的视觉人工智能

多年来,达摩院作为阿里巴巴的基础科研机构和人才高地,在阿里的海量业务场景中开发了多项优秀的视觉AI能力,分布在各个环节:

这些视觉AI技术几乎涵盖了从理解到生成的所有方面。由于视觉技术的任务繁多,我们需要一个相对合理的分类方法,可以从形态、物体、功能、场景等几个维度进行划分:

Magic Community已经开放了第一批主要的视觉任务模型,其中包括具有学术创新性的SOTA技术和经过验证的实用模型。从“功能/任务”维度来看,这些模型涵盖了感知、理解和生产等常见类别:

视觉技术虽然有点复杂,但其实有一个核心,就是对“物”的研究,“人”一直是最重要的“物”。“以人为中心”的视觉AI技术也是最早、最深入、应用最广泛的技术。

我们从一个人的照片开始。

首先,AI需要理解这张照片/图像,比如识别这张照片是谁,有什么动作,是否能挑出图像等。

那么,我们需要进一步探索:照片质量怎么样,画质能不能更好,里面的人能不能变得更美,甚至变成动漫人,数码人等等。...

以上七个“人相关”的过程,基本涵盖了视觉任务中的“理解”、“增强”、“编辑”等大类。我们将以魔法社区开放的相关模型为例,分享以人为中心的视觉技术的特点、优势、实例和应用。

理解班级模型

1.从照片中翻出肖像

型号名称:BSHM人像地垫

体验链接:https://www.modelscope.cn/models/damo/cv _ unet _ image-matting/

从照片中挑出人像、去除背景是非常普遍的需求,也是PS的基本操作之一。而传统的人工操作费时费力,效果也不好。

Magic提供的人像抠图模型是全自动、端到端的人像抠图模型,可以实现发际线的精细分割。

我们在技术上也做了创新,有别于其他基于大量精细标注数据训练方法的模型。该模型利用粗标注数据实现精细抠图,数据要求低,精度高。

具体来说,模型框架分为三个部分:粗糙遮罩估计网络(MPN)、质量统一网络(QUN)和精确阿尔法遮罩估计网络(MRN)。

首先,我们把复杂的问题拆解开来,然后粗略地划分(MPN),再精细地划分(MRN)。

学术界有大量的粗分割数据可用,但由于粗分割数据和细分割数据的不一致,期望差距很大。因此,我们设计了质量统一网络(QUN)。

MPN的目的是估计粗略语义信息(粗略掩码),并用粗略标注数据和精细标注数据进行训练。

QUN是一个质量统一网络,用于规范粗糙面膜的质量。QUN可以统一MPN输出的粗掩膜质量。

MRN网络输入原始图像和由QUN归一化的粗略遮罩,估计精确的阿尔法遮罩,并使用精确的注释数据进行训练。

当然,与抠图分割相关的需求非常多样,我们也推出了一系列支持非人像抠图和视频抠图的模型。

开发者可以直接使用,比如辅助设计师贴图,一键贴图,大大提高设计效率,或者自由变换背景,可以实现发布会虚拟背景,ID照片,穿越等效果。这些也被阿里自己的产品(比如钉钉视频会议)和云上的客户广泛使用。

2.检测和识别它是谁

型号名称:MogFace人脸检测

体验链接:https://www.modelscope.cn/models/damo/cv _ resnet 101 _人脸检测_ cvpr22papermogface/

人脸检测和识别是人工智能的经典任务,也是应用最广泛的视觉技术之一。另一方面,它对效果和性价比的要求非常严格。

SOTA自主研发的人脸检测方法MogFace已经在六大宽脸榜单上呆了一年半以上。具体技术论文发表在CVPR2022上,主要贡献是从标签分配、尺度级数据增强和减少虚警三个方面对人脸检测器进行改进。

技术特点是:

Scale-level Data Augmentation (SSE):SSE 是第一个从 maximize pyramid layer 表征的角度来控制数据集中 gt 的尺度分布,而不是 intuitive 的假想检测器的学习能力,因此在不同场景下都很鲁棒;Adaptive Online Anchor Mining Strategy(Ali-AMS):减少对超参的依赖, 简单且有效的 adpative label assign 方法;Hierarchical Context-aware Module (HCAM):减少误检是真实世界人脸检测器面对的最大挑战,HCAM 是最近几年第一次在算法侧给出 solid solution。

人脸检测作为人脸关联的基础能力,可以应用于人脸相册/人脸编辑/人脸比对等场景。

因为人脸相关模型应用广泛,所以我们也有一系列模型的迭代计划,包括MogFace中介绍的技术点,除了HCAM不需要引入额外的计算。后续我们要建立SOTA的基于家庭的人脸检测模型;以及现实世界中的人脸检测器,除了减少误检的问题,还面临着如何提高人脸检测率以及如何平衡的问题。我们正在进一步探索。

3.人体关键点和动作的识别

型号名称:HRNet人体关键点-2D

体验链接:https://www.modelscope.cn/models/damo/cv _ hrnet v2 W32 _ body-2d-key points _ image/

本任务采用自顶向下的人体关键点检测框架,通过端到端的快速推理,可以获得图像中的15个人体关键点。

其中,人体关键点模型基于改进的HRNet主干,充分利用多分辨率特征,更好地支持日常人体姿态,在COCO数据集AP和AR50上取得了更高的准确率。

同时也优化运动健身场景,尤其是瑜伽、健身等场景,比如多遮挡、不寻常、多俯卧姿势等。,具有SOTA探测的准确性。

为了更好地适用于各种场景,我们不断优化:

针对通用场景的大模型在指标上达到 SOTA 性能;针对移动端部署的小模型,内存占用小,运行快、性能稳定,在千元机上达到 25~30FPS;针对瑜伽、跳绳技术、仰卧起坐、俯卧撑、高抬腿等体育健身计数和打分场景下多遮挡、非常见、多卧姿姿态等情况做了深度优化,提升算法精度和准确度。

该模型已广泛应用于AI运动健身和运动测试场景,如阿里体育乐力、钉钉运动、健身镜等。,也可用于三维关键点检测和三维人体重建场景。

4.摘要

以上三个“人”相关的模型都属于感知和理解的范畴。先了解世界,再改造世界。感知和理解视觉技术是最基本和应用最广泛的模型范畴,也可以分为三个子范畴:识别、检测和分割:

识别 / 分类是视觉(包括图像、视频等)技术中最基础也是最经典的任务,也是生物通过眼睛了解世界最基本的能力。简单来说,判定一组图像数据中是否包含某个特定的物体,图像特征或运动状态,知道图像视频中描述的对象和内容是什么。此外,还需要了解一些更细维度的信息,或者非实体对象的一些描述标签。目标检测的任务是找出视觉内容中感兴趣的目标(物体),确定它们的位置和大小,也是机器视觉领域的核心问题之一。一般来说,也会同时对定位到的目标进行分类识别。分割是视觉任务中又一个核心任务,相对于识别检测,它又更进一步,解决「每一个像素属于哪个目标物或场景」的问题。是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。

Magic社区开放了丰富的感知和理解模型供AI开发人员试用:

5.鸡蛋:DAMO-YOLO首次发布

型号名称:DAMOYOLO-高性能通用检测型号-S

体验链接:https://www.modelscope.cn/models/damo/cv _ tiny nas _ object-detection _ damoyolo/总结

通用目标检测是计算机视觉的基本问题之一,有着非常广泛的应用。

DAMO-YOLO是阿里推出的一种新的目标检测框架,兼顾了模型的速度和精度。其效果优于目前的YOLO级数方法,推理速度更快。

DAMO-YOLO还提供高效的培训策略和易于使用的部署工具,可以帮助开发者快速解决工业落地中的实际问题。

DAMO-YOLO引入TinyNAS技术,使用户能够根据硬件计算能力,低成本定制检测模型,从而提高硬件利用效率,获得更高的准确率。

此外,DAMO-YOLO还优化了检测模型中颈部和头部结构的设计,以及训练过程中的标签分配和数据扩充等关键因素。

得益于一系列优化,DAMO-YOLO在严格限制延迟的情况下,准确率有了显著提升,成为YOLO框架下的新SOTA。

底部视觉模型

1.去噪和模糊照片

型号名称:NAFNet图像去噪

体验地址:https://www.modelscope.cn/models/damo/cv _ NaF net _ image-de noise _ sidd/

由于拍摄环境、设备、操作等原因,图像质量差的情况时有存在。如何去除噪点,模糊这些图像?

该模型在图像恢复领域具有很好的推广性,无论是图像去噪还是图像去模糊任务都达到了目前的SOTA。

由于技术创新,该模型使用简单乘法代替激活函数,在不影响性能的情况下提高了处理速度。

这个模型的全称是NAFNet去噪模型,即非线性激活自由网络,证明了常见的非线性激活函数(Sigmoid,ReLU,GELU,Softmax等。)不是必需的,但是它们可以通过乘法算法来移除或替换。该模型是CNN结构设计的重要创新。

该模型可以用作许多应用的预处理步骤,例如智能手机中的图像去噪和图像运动模糊去除。

2.照片恢复和增强

模型名称:GPEN人像增强模型

体验地址:https://www.modelscope.cn/models/damo/cv _ gpen _图像-人像-增强/

除了照片去噪,照片的质量(包括分辨率、细节纹理、色彩等。)会有更高的加工要求。我们还开放专门的人像增强模型,对输入图像中每一幅检测到的人像进行修复和增强,并使用RealESRNet对图像中的非人像区域进行双倍超分辨率,最终返回修复后的完整图像。该模型可以鲁棒地处理最复杂的真实退化和修复严重受损的肖像。

从效果来看,GPEN人像增强模型将预先训练好的StyleGAN2网络作为解码器嵌入到完整的模型中,最终借助finetune实现修复功能,在多项指标上达到了业界领先的效果。

从应用的角度来看,该模型可以修复旧的家庭照片或旧的明星照片,手机晚上拍的低质量照片,旧视频中的人像等。

后续会增加1024、2048等支持高分辨率人脸处理的预训练模型,并对模型效果不断更新迭代。

3.摘要

视觉的底层侧重于画质。只要是有生命的东西(包括人),都会对细节、形状、色彩、流畅度等敏感。光影造成的。人们对高画质的追求是比较自然的,但是由于各种现实条件的限制,画质往往并不理想。这时候视觉AI就可以派上用场了。

从任务分类上,可以分为:清晰度(分辨率/细节、噪点/划痕、帧率)、色彩(亮度、偏色等。)、缺陷修复(皮肤优化、去水印字幕)等。,如下表所示:

编辑班级模型

1.变得更漂亮

型号名称:ABPN人像护肤

体验链接:https://www.modelscope.cn/models/damo/cv _ unet _ skin-退役/

人们对自己照片和人像的审美有刚性需求,包括斑点、色彩、瑕疵等。,甚至是高,矮,胖,瘦。此次开放专业级人像美肤液化模型供您使用。

在该模型中,提出了一种新的自适应混合模块ABM,它利用自适应混合层来实现局部精确的图像修饰。此外,基于ABM,我们进一步构建了混合层金字塔,实现了超高清图像的快速修饰。

与现有的图像修图方法相比,ABPN在修图精度和速度上都有很大的提高。ABPN人像护肤模式是ABPN模式在人像护肤任务中的具体应用。

下面的例子:

再者,我们还可以在服装上做一些有趣的尝试,比如除皱:

甚至苗条美丽:

体验链接:https://www.modelscope.cn/models/damo/cv _基于流量-身体重塑_达摩/总结

就效果而言,它有以下特点:

局部修饰。只对目标区域进行编辑,保持非目标区域不动。精准修饰。充分考虑目标本身的纹理特征和全局上下文信息,以实现精准修饰,去除瑕疵的同时保留皮肤本身的质感。超高分辨率的处理能力。模型的混合图层金字塔设计,使其可以处理超高分辨率图像(4K~6K)。

该模型具有很强的实用性,例如可以应用于专业修图领域,如影楼、广告等。,提高生产力,也可以应用到现场娱乐场景,改善人像的皮肤质感。

2.成为一个卡通人

模型名称:DCT-Net人像卡通用模型

体验链接:https://www.modelscope.cn/models/damo/cv _ unet _人物-形象-漫画_复合-模特/

人像卡是一款互动性很强的游戏,同时也有很多风格可以选择。魔开人像卡模型基于全新的域校准图像翻译网络DCT-NET(Domain-calibrated Translation),采用“先全局特征校准,后局部纹理转换”的核心思想。利用数百个小样本风格数据,可以训练出一个轻量级的、稳定的风格转换器,实现高保真、鲁棒性强、易于扩展的高质量人像风格转换效果。

下面的例子:

从效果上看:

DCT-Net 具备内容匹配的高保真能力,能有效保留原图内容中的人物 ID、配饰、身体部件、背景等细节特征;DCT-Net 具备面向复杂场景的强鲁棒能力,能轻松处理面部遮挡、稀有姿态等;DCT-Net 在处理维度上和风格适配度上具有易拓展性,利用头部数据即可拓展至全身像 / 全图的精细化风格转换,同时模型具有通用普适性,适配于日漫风、3D、手绘等多种风格转换。

后续我们还会开放系列的卡通化。除了图像转换,后续还会包括图像、视频、3D卡通化等一系列效果。我们先来看看一些效果:

3.摘要

这种模型修改图像内容,包括编辑和处理源图像的内容(添加、删除、更改等。),或者直接生成一个新的视觉内容,改变一种风格,得到一个新的图像(基于源图像,与源图像不同),都属于编辑生成的范畴。可以理解为从A图得到B图的过程。

行业情景模型

正如开头提到的,视觉AI技术的价值存在于广泛的场景中。除了以上提到的与“人”相关的视觉AI技术,我们还从互联网、工业、互娱、媒体、安防、医疗等方面开辟了多个实用模型。这些模型可以立即使用,或者基于针对开发人员和客户特定场景的finetune培训或自学工具进行进一步处理和改进。这里有一个例子:

型号名称:烟雾探测(集成)

模型的作用:可用于室内外的火焰探测和烟雾探测,在森林、城市道路、公园、卧室、办公区、厨房、吸烟场所等。算法经过近2年的打磨,已经在多个客户场景中应用,整体效果比较稳定。

从技术角度来看,该模型提出了相关块来提高多帧检测精度,其设计的数据增强方法提高了识别灵敏度,有效控制了虚警。

从应用角度来看,模型可以应用于室内和室外场景,只有手机拍摄、监控摄像头等简单设备才能实现模型功能。

结论:视觉人工智能的开放未来

通过以上分析,我们可以发现视觉AI的应用潜力极其广泛,社会需求极其多样,但现实情况是视觉AI的供给能力非常有限。

在ModelScope的神奇之前,达也院率先以API形式开放视觉AI服务,通过公共云平台为AI开发者提供一站式视觉在线服务平台,即视觉智能开放平台(vision.aliyun.com),其中开放了超200个API,涵盖基础视觉、行业视觉等多个方面,包括上述“以人为中心”的视觉技术。

从开放的视觉平台到魔法社区,这意味着达摩院的视觉AI开放迈出了更大的一步。从OpenAPI到OpenSDK、OpenSOTA,从公有云到端云协作,从平台到社区,希望满足万千行业对视觉AI的需求,推动视觉AI的生态发展。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。

作者:美站资讯,如若转载,请注明出处:https://www.meizw.com/n/258486.html

发表回复

登录后才能评论