高抬腿如何计数(高抬腿怎么计算个数)

作者:谢玄松，阿里达摩院开放视觉智能负责人

艺术经纬:我好困

【新智元导读】11 月 3 日，在 2022 云栖大会上，阿里达摩院联手 CCF 开源发展委员会共同推出了 AI 模型社区「魔搭」ModelScope。本文，阿里达摩院开放视觉智能负责人谢宣松，深入解析了魔搭社区里首批开源的 101 个视觉 AI 模型。

计算机是人工智能的基石，也是应用最广泛的AI技术。从日常手机解锁使用的人脸识别，到热门行业前沿的自动驾驶，视觉AI大显身手。

作为一名视觉AI研究者，我认为视觉AI的潜力还远远没有被充分发挥出来。耗尽我们科研人员的力量也只能覆盖少数行业和场景，远远不能满足整个社会的需求。

因此，在AI模型社区magic ModelScope中，我们决定全面开放达摩院开发的可视化AI模型，首批101个，大部分是SOTA或者已经过实践检验的。我们希望更多的开发者能够使用视觉AI，我们希望AI能够成为人类社会的驱动力之一。

魔术社区地址:modelscope.cn

背景

AI模型复杂，尤其是应用于工业场景时，往往需要重新训练，这使得AI只掌握在少数算法人员手中，很难普及。

新推出的Magic Community ModelScope，践行了模型即服务(Model as a Service)的全新理念，提供了许多前期训练的基础模型，只需对具体场景稍加调优即可快速投入使用。

达摩院率先向魔法社区贡献了300多个经过验证的高质量AI模型，其中超过三分之一是中国模型，完全开源开放，将模型变成直接可用的服务。

首批社区开源模型包括视觉、语音、自然语言处理、多模态等主要AI方向，积极探索AI for Science等新领域，覆盖60多个主流任务。

所有模型都经过专家筛选和效果验证，包括150多个SOTA(行业领先)模型和10多个大型模型，全部开源开放使用。

总结:以人为中心的视觉人工智能

多年来，达摩院作为阿里巴巴的基础科研机构和人才高地，在阿里的海量业务场景中开发了多项优秀的视觉AI能力，分布在各个环节:

这些视觉AI技术几乎涵盖了从理解到生成的所有方面。由于视觉技术的任务繁多，我们需要一个相对合理的分类方法，可以从形态、物体、功能、场景等几个维度进行划分:

Magic Community已经开放了第一批主要的视觉任务模型，其中包括具有学术创新性的SOTA技术和经过验证的实用模型。从“功能/任务”维度来看，这些模型涵盖了感知、理解和生产等常见类别:

视觉技术虽然有点复杂，但其实有一个核心，就是对“物”的研究，“人”一直是最重要的“物”。“以人为中心”的视觉AI技术也是最早、最深入、应用最广泛的技术。

我们从一个人的照片开始。

首先，AI需要理解这张照片/图像，比如识别这张照片是谁，有什么动作，是否能挑出图像等。

那么，我们需要进一步探索:照片质量怎么样，画质能不能更好，里面的人能不能变得更美，甚至变成动漫人，数码人等等。...

以上七个“人相关”的过程，基本涵盖了视觉任务中的“理解”、“增强”、“编辑”等大类。我们将以魔法社区开放的相关模型为例，分享以人为中心的视觉技术的特点、优势、实例和应用。

理解班级模型

1.从照片中翻出肖像

型号名称:BSHM人像地垫

体验链接:https://www.modelscope.cn/models/damo/cv _ unet _ image-matting/

从照片中挑出人像、去除背景是非常普遍的需求，也是PS的基本操作之一。而传统的人工操作费时费力，效果也不好。

Magic提供的人像抠图模型是全自动、端到端的人像抠图模型，可以实现发际线的精细分割。

我们在技术上也做了创新，有别于其他基于大量精细标注数据训练方法的模型。该模型利用粗标注数据实现精细抠图，数据要求低，精度高。

具体来说，模型框架分为三个部分:粗糙遮罩估计网络(MPN)、质量统一网络(QUN)和精确阿尔法遮罩估计网络(MRN)。

首先，我们把复杂的问题拆解开来，然后粗略地划分(MPN)，再精细地划分(MRN)。

学术界有大量的粗分割数据可用，但由于粗分割数据和细分割数据的不一致，期望差距很大。因此，我们设计了质量统一网络(QUN)。

MPN的目的是估计粗略语义信息(粗略掩码)，并用粗略标注数据和精细标注数据进行训练。

QUN是一个质量统一网络，用于规范粗糙面膜的质量。QUN可以统一MPN输出的粗掩膜质量。

MRN网络输入原始图像和由QUN归一化的粗略遮罩，估计精确的阿尔法遮罩，并使用精确的注释数据进行训练。

当然，与抠图分割相关的需求非常多样，我们也推出了一系列支持非人像抠图和视频抠图的模型。

开发者可以直接使用，比如辅助设计师贴图，一键贴图，大大提高设计效率，或者自由变换背景，可以实现发布会虚拟背景，ID照片，穿越等效果。这些也被阿里自己的产品(比如钉钉视频会议)和云上的客户广泛使用。

2.检测和识别它是谁

型号名称:MogFace人脸检测

体验链接:https://www.modelscope.cn/models/damo/cv _ resnet 101 _人脸检测_ cvpr22papermogface/

人脸检测和识别是人工智能的经典任务，也是应用最广泛的视觉技术之一。另一方面，它对效果和性价比的要求非常严格。

SOTA自主研发的人脸检测方法MogFace已经在六大宽脸榜单上呆了一年半以上。具体技术论文发表在CVPR2022上，主要贡献是从标签分配、尺度级数据增强和减少虚警三个方面对人脸检测器进行改进。

技术特点是:

Scale-level Data Augmentation (SSE)：SSE 是第一个从 maximize pyramid layer 表征的角度来控制数据集中 gt 的尺度分布，而不是 intuitive 的假想检测器的学习能力，因此在不同场景下都很鲁棒；Adaptive Online Anchor Mining Strategy(Ali-AMS)：减少对超参的依赖，简单且有效的 adpative label assign 方法；Hierarchical Context-aware Module (HCAM)：减少误检是真实世界人脸检测器面对的最大挑战，HCAM 是最近几年第一次在算法侧给出 solid solution。

人脸检测作为人脸关联的基础能力，可以应用于人脸相册/人脸编辑/人脸比对等场景。

因为人脸相关模型应用广泛，所以我们也有一系列模型的迭代计划，包括MogFace中介绍的技术点，除了HCAM不需要引入额外的计算。后续我们要建立SOTA的基于家庭的人脸检测模型；以及现实世界中的人脸检测器，除了减少误检的问题，还面临着如何提高人脸检测率以及如何平衡的问题。我们正在进一步探索。

3.人体关键点和动作的识别

型号名称:HRNet人体关键点-2D

体验链接:https://www.modelscope.cn/models/damo/cv _ hrnet v2 W32 _ body-2d-key points _ image/

本任务采用自顶向下的人体关键点检测框架，通过端到端的快速推理，可以获得图像中的15个人体关键点。

其中，人体关键点模型基于改进的HRNet主干，充分利用多分辨率特征，更好地支持日常人体姿态，在COCO数据集AP和AR50上取得了更高的准确率。

同时也优化运动健身场景，尤其是瑜伽、健身等场景，比如多遮挡、不寻常、多俯卧姿势等。，具有SOTA探测的准确性。

为了更好地适用于各种场景，我们不断优化:

针对通用场景的大模型在指标上达到 SOTA 性能；针对移动端部署的小模型，内存占用小，运行快、性能稳定，在千元机上达到 25～30FPS；针对瑜伽、跳绳技术、仰卧起坐、俯卧撑、高抬腿等体育健身计数和打分场景下多遮挡、非常见、多卧姿姿态等情况做了深度优化，提升算法精度和准确度。

该模型已广泛应用于AI运动健身和运动测试场景，如阿里体育乐力、钉钉运动、健身镜等。，也可用于三维关键点检测和三维人体重建场景。

4.摘要

以上三个“人”相关的模型都属于感知和理解的范畴。先了解世界，再改造世界。感知和理解视觉技术是最基本和应用最广泛的模型范畴，也可以分为三个子范畴:识别、检测和分割:

识别 / 分类是视觉（包括图像、视频等）技术中最基础也是最经典的任务，也是生物通过眼睛了解世界最基本的能力。简单来说，判定一组图像数据中是否包含某个特定的物体，图像特征或运动状态，知道图像视频中描述的对象和内容是什么。此外，还需要了解一些更细维度的信息，或者非实体对象的一些描述标签。目标检测的任务是找出视觉内容中感兴趣的目标（物体），确定它们的位置和大小，也是机器视觉领域的核心问题之一。一般来说，也会同时对定位到的目标进行分类识别。分割是视觉任务中又一个核心任务，相对于识别检测，它又更进一步，解决「每一个像素属于哪个目标物或场景」的问题。是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。

Magic社区开放了丰富的感知和理解模型供AI开发人员试用:

5.鸡蛋:DAMO-YOLO首次发布

型号名称:DAMOYOLO-高性能通用检测型号-S

体验链接:https://www.modelscope.cn/models/damo/cv _ tiny nas _ object-detection _ damoyolo/总结

通用目标检测是计算机视觉的基本问题之一，有着非常广泛的应用。

DAMO-YOLO是阿里推出的一种新的目标检测框架，兼顾了模型的速度和精度。其效果优于目前的YOLO级数方法，推理速度更快。

DAMO-YOLO还提供高效的培训策略和易于使用的部署工具，可以帮助开发者快速解决工业落地中的实际问题。

DAMO-YOLO引入TinyNAS技术，使用户能够根据硬件计算能力，低成本定制检测模型，从而提高硬件利用效率，获得更高的准确率。

此外，DAMO-YOLO还优化了检测模型中颈部和头部结构的设计，以及训练过程中的标签分配和数据扩充等关键因素。

得益于一系列优化，DAMO-YOLO在严格限制延迟的情况下，准确率有了显著提升，成为YOLO框架下的新SOTA。

底部视觉模型

1.去噪和模糊照片

型号名称:NAFNet图像去噪

体验地址:https://www.modelscope.cn/models/damo/cv _ NaF net _ image-de noise _ sidd/

由于拍摄环境、设备、操作等原因，图像质量差的情况时有存在。如何去除噪点，模糊这些图像？

该模型在图像恢复领域具有很好的推广性，无论是图像去噪还是图像去模糊任务都达到了目前的SOTA。

由于技术创新，该模型使用简单乘法代替激活函数，在不影响性能的情况下提高了处理速度。

这个模型的全称是NAFNet去噪模型，即非线性激活自由网络，证明了常见的非线性激活函数(Sigmoid，ReLU，GELU，Softmax等。)不是必需的，但是它们可以通过乘法算法来移除或替换。该模型是CNN结构设计的重要创新。

该模型可以用作许多应用的预处理步骤，例如智能手机中的图像去噪和图像运动模糊去除。

2.照片恢复和增强

模型名称:GPEN人像增强模型

体验地址:https://www.modelscope.cn/models/damo/cv _ gpen _图像-人像-增强/

除了照片去噪，照片的质量(包括分辨率、细节纹理、色彩等。)会有更高的加工要求。我们还开放专门的人像增强模型，对输入图像中每一幅检测到的人像进行修复和增强，并使用RealESRNet对图像中的非人像区域进行双倍超分辨率，最终返回修复后的完整图像。该模型可以鲁棒地处理最复杂的真实退化和修复严重受损的肖像。

从效果来看，GPEN人像增强模型将预先训练好的StyleGAN2网络作为解码器嵌入到完整的模型中，最终借助finetune实现修复功能，在多项指标上达到了业界领先的效果。

从应用的角度来看，该模型可以修复旧的家庭照片或旧的明星照片，手机晚上拍的低质量照片，旧视频中的人像等。

后续会增加1024、2048等支持高分辨率人脸处理的预训练模型，并对模型效果不断更新迭代。

3.摘要

视觉的底层侧重于画质。只要是有生命的东西(包括人)，都会对细节、形状、色彩、流畅度等敏感。光影造成的。人们对高画质的追求是比较自然的，但是由于各种现实条件的限制，画质往往并不理想。这时候视觉AI就可以派上用场了。

从任务分类上，可以分为:清晰度(分辨率/细节、噪点/划痕、帧率)、色彩(亮度、偏色等。)、缺陷修复(皮肤优化、去水印字幕)等。，如下表所示:

编辑班级模型

1.变得更漂亮

型号名称:ABPN人像护肤

体验链接:https://www.modelscope.cn/models/damo/cv _ unet _ skin-退役/

人们对自己照片和人像的审美有刚性需求，包括斑点、色彩、瑕疵等。，甚至是高，矮，胖，瘦。此次开放专业级人像美肤液化模型供您使用。

在该模型中，提出了一种新的自适应混合模块ABM，它利用自适应混合层来实现局部精确的图像修饰。此外，基于ABM，我们进一步构建了混合层金字塔，实现了超高清图像的快速修饰。

与现有的图像修图方法相比，ABPN在修图精度和速度上都有很大的提高。ABPN人像护肤模式是ABPN模式在人像护肤任务中的具体应用。

下面的例子:

再者，我们还可以在服装上做一些有趣的尝试，比如除皱:

甚至苗条美丽:

体验链接:https://www.modelscope.cn/models/damo/cv _基于流量-身体重塑_达摩/总结

就效果而言，它有以下特点:

局部修饰。只对目标区域进行编辑，保持非目标区域不动。精准修饰。充分考虑目标本身的纹理特征和全局上下文信息，以实现精准修饰，去除瑕疵的同时保留皮肤本身的质感。超高分辨率的处理能力。模型的混合图层金字塔设计，使其可以处理超高分辨率图像（4K~6K）。

该模型具有很强的实用性，例如可以应用于专业修图领域，如影楼、广告等。，提高生产力，也可以应用到现场娱乐场景，改善人像的皮肤质感。

2.成为一个卡通人

模型名称:DCT-Net人像卡通用模型

体验链接:https://www.modelscope.cn/models/damo/cv _ unet _人物-形象-漫画_复合-模特/

人像卡是一款互动性很强的游戏，同时也有很多风格可以选择。魔开人像卡模型基于全新的域校准图像翻译网络DCT-NET(Domain-calibrated Translation)，采用“先全局特征校准，后局部纹理转换”的核心思想。利用数百个小样本风格数据，可以训练出一个轻量级的、稳定的风格转换器，实现高保真、鲁棒性强、易于扩展的高质量人像风格转换效果。

下面的例子:

从效果上看:

DCT-Net 具备内容匹配的高保真能力，能有效保留原图内容中的人物 ID、配饰、身体部件、背景等细节特征；DCT-Net 具备面向复杂场景的强鲁棒能力，能轻松处理面部遮挡、稀有姿态等；DCT-Net 在处理维度上和风格适配度上具有易拓展性，利用头部数据即可拓展至全身像 / 全图的精细化风格转换，同时模型具有通用普适性，适配于日漫风、3D、手绘等多种风格转换。

后续我们还会开放系列的卡通化。除了图像转换，后续还会包括图像、视频、3D卡通化等一系列效果。我们先来看看一些效果:

3.摘要

这种模型修改图像内容，包括编辑和处理源图像的内容(添加、删除、更改等。)，或者直接生成一个新的视觉内容，改变一种风格，得到一个新的图像(基于源图像，与源图像不同)，都属于编辑生成的范畴。可以理解为从A图得到B图的过程。

行业情景模型

正如开头提到的，视觉AI技术的价值存在于广泛的场景中。除了以上提到的与“人”相关的视觉AI技术，我们还从互联网、工业、互娱、媒体、安防、医疗等方面开辟了多个实用模型。这些模型可以立即使用，或者基于针对开发人员和客户特定场景的finetune培训或自学工具进行进一步处理和改进。这里有一个例子:

型号名称:烟雾探测(集成)

模型的作用:可用于室内外的火焰探测和烟雾探测，在森林、城市道路、公园、卧室、办公区、厨房、吸烟场所等。算法经过近2年的打磨，已经在多个客户场景中应用，整体效果比较稳定。

从技术角度来看，该模型提出了相关块来提高多帧检测精度，其设计的数据增强方法提高了识别灵敏度，有效控制了虚警。

从应用角度来看，模型可以应用于室内和室外场景，只有手机拍摄、监控摄像头等简单设备才能实现模型功能。

结论:视觉人工智能的开放未来

通过以上分析，我们可以发现视觉AI的应用潜力极其广泛，社会需求极其多样，但现实情况是视觉AI的供给能力非常有限。

在ModelScope的神奇之前，达也院率先以API形式开放视觉AI服务，通过公共云平台为AI开发者提供一站式视觉在线服务平台，即视觉智能开放平台(vision.aliyun.com)，其中开放了超200个API，涵盖基础视觉、行业视觉等多个方面，包括上述“以人为中心”的视觉技术。

从开放的视觉平台到魔法社区，这意味着达摩院的视觉AI开放迈出了更大的一步。从OpenAPI到OpenSDK、OpenSOTA，从公有云到端云协作，从平台到社区，希望满足万千行业对视觉AI的需求，推动视觉AI的生态发展。

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。

作者：美站资讯，如若转载，请注明出处：https://www.meizw.com/n/258486.html

高抬腿如何计数(高抬腿怎么计算个数)

相关推荐

发表回复