-
快速掌握计算机视觉大部分领域,学习人脸图像是唯一选择
2020-08-27 07:00:00文末有惊喜笔者是从传统图像算法开始进入计算机视觉行业的,那一批人基本上都是从人脸图像和文本图像开始学,而如今很多计算机视觉从业者却从来没有接触过人脸图像相关的算法,或许真的是时代变了吧。...文末有惊喜
笔者是从传统图像算法开始进入计算机视觉行业的,那一批人基本上都是从人脸图像和文本图像开始学,而如今很多计算机视觉从业者却从来没有接触过人脸图像相关的算法,或许真的是时代变了吧。
但笔者想说的是,如果你想快速系统地串联计算机视觉领域的知识,人脸图像应该是唯一选择,没有其他类型的图像可以覆盖底层图像特征,目标检测与跟踪,图像分类和检索,图像滤波,图像分割,三维重建,风格迁移等方向,并且能够做到相互融合从而进行工业界落地。如果你还不知道人脸图像能做什么,不如看一看上面的1分钟视频,然后我们接下来细看到底都有些什么。
底层图像特征
或许很多经典的底层图像特征已经PK不过现在的深度学习模型学习到的特征,但是思想是永恒的,在人脸这个领域,有一些特征理解起来非常直观。
特征通常可以分为颜色特征、纹理特征、形状特征,下面我们看看在人脸方向有哪些很经典的东西。
第一个是肤色高斯模型,它是颜色特征。尽管人有白、黄、黑三种肤色,但研究证明,肤色在某些颜色空间上的差异性主要体现在亮度上,在色度上具有较好的聚类表现。因此根据肤色属性所具有的规律和分布情况对肤色建模,便可以将肤色与非肤色区域区分开。肤色高斯模型在早期可以常用人脸检测,现在也常用于辅助一些模型进行人脸区域的快速定位。
第二个是haar特征,它是纹理特征。脸部有一些固有的属性,比如眼睛要比脸颊颜色要深,鼻梁两侧比鼻梁颜色要深,嘴巴比周围颜色要深等。Haar特征通过对相邻图像块进行灰度比较,并使用积分图像进行快速计算,在大名鼎鼎的V-J算法中被使用。如果研究过OpenCV人脸检测算法的,不可能不知道。
第三个是形状特征,基于人脸特征关键点就可以计算出一系列的形状特征,因为人脸关键点是眉毛、眼睛、鼻子、嘴巴、脸部等有语义的特征点,每个人脸都通用却有独特性,对于光照姿态等有很强的不变性。
目标检测与跟踪
目标检测可以说是计算机视觉方向中从业者最多的了,不然也不会出现千篇一律的简历中写着跑过Yolo算法,人脸检测就是目标检测的一个子领域。
尽管通用的目标检测算法可以用于人脸检测,但是人脸检测依然有它的特点,比如早期的时候一些方法会挨个检测人脸的各个部位,然后组合成最终人脸。以MTCNN为代表的框架会把人脸检测和关键点检测问题进行联合处理。
而如今,在目标检测领域中的一些难题在人脸检测领域同样广泛存在,比如大姿态人脸、遮挡人脸、模糊小脸,甚至是伪造人脸,搞明白了人脸检测,目标检测还会是问题吗?
另一方面,工业界应用的时候不仅要做检测,还需要做跟踪平滑,此时常常需要应用卡尔曼滤波等传统算法,而不仅仅是一个模型就能搞定,更复杂完整的项目,才能更好地锻炼能力。
图像分类和检索
没有人不知道图像分类问题,而为我们所熟悉的人脸识别系统,其中一条典型的技术路线就是图像分类+验证+检索模型的组合。
以上图DeepFace为例,它首先对输入人脸经过3D对齐,然后使用数据集训练一个人脸分类器得到人脸特征提取网络,最后使用Siamese网络训练人脸验证网络。这样一来,就解决了人脸特征的问题,即将高维的人脸表达成了一个低维的特征,接下来就是进行人脸的聚类与检索。
如今人脸识别系统虽然已经大规模商业化,但并不意味着这里面就没有事情可以做了。遮挡人脸识别,跨姿态人脸识别,跨年龄人脸识别,妆造不变人脸识别,光照不变人脸识别,少样本人脸识别,3D人脸识别,视频人脸识别等都是现实存在的难题。
解决上面这些问题,不仅需要新的技术,也需要对分类检索等老技术的改进。
图像滤波
图像滤波是一类很底层的图像处理方法,在图像降噪,图像去模糊,图像修复等底层图像处理领域中是核心技术。那么在人脸图像中,又用在了哪里呢?大家或许不知道技术,但是不可能没有接触过,那就是人像美颜,熟的不能在熟的磨皮美白大法。
其中常见的方法包括均值滤波,双边滤波,引导滤波,以及针对这些方法的改进。掌握了核心技术,从人脸美颜迁移到其他的图像增强领域,就很自然了。
三维重建
三维重建即3D Reconstruction,在计算机视觉中,三维重建是指根据单视图或者多视图的图像重建三维信息的过程,通常需要从二维的图像投影恢复出物体的三维形状和纹理信息,这是接下来计算机视觉会取得突破的重点领域,而人脸的三维重建问题,实在是太典型了。
从基于单张图的3DMM等人脸通用模型与Shape from Shading(SfS)等优化方法,到基于多张图的立体视觉,基于视频的Structure from Motion(SfM),端到端的与端到端的模型,传统的与深度学习方法,这个领域涉及的算法非常多,而且难度较高。
另外,如何逼真地重建出人脸的细节信息,如何在二维的人脸被遮挡后还能进行重建,都是当前人脸重建领域要解决的难题,研究起来有足够的技术深度,一旦攻克也有大量商用场景。
另外3D与图形学有非常紧密的联系,使得这些技术在内容创作上有非常大的商业价值,难道你不想加入其中吗?
图像编辑与风格化
随着生成对抗网络等技术的发展,当前图像编辑与风格化正在成为计算机视觉领域的新热点,其中尤其是人脸图像落地能力最强,在人机交互,娱乐社交,内容创作等领域应用非常广泛。
从人脸年龄编辑、人脸卡通头像生成、换脸等全局性质的编辑,到人脸表情编辑,人脸发型,人脸化妆去妆等局部性质等编辑,几乎覆盖了图像编辑与风格化的所有关键技术。当前交互式,可控的编辑模型也是研究重点。
书中各章节内容如下:
这是市面上唯一一本将人脸各领域这几年的核心算法讲清楚的书,而且在可预见的几年内都可能如此。
卖点:
配套超完整学习资料、视频与PPT,让你全方位无死角掌握人脸图像处理核心技术。
本书理论体系完备,讲解时提供大量实例,可供读者实战演练。
本书涵盖的内容非常广泛,从基本的人脸数据集发展历史和人脸检测开始,分别讲述在此基础上进行的人脸图像处理的相关技术与应用,涉及身份识别、安全认证、人机交互和娱乐社交等领域。
推荐语:
奇虎360人工智能研究院/陌陌深度学习实验室前算法工程师用心之作!7余年人脸图像算法研究心得与实战经验深度分享,聚焦核心算法与典型应用场景。
敲黑板啦
主讲人:言有三——技术公众号《有三AI》号主,高级算法工程师
人脸图像是计算机视觉领域中研究最广泛的一类图像,有着大量的落地应用。
今晚20点,技术公众号《有三AI》号主,高级算法工程师言有三老师为你带来“人脸图像算法及其应用”直播课,带你了解人脸图像研究领域的核心算法,带你进人脸图像的实践之门!
直播间内还有好书5折优惠,不要错过哦~
更多精彩回顾
上新 | 首本深入讲解Linux内核观测技术BPF的书上市!
书单 | 《天才引导的历程》| 西安交通大学送给准大一新生的礼物收藏 | 揭秘阿里巴巴的客群画像
点击阅读全文购买
-
全球唯一实现量产,视觉自主机器人公司灵动科技获1亿元B轮融资
2019-03-21 10:32:593月21日消息,视觉自主机器人公司灵动科技(ForwardX)获得1亿元B轮融资,由湖畔里程领投, 交银国际、九弦资本跟投,A轮投资人鼎晖投资、钟鼎资本继续跟投。 2017年9月,灵动科技即获得由鼎晖投资、钟鼎创投共同...3月21日消息,视觉自主机器人公司灵动科技(ForwardX)获得1亿元B轮融资,由湖畔里程领投, 交银国际、九弦资本跟投,A轮投资人鼎晖投资、钟鼎资本继续跟投。
2017年9月,灵动科技即获得由鼎晖投资、钟鼎创投共同领投的千万美元A轮融资,在那之前的一年时间内,灵动科技还完成了种子轮和天使轮融资。
作为一个自主机器人技术平台,灵动科技基于计算机视觉,研发产品主要应用在2B和2C领域,核心是让机器人拥有“深度学习大脑”,给机器人感知环境、自主移动的能力,赋能传统制造业和物流业。
灵动科技创始人兼CEO齐欧在接受投资界采访时表示,灵动科技目前是全球唯一实现量产的视觉自主机器人公司,而本次融资则用于物流和消费机器人的量产出货。
灵动科技创始人兼CEO齐欧
蛰伏
灵动科技是一家新技术公司,不过齐欧已经是机器人行业的“老前辈”了。
创立这家公司前,齐欧在微软亚研院供职1年,SAP产品开发5年,又在甲骨文负责产品和销售7年。再往前追溯,他在2003年即获得全国机器人大赛(Robocon)中国区冠军。
拿下2005年大赛第四届Robocon机器人大赛的香港赛区冠军的汪滔,2006年创立大疆无人机,并在之后十多年中占领全球消费无人机市场7成份额。而2007年第六届Robocon中国区冠军周伟,则从平衡车起步创立了乐行科技。
齐欧却一直在观望。
据不完全统计,2015年国内只有458家机器人公司,核心技术仍被国外垄断,业内也并没有太多落地应用的案例。
到了2015年底,蛰伏的齐欧突然很亢奋,他发现无论在学界还是工业界,神经网络技术和人工智能开始出现了应用案例。2017全年,167家人工智能相关公司融资逾50亿美元。专注于计算机视觉算法的商汤和旷视,已成为AI大独角兽。
行业的变化、资本的涌入让齐欧看到了等待已久的机会,甲骨文服务云产品线中国区副总裁、甲骨文全球最年轻的总监、“全球Top100贡献者”等光环,再也吸引不了他。2016年5月,他将灵动科技注册在中国,同年10月,美国公司成立。
“创业要看机缘。”齐欧说,只有赶上技术变革的关键一刻,才有可能成就伟大公司和平台。他希望扎根在人工智能+机器人领域,“红海虽然竞争激烈,但也说明你选的方向对了。”齐欧表示。
卡位
麦肯锡2017年一份研究报告里指出,到2030年,全球预计将有4亿~8亿人会被自动化取代,相当于今天全球劳动力的20%。当然,目前的自动化还不会实质性威胁到对管理能力、专业能力、创造力及人际沟通能力要求高的工作,但对数据收集、数据分析、可预测领域中的重复性体力工作,则会有非常大的冲击。
AI本质是解决生产力的问题,齐欧介绍,灵动科技则是为重复、可预期、危险的体力劳动提供高效、低成本、安全智能的解决方案。
按照这一思路,灵动科技产品团队从100多个方向中首先筛选出了行业规模大、自动化程度较高、即便出错危害也尽可能小的几个方向集中进行产品研制,最终选择了物流。
比如仓储和物流机器人,据Tractica 预测,2021 年全球出货量将由 2016 年的 4 万台增长至 62 万台;行业收入则有望从 2016 年的 19 亿美元增至 224 亿美元,中国市场则占全球市场的80%。
再比如全球每年割草机销量约650万台,市场规模达125亿美元,若无人割草机可达10%渗透率,则对应着近百亿元人民币的市场空间。
护城河
灵动科技的产品研发一方面瞄准2B,一方面紧盯2C。
结合自己在北航学习集成电路及甲骨文从事云服务的积累,齐欧将灵动科技定位于成为全球鲜见的用AI技术全面再造“感知+决策+控制”的机器人平台,他总结为人工智能的“铁人三项”——算法+场景+硬件的一体化解决方案。
伴随着AI技术的持续发展,其落地应用也从最初的人脸识别/语音识别迈向更加多样化、场景化的方向。灵动通过将机器视觉、决策规划、底盘控制技术融合已搭建较为完备的AMR(Autonomous Mobile Robots,自主移动机器人)技术平台,其可渗透领域包括消费电子、物流协作机器人、服务机器人等各类需要由机器人替代人类走动的场景。
采访中,齐欧表示,国内人工智能知名企业商汤、旷视等相对更侧重算法,也即视觉识别的“大脑”决策中枢突破。
至于怎样在0.1秒内通过多神经网络并行执行等AI技术,结合视觉识别到大脑决策,再到轮式底盘控制、成为具备端到端自主行动控制能力的“半智机器人”,提供“眼+大脑+小脑+手/脚”的AI解决方案,目前全球唯灵动科技一家。
齐欧坦言,这样的赛道卡位虽然最难,可一旦突破,也最能收获技术突破后带来的发展红利。
成立不到三年,灵动科技已经研制了多款具有全球原创技术的产品,包括:全球首款视觉仓储协作机器人——电商小件3C仓BX100、电商中大件仓BX350、无人叉车等,以及2019年CES爆红产品——全球首款智能侧跟登机箱OVIS,智能自动割草机等。
并且,投资界了解到,研发之外,灵动科技已建立了稳定的生产供应链。其中,仓储协作机器人的投入使用,可以让一个拣货员实现2倍以上的工作效率。据了解,视觉导航AMR(电商小件3C仓BX100、电商中大件仓BX350、叉车等)已成为DHL全球合伙伙伴,同时应用到京东、亚马逊等的物流仓库,预计2019年部署量超过1000台。
基于安全性和稳定性的考虑,目前灵动科技的仓储协作AMR产品的主要传感器是摄像头,但仍需使用单线激光雷达完成辅助避障,未来随着算法的不断迭代可逐渐降低对激光雷达传感器的依赖,逐渐减配到低端单线激光雷达或取消激光雷达。AMR为保证VSLAM和神经网络的算力需求,配备了Intel i7 + Nvidia,未来随着模型的优化与压缩,可使用ARM芯片+神经网络专用加速芯片进行替代。
灵动科技的C端产品智能跟随行李箱OVIS获得多项全球大奖,包括2019 美国爱迪生奖前三(科技界奥斯卡)、2019 CES 16项大奖、2018上格奖全球时尚创科大赛获得最高奖项。此前,智能侧跟登机箱OVIS在美国市场仅两月预售的销售额达千万元人民币,此数据也进入了2018年中国硬件类产品海外众筹TOP10。
正因为对技术的极度苛求,灵动科技核心团队,不仅要有计算机视觉核心算法专家,也要有软硬件结合的自动化控制专家;不仅要有强大的研创能力,更要具备让产品落地的工程实操经验。
据了解,公司160多位研发人才,已在行人检测、多物体追踪、行人再识别、物体检测、计算机算法、超级计算机等多个领域斩获了20多项全球NO.1;在全球三大计算机视觉顶级期刊(ECCV/ICCV/EVPR)上,陆续发表了10多篇论文;并最终在两年间形成发明专利70余项,包括PCT 17项以及16项美国专利。
迭代
成立短短3年,灵动科技已快速迭代、发展。而实际上,公司刚成立时,只是定位于视觉技术平台,并未精确找到应用落地场景。
“A轮投资时公司仅有智能跟随行李箱一款产品,且处于DEMO阶段。”齐欧介绍,经过不到1年的快速发展,第一款产品智能跟随行李箱已经已在北美众筹网站完成预售,累计销售约890万元人民币并计划今年初量产发货。
“投资灵动科技,首先投的是人。鼎晖十分欣赏齐欧在产品、技术、商业等方面所积淀的综合能力。”鼎晖创新与成长基金高级合伙人王明宇介绍称,灵动科技高度契合鼎晖对“算法+场景+硬件”的AI赛道产业化发展趋势研判。而且灵动科技选择的发展路径虽然难度更大,却也可以构建更高的竞争壁垒,巩固先发优势。
另外在人口红利不再的大背景下,灵动科技的仓储协作机器人可以解决物流痛点,包括降低成本、提升效率,这是鼎晖选择进行投资的重要因素。
截至2019年3月,鼎晖已连续参与灵动科技A、B两轮投资。基于灵动科技两年内推出的三四个“爆款”产品,王明宇对灵动科技B轮的商业化探索尤有信心。
本轮投资方湖畔里程合伙人许亮表示:“我们非常注重AI在细分场景的落地能力,而仓储协作机器可以代替人类完成重复性强且劳动力需求高的工作,是具有清晰商业价值的落地场景;灵动科技的团队在这方面有着深厚的技术储备以及市场能力,而其工业级产品与消费级产品的并行,则更能有效提升其技术的使用效率。未来,灵动会不断完善其机器人大脑,拓展更多应用场景。”
钟鼎合伙人汤涛表示:“钟鼎持续看好灵动科技的视觉平台化研发体系和快速产品化输出能力。灵动科技在2018年进行了短平快的产品化落地和团队升级,团队产出效率极高,2019年灵动科技将在批量化场景落地和更多的视觉平台技术积累上持续发力,钟鼎也将借助积累的物流供应链行业资源,持续为灵动科技进行场景赋能。”
-
图像重建算法_【杂谈】如果你想快速系统掌握计算机视觉大部分领域,学习人脸图像是唯一选择...
2020-12-16 10:38:36但笔者想说的是,如果你想快速系统地串联计算机视觉领域的知识,人脸图像应该是唯一选择,没有其他类型的图像可以覆盖底层图像特征,目标检测与跟踪,图像分类和检索,图像滤波,图像分割,三维重建,风格迁移等方向...笔者是从传统图像算法开始进入计算机视觉行业的,那一批人基本上都是从人脸图像和文本图像开始学,而如今很多计算机视觉从业者却从来没有接触过人脸图像相关的算法,或许真的是时代变了吧。但笔者想说的是,如果你想快速系统地串联计算机视觉领域的知识,人脸图像应该是唯一选择,没有其他类型的图像可以覆盖底层图像特征,目标检测与跟踪,图像分类和检索,图像滤波,图像分割,三维重建,风格迁移等方向,并且能够做到相互融合从而进行工业界落地。如果你还不知道人脸图像能做什么,不如看一看上面的1分钟视频,然后我们接下来细看到底都有些什么。
底层图像特征
或许很多经典的底层图像特征已经PK不过现在的深度学习模型学习到的特征,但是思想是永恒的,在人脸这个领域,有一些特征理解起来非常直观。
特征通常可以分为颜色特征、纹理特征、形状特征,下面我们看看在人脸方向有哪些很经典的东西。
第一个是肤色高斯模型,它是颜色特征。尽管人有白、黄、黑三种肤色,但研究证明,肤色在某些颜色空间上的差异性主要体现在亮度上,在色度上具有较好的聚类表现。因此根据肤色属性所具有的规律和分布情况对肤色建模,便可以将肤色与非肤色区域区分开。肤色高斯模型在早期可以常用人脸检测,现在也常用于辅助一些模型进行人脸区域的快速定位。
第二个是haar特征,它是纹理特征。脸部有一些固有的属性,比如眼睛要比脸颊颜色要深,鼻梁两侧比鼻梁颜色要深,嘴巴比周围颜色要深等。Haar特征通过对相邻图像块进行灰度比较,并使用积分图像进行快速计算,在大名鼎鼎的V-J算法中被使用。如果研究过OpenCV人脸检测算法的,不可能不知道。
第三个是形状特征,基于人脸特征关键点就可以计算出一系列的形状特征,因为人脸关键点是眉毛、眼睛、鼻子、嘴巴、脸部等有语义的特征点,每个人脸都通用却有独特性,对于光照姿态等有很强的不变性。
目标检测与跟踪
目标检测可以说是计算机视觉方向中从业者最多的了,不然也不会出现千篇一律的简历中写着跑过Yolo算法,人脸检测就是目标检测的一个子领域。
尽管通用的目标检测算法可以用于人脸检测,但是人脸检测依然有它的特点,比如早期的时候一些方法会挨个检测人脸的各个部位,然后组合成最终人脸。以MTCNN为代表的框架会把人脸检测和关键点检测问题进行联合处理。
而如今,在目标检测领域中的一些难题在人脸检测领域同样广泛存在,比如大姿态人脸、遮挡人脸、模糊小脸,甚至是伪造人脸,搞明白了人脸检测,目标检测还会是问题吗?
另一方面,工业界应用的时候不仅要做检测,还需要做跟踪平滑,此时常常需要应用卡尔曼滤波等传统算法,而不仅仅是一个模型就能搞定,更复杂完整的项目,才能更好地锻炼能力。
图像分类和检索
没有人不知道图像分类问题,而为我们所熟悉的人脸识别系统,其中一条典型的技术路线就是图像分类+验证+检索模型的组合。
以上图DeepFace为例,它首先对输入人脸经过3D对齐,然后使用数据集训练一个人脸分类器得到人脸特征提取网络,最后使用Siamese网络训练人脸验证网络。这样一来,就解决了人脸特征的问题,即将高维的人脸表达成了一个低维的特征,接下来就是进行人脸的聚类与检索。
如今人脸识别系统虽然已经大规模商业化,但并不意味着这里面就没有事情可以做了。遮挡人脸识别,跨姿态人脸识别,跨年龄人脸识别,妆造不变人脸识别,光照不变人脸识别,少样本人脸识别,3D人脸识别,视频人脸识别等都是现实存在的难题。
解决上面这些问题,不仅需要新的技术,也需要对分类检索等老技术的改进。
图像滤波
图像滤波是一类很底层的图像处理方法,在图像降噪,图像去模糊,图像修复等底层图像处理领域中是核心技术。那么在人脸图像中,又用在了哪里呢?大家或许不知道技术,但是不可能没有接触过,那就是人像美颜,熟的不能在熟的磨皮美白大法。
其中常见的方法包括均值滤波,双边滤波,引导滤波,以及针对这些方法的改进。掌握了核心技术,从人脸美颜迁移到其他的图像增强领域,就很自然了。
三维重建
三维重建即3D Reconstruction,在计算机视觉中,三维重建是指根据单视图或者多视图的图像重建三维信息的过程,通常需要从二维的图像投影恢复出物体的三维形状和纹理信息,这是接下来计算机视觉会取得突破的重点领域,而人脸的三维重建问题,实在是太典型了。
从基于单张图的3DMM等人脸通用模型与Shape from Shading(SfS)等优化方法,到基于多张图的立体视觉,基于视频的Structure from Motion(SfM),端到端的与端到端的模型,传统的与深度学习方法,这个领域涉及的算法非常多,而且难度较高。
另外,如何逼真地重建出人脸的细节信息,如何在二维的人脸被遮挡后还能进行重建,都是当前人脸重建领域要解决的难题,研究起来有足够的技术深度,一旦攻克也有大量商用场景。
另外3D与图形学有非常紧密的联系,使得这些技术在内容创作上有非常大的商业价值,难道你不想加入其中吗?
图像编辑与风格化
随着生成对抗网络等技术的发展,当前图像编辑与风格化正在成为计算机视觉领域的新热点,其中尤其是人脸图像落地能力最强,在人机交互,娱乐社交,内容创作等领域应用非常广泛。
从人脸年龄编辑、人脸卡通头像生成、换脸等全局性质的编辑,到人脸表情编辑,人脸发型,人脸化妆去妆等局部性质等编辑,几乎覆盖了图像编辑与风格化的所有关键技术。当前交互式,可控的编辑模型也是研究重点。
怎么规划学习路线
上面说了这么多,无非就是想告诉大家,作为打算长期在计算机视觉有所建树的同学,人脸图像是非常值得研究的,也是不可能绕过的,那么如何长期学习相关知识呢?下面介绍我们的两个内容。
(1) 2020年7月,有三的新书《深度学习之人脸图像处理:核心算法与案例实践》在机械工业出版社出版,这是一本讲述在人脸各个方向中的深度学习算法的书籍,同时配套有大量实战案例。
言有三新书来袭,业界首次深入全面讲解深度学习人脸图像算法
书中各章节内容如下:
第1章 人脸图像和特征基础
第2章 深度学习基础
第3章 人脸数据集
第4章 人脸检测
第5章 人脸关键点检测
第6章 人脸识别
第7章 人脸属性识别
第8章 人脸属性分割
第9章 人脸美颜和美妆
第10章 人脸三维重建
第11章 人脸属性编辑
这是市面上唯一一本将人脸各领域这几年的核心算法讲清楚的书,而且在可预见的几年内都可能如此。
(2) 有三AI秋季划人脸算法组和GAN组,这是集教材,图文代码实践,视频课程和直播,知识星球社区,线上微信群,线下活动为一体的终身有效学习小组,详细可以阅读以下文章。
【通知】如何让你的2020年秋招CV项目经历更加硬核,可深入学习有三秋季划4大领域32个方向
最后总结一句,人脸图像算法领域,技术成熟,又有许多需要长期研究的内容,学习它,难道不香吗?
往期相关
【技术综述】基于3DMM的三维人脸重建技术总结
【技术综述】人脸妆造迁移核心技术总结
【技术综述】人脸风格化核心技术与数据集总结
【总结】最全1.5万字长文解读7大方向人脸数据集v2.0版,搞计算机视觉怎能不懂人脸
【技术综述】人脸年龄估计研究现状
【技术综述】人脸表情识别研究
【技术综述】人脸颜值研究综述
【技术综述】人脸脸型分类研究现状
-
【杂谈】如果你想快速系统掌握计算机视觉大部分领域,学习人脸图像是唯一选择...
2020-08-21 11:31:45笔者是从传统图像算法开始进入计算机视觉行业的,那一批人基本上都是从人脸图像和文本图像开始学,而如今很多计算机视觉从业者却从来没有接触过人脸图像相关的算法,或许真的是时代变了吧。但笔者想说...笔者是从传统图像算法开始进入计算机视觉行业的,那一批人基本上都是从人脸图像和文本图像开始学,而如今很多计算机视觉从业者却从来没有接触过人脸图像相关的算法,或许真的是时代变了吧。
但笔者想说的是,如果你想快速系统地串联计算机视觉领域的知识,人脸图像应该是唯一选择,没有其他类型的图像可以覆盖底层图像特征,目标检测与跟踪,图像分类和检索,图像滤波,图像分割,三维重建,风格迁移等方向,并且能够做到相互融合从而进行工业界落地。如果你还不知道人脸图像能做什么,不如看一看上面的1分钟视频,然后我们接下来细看到底都有些什么。
底层图像特征
或许很多经典的底层图像特征已经PK不过现在的深度学习模型学习到的特征,但是思想是永恒的,在人脸这个领域,有一些特征理解起来非常直观。
特征通常可以分为颜色特征、纹理特征、形状特征,下面我们看看在人脸方向有哪些很经典的东西。
第一个是肤色高斯模型,它是颜色特征。尽管人有白、黄、黑三种肤色,但研究证明,肤色在某些颜色空间上的差异性主要体现在亮度上,在色度上具有较好的聚类表现。因此根据肤色属性所具有的规律和分布情况对肤色建模,便可以将肤色与非肤色区域区分开。肤色高斯模型在早期可以常用人脸检测,现在也常用于辅助一些模型进行人脸区域的快速定位。
第二个是haar特征,它是纹理特征。脸部有一些固有的属性,比如眼睛要比脸颊颜色要深,鼻梁两侧比鼻梁颜色要深,嘴巴比周围颜色要深等。Haar特征通过对相邻图像块进行灰度比较,并使用积分图像进行快速计算,在大名鼎鼎的V-J算法中被使用。如果研究过OpenCV人脸检测算法的,不可能不知道。
第三个是形状特征,基于人脸特征关键点就可以计算出一系列的形状特征,因为人脸关键点是眉毛、眼睛、鼻子、嘴巴、脸部等有语义的特征点,每个人脸都通用却有独特性,对于光照姿态等有很强的不变性。
目标检测与跟踪
目标检测可以说是计算机视觉方向中从业者最多的了,不然也不会出现千篇一律的简历中写着跑过Yolo算法,人脸检测就是目标检测的一个子领域。
尽管通用的目标检测算法可以用于人脸检测,但是人脸检测依然有它的特点,比如早期的时候一些方法会挨个检测人脸的各个部位,然后组合成最终人脸。以MTCNN为代表的框架会把人脸检测和关键点检测问题进行联合处理。
而如今,在目标检测领域中的一些难题在人脸检测领域同样广泛存在,比如大姿态人脸、遮挡人脸、模糊小脸,甚至是伪造人脸,搞明白了人脸检测,目标检测还会是问题吗?
另一方面,工业界应用的时候不仅要做检测,还需要做跟踪平滑,此时常常需要应用卡尔曼滤波等传统算法,而不仅仅是一个模型就能搞定,更复杂完整的项目,才能更好地锻炼能力。
图像分类和检索
没有人不知道图像分类问题,而为我们所熟悉的人脸识别系统,其中一条典型的技术路线就是图像分类+验证+检索模型的组合。
以上图DeepFace为例,它首先对输入人脸经过3D对齐,然后使用数据集训练一个人脸分类器得到人脸特征提取网络,最后使用Siamese网络训练人脸验证网络。这样一来,就解决了人脸特征的问题,即将高维的人脸表达成了一个低维的特征,接下来就是进行人脸的聚类与检索。
如今人脸识别系统虽然已经大规模商业化,但并不意味着这里面就没有事情可以做了。遮挡人脸识别,跨姿态人脸识别,跨年龄人脸识别,妆造不变人脸识别,光照不变人脸识别,少样本人脸识别,3D人脸识别,视频人脸识别等都是现实存在的难题。
解决上面这些问题,不仅需要新的技术,也需要对分类检索等老技术的改进。
图像滤波
图像滤波是一类很底层的图像处理方法,在图像降噪,图像去模糊,图像修复等底层图像处理领域中是核心技术。那么在人脸图像中,又用在了哪里呢?大家或许不知道技术,但是不可能没有接触过,那就是人像美颜,熟的不能在熟的磨皮美白大法。
其中常见的方法包括均值滤波,双边滤波,引导滤波,以及针对这些方法的改进。掌握了核心技术,从人脸美颜迁移到其他的图像增强领域,就很自然了。
三维重建
三维重建即3D Reconstruction,在计算机视觉中,三维重建是指根据单视图或者多视图的图像重建三维信息的过程,通常需要从二维的图像投影恢复出物体的三维形状和纹理信息,这是接下来计算机视觉会取得突破的重点领域,而人脸的三维重建问题,实在是太典型了。
从基于单张图的3DMM等人脸通用模型与Shape from Shading(SfS)等优化方法,到基于多张图的立体视觉,基于视频的Structure from Motion(SfM),端到端的与端到端的模型,传统的与深度学习方法,这个领域涉及的算法非常多,而且难度较高。
另外,如何逼真地重建出人脸的细节信息,如何在二维的人脸被遮挡后还能进行重建,都是当前人脸重建领域要解决的难题,研究起来有足够的技术深度,一旦攻克也有大量商用场景。
另外3D与图形学有非常紧密的联系,使得这些技术在内容创作上有非常大的商业价值,难道你不想加入其中吗?
图像编辑与风格化
随着生成对抗网络等技术的发展,当前图像编辑与风格化正在成为计算机视觉领域的新热点,其中尤其是人脸图像落地能力最强,在人机交互,娱乐社交,内容创作等领域应用非常广泛。
从人脸年龄编辑、人脸卡通头像生成、换脸等全局性质的编辑,到人脸表情编辑,人脸发型,人脸化妆去妆等局部性质等编辑,几乎覆盖了图像编辑与风格化的所有关键技术。当前交互式,可控的编辑模型也是研究重点。
怎么规划学习路线
上面说了这么多,无非就是想告诉大家,作为打算长期在计算机视觉有所建树的同学,人脸图像是非常值得研究的,也是不可能绕过的,那么如何长期学习相关知识呢?下面介绍我们的两个内容。
(1) 2020年7月,有三的新书《深度学习之人脸图像处理:核心算法与案例实践》在机械工业出版社出版,这是一本讲述在人脸各个方向中的深度学习算法的书籍,同时配套有大量实战案例。
书中各章节内容如下:
第1章 人脸图像和特征基础
第2章 深度学习基础
第3章 人脸数据集
第4章 人脸检测
第5章 人脸关键点检测
第6章 人脸识别
第7章 人脸属性识别
第8章 人脸属性分割
第9章 人脸美颜和美妆
第10章 人脸三维重建
第11章 人脸属性编辑
这是市面上唯一一本将人脸各领域这几年的核心算法讲清楚的书,而且在可预见的几年内都可能如此。
(2) 有三AI秋季划人脸算法组和GAN组,这是集教材,图文代码实践,视频课程和直播,知识星球社区,线上微信群,线下活动为一体的终身有效学习小组,详细可以阅读以下文章。
【通知】如何让你的2020年秋招CV项目经历更加硬核,可深入学习有三秋季划4大领域32个方向
最后总结一句,人脸图像算法领域,技术成熟,又有许多需要长期研究的内容,学习它,难道不香吗?
往期相关
-
计算机视觉、机器视觉感知与SLAM比较
2017-05-11 11:02:04生物及人类的视觉原理是什么,至今在科技界也无确切的研究清楚,一个三维物体,人眼从不同的角度看过后,得到真实三维物体的一个“开覆盖”,这个“开覆盖”在人类大脑里就有了这个物体所唯一对应的一个视觉感知,这... -
机器人视觉系统笔记
2018-02-01 22:05:00机器人视觉系统研究 杭电图书馆 科学出版社 总页数:202 唯一QQ:1825587919 唯一WX:ly1825587919 PS:由于阅读效率原因,仅记录关键点 第一章 绪论 第二章全向视觉系统 1.多摄像机拼接全向视觉系统... -
Python机器视觉编程环境搭建方法
2016-05-30 22:06:00随着计算机硬件速度的提高,执行效率不再是程序员编写机器视觉程序的唯一考虑。Python因其跨平台、开放性和众多第三方库的支持正得到越来越多关注。本文以windows平台为例,介绍了Python计算机视觉编程的开发环境... -
D3.js 视觉化教学 -全球即时地震视觉化
2017-01-26 13:38:30最近地震频繁,刚刚在巴布亚纽几内亚又发生一个规模七的地震,让我们利用这...之前的文章中也同时有提供程序码,所以我们现在唯一要做的就是追加将数据画到地球上的程序码。 首先,我们要取得全球地震的即时数据,并确 -
大规模视觉定位地图关键技术:使用视觉匹配提升GPS的绝对定位精度
2019-08-25 12:35:42如果只使用视觉的话,唯一能够对不同方向的地图进行对齐的信息就是十字路口。但这种方式不是十分稳定。能够提供绝对位置的gps的精度在10米左右,又不够用。 视觉建图中,特征点和相机相互耦合,理论上任意两个特征... -
计算机视觉基本概念
2019-09-05 14:28:10计算机视觉基本概念 1. 霍夫变换(直线检测) https://www.jianshu.com/p/55eabb42c6c2 注意:(r,θ)可以唯一确定一条直线 (r,θ)可以确定一条经过(8,6)的直线 (r,θ)可以确定一条经过(4,9)的直线 因此,... -
机器视觉系统在汽车的应用
2020-10-26 16:53:03在电子工业中,特别是像高精度的晶片位置识别或位置校正以及用于SMT(表面安装设备)装配零件检测这样的领域,几年来已经形成了这样的共识:现在要满足高质量和生产标准的唯一方式就是使用灵活的图像处理方法。... -
【LabVIEW懒人系列教程-视觉入门】2.17LabVIEW视觉框架之抓边编程
2020-09-16 21:46:21根据昨天抓点编程的讲解,相信大家对于视觉算子的编程运用有了一定的了解,也可以更具小视频进行编写,可能在过程中会遇到一些程序出错或功能效果不理想等问题,其实主要大家在学习的过程中,要善于发现问题,然后... -
机器视觉技术背后的行业趋势
2017-10-30 14:10:57机器视觉是唯一能够通过非接触的方式识别物体、观测物体的技术,在各个领域都具有难以替代的独特作用。同时,机器视觉这个领域包含了大量的细分技术领域,对于新技术的探索和研究也从未停止脚步。 3D机器视觉系统.... -
立体视觉入门
2014-11-18 11:11:27由此可以看出,一个向量的齐次表示是不唯一的,齐次坐标的h取不同的值都表示的是同一个点,比如齐次坐标(8,4,2)、(4,2,1)表示的都是二维点(4,2)。 给出点的齐次表达式[X Y H],就可求得其二维笛卡尔坐标,即 ... -
2017年的 计算机视觉 发展
2018-05-16 10:20:001.计算机视觉 对于计算机视觉领域来说,贡献最大的当然是 CVPR 与 ...今年唯一以研究卷积架构为主题的获奖论文是康奈尔与清华大学联合完成的 Densely Connected Convolutional Networks,他们发现如果卷积神经网络... -
双足机器人实时障碍检测视觉系统
2021-01-15 10:08:40提出一种双足步行机器人的实时障碍检测视觉系统. 基于图像平面与机器人行走地面之间的映射变换矩阵 的唯一性准则, 判别图像中的像点是否位于地面上, 高于或低于地面的点被认为是障碍点. 为减少实际行走过程中系... -
视觉SLAM综述(上)
2017-07-18 09:48:13 摘要 视觉SLAM(同时定位与建图)是指仅仅利用图片这一外部信息来确定环境中机器人、车辆或者移动相机的位置,同时能够建立已探索区域的...然而,在动态,复杂,大场景下,仅使用视觉作为唯一的外部传感器 -
模拟技术中的双目立体视觉中靶标的设计与识别
2020-11-05 09:43:120 引言 双目立体视觉测量是基于视差原理...若给标记点加载唯一的身份信息,即对标记点进行编码,对图像中标记点进行唯一身份识别后,可以方便,可靠地实现多幅图像间标记点的对应匹配。 基于上述原理,在实验室自 -
【OpenCV】1.2 什么是计算机视觉
2018-05-27 20:26:281.什么是计算机视觉? 答:计算机视觉是将静止图像或者视频的图像的数据转换成一个决策或者一个新的表达方式的过程,所有的这些转换是为了达到某一个目的。...理论上,此类病态问题没有唯一和确... -
labview获取窗口句柄_API-如何获得窗口句柄(HWND)(陈树学)_LabVIEW_图像处理|编程|机器视觉|教程_视觉...
2020-12-29 02:04:09注册会员xhwnd 是窗口句柄,系统分配的一个ID号,对操作系统来说就是这个窗口的唯一标识,通过它就可以操作WIN窗口了,LabVIEW VI的前面板无疑是一个WINDOWS窗口,那如何获得这个窗口句柄那.有两种方法:1.利用API ... -
计算机视觉一些项目实战技术
2020-06-17 18:12:03计算机视觉一些项目实战技术 SELECTIVE SEARCH FOR OBJECT LOCALISATION 需要多种策略来查找上述图像中的所有对象。勺子在桌子上的沙拉碗里。因此,图像本质上是层次性的,需要所有的尺度来找到这些物体。在(b)... -
matlab 工业相机 曝光时间_关于机器人工业相机视觉浅谈
2020-12-08 14:31:26在技术上具有独特性,是唯一非接触式识别、测量物体的前沿技术,在工业生产中为了减少人力成本和提高效率,一般会引用工业视觉相机(CCD)来测量和识别。1. 什么是工业视觉(CCD)1.1工业视觉相机又叫 CCD(Charge ... -
双目视觉学习笔记
2016-04-14 11:13:49张正友平面标定法核心...单应性矩阵:一个平面坐标到另一个平面坐标的唯一变换矩阵。单应性:homography 是世界坐标系中物点的齐次坐标形式。上式表示了物点坐标到像素坐标点变换过程。R是旋转矩阵,t是平移向量,[R t -
计算机视觉中的不适定问题(ill-posed problem)
2019-04-14 15:07:10适定问题(well-posed problem)和不适定问题(ill-posed problem)都是数学领域的术语。 前者需满足三个条件,若有一个不满足则称为"ill-posed problem": ...解必须唯一 3. the solution's be... -
计算机视觉方向基础知识
2020-09-28 16:16:14bbox是包含物体的最小矩形,由一组数据决定(x,y,w,h),其中(x,y)是bbox的一个点,一般是左上角的顶点,(w,h)分别是bbox的宽度与高度,(x,y,w,h)可以唯一地确定一个bbox。 2、IoU IoU 的全称为... -
智能家居视觉信息安全
2019-03-07 11:25:491、2018年6月,SCA发布全球首个符合国际信息安全标准体系的智能家居信息安全国际标准技术规范,并成立智能家居信息安全国际标准技术规范推进小组,海尔作为唯一家电企业参与起草《智能家居信息安全国际标准技术规范... -
光亮表面双目立体视觉三维形貌测量方法
2021-01-26 08:01:30光亮表面因其反射特性,一般三维形貌测量方法对此难以测量,针对该问题,本文给出了基于双目视觉结合相位偏折法对光亮表面进行三维形貌测量的方案。双目系统布局选用相机横向摆放方式,完整的屏幕-相机-可调节载物台测量... -
我们理解高级视觉吗?---读后总结
2017-10-14 20:06:49高级视觉缺乏一个唯一的,一致性的定义。最近几十年的工作大多数都集中在对象的识别问题上,主要是在视觉系统的一个场景当中去识别一个或者一群对象。重要的是在其中忽略了对象的位置、大小、光线以及它周围所呈现的... -
视觉中国:基于容器云的同城双活微服务架构上云实践
2017-02-16 11:23:30视觉中国集团(Visual China Group)创立于2000年6月,是中国领先的视觉影像产品和服务提供商。视觉中国集团是以“视觉创造价值,视觉服务中国”为愿景的A股唯一互联网文化创意上市公司(股票代号000681,股票简... -
视觉中国:图片产业的创新者将如何迎接智能时代?
2017-12-20 18:35:26成立于2000年,借助互联网时代的创新高速发展,成为“A股唯一互联网文化创意上市公司”,视觉中国在即将到来的AI时代,将如何持续创新?12月20日举办的北京云栖大会“企业云上业务优化”分论坛上,视觉中国创始人、...
-
怎么在Github上单独下载一个文件或文件夹
-
中国怎么可能成为科学强国?
-
初识Java
-
转行做IT-第15章 Collection、泛型、Iterator
-
vue 点击编辑按钮 后 页面变成input输入框
-
零基础极简以太坊智能合约开发环境搭建并开发部署
-
MySQL DML 语言(插入、更新与删除数据)
-
Linq的使用(1)
-
Exercise.ppt
-
django-auto-site:电子商务Django Web应用-源码
-
每日一道Leetcode - 剑指 Offer 17. 打印从1到最大的n位数【递归|大数越界】
-
4.International Asset Pricing.ppt
-
爱奇艺阅读怎么设置语音阅读
-
《文件过滤及内容编辑处理命令》
-
SSM框架搭建.rar
-
java基础---自增自减运算符,初识Math类
-
6.Equity Concepts and Techniques(1).ppt
-
2_开关控制的LED
-
用Go语言来写区块链(一)
-
opencv之实现回形像素算法