2016-01-18 13:24:16 baimafujinji 阅读数 5681

图像处理(以及机器视觉)在学校里是一个很大的研究方向,很多研究生、博士生都在导师的带领下从事着这方面的研究。另外,就工作而言,也确实有很多这方面的岗位和机会虚位以待。而且这种情势也越来越凸显。那么图像处理到底都研究哪些问题,今天我们就来谈一谈。图像处理的话题其实非常非常广,外延很深远,新的话题还在不断涌现。下面给出的12个大的方向,系我认为可以看成是基础性领域的部分,而且它们之间还互有交叉

 

1、图像的灰度调节

图像的灰度直方图、线性变换、非线性变换(包括对数变换、幂次变换、指数变换等)、灰度拉伸、灰度均衡、直方图规定化等等)。

例如,直方图规定化(代码请见http://blog.csdn.net/baimafujinji/article/details/41146381)

CLAHE(contrast limited adaptive histogram equalization)自适应的直方图均衡(效果图来自

http://www.cnblogs.com/Imageshop/archive/2013/04/07/3006334.html)

2、图像的几何变换

图像的平移、图像的镜像、转置、缩放和旋转。这里面其实还包含了插值算法(这是某些几何变换所必须的),例如最邻近插值法、双线性插值法等等)

几何变换同时和图像的滤镜特效是紧密联系的,某些特效的实现本质上就是某种类型的几何变换。例如

 

3、图像的特效与滤镜

这方面的应用很多,你可以想想Photoshop里面的滤镜。

文献Combining Sketch and Tone for Pencil Drawing Production中给出的将自然图像变成手绘素描图的效果

例如浮雕效果

贴图太烦了,更多效果请见http://blog.csdn.net/baimafujinji/article/details/50500757

4、图像增强

内容包括图像的平滑(简单平均、中值滤波、高斯平滑等)和锐化(例如Laplace方法)等。

增强处理中的很多算法其实和图像复原中的降噪算法是重合的。现在保持边缘(或纹理结构)的平滑算法属于研究热点。像那些美颜相机里的嫩肤算法都是以此为基础的。比较常见的双边滤波(我给出的代码请见http://blog.csdn.net/baimafujinji/article/details/41598455)

基于全变分方法的TV去噪(http://blog.csdn.net/baimafujinji/article/details/42110831)、基于PM方程的非线性扩散去噪(http://blog.csdn.net/baimafujinji/article/details/42110831)等等。

 

5、图像复原

广义上来说——图像降噪,图像去雾,图像去模糊 都属于这个范畴

去噪实例是我用MagicHouse(http://blog.csdn.net/baimafujinji/article/details/50500757)实现的中值滤波处理椒盐噪声的效果。此外,一些基于非局部均值的降噪算法是当前研究的热点(例如BM3D、NLM等)

图像去模糊(图片取自我的《数字图像处理原理与实践(Matlab版)》)

去雾代码请见(http://blog.csdn.net/baimafujinji/article/details/30060161)或参考我的《数字图像处理原理与实践(Matlab版)》

6、图像的压缩与编码

想想BMP图像如何转换成JPG,JPG如何变成PNG?这些都属于图像压缩编码所要探讨的内容。

7、边缘检测与轮廓跟踪

边缘检测在图像处理中是一个“古老”的话题了,我就不具体给例子了。下面是一个轮廓跟踪的例子

 

8、图像分割

你可以认为轮廓跟踪也是实现图像分割的一种途径。

这是我在《数字图像处理原理与实践(Matlab版)》中给出的一个例子——用分水岭算法对马铃薯图像进行分割。

9、图像的形态学处理

这也属于一种非常古老的图像处理方式了。包括膨胀、腐蚀、细化、击中/击不中、开/闭运算等。但一些对颗粒状物体进行计数的应用中它仍然非常有效。

 

10、图像的频域变换(或称正交变换)

傅立叶、离散余弦、沃尔什-哈达玛变换、K-L(卡洛南-洛伊)变换(也称霍特林变换或PCA)、小波变换(小波变换还分很多种,例如Haar小波、Daubechies小波等等)

仅仅进行频域变换其实并没有多大意义,它往往要与具体应用相结合来发挥作用。例如进行图像压缩、嵌入数字水印、进行图像融合、进行图像降噪等等。

例如,利用PCA进行图像压缩的例子请见

http://blog.csdn.net/baimafujinji/article/details/50373143(源代码请见我的博文)

 

在比如,利用小波融合对由聚焦失败导致的图像模糊进行修复 (本来左图和中图各有部分看不清,融合后变得可以辨识)源代码可见

http://blog.csdn.net/baimafujinji/article/details/49642111

11、图像融合

广义上说融合至少包含三部分内容:像上面的基于小波的Fusion我们也认识是融合的一种,另外一种是以隐藏为目的类似嵌入式的融合,第三种是matting。matting有时反义成抠图,其实它最原本的意思就是融合。如果你理解

I = aF +(1-a)B这个融合公式的话,你应该明白我在所什么。这本质上和第二种融合原理是一样的。

狭义上,融合就是指matting。

例如 著名的Possion融合,下图右,如果直接把月亮图贴上天空,矩形边缘是很明显的,融合处理后的左图则很自然。

代码可见 http://blog.csdn.net/baimafujinji/article/details/46787837

电影技术中常用matting方法来替换人物的场景。例如

 

12、图像信息安全

主要包括两个内容:1)数字水印(主要用于多媒体的版权保护);2)图像的加密(主要用于图像信息的保护)

例子是我用MagicHouse(http://blog.csdn.net/baimafujinji/article/details/50500757)实现的加密效果

 

 

注意上面我们所讨论的领域仅仅是图像处理的范畴,并不涉及机器视觉。所以也没有任何机器学习的内容,有时间我们再继续讨论这方面的东西。

 

 

 

2019-10-24 09:28:59 zhouaho2010 阅读数 2266

图像去雾算法学习笔记1——何凯明博士基于暗通道先验的单幅图像去雾算法公式推导

首先简单自我介绍一下,本人现在是国内某211大学2019级博士研究生,计算机科学与技术专业,研究方向和兴趣包括深度学习(CV)、图像处理、菌群仿生优化算法、元胞自动机等,愿与大家分享自己的学习心得!现刚入学1个多月,先从图像去雾算法开始学起。
  说到图像去雾算法,不得不提大牛何凯明博士,圈内都知道他的:
何凯明博士,本科毕业于清华大学基础科学班。他是2006年微软小学者奖学金获得者之一,同时也是2003年广东省高考状元。2007年清华大学毕业之后开始在微软亚洲研究院(MSRA)实习,2011年香港中文大学博士毕业后正式加入MSRA,目前在Facebook AI Research (FAIR)实验室担任研究科学家。曾以第一作者身份拿过两次CVPR最佳论文奖Best Paper Award (2009和2016)——其中2016年CVPR最佳论文为图像识别中的深度残差学习(Deep Residual Learning for Image Recognition)。
     我现在看的是他2009年的CVPR论文:《Single Image Haze Removal Using Dark Channel Prior》在中国知网、百度学术上都有下载的。CVPR的中文名是计算机视觉与模式识别会议,是计算机视觉领域最顶尖的国际会议之一。2009年的CVPR共收到约1450篇投稿,其中393篇文章被接收,接收率为26%。只有一篇文章被选为那年的最佳论文。这是CVPR创立25年以来首次由中国人获得这个奖项。这篇文章是他在微软亚洲研究院形象计算组实习的时候完成的,也是他个人真正意义上写的第一篇论文。
他根据Dark Object Subtraction原理通过大量实验发现局部找最暗点进行均匀去雾有很好的效果。
   由此得到对于一个无雾图像,每个局部区域都很有可能有一些暗的地方,换言之,至少一个颜色通道会有很低的值、或黑色东西。
看了他的论文,准备写点笔记,这是我的第一篇笔记。


一、简单有效的图像去雾技术

    这篇论文研究的问题是图像的去雾技术,它可以还原图像的颜色和能见度,同时也能利用雾的浓度来估计物体的距离,这些在计算机视觉上都有重要应用(例如三维重建,物体识别)。但是之前人们还没找到简单有效的方法来达到这个目的。在这篇论文里,他们找到了一个非常简单的,甚至说令人惊讶统计规律,并提出了有效的去雾方法。

   与之前的方法不同,他们把注意力放到了无雾图像的统计特征上。他们发现,在无雾图像中,每一个局部区域都很有可能会有阴影,或者是纯颜色的东西,又或者是黑色的东西。因此,每一个局部区域都很有可能有至少一个颜色通道会有很低的值。他们把这个统计规律叫做Dark Channel Prior(暗通道先验或暗原色先验)。直观来说,Dark Channel Prior认为每一个局部区域都总有一些很暗的东西。这个规律很简单,但在他们研究的去雾问题上却是本质的基本规律。

     由于雾总是灰白色的,因此一旦图像受到雾的影响,那么这些本来应该很暗的东西就会变得灰白。不仅如此,根据物理上雾的形成公式,他们还能根据这些东西的灰白程度来判断雾的浓度。因此,他们提出的Dark Channel Prior能很有效地去除雾的影响,同时利用物的浓度来估算物体的距离(深度)。

     简单理解:仔细想想我们可以确定有这样一个统计规律:对于大多数没有雾的图像来说,它的任意一个像素点中的R,G,B值至少有一个是非常低的;(这个挺好理解的,如果R,G,B值都偏高,那么该像素显然有向白色过度的趋势)把每个像素中“偏暗”的值(通道)以一定的方式集合起来就构成了一幅图片的暗通道图;正式基于这样的一个想法和统计的规律(可以把这个统计规律当作一条定理),何博士提出了去雾的算法,该算法在大量的户外有雾图片的应用中得以验证其准确性;并且在去雾的过程中,他们也同时得到了原图的景深图片,因为雾的厚度一定程度上代表了景深。

为了验证上述提到的统计规律,何博士对5000张无雾图的暗通道的强度进行了统计,可以发现暗通道图中大部分像素都是0,而且全部像素都集中于0-50之间,可以说暗通道图是稀疏的,这一点对于我们下边的公式推导至关重要

在这里插入图片描述


二、相关背景和公式
    看了何凯明博士的这篇论文,以及我近期看的其他论文,我总结了图像去雾的三种方法:
1、图像增强技术。常用于雾天图像清晰化处理的图像增强方法,包括直方图均衡、对数变换、幂律变换、锐化、小波变换等,这些都是图像处理中常用来提高对比度或者突出图像特征的方法。但严格的说,这一类方法并不研究雾气对图像影响的原理,并非去除图像中的雾,而是应用图像增强方法,对图像作清晰化处理。
2、基于物理模型的图像去雾算法对图像进行复原。图像复原通过分析雾图降质机理,建立图像散射模型(即建立方程),充分利用图像退化的先验知识或假设,实现场景复原(即求解方程)。说到这里,就不得不提经典的描述有雾图像的散射模型:
在这里插入图片描述
其中t(x)可以表示为:
在这里插入图片描述
0<=t(x)<=1
这个模型也是何凯明博士的这篇论文中用到的。
3、还有就是基于最近几年火爆的深度学习方法。如利用随机森林学习回归模型估计透射率的值,利用卷积神经网络构造端到端的去雾网络等。这个是我下一步的研究方向啊。

三、我目前学习的主要方法:基于物理模型的去雾算法复原图像
      对于上面的描述有雾图像的散射模型,其中x为像素空间坐标,I(x)为观测的强度,也就是理解为实际拍摄的有雾图像,J(x)为场景辐射,也就是理解为清晰无雾的图像(就是我们要复原的清晰图像),t是介质传输率,描述的是未被大气颗粒物(雾、霾等悬浮颗粒)散射而到达照相机的那部分光,A是全局大气光,也就是整体大气光值,可以理解为就是太阳光。J(x)t(x)称为直接衰减项,描述了场景辐射照度在介质中的衰减,它随场景深度呈指数性衰减,A(1-t(x))称为大气光幕,用来描述场景成像中加入的大气散射光,这个部分是太阳光经过微粒散射之后参与到成像光路中的部分,它造成了场景的模糊和颜色的失真。这个模型我们要做到的去雾就是从实际拍摄得到的I(x)去求解出J(x)、A和t。 很明显,如果对于一个含N个像素的彩色图片,每个像素有3个通道(RGB)值,那一共就有3N个方程式,但是未知量包括3N个J(x)、N个t(x)、3个A值,一共是4N+3个未知量,用3N个方程解4N+3个未知量,明显就是个“病态方程”。但目前的研究都不是精确的求解,因为这是一个多未知数的“病态方程”,我们只能去估计参数A和t(x),最关键的就是估计介质传输率t(x),然后从I(x)中恢复J(x).
        下面对这个散射模型两边对x求梯度(偏导)得到:
在这里插入图片描述
         这里面是对一个色块(patch)求的,其中假设t是均匀的,所以t和x无关,就直接作为系数提出来,然后A(1-t(x))与x无关就变成了0,又当t<1时,所以得到了上式。原文的描述: For a patch with uniform transmission t, the visibility (sum of gradient) of the input image is reduced by the haze since t<1。The transmission t in a local patch is estimated by maximizing the visibility of the patch under a constraint that the intensity of J(x) is less than the intensity of A.
四、何凯明博士这篇论文的核心思想——暗通道先验
    首先看看暗通道先验是什么:
    在绝大多数非天空的无雾图像的局部区域里,某一些像素总会有至少一个颜色通道具有很低的值。换言之,该区域光强度的最小值是个很小的数。我们给暗通道一个数学定义,对于任意的输入图像J,其暗通道可以用下式表达:
在这里插入图片描述
式中JcJ^c表示彩色图像的每个通道 ,Ω(x)表示以像素X为中心的一个窗口,代表像素点X周围的小区域即滤波器。等式左边即为暗通道图,等式右边:C代表R,G,B中的某一通道,x代表图中某一像素点; 这个公式的意义用代码表达也很简单,首先求出每个像素RGB分量中的最小值,存入一副和原始图像大小相同的灰度图中,然后再对这幅灰度图进行最小值滤波(下一篇博文我将介绍滤波的原理),滤波的半径由窗口大小决定,一般有WindowSize = 2 * Radius + 1;
这个公式的意思可以这样理解:首先取原图每一个像素点中最小的通道值,这样就可以得到一副灰色的图了,然后对这个灰色的图进行最小值滤波(滤波窗口代表了Ω(X))就得到了暗通道图。

     暗通道先验的理论指出:
在这里插入图片描述
     实际生活中造成暗通道中低通道值主要有三个因素:a)阴影等。汽车、建筑物和城市中玻璃窗户的阴影,或者是树叶、树与岩石等自然景观的投影;b)色彩鲜艳的物体或表面等,在RGB的三个通道中有些通道的值很低(比如绿色的草地/树/植物,红色或黄色的花朵/叶子,或者蓝色的水面);c)颜色较暗的物体或者表面,例如灰暗色的树干和石头。总之,自然景物中到处都是阴影或者彩色,这些景物的图像的暗原色总是很灰暗的。原文的表述:The low intensity in the dark channel is mainly due to three factors: a) shadows, e.g., the shadows of cars, buildings, and the inside of windows in cityscape images, or the shadows of leaves, trees, and rocks in landscape images; b) colorful objects or surfaces, e.g., any object with low reflectance in any color channel (for example, green grass/tree/plant, red or yellow flower/leaf, and blue water surface) will result in low values in the dark channel; c) dark objects or surfaces, e.g., dark tree trunks and stones. As the natural outdoor images are usually colorful and full of shadows, the dark channels of these images are really dark!
论文中列举的暗通道图:
     作者随机选取了5000张无雾图片,并手工切除了天空区域,重新调整图像大小,使得最大宽度和高度像素为500像素,并使用1515的色块大小去计算暗通道。
     原文描述:Among them, we randomly select 5,000 images and manually cut out the sky regions. The images are resized so that the maximum of width and height is 500 pixels and their dark channels are computed using a patch size 15
15. Fig. 4 shows several outdoor images and the corresponding dark channels.
在这里插入图片描述
     由上述几幅图像,可以明显的看到暗通道先验理论的普遍性。在作者的论文中,统计了5000多副图像的特征,也都基本符合这个先验,因此,我们可以认为这其实时一条定理,但是基于统计得出的结论。 有了这个先验,接着就需要进行一些数学方面的推导来最终解决问题。
五、用这个暗通道先验解上面那个“病态方程”
重新拿出这个要求解的病态方程-大气散射模型:
在这里插入图片描述
稍作变形(归一化):
在这里插入图片描述
上标C表示R/G/B三个通道的意思。
     首先假设在每一个窗口内透射率t(x)为常数,定义他为t~(x)\tilde{t}(x) ,并且A值已经给定,然后对上式两边求两次最小值运算(用的是最小值滤波),得到下式:
在这里插入图片描述

上式中,J是待求的无雾的图像,根据前述的暗通道先验理论有:
在这里插入图片描述
因此,可推导出:
在这里插入图片描述
把这个公式带入到上面的最小值滤波后的公式得到:

在这里插入图片描述
这就是透射率t的预估值。
     在现实生活中,即使是晴天白云,空气中也存在着一些颗粒,因此,看远处的物体还是能感觉到雾的影响,另外,雾的存在让人类感到景深的存在,因此,有必要在去雾的时候保留一定程度的雾,这可以通过在式(11)中引入一个在[0,1] 之间的因子,则上面的公式修正为:
在这里插入图片描述
该论文中所有的测试结果依赖于: ω=0.95。

     上述推论中都是假设全球达气光A值时已知的,在实际中,我们可以借助于暗通道图来从有雾图像中获取该值。具体步骤如下:
1) 从暗通道图中按照亮度的大小取前0.1%的像素。

2) 在这些位置中,在原始有雾图像I中寻找对应的具有最高亮度的点的值,作为A值。 到这一步,我们就可以进行无雾图像的恢复了。大气散射模型公式可知: J = ( I - A)/t + A
现在I,A,t都已经求得了,因此,完全可以进行J的计算。
当投射图t 的值很小时,会导致J的值偏大,从而使淂图像整体向白场过度,因此一般可设置一阈值T0,当t值小于T0时,令t=T0,本文中所有效果图均以T0=0.1为标准计算。
     因此,最终的恢复公式如下:
在这里插入图片描述
       要获得更为精细的透射率图,何博士在文章中提出了了soft matting方法,能得到非常细腻的结果。 以下是他论文中的效果图:  
在这里插入图片描述
交流扣扣群:533209464(备注“学习”),如果大家有需要,我就录制完整的去雾算法视频讲解课程
在这里插入图片描述

2019-11-22 15:49:11 ithinking110 阅读数 65

近几年人工智能大火了一把,很多都是炒作概念。弄的一些专业词也看着非常高大上,很多人都是望而却步。 找了很多方面的视频 和资料 发现都是博士视角讲解,数学功底比较弱的同学都感觉比较吃力。后面的我将会以本科生的视角讲解入门 nlp ,图像处理方向的专业知识。 其实在实际 商业中也不需要你去深入研究那些复杂的推导公式,了解其中的原理 就能干活,当然除了搞研究的,我觉得大多数都是做应用层的 。

什么是人工智能?

这些东西也没有那么邪乎,人工智能说白了就是找规律。

又分机器学习 和 深度学习。

机器学习:

用一些统计的算法去分割数据。 比如下面这个图 就是怎么找到划分 这两种数据的那条线 。

在这里插入图片描述

深度学习:

y = wx +b 其中 w x b 为矩阵 。 就是通过数据 慢慢的调整这些 矩阵里面的值 。
怎么调整呢 ? 机器也不知道 就慢慢试 比如 一个盲人 怎么探路 前面有坑没有一样 往 前 后 左 右都用脚探索一下 ,看看没有坑 没坑就继续往前走。 达到一个比较理想的值就结束。有损失函数去衡量 这个值的好坏。 先不介绍这么多 后面慢慢在介绍。

怎么学习

该怎么入门学习:
很多刚入门的东西 都是被过来人 指引去看周志华的西瓜书,这本书可以作为一个参考书,全是推导公式。看得脑袋疼 , 刚入门一看这个就果断放弃了。 应该是先入门 ,后面反过来在回顾其中的 数学公式比较好。 我差点就放弃了,走了很多弯路 哎… 。这样的学习方式很多人都接受不了,没有那么多时间 ,也么有那么多数学功底。
所以我打算后面的文章 我尽量每一个任务都是以实际例子去讲解原理 。 给后面的人免除一些头疼 …

重要的事情说三遍

不要一上来就看公式 !! 不要一上来就看公式 !! 不要一上来就看公式 !!。这是坑人的学习方法。

选择一个适合自己的方向去实践 :

人工智能大致上 分为 3个方向: nlp 自然语言处理, 图像处理, 语音处理 。

自然语言处理: 从字面上就能理解,自然语言处理 就是让 机器去找 文字 方面的映射关系,尝试着去理解文字意思。 目前很多自然语言处理都是采用统计的方法去实现,我感觉这种方法 没法真正的去理解 词 ,句子的意思。 所以这个方向目前是火热方向 但是不太成熟的方向 ,什么东西不成熟 发展的空间潜力就大。 而且得语言者得天下 很多名人名言,特别是现在的大数据时代,资料非常的多 ,而且很多业务场景都需要去理解文字 。像大众点评,要知道每一个客户点评的是好是坏,怎么推荐给用户一些建议 ,都会运用到。 我个人也非常看好 这个方向。

图像处理: 字面上理解就是 处理图片 和 视频。一般包括 图像识别,图像分类,图像定位,实例分割 等任务。 目前这个方向 比较成熟,正确率也高 ,从这个方向上学有很多的资料去查而且很多东西都已经成熟 做起来会更有成就感。

语音识别: 字面上理解 就是 将语音转换成文字 ,理解文字的意思等任务。个人对这个方面没有啥研究 ,后面在慢慢看吧 ,共同学习。

算法的一般流程

0,收集数据 : 使用各种手段 收集数据。
1,数据清洗与格式转换, 将杂乱的数据变成 我们有规则 后期编程好操作的数据。
2,分析数据
3,选择 算法模型
3,特征工程 根据算法 将数据 转换成 电脑能识别的 矩阵
4,模型调参
5,模型评估
6, 尝试不同的 算法 重复 2—5
7,选择最优的算法。

还有不明白的 可以交流:
群群nub:八七四一三九四三六

2008-03-02 17:22:00 zhouxiang11366 阅读数 149
 上网有些年月了,对于博客早在几年前就知道这是个非常火的新新玩物。

   直到今天,终于在CSDN上开博了。

   在此,做为一方地主,衷心的欢迎大家常来坐坐。我的博客里会记录一些本人的心得,大多数是工作上的。

   对了,简单介绍一下我个人的情况吧。在读博士研究生,研究方向计算机视觉、图像处理。这是一个基于计算机的不算新兴领域的新兴领域。说它不算新,是因为在技术日新月异的PC时代,做为一门已经有了几十年研究经历的学科,当然不算新兴。说它新,是因为在这些年来,计算机视觉领域的发展真的太缓慢了,严重与计算机技术领域的发展不相符。因此,这也是一个有着广阔应用前景的领域。

    在工业检测领域、在医学图像分析领域,在目标识别、目标提取、目标跟踪领域,等等等等。

    今天也是我的QQ群开张时间,虽然QQ早都上了太阳级了,但是一直没有建群。原因是认为没必要。今天为了准备明天的一个case答辨,方便团队交流,终于建了QQ群。liyou建议我把名字取为防守反击,我没有采纳,不过我按照他的这个想法叫了个名字“全攻全守”,我想这才是我的人生哲学。

    是的,我们开始接case了,虽然从二月中下旬才开始,这是第一个最接近合作的case,希望能成功。技术方面,我们的团队都是博士在读,在技术的处理上相信我们会有非常多的优势。

    全攻全守,开创大局面!

2016-06-21 09:45:17 qiansg123 阅读数 49

声明:本文来自「又拍云主办的Open Talk——在线教育:技术让知识触手可及」的演讲内容整理。PPT、速记和现场演讲视频等参见“UPYUN Open Talk”官网。
嘉宾:姜波,电子和计算机工程博士,现任学霸君研究员资深研究员,现主要负责基于深度学习技术的文档图像智能分析。研究方向:多尺度图像处理、通用视觉模式识别、目标检测、跟踪和识别、深度学习,以及基于并行计算GPU平台的计算等。。
责编:钱曙光,关注架构和算法领域,寻求报道或者投稿请发邮件qianshg@csdn.net,另有「CSDN 高级架构师群」,内有诸多知名互联网公司的大牛架构师,欢迎架构师加微信qshuguang2008申请入群,备注姓名+公司+职位。

学霸君简史

图片描述

学霸君于 2012 年 11 月份成立,CEO 张凯磊在天津组建团队,他以前是做教育这一块的,所以当时考虑的还是做教育这块,经过一系列的头脑风暴,最终选择了学生课后作业、试卷答疑等高频的行为做目标。

2013 年,第一版拍照搜题 APP 上线,这个时候还是半人工的,也有机器拍照搜题的能力,但还是有机器无法解决问题的时候,这就要调动人工答疑部门,帮他们进行收集或者答题,给答案。

2014 年 5 月 30 日,学霸君上线了很重要的版本,这个版本以后是完全的自动化系统。在这个系统里面,将会完完全全用电脑和服务器完成,包括从用户拍照到上传图片,到数据分析,到题库搜索,到给出答案等过程。之后,2014 年 8 月 30 日的时候,我们又上线了第二个重要版本,在这个版本里面,最火热的搜题技术取代了传统的技术。通过更新,我们搜题命中率从 65% 提高到了 75%,用户达到 100 万。然后到去年 1 月 30 日,第三版系统正式上线,加入了另外一个技术,进一步提高了系统的能力,命中率达到 87%。

2015 年 8 月 30 日,第三版系统临近新版本的迭代,命中率达到 93%,用户已经达到 2200 万,累计搜索达到 10 亿次。随后,2015 年 9 月,我们推出 1V1 在线实时答疑系统。到今年 4 月份,用户大概 4 千万左右,拍照搜题日活跃将近 200 万,1V1 的实时答疑每天到 2 到 3 万单,完成了 20 亿次学生拍照搜题,以及 200、300 万在线视频答疑的数据。

1V1 实时答疑

图片描述

为什么推出实时答疑?因为不仅现在,包括我们自己当年作为学生的时候也有这个情况,比如很多时候写一个作业,可能我们思考很长时间还是无法解决问题,这种情况往往就同学之间互相咨询一下,很少想到麻烦老师,因为想到老师可能时间比较少。然后,学生就会有很多问题累计在这个地方,时间一久就不了了之,我们再也不会考虑解决这样的问题了。

同时,我们发现市场上二三线城市老师薪酬比较低,空闲时间比较多。我们做调查时发现,有些三线城市老师即使是特级职称,有十多年的教学经验,每个月工资可能也只有三千块,他们的薪酬是相对上海一线城市来说是很低的,但是因为他们有这么多年的教学经验,已经不需要花太多时间备课,所以空闲时间比较多。

大家也知道,我们这个教育培训市场很大,因为家长是不计成本的,会愿意投入大量的金钱,希望自己的孩子能够提高他们成绩。

基于这三方现状,我们推出了实时答疑。

此外,虽然很多学生和老师之间距离千山万水,但利用现在方便的移动端、电脑端和互联网,我们能够大幅度缩短彼此之间距离,仅仅通过几秒的连接,就可以把一个优秀老师,送到一个待需要解决问题的学生面前。

在这之前,通过拍照搜题,可以进行相应的关键词搜索,获取类似题目,然后返还给学生,帮助他们搞明白怎么解这道题。但是,有一些学生即使看到类似的题目和答案,还是没有办法理解这道题目。所以我们提供在线答疑,老师跟学生「见面」以后,学生上传题目,老师在点阵笔上面进行解答,包括画图,同时所有的记录都会实时反馈到学生的界面上面,这样可以让学生和老师进行实时的互动,进而解决学生的困惑,做到今日难题今日毕。

大规模数据采集

当年做第一个产品时,思考的核心问题就是,怎么样才能够获取一个个学生的信息,然后根据不同学生的情况,通过统计分析找到不同的知识弱点,进行针对性的传授。就像外面线下教育的一对一培训一样,我们也是走这样的方向。现在有一个很流行的词语叫做自身学习,都是一个意思。

所以接下来的问题就是,如果碰到一个学生,怎么知道他的具体情况呢?我们打算先从他们日常接触的书和试卷着手。其实最早的时候我们就已经觉得,学生答疑是很好的切入点,学生每天都有高频的需求,希望能解决作业,但是我们要解决这样的问题,首先的一个问题就是怎么做文字识别和文字提取。一开始我们想,不就是光学的识别吗?购买一些产品或者使用一些公开的 API 应该就能够解决,但是后来发现市场上没有现成的技术,没有能够达到适合我们方向的应用。

我们在实验当中发现,学生在上传的时候不会像我们做测试那么规则,极端情况下,可能学生在考试的时候也会偷偷拍照,这样产生的图片就会有各种各样的问题,包括形变、模糊,或者框架、线条等等,所以我们不仅要识别中文,还要识别英文,以及是不是单双栏,是不是有图片或者表格等等。

识别技术

图片描述

2013 年初,开始拓展自己的一套核心识别技术,先是从印刷体的中文识别入手,然后逐渐走到现在的手写、试卷识别,还有版面分析、高并发图象处理框架,以及公式识别、英文识别、表格识别、图象识别、自然语言处理等等。我们通过针对性研发,适应不同的平台,然后成立图象识别、数据挖掘等小组,支撑这一系列的技术研发。

图片描述

在做文字识别的时候,最早还是用传统的方法,比如说真人相机等等,识别率接近 93%。现在我们用最流行的深入学习技术,大家可能也有一些了解,像是最近阿尔法狗的比赛。我们目前在做的中文识别,训练字符已经达到了 20 个亿,单字符识别率达到 95%。

图片描述

这是用户上传的图片,在做过一些相应的预处理后,我们会把里面的每个文字块切割出来,把它们放进我们的识别网络进行处理,最后得出识别结果。同时,我们也把这种学习技术用到很多其他的领域,比如图象恢复技术。

图片描述

我刚刚讲的,为什么我们当时没法用市面上的一些 OCR 技术,就是因为学生上传的图片实在是太难以辨认了。我们后来通过生物学技术进行解决,首先收集、标注大量图片,同时搭建 GPU 集群训练深度神经网络,然后通过生成模型来进一步应用。

手写识别

图片描述

我们也有手写识别,在学生上传的题目和作业里面,不只是印刷体,比如我们平时见到的课本教材,还有很多老师布置的作业,或者学生自己摘抄的内容,都属于手写内容。这里面有很多挑战,我们需要滤除无关内容,要进行版面分析,要识别出不同的字,然后判断它们属于什么样的结构,最后再次识别,通过自然语言处理,进一步提高识别率。

图片描述

上面是一个例子,也是用户上传的图片,这一块也是利用生物学技术做的,现在识别率大概在 96% 左右。

图片描述

我们最终的目的是希望能够通过这样的交互系统,跟学生互动,并且在跟学生进行讲解的时候,所有的图形都可以通过这个系统变成可以转的立方体,方便跟学生交互,可以更好地帮助一些空间想象能力相对来说稍微弱一点学生。同时,我们也有一个数据挖掘团队,将所有题目里面关键词埋入知识图谱,方便学生检索相应的知识,比如说在一篇朱自清课文里,不仅有朱自清的生平介绍,还有视频等等。此外,数学引擎也可以帮助学生解决问题,我们通过建立一些自动解答系统,可以自动回答一些比较简单,类似于 K12 这种级别的数学题目。

智能化版面分析和题目提取

图片描述

我们目前正在做智能化版面分析和题目提取,如果可以识别学生的一张卷子,可以做多题答疑或者试卷分析,甚至可以做到一本教科书或者参考书分析,比如哪些题目适合学生做,哪些题目不需要去做等等。此外,我们还可以通过应用来打包一些内容,比如视频、音频、知识库等等。

图像云

图片描述

我们的目标是希望建立一个图像云,让学生可以通过终端发送图像请求,然后利用我们图像云的识别技术,包括语音识别、手写识别、版面识别等等,帮助他们处理各种各样的问题。

最核心技术:分发策略

图片描述

实际上,这个产品背后的逻辑蛮简单的,如果学生对于系统给予的解答不是特别明白,他们就可以像用 UBER 或者滴滴打车一样,直接连接老师,随时随地在线解决问题。虽然这个逻辑本身是比较简单和清楚的,但背后还是需要一个核心技术,就是怎么样去分发,怎么样让最合适的老师给学生解题。每个老师的上线时间都不一样,有的老师上午上线,有的老师晚上才有空,还有的老师科目不一样,比如英语、化学等。除了这些之外,考纲也不一样,以后可能全国考纲会慢慢统一,但至少这几年我们的考纲还不太一样,所以每个老师的讲题方式也不太一样,这就需要根据不同老师的状况,推送给不同的学生。而学生实际上也有不同的情况,我们当时做过测试,很多学生在下午的上课时间发送问题,但当时老师们并没有空。还有就是,不同学生对价格的敏感程度不一样,获取结果的期待值也不一样。

最后,通过系统调度,会对学生上传的题目做一个导航,把该题目进行知识分解,形成细分的知识图谱。接着对学生画像,如果学生经常需要答疑或者经常上传一些题目,会慢慢获取学生的信息,这样能清楚地知道,学生到底哪一块不足,哪一块比较擅长,我们也会经过老师的多次答疑之后,分析答疑数据或者学生的评价,这样也就给老师做了一个画像。根据这些信息,就可以利用系统进行智能调度,从而完成老师与学生之间的配对。

知识导航体系

图片描述

有一个教研团队,他们会把初高中的语文、数学、外语等科目进行知识点的分类,既用到一些人工的方法,也用到一些机器学习的技术,从多个维度进行挖掘,最终形成我们所需要的知识导航体系。

图片描述

举例来说,对高中数学的东西,可以分成 7 个板块,包括立体几何、代数,算法与框图等等,大概有 22 个章节,550 个知识点,3529 个题型,然后在难度上分为 4 个等级。学生上传题目以后,如果他是高中数学题,我们首先就要找高中老师,然后判断是哪个板块的题目,这样继续往下走,确定是什么类型的题目,最后决定选择哪位老师。

学生画像

图片描述

在目前的教育系统里,学生大部分都是接受相同的教育,而我们希望的是,能够通过学生画像给他们提供针对个人特点的服务,比如根据年级、地区、对知识点的掌握程度,以及学习能力等等,给他们画出一个图表,最后基于这些图表,为学生匹配更合适的服务。

老师画像

图片描述

同样,我们也需要给老师进行画像,因为每个老师的能力是不一样的,所以我们就通过每次老师讲解的时间,和学生对他的评分,以及一些自动化试检或以及人工试检,来对老师进行画像,得出他们擅长的领域或者教学习惯。

我们的系统大家应该已经知道了,像 UBER 或者滴滴一样,学生需要答疑,老师看到答疑请求之后可以选择,到底这个题目讲还是不讲,通过这样的智能分析系统,我们可以慢慢获取老师信息。

答疑供应预测

图片描述

刚才讲到,不同地区的教纲是不一样的,所以当学生提出了答疑需求的时候,我们会最优先地给他选择最合适的老师和时间。这个调度过程就像是工业上的供应预测,每个省份、每个知识点对应的老师,以及老师的上线时间具有强烈的随机性,这就需要从不同角度对个人情况进行分析,然后形成时间模型,预测学生下一次的请求,并同时计算老师是不是在线或者能不能回答这个问题。

答疑供给库存模型

图片描述

这个有点类似于工程上的供给库存模型,我们首先考虑的是两个状态,一个是老师的答疑供给库存,一个是学生的答疑需求,以此形成老师的答疑库存队列,然后通过 Markov 进行预测。

图片描述

把不同队列的状态建立方程以后,利用我们的公式,让它最后产生的结果概率等于 1 ,然后通过解线性方程组得到最优解,最后预测出老师库存队列的长度和等待时间,以及学生需求队列的长度和等待时间。

图片描述

之前的数据比较复杂,其实简单来说,我们的目标就是能够最大化地答题,增加答疑总量,同时希望每个老师的答疑得分要比较高,还有就是要降低学生提问的流失率,降低老师的闲置率和其他成本。当然了,这个目标是建立在老师的实际调配量小于最大量的基础下。

图片描述

通过设计这样的制度,可以方便以后我们要做的排班系统,包括直播讲课、直播答疑等等。基于这个系统,我们也可以更加合理地分配自己的能力,因为我们有一些是直接雇佣的内部老师,但也有一些外部兼职老师,有了排版系统,我们就可以根据实际的情况选择自动排班,这一方面能保证答疑的质量,另一方面也能降低成本。

下一个数据采集目标:1000 万高质量 1V1 视频样本

总的来说,我们是希望通过这样的调度系统,以最优化的策略帮助学生更快地提高成绩,同时也能够让老师更有效地答疑,并提高他们的收入。如果我们的系统比较差,那么学生的体验就会很糟糕,老师也就会认为这样的平台使用价值不是很高。我们现在的目标就是,能够通过这样的在线答疑系统,生成大量的,比如说 1000 万高质量的 1V1 视频样本,让我们可以进一步做更多的分析,最后形成以「学霸君」为平台的拍照搜题、1V1 实时答疑的平台。

小结

图片描述

「学霸君」最主要做的业务是以数据、技术、分析为支撑的,以此提供给学生一些定制化的,或者个人化的实时答疑学习、内容推荐、自适应练习等等。而这些内容都是通过一系列技术性的收集,包括利用技术进行统计、分析、预测来最终实现。

没有更多推荐了,返回首页