精华内容
下载资源
问答
  • SIFT

    2021-03-28 21:59:38
    一、SIFT算法 1、算法介绍 SIFT的全称是Scale Invariant Feature Transform,首次由D. G. Lowe于2004年以《Distinctive Image Features from Scale-Invariant Keypoints[J]》发表于IJCV中。SIFT算法的实质是在不同的...

    一、SIFT算法

    1、算法介绍

    SIFT的全称是Scale Invariant Feature Transform,首次由D. G.
    Lowe于2004年以《Distinctive Image Features from Scale-Invariant
    Keypoints[J]》发表于IJCV中。SIFT算法的实质是在不同的尺度空间上查找关键点,计算关键点的大小、方向、尺度信息,利用这些信息组成关键点对特征点进行描述。
    SIFT所查找的关键点都是一些十分突出,不会因光照,仿射便函和噪声等因素而变换的“稳定”特征点,如角点、边缘点、暗区的亮点以及亮区的暗点等。匹配的过程就是对比这些特征点的过程。

    因而SIFT算法可以用来解决的问题
    • 目标的旋转、缩放、平移(RST)
    • 图像仿射/投影变换(视点viewpoint)
    • 弱光照影响(illumination)
    • 部分目标遮挡(occlusion)
    • 杂物场景(clutter)
    • 噪声

    2、算法步骤

    该算法的实质可以归为不同尺度空间上寻找特征点(关键点)的问题

    在这里插入图片描述

    SIFT算法实现特征匹配主要有三个流程:
    1、提取关键点;
    2、对关键点附加详细的信息(局部特征),即描述符;
    3、通过特征点(附带上特征向量的关键点)的两两比较找出相互匹配的若干对特征点,建立景物间的对应关系。

    二、相关概念和背后的数学原理

    问题引出:SIFT寻找的是哪些点,这些点有什么特征?
    这些点是一些十分突出的点不会因光照、尺度、旋转等因素的改变而消 失,比如角点边缘点暗区域的亮点以及亮区域的暗点。既然两幅图像中 有相同的景物,那么使用某种方法分别提取各自的稳定点,这些点之间会有 相互对应的匹配点。

    1、尺度空间

    尺度空间理论最早于1962年提出,其主要思想是通过对原始图像进行尺度变换,获得图像多尺度下的空间表示。从而实现边缘、角点检测和不同分辨率上的特征提取,以满足特征点的尺度不变性。尺度空间中各尺度图像的 模糊程度逐渐变大,能够模拟 人在距离目标由近到远时目标 在视网膜上的形成过程。 尺度越大图像越模糊。
    根据文献《Scale-space theory: A basic tool for analysing structures at different scales》可知,高斯核是唯一可以产生 多尺度空间的核,一个 图像的尺度空间,L(x, y, σ) ,定义为原始图像 I(x, y)与一个可变尺度的2 维高斯函数G(x, y, σ) 卷积运算
    在这里插入图片描述

    2、高斯模糊和高斯金字塔

    尺度空间的获取通常使用高斯模糊来实现.I(x,y)表示一幅图像,G(x,y,sigma)为高斯函数,对图像做高斯滤波.
    在这里插入图片描述

    在这里插入图片描述

    3、关键点检测-DOG

    在这里插入图片描述

    在这里插入图片描述
    在这里插入图片描述

    在这里插入图片描述

    三、代码实现和结果分析

    1.关键点检测

    检测图片:
    在这里插入图片描述

    代码:

    # -*- coding: utf-8 -*-
    from PCV.localdescriptors import harris
    from PCV.localdescriptors import sift
    from PIL import Image
    # 添加中文字体支持
    from matplotlib.font_manager import FontProperties
    from pylab import *
    
    font = FontProperties(fname=r"c:\windows\fonts\SimSun.ttc", size=14)
    
    imname = 'D:\PhotoTest/test1.png'
    im = array(Image.open(imname).convert('L'))
    sift.process_image(imname, 'empire.sift')
    [l1, d1] = sift.read_features_from_file('empire.sift')
    
    figure()
    gray()
    subplot(131)
    sift.plot_features(im, l1, circle=False)
    title(u'SIFT特征',fontproperties=font)
    subplot(132)
    sift.plot_features(im, l1, circle=True)
    title(u'用圆圈表示SIFT特征尺度',fontproperties=font)
    
    show()
    
    
    

    结果分析:

    在这里插入图片描述

    对比实图发现边缘点,角点,暗区域的亮点以及亮区域的暗点都被检测并标记出来了

    2.描述子匹配

    测试图:

    代码:

    
    ```python
    from PIL import Image
    from pylab import *
    import sys
    from PCV.localdescriptors import sift
    
    
    if len(sys.argv) >= 3:
      im1f, im2f = sys.argv[1], sys.argv[2]
    else:
    
      im1f = 'D:\PhotoTest\\test1.jpg'
      im2f = 'D:\PhotoTest\\test3.jpg'
    
    im1 = array(Image.open(im1f))
    im2 = array(Image.open(im2f))
    
    sift.process_image(im1f, 'out_sift_1.txt')
    l1, d1 = sift.read_features_from_file('out_sift_1.txt')
    figure()
    gray()
    subplot(121)
    sift.plot_features(im1, l1, circle=False)
    
    sift.process_image(im2f, 'out_sift_2.txt')
    l2, d2 = sift.read_features_from_file('out_sift_2.txt')
    subplot(122)
    sift.plot_features(im2, l2, circle=False)
    
    #matches = sift.match(d1, d2)
    matches = sift.match_twosided(d1, d2)
    print ('{} matches'.format(len(matches.nonzero()[0])))
    
    figure()
    gray()
    sift.plot_matches(im1, im2, l1, l2, matches, show_below=True)
    show()
    

    结果分析:
    在这里插入图片描述
    可以发现对左一进行了特征提取,右一进行了匹配,通过match_twosided()函数返回特征点匹配情况,但是也出现了几处不是特别理想的匹配连线,由上图观察可得,小景深下通过肉眼简单地观察,sift算法仍存在一部分的错误匹配点(右侧天空)
    在这里插入图片描述

    3.数据集中查找匹配度高的相似图片

    待匹配图片:
    在这里插入图片描述
    图片集:

    在这里插入图片描述

    代码:

    from PIL import Image
    from pylab import *
    from PCV.localdescriptors import sift
    import matplotlib.pyplot as plt # plt 用于显示图片
    
    
    im1f = 'D:\PhotoTest\\1.jpg'
    im1 = array(Image.open(im1f))
    sift.process_image(im1f, 'out_sift_1.txt')
    l1, d1 = sift.read_features_from_file('out_sift_1.txt')
    
    arr=[]#单维链表数组
    arrHash = {}#字典型数组
    for i in range(2,5):
        im2f = 'D:\PhotoTest\\'+str(i)+'.jpg'
        im2 = array(Image.open(im2f))
        sift.process_image(im2f, 'out_sift_2.txt')
        l2, d2 = sift.read_features_from_file('out_sift_2.txt')
        matches = sift.match_twosided(d1, d2)
        length=len(matches.nonzero()[0])
        length=int(length)
        arr.append(length)#添加新的值
        arrHash[length]=im2f#添加新的值
    
    arr.sort()#数组排序
    arr=arr[::-1]#数组反转
    arr=arr[:5]#截取数组元素到第五个
    i=0
    plt.figure(figsize=(5,12))#设置输出图像的大小/002/2.jpg
    for item in arr:
        if(arrHash.get(item)!=None):
            img=arrHash.get(item)
            im1 = array(Image.open(img))
            ax=plt.subplot(511 + i)#设置子团位置
            ax.set_title('{} matches'.format(item))#设置子图标题
            plt.axis('off')#不显示坐标轴
            imshow(im1)
            i = i + 1
    
    plt.show()
    
    
    

    结果分析:
    在这里插入图片描述

    在这里插入图片描述
    仅选取了4张范围2~5.jpg的图片,图2做视角的改变,图3做光照改变测试
    可以发现SIFT算法在视角的改变,光照的改变和尺度的改变的条件下依旧能够完成较高精度的匹配

    4.匹配地理标记图像

    代码:

    # -*- coding: utf-8 -*-
    from pylab import *
    from PIL import Image
    from PCV.localdescriptors import sift
    from PCV.tools import imtools
    import pydot
    
    """ This is the example graph illustration of matching images from Figure 2-10.
    To download the images, see ch2_download_panoramio.py."""
    
    #download_path = "panoimages"  # set this to the path where you downloaded the panoramio images
    #path = "/FULLPATH/panoimages/"  # path to save thumbnails (pydot needs the full system path)
    
    download_path = "D:\PhotoTest"  # set this to the path where you downloaded the panoramio images
    path = "D:\PhotoTest"  # path to save thumbnails (pydot needs the full system path)
    
    # list of downloaded filenames
    imlist = imtools.get_imlist(download_path)
    nbr_images = len(imlist)
    
    # extract features
    featlist = [imname[:-3] + 'sift' for imname in imlist]
    for i, imname in enumerate(imlist):
        sift.process_image(imname, featlist[i])
    
    matchscores = zeros((nbr_images, nbr_images))
    
    for i in range(nbr_images):
        for j in range(i, nbr_images):  # only compute upper triangle
            print ('comparing ', imlist[i], imlist[j])
            l1, d1 = sift.read_features_from_file(featlist[i])
            l2, d2 = sift.read_features_from_file(featlist[j])
            matches = sift.match_twosided(d1, d2)
            nbr_matches = sum(matches > 0)
            print ('number of matches = ', nbr_matches)
            matchscores[i, j] = nbr_matches
    print ("The match scores is: \n", matchscores)
    
    # copy values
    for i in range(nbr_images):
        for j in range(i + 1, nbr_images):  # no need to copy diagonal
            matchscores[j, i] = matchscores[i, j]
    
    #可视化
    
    threshold = 2  # min number of matches needed to create link
    
    g = pydot.Dot(graph_type='graph')  # don't want the default directed graph
    
    for i in range(nbr_images):
        for j in range(i + 1, nbr_images):
            if matchscores[i, j] > threshold:
                # first image in pair
                im = Image.open(imlist[i])
                im.thumbnail((100, 100))
                filename = path + str(i) + '.png'
                im.save(filename)  # need temporary files of the right size
                g.add_node(pydot.Node(str(i), fontcolor='transparent', shape='rectangle', image=filename))
    
                # second image in pair
                im = Image.open(imlist[j])
                im.thumbnail((100, 100))
                filename = path + str(j) + '.png'
                im.save(filename)  # need temporary files of the right size
                g.add_node(pydot.Node(str(j), fontcolor='transparent', shape='rectangle', image=filename))
    
                g.add_edge(pydot.Edge(str(i), str(j)))
    g.write_png('whitehouse.png')
    

    结果分析:
    在这里插入图片描述

    四、遇到的问题和总结

    主要遇到的问题是环境配置
    1.pcv的配置
    本来想直接在控制台cmd使用命令"pip install pcv"结果找不到这个库。
    通过https://github.com/jesolem/PCV下载安装包下载后解压得到文件夹PCV-master,通过cmd进入setup.py所在的目录执行命令“python setup.py install ”才算是完成了PCV的安装
    2.接下来爆出第二个问题:vlfeat配置
    由于出现问题 tmp.pgm转empire.sift失败,发现是vlfeat配置出了问题,找到PCV文件夹的ift.py文件,打开找到cmmd更改了路径:
    在这里插入图片描述
    这样才能开始特征提取了。

    关于SIFT的算法理解体会
    SIFT算法可帮助定位图像中的局部特征,也就是这些关键点
    。这些关键点具有旋转不变量和比例尺的作用,不受图像的大小和方向的影响。就像我们人眼一样我们能轻易的识别同一副图片的不同角度和大小,是因为我们记住了他们的不变特征。同样对于机器来说,如果通过模型训练我觉得计算机也能完成向人一样的高精度识别。因此,虽然对SIFT 的本质理解还不深,但仅从实验结果来看,这算法的功能在图像匹配和物体检测方面有着强势的优点

    展开全文
  • SIFT算法详解

    万次阅读 多人点赞 2012-04-28 21:40:36
    Scale Invariant Feature Transform(SIFT) Just For Fun zdd zddmail@gmail.com 对于初学者,从David G.Lowe的论文到实现,有许多鸿沟,本文帮你跨越。 1、SIFT综述 尺度不变特征转换(Scale-invariant ...

    尺度不变特征变换匹配算法详解
    Scale Invariant Feature Transform(SIFT)
    Just For Fun

    zdd  zddmail@gmail.com or (zddhub@gmail.com)

    对于初学者,从David G.Lowe的论文到实现,有许多鸿沟,本文帮你跨越。

    如果你学习SIFI得目的是为了做检索,也许 OpenSSE 更适合你,欢迎使用。


    1SIFT综述

    尺度不变特征转换(Scale-invariant feature transformSIFT)是一种电脑视觉的算法用来侦测与描述影像中的局部性特征,它在空间尺度中寻找极值点,并提取出其位置、尺度、旋转不变量,此算法由 David Lowe1999年所发表,2004年完善总结。

    其应用范围包含物体辨识、机器人地图感知与导航、影像缝合、3D模型建立、手势辨识、影像追踪和动作比对。

    此算法有其专利,专利拥有者为英属哥伦比亚大学。

    局部影像特征的描述与侦测可以帮助辨识物体,SIFT 特征是基于物体上的一些局部外观的兴趣点而与影像的大小和旋转无关。对于光线、噪声、些微视角改变的容忍度也相当高。基于这些特性,它们是高度显著而且相对容易撷取,在母数庞大的特征数据库中,很容易辨识物体而且鲜有误认。使用 SIFT特征描述对于部分物体遮蔽的侦测率也相当高,甚至只需要3个以上的SIFT物体特征就足以计算出位置与方位。在现今的电脑硬件速度下和小型的特征数据库条件下,辨识速度可接近即时运算。SIFT特征的信息量大,适合在海量数据库中快速准确匹配。

    SIFT算法的特点有:

    1. SIFT特征是图像的局部特征,其对旋转、尺度缩放、亮度变化保持不变性,对视角变化、仿射变换、噪声也保持一定程度的稳定性;

    2. 独特性(Distinctiveness)好,信息量丰富,适用于在海量特征数据库中进行快速、准确的匹配;

    3. 多量性,即使少数的几个物体也可以产生大量的SIFT特征向量;

    4. 高速性,经优化的SIFT匹配算法甚至可以达到实时的要求;

    5. 可扩展性,可以很方便的与其他形式的特征向量进行联合。

    SIFT算法可以解决的问题:

    目标的自身状态、场景所处的环境和成像器材的成像特性等因素影响图像配准/目标识别跟踪的性能。而SIFT算法在一定程度上可解决:

    1. 目标的旋转、缩放、平移(RST

    2. 图像仿射/投影变换(视点viewpoint

    3. 光照影响(illumination

    4. 目标遮挡(occlusion

    5. 杂物场景(clutter

    6. 噪声

    SIFT算法的实质是在不同的尺度空间上查找关键点(特征点),并计算出关键点的方向。SIFT所查找到的关键点是一些十分突出,不会因光照,仿射变换和噪音等因素而变化的点,如角点、边缘点、暗区的亮点及亮区的暗点等。 

    LoweSIFT算法分解为如下四步:

    1. 尺度空间极值检测:搜索所有尺度上的图像位置。通过高斯微分函数来识别潜在的对于尺度和旋转不变的兴趣点。

    2. 关键点定位:在每个候选的位置上,通过一个拟合精细的模型来确定位置和尺度。关键点的选择依据于它们的稳定程度。

    3. 方向确定:基于图像局部的梯度方向,分配给每个关键点位置一个或多个方向。所有后面的对图像数据的操作都相对于关键点的方向、尺度和位置进行变换,从而提供对于这些变换的不变性。

    4. 关键点描述:在每个关键点周围的邻域内,在选定的尺度上测量图像局部的梯度。这些梯度被变换成一种表示,这种表示允许比较大的局部形状的变形和光照变化。

    本文沿着Lowe的步骤,参考Rob HessAndrea Vedaldi源码,详解SIFT算法的实现过程。

    2、高斯模糊

    SIFT算法是在不同的尺度空间上查找关键点,而尺度空间的获取需要使用高斯模糊来实现,Lindeberg等人已证明高斯卷积核是实现尺度变换的唯一变换核,并且是唯一的线性核。本节先介绍高斯模糊算法。

    2.1二维高斯函数

    高斯模糊是一种图像滤波器,它使用正态分布(高斯函数)计算模糊模板,并使用该模板与原图像做卷积运算,达到模糊图像的目的。

    N维空间正态分布方程为:

    1-1

    其中,是正态分布的标准差,值越大,图像越模糊(平滑)r为模糊半径,模糊半径是指模板元素到模板中心的距离。如二维模板大小为m*n,则模板上的元素(x,y)对应的高斯计算公式为:

    1-2

       在二维空间中,这个公式生成的曲面的等高线是从中心开始呈正态分布的同心圆,如图2.1所示。分布不为零的像素组成的卷积矩阵与原始图像做变换。每个像素的值都是周围相邻像素值的加权平均。原始像素的值有最大的高斯分布值,所以有最大的权重,相邻像素随着距离原始像素越来越远,其权重也越来越小。这样进行模糊处理比其它的均衡模糊滤波器更高地保留了边缘效果。

    理论上来讲,图像中每点的分布都不为零,这也就是说每个像素的计算都需要包含整幅图像。在实际应用中,在计算高斯函数的离散近似时,在大概3σ距离之外的像素都可以看作不起作用,这些像素的计算也就可以忽略。通常,图像处理程序只需要计算的矩阵就可以保证相关像素影响。

    2.2 图像的二维高斯模糊

    根据σ的值,计算出高斯模板矩阵的大小(),使用公式(1-2)计算高斯模板矩阵的值,与原图像做卷积,即可获得原图像的平滑(高斯模糊)图像。为了确保模板矩阵中的元素在[0,1]之间,需将模板矩阵归一化。5*5的高斯模板如表2.1所示。


    下图是5*5的高斯模板卷积计算示意图。高斯模板是中心对称的。

    2.3分离高斯模糊

    如图2.3所示,使用二维的高斯模板达到了模糊图像的目的,但是会因模板矩阵的关系而造成边缘图像缺失(2.3 b,c)越大,缺失像素越多,丢弃模板会造成黑边(2.3 d)。更重要的是当变大时,高斯模板(高斯核)和卷积运算量将大幅度提高。根据高斯函数的可分离性,可对二维高斯模糊函数进行改进。

    高斯函数的可分离性是指使用二维矩阵变换得到的效果也可以通过在水平方向进行一维高斯矩阵变换加上竖直方向的一维高斯矩阵变换得到。从计算的角度来看,这是一项有用的特性,因为这样只需要次计算,而二维不可分的矩阵则需要次计算,其中,m,n为高斯矩阵的维数,M,N为二维图像的维数。

    另外,两次一维的高斯卷积将消除二维高斯矩阵所产生的边缘。(关于消除边缘的论述如下图2.4所示, 对用模板矩阵超出边界的部分——虚线框,将不做卷积计算。如图2.4中x方向的第一个模板1*5,将退化成1*3的模板,只在图像之内的部分做卷积。)


    附录1是用opencv2.2实现的二维高斯模糊和分离高斯模糊。表2.2为上述两种方法和opencv2.3开源库实现的高斯模糊程序的比较。


    3、尺度空间极值检测

    尺度空间使用高斯金字塔表示。Tony Lindeberg指出尺度规范化的LoG(Laplacion of Gaussian)算子具有真正的尺度不变性,Lowe使用高斯差分金字塔近似LoG算子,在尺度空间检测稳定的关键点。

    3.1 尺度空间理论

    尺度空间(scale space)思想最早是由Iijima1962年提出的,后经witkinKoenderink等人的推广逐渐得到关注,在计算机视觉使用广泛。

    尺度空间理论的基本思想是:在图像信息处理模型中引入一个被视为尺度的参数,通过连续变化尺度参数获得多尺度下的尺度空间表示序列,对这些序列进行尺度空间主轮廓的提取,并以该主轮廓作为一种特征向量,实现边缘、角点检测和不同分辨率上的特征提取等。

    尺度空间方法将传统的单尺度图像信息处理技术纳入尺度不断变化的动态分析框架中,更容易获取图像的本质特征。尺度空间中各尺度图像的模糊程度逐渐变大,能够模拟人在距离目标由近到远时目标在视网膜上的形成过程。

    尺度空间满足视觉不变性。该不变性的视觉解释如下:当我们用眼睛观察物体时,一方面当物体所处背景的光照条件变化时,视网膜感知图像的亮度水平和对比度是不同的,因此要求尺度空间算子对图像的分析不受图像的灰度水平和对比度变化的影响,即满足灰度不变性和对比度不变性。另一方面,相对于某一固定坐标系,当观察者和物体之间的相对位置变化时,视网膜所感知的图像的位置、大小、角度和形状是不同的,因此要求尺度空间算子对图像的分析和图像的位置、大小、角度以及仿射变换无关,即满足平移不变性、尺度不变性、欧几里德不变性以及仿射不变性。

    3.2 尺度空间的表示

    一个图像的尺度空间,定义为一个变化尺度的高斯函数与原图像的卷积。

      (3-1)

    其中,*表示卷积运算,

      (3-2)

    与公式(1-2)相同,mn表示高斯模板的维度(确定)(x, y)代表图像的像素位置。是尺度空间因子,值越小表示图像被平滑的越少,相应的尺度也就越小。大尺度对应于图像的概貌特征,小尺度对应于图像的细节特征。

    3.3 高斯金字塔的构建

    尺度空间在实现时使用高斯金字塔表示,高斯金字塔的构建分为两部分:

    1. 对图像做不同尺度的高斯模糊;

    2. 对图像做降采样(隔点采样)


    图像的金字塔模型是指,将原始图像不断降阶采样,得到一系列大小不一的图像,由大到小,从下到上构成的塔状模型。原图像为金子塔的第一层,每次降采样所得到的新图像为金字塔的一层(每层一张图像),每个金字塔共n层。金字塔的层数根据图像的原始大小和塔顶图像的大小共同决定,其计算公式如下:

    (3-3)

    其中MN为原图像的大小,t为塔顶图像的最小维数的对数值。如,对于大小为512*512的图像,金字塔上各层图像的大小如表3.1所示,当塔顶图像为4*4时,n=7,当塔顶图像为2*2时,n=8

    为了让尺度体现其连续性,高斯金字塔在简单降采样的基础上加上了高斯滤波。如图3.1所示,将图像金字塔每层的一张图像使用不同参数做高斯模糊,使得金字塔的每层含有多张高斯模糊图像,将金字塔每层多张图像合称为一组(Octave),金字塔每层只有一组图像,组数和金字塔层数相等,使用公式(3-3)计算,每组含有多张(也叫层Interval)图像。另外,降采样时,高斯金字塔上一组图像的初始图像(底层图像)是由前一组图像的倒数第三张图像隔点采样得到的。

    注:由于组内的多张图像按层次叠放,因此组内的多张图像也称做多层,为避免与金字塔层的概念混淆,本文以下内容中,若不特别说明是金字塔层数,层一般指组内各层图像。

    注:如3.4节所示,为了在每组中检测S个尺度的极值点,则DOG金字塔每组需S+2层图像,而DOG金字塔由高斯金字塔相邻两层相减得到,则高斯金字塔每组需S+3层图像,实际计算时S在3到5之间。取S=3时,假定高斯金字塔存储索引如下:

    第0组(即第-1组):  0 1  2  3  4   5

    第1组:            6 7  8  9  10 11

    第2组:            ?

    则第2组第一张图片根据第一组中索引为9的图片降采样得到,其它类似。  


    3.4 高斯差分金字塔

    2002年Mikolajczyk在详细的实验比较中发现尺度归一化的高斯拉普拉斯函数的极大值和极小值同其它的特征提取函数,例如:梯度,Hessian或Harris角特征比较,能够产生最稳定的图像特征。

    而Lindeberg早在1994年就发现高斯差分函数(Difference of Gaussian ,简称DOG算子)与尺度归一化的高斯拉普拉斯函数非常近似。其中的关系可以从如下公式推导得到:

    利用差分近似代替微分,则有:

                       

    因此有

    其中k-1是个常数,并不影响极值点位置的求取。


    如图3.2所示,红色曲线表示的是高斯差分算子,而蓝色曲线表示的是高斯拉普拉斯算子。Lowe使用更高效的高斯差分算子代替拉普拉斯算子进行极值检测,如下:

    (3-4)

    在实际计算时,使用高斯金字塔每组中相邻上下两层图像相减,得到高斯差分图像,如图3.3所示,进行极值检测。

    3.5 空间极值点检测(关键点的初步探查)

    关键点是由DOG空间的局部极值点组成的,关键点的初步探查是通过同一组内各DoG相邻两层图像之间比较完成的。为了寻找DoG函数的极值点,每一个像素点要和它所有的相邻点比较,看其是否比它的图像域和尺度域的相邻点大或者小。如图3.4所示,中间的检测点和它同尺度的8个相邻点和上下相邻尺度对应的9×2个点共26个点比较,以确保在尺度空间和二维图像空间都检测到极值点。 

    由于要在相邻尺度进行比较,如图3.3右侧每组含4层的高斯差分金子塔,只能在中间两层中进行两个尺度的极值点检测,其它尺度则只能在不同组中进行。为了在每组中检测S个尺度的极值点,则DOG金字塔每组需S+2层图像,而DOG金字塔由高斯金字塔相邻两层相减得到,则高斯金字塔每组需S+3层图像,实际计算时S35之间。

    当然这样产生的极值点并不全都是稳定的特征点,因为某些极值点响应较弱,而且DOG算子会产生较强的边缘响应。

    3.6 构建尺度空间需确定的参数

      —尺度空间坐标

        O—组(octave)

        S— 组内层数

    在上述尺度空间中,O和S,的关系如下:

     (3-5)

    其中是基准层尺度,o为组octave的索引,s为组内层的索引。关键点的尺度坐标就是按关键点所在的组和组内的层,利用公式(3-5)计算而来。

    在最开始建立高斯金字塔时,要预先模糊输入图像来作为第0个组的第0层的图像,这时相当于丢弃了最高的空域的采样率。因此通常的做法是先将图像的尺度扩大一倍来生成第-1组。我们假定初始的输入图像为了抗击混淆现象,已经对其进行的高斯模糊,如果输入图像的尺寸用双线性插值扩大一倍,那么相当于

    取式(3-4)中的k为组内总层数的倒数,即

       (3-6)

    在构建高斯金字塔时,组内每层的尺度坐标按如下公式计算:

    (3-7)

    其中初始尺度,lowes为组内的层索引,不同组相同层的组内尺度坐标相同。组内下一层图像是由前一层图像按进行高斯模糊所得。式(3-7)用于一次生成组内不同尺度的高斯图像,而在计算组内某一层图像的尺度时,直接使用如下公式进行计算:

    (3-8)

    该组内尺度在方向分配和特征描述时确定采样窗口的大小。

    由上,式(3-4)可记为

    (3-9)

    3.5为构建DOG金字塔的示意图,原图采用128*128jobs图像,扩大一倍后构建金字塔。



    4、关键点定位

    以上方法检测到的极值点是离散空间的极值点,以下通过拟合三维二次函数来精确确定关键点的位置和尺度,同时去除低对比度的关键点和不稳定的边缘响应点(因为DoG算子会产生较强的边缘响应),以增强匹配稳定性、提高抗噪声能力。

    4.1关键点的精确定位

    离散空间的极值点并不是真正的极值点,图4.1显示了二维函数离散空间得到的极值点与连续空间极值点的差别。利用已知的离散空间点插值得到的连续空间极值点的方法叫做子像素插值(Sub-pixel Interpolation)。

    为了提高关键点的稳定性,需要对尺度空间DoG函数进行曲线拟合。利用DoG函数在尺度空间的Taylor展开式(拟合函数)为:

    (4-1)

    其中,。求导并让方程等于零,可以得到极值点的偏移量为:

    (4-2)

    对应极值点,方程的值为:

    (4-3)

    其中,代表相对插值中心的偏移量,当它在任一维度上的偏移量大于0.5时(即xy),意味着插值中心已经偏移到它的邻近点上,所以必须改变当前关键点的位置。同时在新的位置上反复插值直到收敛;也有可能超出所设定的迭代次数或者超出图像边界的范围,此时这样的点应该删除,在Lowe中进行了5次迭代。另外,过小的点易受噪声的干扰而变得不稳定,所以将小于某个经验值(Lowe论文中使用0.03Rob Hess等人实现时使用0.04/S)的极值点删除。同时,在此过程中获取特征点的精确位置(原位置加上拟合的偏移量)以及尺度()

    4.2消除边缘响应

    一个定义不好的高斯差分算子的极值在横跨边缘的地方有较大的主曲率,而在垂直边缘的方向有较小的主曲率。

    DOG算子会产生较强的边缘响应,需要剔除不稳定的边缘响应点。获取特征点处的Hessian矩阵,主曲率通过一个2x2 Hessian矩阵H求出:

      (4-4)

    H的特征值α和β代表x和y方向的梯度,

     (4-5)

    表示矩阵H对角线元素之和,表示矩阵H的行列式。假设是α较大的特征值,而是β较小的特征值,令,则

    (4-6)                

    导数由采样点相邻差估计得到,在下一节中说明

    D的主曲率和H的特征值成正比,令为α最大特征值,β为最小的特征值,则公式的值在两个特征值相等时最小,随着的增大而增大。值越大,说明两个特征值的比值越大,即在某一个方向的梯度值越大,而在另一个方向的梯度值越小,而边缘恰恰就是这种情况。所以为了剔除边缘响应点,需要让该比值小于一定的阈值,因此,为了检测主曲率是否在某域值r下,只需检测

    (4-7)

    (4-7)成立时将关键点保留,反之剔除。

    在Lowe的文章中,取r=10。图4.2右侧为消除边缘响应后的关键点分布图。

      

    4.3有限差分法求导

    有限差分法以变量离散取值后对应的函数值来近似微分方程中独立变量的连续取值。在有限差分方法中,我们放弃了微分方程中独立变量可以取连续值的特征,而关注独立变量离散取值后对应的函数值。但是从原则上说,这种方法仍然可以达到任意满意的计算精度。因为方程的连续数值解可以通过减小独立变量离散取值的间格,或者通过离散点上的函数值插值计算来近似得到。这种方法是随着计算机的诞生和应用而发展起来的。其计算格式和程序的设计都比较直观和简单,因而,它在计算数学中使用广泛。

    有限差分法的具体操作分为两个部分:

    1. 用差分代替微分方程中的微分,将连续变化的变量离散化,从而得到差分方程组的数学形式;

    2. 求解差分方程组。

    一个函数在x点上的一阶和二阶微商,可以近似地用它所临近的两点上的函数值的差分来表示。如对一个单变量函数f(x)x为定义在区间[a,b]上的连续变量,以步长将区间[a,b]离散化,我们会得到一系列节点,

    然后求出f(x)在这些点上的近似值。显然步长h越小,近似解的精度就越好。与节点相邻的节点有,所以在节点处可构造如下形式的差值:

     节点的一阶向前差分

    节点的一阶向后差分

    节点的一阶中心差分

    本文使用中心差分法利用泰勒展开式求解第四节所使用的导数,现做如下推导。

    函数f(x)在处的泰勒展开式为:

    (4-8)

    则,

    (4-9)

    (4-10)

    忽略h平方之后的项,联立式(4-9)(4-10)解方程组得:

    (4-11)

     (4-12)

    二元函数的泰勒展开式如下:


    展开后忽略次要项联立解方程得二维混合偏导如下:

    (4-13)

    综上,推导了4.1,4.2遇到的所有导数计算。同理,利用多元泰勒展开式,可得任意偏导的近似差分表示。

    在图像处理中,取h=1,在图4.2所示的图像中,将像素0的基本中点导数公式整理如下:



    4.4 三阶矩阵求逆公式

    高阶矩阵的求逆算法主要有归一法和消元法两种,现将三阶矩阵求逆公式总结如下:

    若矩阵

    可逆,即时,

    (4-14)

    5、关键点方向分配

    为了使描述符具有旋转不变性,需要利用图像的局部特征为给每一个关键点分配一个基准方向。使用图像梯度的方法求取局部结构的稳定方向。对于在DOG金字塔中检测出的关键点点,采集其所在高斯金字塔图像3σ窗口内像素的梯度和方向分布特征。梯度的模值和方向如下:

    (5-1)

    L为关键点所在的尺度空间值,按Lowe的建议,梯度的模值m(x,y)的高斯分布加成,按尺度采样的原则,窗口半径为

    在完成关键点的梯度计算后,使用直方图统计内像素的梯度和方向。梯度直方图将0~360度的方向范围分为36个柱(bins),其中每柱10度。如图5.1所示,直方图的峰值方向代表了关键点的主方向,(为简化,图中只画了八个方向的直方图)

    方向直方图的峰值则代表了该特征点处邻域梯度的方向,以直方图中最大值作为该关键点的主方向。为了增强匹配的鲁棒性,只保留峰值大于主方向峰值80%的方向作为该关键点的辅方向。因此,对于同一梯度值的多个峰值的关键点位置,在相同位置和尺度将会有多个关键点被创建但方向不同。仅有15%的关键点被赋予多个方向,但可以明显的提高关键点匹配的稳定性。实际编程实现中,就是把该关键点复制成多份关键点,并将方向值分别赋给这些复制后的关键点,并且,离散的梯度方向直方图要进行插值拟合处理,来求得更精确的方向角度值,检测结果如图5.2所示

    至此,将检测出的含有位置、尺度和方向的关键点即是该图像的SIFT特征点。

    6、关键点特征描述

    通过以上步骤,对于每一个关键点,拥有三个信息:位置、尺度以及方向。接下来就是为每个关键点建立一个描述符,用一组向量将这个关键点描述出来,使其不随各种变化而改变,比如光照变化、视角变化等等。这个描述子不但包括关键点,也包含关键点周围对其有贡献的像素点,并且描述符应该有较高的独特性,以便于提高特征点正确匹配的概率。 

    SIFT描述子是关键点高斯图像梯度统计结果的一种表示。通过对关键点周围图像区域分块,计算块内梯度直方图,生成具有独特性的向量,这个向量是该区域图像信息的一种抽象,具有唯一性。

    Lowe建议描述子使用在关键点尺度空间内4*4的窗口中计算的8个方向的梯度信息,共4*4*8=128维向量表征。表示步骤如下:

    1. 确定计算描述子所需的图像区域

    特征描述子与特征点所在的尺度有关,因此,对梯度的求取应在特征点对应的高斯图像上进行。将关键点附近的划分为d*d(Lowe建议d=4)个子区域,每个子区域做为一个种子点,每个种子点有8个方向。每个子区域的大小与关键点方向分配时相同,即每个区域有子像素,为每个子区域分配边长为的矩形区域进行采样(个子像素实际用边长为的矩形区域即可包含,但由式(3-8)不大,为了简化计算取其边长为,并且采样点宜多不宜少)。考虑到实际计算时,需要采用双线性插值,所需图像窗口边长为。在考虑到旋转因素(方便下一步将坐标轴旋转到关键点的方向),如下图6.1所示,实际计算所需的图像区域半径为:

       (6-1)

    计算结果四舍五入取整。

    2. 将坐标轴旋转为关键点的方向,以确保旋转不变性,如6.2所示。 

    旋转后内采样点的新坐标为:

      (6-2)

    3. 将内的采样点分配到对应的子区域内,将子区域内的梯度值分配到8个方向上,计算其权值。

    旋转后的采样点坐标在半径为radius的圆内被分配到的子区域,计算影响子区域的采样点的梯度和方向,分配到8个方向上。

    旋转后的采样点落在子区域的下标为

        (6-3)

    Lowe建议子区域的像素的梯度大小按的高斯加权计算,即

    (6-4)

    其中ab为关键点在高斯金字塔图像中的位置坐标。

    4. 插值计算每个种子点八个方向的梯度。

    如图6.3所示,将由式(6-3)所得采样点在子区域中的下标(图中蓝色窗口内红色点)线性插值,计算其对每个种子点的贡献。如图中的红色点,落在第0行和第1行之间,对这两行都有贡献。对第0行第3列种子点的贡献因子为dr,对第1行第3列的贡献因子为1-dr,同理,对邻近两列的贡献因子为dc1-dc,对邻近两个方向的贡献因子为do1-do。则最终累加在每个方向上的梯度大小为:

    (6-5)

    其中kmn0或为1

    5. 如上统计的4*4*8=128个梯度信息即为该关键点的特征向量。特征向量形成后,为了去除光照变化的影响,需要对它们进行归一化处理,对于图像灰度值整体漂移,图像各点的梯度是邻域像素相减得到,所以也能去除。得到的描述子向量为,归一化后的特征向量为

     (6-7)

    6. 描述子向量门限。非线性光照,相机饱和度变化对造成某些方向的梯度值过大,而对方向的影响微弱。因此设置门限值(向量归一化后,一般取0.2)截断较大的梯度值。然后,再进行一次归一化处理,提高特征的鉴别性。

    7. 按特征点的尺度对特征描述向量进行排序。

    至此,SIFT特征描述向量生成。

     

    描述向量这块不好理解,我画了个草图,供参考:

    7、SIFT的缺点

    SIFT在图像的不变特征提取方面拥有无与伦比的优势,但并不完美,仍然存在:

    1. 实时性不高。

    2. 有时特征点较少。

    3. 对边缘光滑的目标无法准确提取特征点。

    等缺点,如下图7.1所示,对模糊的图像和边缘平滑的图像,检测出的特征点过少,对圆更是无能为力。近来不断有人改进,其中最著名的有SURFCSIFT

    8、总结

    本人研究SIFT算法一月有余,鉴于相关知识的缺失,尺度空间技术和差分近似求导曾困我良久。Lowe在论文中对细节提之甚少,甚至只字未提,给实现带来了很大困难。经过多方查阅,实现,总结成此文。自认为是到目前为止,关于SIFT算法最为详尽的资料,现分享给你,望批评指正。

    一同分享给你的还有同时实现的高斯模糊源码,sift算法源码,见附录12。源码使用vs2010+opencv2.2实现。

    zdd

    2012428日 于北师大




    2012年5月17日15:33:23第一次修正

    修正内容:第3.3部分内容,图3.1,图3.5。

    修正后代码:http://download.csdn.net/detail/zddmail/4309418

     

    参考资料

    1、David G.Lowe Distinctive Image Features from Scale-Invariant Keypoints. January 5, 2004.

    2、David G.Lowe Object Recognition from Local Scale-Invariant Features. 1999

    3、Matthew Brown and David Lowe Invariant Features from Interest Point Groups. In British Machine Vision Conference, Cardiff, Wales, pp. 656-665.

    4、PETER J. BURT, MEMBER, IEEE, AND EDWARD H. ADELSON, The Laplacian Pyramid as a Compact Image Code. IEEE TRANSACTIONS ON COMMUNICATIONS, VOL. COM-3l, NO. 4, APRIL 1983

    5、宋丹 10905056 尺度不变特征变换匹配算法Scale Invariant Feature Transform SIFT(PPT)

    6、RaySaint 的博客SIFT算法研究http://underthehood.blog.51cto.com/2531780/658350

    7、Jason Clemons SIFT: SCALE INVARIANT FEATURE TRANSFORM BY DAVID LOWE(ppt)

    8、Tony Lindeberg Scale-space theory: A basic tool for analysing  structures at different scales.1994

    9、SIFT官网的Rob Hess <hess@eecs.oregonstate.edu> SIFT源码

    10、Opencv2.2 Andrea Vedaldi(UCLA VisionLab)实现的SIFT源码 http://www.vlfeat.org/~vedaldi/code/siftpp.html,  opencv2.3改用Rob Hess的源码

    11、科学计算中的偏微分方程有限差分法 杨乐主编

    12、维基百科SIFT词条:http://zh.wikipedia.org/zh-cn/Scale-invariant_feature_transform

    13、百度百科SIFT词条:http://baike.baidu.com/view/2832304.htm

    14、其它互联网资料

    附录高斯模糊源码

    http://blog.csdn.net/zddmail/article/details/7450033

    http://download.csdn.net/detail/zddmail/4217704

    附录2 SIFT算法源码

    http://download.csdn.net/detail/zddmail/4309418


    展开全文
  • sift

    2018-09-30 16:02:39
    https://blog.csdn.net/zddmail/article/details/7521424 sift最详细解释
    https://blog.csdn.net/zddmail/article/details/7521424
    sift最详细解释
    
    展开全文
  • SIFT特征提取分析

    万次阅读 多人点赞 2012-06-06 22:06:09
    SIFT(Scale-invariant feature transform)是一种检测局部特征的算法,该算法通过求一幅图中的特征点(interest points,or corner points)及其有关scale 和 orientation 的描述子得到特征并进行图像特征点匹配,...

    SIFT(Scale-invariant feature transform)是一种检测局部特征的算法,该算法通过求一幅图中的特征点(interest points,or corner points)及其有关scale 和 orientation 的描述子得到特征并进行图像特征点匹配,获得了良好效果,详细解析如下:

    算法描述

    SIFT特征不只具有尺度不变性,即使改变旋转角度,图像亮度或拍摄视角,仍然能够得到好的检测效果。整个算法分为以下几个部分:

    1. 构建尺度空间

    这是一个初始化操作,尺度空间理论目的是模拟图像数据的多尺度特征

    高斯卷积核是实现尺度变换的唯一线性核,于是一副二维图像的尺度空间定义为:


    其中 G(x,y,σ) 是尺度可变高斯函数 

    (x,y)是空间坐标,是尺度坐标。σ大小决定图像的平滑程度,大尺度对应图像的概貌特征,小尺度对应图像的细节特征。大的σ值对应粗糙尺度(低分辨率),反之,对应精细尺度(高分辨率)。为了有效的在尺度空间检测到稳定的关键点,提出了高斯差分尺度空间(DOG scale-space)。利用不同尺度的高斯差分核与图像卷积生成。

    下图所示不同σ下图像尺度空间:



    关于尺度空间的理解说明:2kσ中的2是必须的,尺度空间是连续的。在  Lowe的论文中 ,将第0层的初始尺度定为1.6(最模糊),图片的初始尺度定为0.5(最清晰). 在检测极值点前对原始图像的高斯平滑以致图像丢失高频信息,所以 Lowe 建议在建立尺度空间前首先对原始图像长宽扩展一倍,以保留原始图像信息,增加特征点数量。尺度越大图像越模糊。 


    图像金字塔的建立:对于一幅图像I,建立其在不同尺度(scale)的图像,也成为子八度(octave),这是为了scale-invariant,也就是在任何尺度都能够有对应的特征点,第一个子八度的scale为原图大小,后面每个octave为上一个octave降采样的结果,即原图的1/4(长宽分别减半),构成下一个子八度(高一层金字塔)。



    尺度空间的所有取值,i为octave的塔数(第几个塔),s为每塔层数

    由图片size决定建几个塔,每塔几层图像(S一般为3-5)0塔的第0层是原始图像(或你double后的图像),往上每一层是对其下一层进行Laplacian变换(高斯卷积,其中σ值渐大,例如可以是σ, k*σ, k*k*σ),直观上看来越往上图片越模糊。塔间的图片是降采样关系,例如1塔的第0层可以由0塔的第3down sample得到,然后进行与0塔类似的高斯卷积操作。


    2. LoG近似DoG找到关键点<检测DOG尺度空间极值点>

    为了寻找尺度空间的极值点,每一个采样点要和它所有的相邻点比较,看其是否比它的图像域和尺度域的相邻点大或者小。如图所示,中间的检测点和它同尺度的8个相邻点和上下相邻尺度对应的9×2个点共26个点比较,以确保在尺度空间和二维图像空间都检测到极值点。 一个点如果在DOG尺度空间本层以及上下两层的26个领域中是最大或最小值时,就认为该点是图像在该尺度下的一个特征点,如图所示。


    同一组中的相邻尺度(由于k的取值关系,肯定是上下层)之间进行寻找


    s=3的情况

     在极值比较的过程中,每一组图像的首末两层是无法进行极值比较的,为了满足尺度变化的连续性(下面有详解)
    我们在每一组图像的顶层继续用高斯模糊生成了 3 幅图像,高斯金字塔有每组S+3层图像。DOG金字塔每组有S+2层图像.

    ==========================================
    这里有的童鞋不理解什么叫“为了满足尺度变化的连续性”,现在做仔细阐述:
    假设s=3,也就是每个塔里有3层,则k=21/s=21/3,那么按照上图可得Gauss Space和DoG space 分别有3个(s个)和2个(s-1个)分量,在DoG space中,1st-octave两项分别是σ,kσ; 2nd-octave两项分别是2σ,2kσ;由于无法比较极值,我们必须在高斯空间继续添加高斯模糊项,使得形成σ,kσ,k2σ,k3σ,k4σ这样就可以选择DoG space中的中间三项kσ,k2σ,k3σ(只有左右都有才能有极值),那么下一octave中(由上一层降采样获得)所得三项即为2kσ,2k2σ,2k3σ,其首项2kσ=24/3。刚好与上一octave末项k3σ=23/3尺度变化连续起来,所以每次要在Gaussian space添加3项,每组(塔)共S+3层图像,相应的DoG金字塔有S+2层图像。
    ==========================================

    使用Laplacian of Gaussian能够很好地找到找到图像中的兴趣点,但是需要大量的计算量,所以使用Difference of Gaussian图像的极大极小值近似寻找特征点.DOG算子计算简单,是尺度归一化的LoG算子的近似,有关DOG寻找特征点的介绍及方法详见http://blog.csdn.net/abcjennifer/article/details/7639488极值点检测用的Non-Maximal Suppression


    3. 除去不好的特征点

    这一步本质上要去掉DoG局部曲率非常不对称的像素。


    通过拟和三维二次函数以精确确定关键点的位置和尺度(达到亚像素精度),同时去除低对比度的关键点和不稳定的边缘响应点(因为DoG算子会产生较强的边缘响应),以增强匹配稳定性、提高抗噪声能力,在这里使用近似Harris Corner检测器。

    ①空间尺度函数泰勒展开式如下:对上式求导,并令其为0,得到精确的位置, 得

    ②在已经检测到的特征点中,要去掉低对比度的特征点和不稳定的边缘响应点。去除低对比度的点:把公式(2)代入公式(1),即在DoG Space的极值点处D(x)取值,只取前两项可得:


    若   ,该特征点就保留下来,否则丢弃。

    ③边缘响应的去除
    一个定义不好的高斯差分算子的极值在横跨边缘的地方有较大的主曲率,而在垂直边缘的方向有较小的主曲率。主曲率通过一个2×2 的Hessian矩阵H求出:

    导数由采样点相邻差估计得到。

    D的主曲率和H的特征值成正比,令α为较大特征值,β为较小的特征值,则

    令α=γβ,则

     (r + 1)2/r的值在两个特征值相等的时候最小,随着r的增大而增大,因此,为了检测主曲率是否在某域值r下,只需检测

    if (α+β)/ αβ> (r+1)2/r, throw it out.   在Lowe的文章中,取r=10。



    4. 给特征点赋值一个128维方向参数

    上一步中确定了每幅图中的特征点,为每个特征点计算一个方向,依照这个方向做进一步的计算, 利用关键点邻域像素的梯度方向分布特性为每个关键点指定方向参数,使算子具备旋转不变性。


    为(x,y)处梯度的模值和方向公式。其中L所用的尺度为每个关键点各自所在的尺度。至此,图像的关键点已经检测完毕,每个关键点有三个信息:位置,所处尺度、方向,由此可以确定一个SIFT特征区域。


    梯度直方图的范围是0~360度,其中每10度一个柱,总共36个柱。随着距
          中心点越远的领域其对直方图的贡献也响应减小.Lowe论文中还提到要使用高斯函数对直方图进行平滑,减少突变的影响。

    在实际计算时,我们在以关键点为中心的邻域窗口内采样,并用直方图统计邻域像素的梯度方向。梯度直方图的范围是0~360度,其中每45度一个柱,总共8个柱, 或者每10度一个柱,总共36个柱。Lowe论文中还提到要使用高斯函数对直方图进行平滑,减少突变的影响。直方图的峰值则代表了该关键点处邻域梯度的主方向,即作为该关键点的方向


    直方图中的峰值就是主方向,其他的达到最大值80%的方向可作为辅助方向

    由梯度方向直方图确定主梯度方向

    该步中将建立所有scale中特征点的描述子(128维)

    Identify peak and assign orientation and sum of magnitude to key point.
      The user may choose a threshold to exclude key points based on their assigned sum of magnitudes.


    关键点描述子的生成步骤


     通过对关键点周围图像区域分块,计算块内梯度直方图,生成具有独特性的向量,这个向量是该区域图像信息的一种抽象,具有唯一性。


    5. 关键点描述子的生成

    首先将坐标轴旋转为关键点的方向,以确保旋转不变性。以关键点为中心取8×8的窗口。

    Figure.16*16的图中其中1/4的特征点梯度方向及scale,右图为其加权到8个主方向后的效果。

    图左部分的中央为当前关键点的位置,每个小格代表关键点邻域所在尺度空间的一个像素,利用公式求得每个像素的梯度幅值与梯度方向,箭头方向代表该像素的梯度方向,箭头长度代表梯度模值,然后用高斯窗口对其进行加权运算。


    图中蓝色的圈代表高斯加权的范围(越靠近关键点的像素梯度方向信息贡献越大)。然后在每4×4的小块上计算8个方向的梯度方向直方图,绘制每个梯度方向的累加值,即可形成一个种子点,如图右部分示。此图中一个关键点由2×2共4个种子点组成,每个种子点有8个方向向量信息。这种邻域方向性信息联合的思想增强了算法抗噪声的能力,同时对于含有定位误差的特征匹配也提供了较好的容错性。


    计算keypoint周围的16*16的window中每一个像素的梯度,而且使用高斯下降函数降低远离中心的权重。

    在每个4*4的1/16象限中,通过加权梯度值加到直方图8个方向区间中的一个,计算出一个梯度方向直方图。

    这样就可以对每个feature形成一个4*4*8=128维的描述子,每一维都可以表示4*4个格子中一个的scale/orientation. 将这个向量归一化之后,就进一步去除了光照的影响。

    5. 根据SIFT进行Match

    生成了A、B两幅图的描述子,(分别是k1*128维和k2*128维),就将两图中各个scale(所有scale)的描述子进行匹配,匹配上128维即可表示两个特征点match上了。


    实际计算过程中,为了增强匹配的稳健性,Lowe建议对每个关键点使用4×4共16个种子点来描述,这样对于一个关键点就可以产生128个数据,即最终形成128维的SIFT特征向量。此时SIFT特征向量已经去除了尺度变化、旋转等几何变形因素的影响,再继续将特征向量的长度归一化,则可以进一步去除光照变化的影响。 当两幅图像的SIFT特征向量生成后,下一步我们采用关键点特征向量的欧式距离来作为两幅图像中关键点的相似性判定度量。取图像1中的某个关键点,并找出其与图像2中欧式距离最近的前两个关键点,在这两个关键点中,如果最近的距离除以次近的距离少于某个比例阈值,则接受这一对匹配点。降低这个比例阈值,SIFT匹配点数目会减少,但更加稳定。为了排除因为图像遮挡和背景混乱而产生的无匹配关系的关键点,Lowe提出了比较最近邻距离与次近邻距离的方法,距离比率ratio小于某个阈值的认为是正确匹配。因为对于错误匹配,由于特征空间的高维性,相似的距离可能有大量其他的错误匹配,从而它的ratio值比较高。Lowe推荐ratio的阈值为0.8。但作者对大量任意存在尺度、旋转和亮度变化的两幅图片进行匹配,结果表明ratio取值在0. 4~0. 6之间最佳,小于0. 4的很少有匹配点,大于0. 6的则存在大量错误匹配点。(如果这个地方你要改进,最好给出一个匹配率和ration之间的关系图,这样才有说服力)作者建议ratio的取值原则如下:

    ratio=0. 4 对于准确度要求高的匹配;
    ratio=0. 6 对于匹配点数目要求比较多的匹配; 
    ratio=0. 5 一般情况下。
    也可按如下原则:当最近邻距离<200时ratio=0. 6,反之ratio=0. 4。ratio的取值策略能排分错误匹配点。



    当两幅图像的SIFT特征向量生成后,下一步我们采用关键点特征向量的欧式距离来作为两幅图像中关键点的相似性判定度量。取图像1中的某个关键点,并找出其与图像2中欧式距离最近的前两个关键点,在这两个关键点中,如果最近的距离除以次近的距离少于某个比例阈值,则接受这一对匹配点。降低这个比例阈值,SIFT匹配点数目会减少,但更加稳定。

     

    实验结果:







    Python+opencv实现:


    import cv2
    import numpy as np
    #import pdb
    #pdb.set_trace()#turn on the pdb prompt
    
    #read image
    img = cv2.imread('D:\privacy\picture\little girl.jpg',cv2.IMREAD_COLOR)
    gray = cv2.cvtColor(img,cv2.COLOR_BGR2GRAY)
    cv2.imshow('origin',img);
    
    #SIFT
    detector = cv2.SIFT()
    keypoints = detector.detect(gray,None)
    img = cv2.drawKeypoints(gray,keypoints)
    #img = cv2.drawKeypoints(gray,keypoints,flags = cv2.DRAW_MATCHES_FLAGS_DRAW_RICH_KEYPOINTS)
    cv2.imshow('test',img);
    cv2.waitKey(0)
    cv2.destroyAllWindows()



    C实现:


    // FeatureDetector.cpp : Defines the entry point for the console application.
    //  
    //  Created by Rachel on 14-1-12.  
    //  Copyright (c) 2013年 ZJU. All rights reserved.  
    //  
    
    #include "stdafx.h"
    #include "highgui.h"
    #include "cv.h"
    #include "vector"
    #include "opencv\cxcore.hpp"
    #include "iostream"
    #include "opencv.hpp"
    #include "nonfree.hpp"
    #include "showhelper.h"
    
    using namespace cv;
    using namespace std;
    
    int _tmain(int argc, _TCHAR* argv[])
    {
    	//Load Image 
    	Mat c_src1 =  imread( "..\\Images\\3.jpg");
    	Mat c_src2 = imread("..\\Images\\4.jpg");
    	Mat src1 = imread( "..\\Images\\3.jpg", CV_LOAD_IMAGE_GRAYSCALE);
    	Mat src2 = imread( "..\\Images\\4.jpg", CV_LOAD_IMAGE_GRAYSCALE);
    	if( !src1.data || !src2.data )
    	{ std::cout<< " --(!) Error reading images " << std::endl; return -1; }
    
    	//sift feature detect
    	SiftFeatureDetector detector;
    	std::vector<KeyPoint> kp1, kp2;
    
    	detector.detect( src1, kp1 );
    	detector.detect( src2, kp2 );
    	SiftDescriptorExtractor extractor;
    	Mat des1,des2;//descriptor
    	extractor.compute(src1,kp1,des1);
    	extractor.compute(src2,kp2,des2);	
    	Mat res1,res2; 
    	int drawmode = DrawMatchesFlags::DRAW_RICH_KEYPOINTS;
    	drawKeypoints(c_src1,kp1,res1,Scalar::all(-1),drawmode);//在内存中画出特征点
    	drawKeypoints(c_src2,kp2,res2,Scalar::all(-1),drawmode);
    	cout<<"size of description of Img1: "<<kp1.size()<<endl;
    	cout<<"size of description of Img2: "<<kp2.size()<<endl;
    
    	//write the size of features on picture
    	CvFont font;    
    	double hScale=1;   
    	double vScale=1;    
    	int lineWidth=2;// 相当于写字的线条    
    	cvInitFont(&font,CV_FONT_HERSHEY_SIMPLEX|CV_FONT_ITALIC, hScale,vScale,0,lineWidth);//初始化字体,准备写到图片上的   
    	// cvPoint 为起笔的x,y坐标   
    	IplImage* transimg1 = cvCloneImage(&(IplImage) res1);
    	IplImage* transimg2 = cvCloneImage(&(IplImage) res2);
    		
    	char str1[20],str2[20];
    	sprintf(str1,"%d",kp1.size());
    	sprintf(str2,"%d",kp2.size());
    
    
    	const char* str = str1;
    	cvPutText(transimg1,str1,cvPoint(280,230),&font,CV_RGB(255,0,0));//在图片中输出字符 
    
    	str = str2;
    	cvPutText(transimg2,str2,cvPoint(280,230),&font,CV_RGB(255,0,0));//在图片中输出字符 
    
    	//imshow("Description 1",res1);
    	cvShowImage("descriptor1",transimg1);
    	cvShowImage("descriptor2",transimg2);
    
    	BFMatcher matcher(NORM_L2);
    	vector<DMatch> matches;
    	matcher.match(des1,des2,matches);
    	Mat img_match;
    	drawMatches(src1,kp1,src2,kp2,matches,img_match);//,Scalar::all(-1),Scalar::all(-1),vector<char>(),drawmode);
    	cout<<"number of matched points: "<<matches.size()<<endl;
    	imshow("matches",img_match);
    	cvWaitKey();
    	cvDestroyAllWindows();
    
    	return 0;
    }
    





    ===============================
    基本概念及一些补充
    什么是局部特征?
      •局部特征从总体上说是图像或在视觉领域中一些有别于其周围的地方
      •局部特征通常是描述一块区域,使其能具有高可区分度
      •局部特征的好坏直接会决定着后面分类、识别是否会得到一个好的结果
     局部特征需具备的特性
      •重复性
      •可区分性
      •准确性
      •数量以及效率
      •不变性
     局部特征提取算法-sift
      •SIFT算法由D.G.Lowe 1999年提出,2004年完善总结。后来Y.Ke将其描述子部分用PCA代替直方图的方式,对其进行改进。
       •SIFT算法是一种提取局部特征的算法,在尺度空间寻找极值点,提取位置,尺度,旋转不变量
      •SIFT特征是图像的局部特征,其对旋转、尺度缩放、亮度变化保持不变性,对视角变化、仿射变换、噪声也保持一定程度的稳定性。
      •独特性好,信息量丰富,适用于在海量特征数据库中进行快速、准确的匹配。
      •多量性,即使少数的几个物体也可以产生大量SIFT特征向量。
      •可扩展性,可以很方便的与其他形式的特征向量进行联合。
    尺度空间理论
      •尺度空间理论目的是模拟图像数据的多尺度特征
      •其基本思想是在视觉信息图像信息处理模型中引入一个被视为尺度的参数, 通过连续变化尺度参数获得不同尺度下的视觉处理信息, 然后综合这些信息以深入地挖掘图像的本质特征。
    描述子生成的细节
      •以极值点为中心点,并且以此点所处于的高斯尺度sigma值作为半径因子。对于远离中心点的梯度值降低对其所处区域的直方图的贡献,防止一些突变的影响。
      •每个极值点对其进行三线性插值,这样可以把此极值点的贡献均衡的分到直方图中相邻的柱子上
    归一化处理
      •在求出4*4*8的128维特征向量后,此时SIFT特征向量已经去除了尺度变化、旋转等几何变形因素的影响。而图像的对比度变化相当于每个像素点乘上一个因子,光照变化是每个像素点加上一个值,但这些对图像归一化的梯度没有影响。因此将特征向量的长度归一化,则可以进一步去除光照变化的影响。
      •对于一些非线性的光照变化,SIFT并不具备不变性,但由于这类变化影响的主要是梯度的幅值变化,对梯度的方向影响较小,因此作者通过限制梯度幅值的值来减少这类变化造成的影响。
    PCA-SIFT算法
      •PCA-SIFT与标准SIFT有相同的亚像素位置,尺度和主方向。但在第4步计算描述子的设计,采用的主成分分析的技术。
      •下面介绍一下其特征描述子计算的部分:
        •用特征点周围的41×41的像斑计算它的主元,并用PCA-SIFT将原来的2×39×39维的向量降成20维,以达到更精确的表示方式。
        •它的主要步骤为,对每一个关键点:在关键点周围提取一个41×41的像斑于给定的尺度,旋转到它的主方向 ;计算39×39水平和垂直的梯度,形成一个大小为3042的矢量;用预先计算好的投影矩阵n×3042与此矢量相乘;这样生成一个大小为n的PCA-SIFT描述子。
    ===============================

    辅助资料:





    ===============================


    Reference:

    Lowe SIFT 原文:http://www.cs.ubc.ca/~lowe/papers/ijcv04.pdf

    SIFT 的C实现:https://github.com/robwhess/opensift/blob/master/src

    MATLAB 应用Sift算子的模式识别方法:http://blog.csdn.net/abcjennifer/article/details/7372880

    http://blog.csdn.net/abcjennifer/article/details/7365882

    http://en.wikipedia.org/wiki/Scale-invariant_feature_transform#David_Lowe.27s_method

    http://blog.sciencenet.cn/blog-613779-475881.html

    http://www.cnblogs.com/linyunzju/archive/2011/06/14/2080950.html

    http://www.cnblogs.com/linyunzju/archive/2011/06/14/2080951.html

    http://blog.csdn.net/ijuliet/article/details/4640624

    http://www.cnblogs.com/cfantaisie/archive/2011/06/14/2080917.html  (部分图片有误,以本文中的图片为准)





    关于computer vision的更多讨论与交流,敬请关注本博客和新浪微博Rachel____Zhang






    展开全文
  • SIFT算法原理

    万次阅读 多人点赞 2019-03-16 21:33:58
    SIFT算法 SIFT即尺度不变特征变换,是用于图像处理领域的一种描述。这种描述具有尺度不变性,可在图像中检测出关键点,是一种局部特征描述子。 一、SIFT算法特点: 1、具有较好的稳定性和不变性,能够适应旋转、尺度...
  • sift算法源码

    千次下载 热门讨论 2012-04-28 22:11:42
    这是SIFT算法详解博文中附录2 http://blog.csdn.net/zddmail/article/details/7521424 源码包括高斯模糊实现,sift的实现细节。
  • SIFT方法介绍

    2014-12-15 11:55:27
    SIFT
  • 3D-SIFT关键点检测(基于曲率不变特征约束)
  • sift matlab

    2017-05-20 20:35:45
    sift matlab
  • sift算法实现sift.rar

    2018-06-16 15:11:22
    sift算法的实现代码
  • 因此,如果您想使用 SIFT 3,例如,您需要安装sift-distance@3.0 ,用于 SIFT 算法的 3B 版sift-distance@3.1 ,用于版本 4 sift-distance@4.0等等。 关于 这实现了。 应用程序接口 SIFT( a , b , [选项] ) 字符串...
  • SIFT-GPU A CUDA implementation of SIFT: 配置 (待完成)见SIFT-GPU配置教程 测试 1.Release 模式 cd bin ./SimpleSIFT.exe Release模式,输出结果: [GPU VENDOR]: NVIDIA Corporation 1717MB TEXTURE: 16384 ...
  • SIFT算法

    万次阅读 多人点赞 2018-03-24 10:17:30
    1、SIFT综述 尺度不变特征转换(Scale-invariant feature transform或SIFT)是一种电脑视觉的算法用来侦测与描述影像中的局部性特征,它在空间尺度中寻找极值点,并提取出其位置、尺度、旋转不变量,此算法由 David...
  • SIFT特征匹配算法-SIFT.rar SIFT:Scale Invariant Feature Transform SIFT特征匹配算法是目前国内外特征点匹配研究领域的热点与难点,其匹配能力较强,可以处理两幅图像之间发生平移、旋转、仿射变换情况下的...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 32,771
精华内容 13,108
关键字:

siFT