精华内容
下载资源
问答
  • 2020-08-21 11:58:40

    学习论文:G. Creech and J. Hu, "A Semantic Approach to Host-Based Intrusion Detection Systems Using Contiguousand Discontiguous System Call Patterns," in IEEE Transactions on Computers, vol. 63, no. 4, pp. 807-819, April 2014, doi: 10.1109/TC.2013.13.

     

    论文提取了一种新颖的sementic feature用于系统调用序列进行异常检测

    提取方法分为三步

    First, the training data must be processed to extract a dictionary containing every contiguous system call trace present in the training samples. This step is equivalent to using multiple window lengths under Forrest’s methodology [20], [25], [26], [46] and [47], where the maximum window length allowed is in fact the length of each trace. Each dictionary entry extracted at this stage forms a conceptual ‘word’, or a ‘phrase’ of length 1.

    1、提取单词

          长度为napi连续调用子序列为一个单词( n >= 2

          训练序列得到的所有单词:组成单词字典

    :一个序列为 12345

        可以得到单词[12],[23],[3,4],[4,5]

                        [1,2,3],[2,3,4],[3,4,5]

                        [1,2,3,4],[2,3,4,5]

                        [1,2,3,4,5]

    Second, these words are then used to construct further dictionaries consisting of every possible combination of the words up to a specified phrase length. 

    2、组合短语

      任意n个单词进行组合得到的所有可能:长度为n的短语字典(长度为1的短语词典即为单词词典)

      例如:单词字典{[1,2],[2,3],[3,4]}  :可以得到的长度为2的短语字典[1,2,2,3],[2,3,1,2],…       可以得到的长度为3的短语字典[1,2,2,3,3,4],[2,3,1,2,3,4],…

    extract occurrence counts of these different length phrases. 

    3、得到语义特征向量

          输出语义特征向量[x1,x2,x3,x4,xn]代表:长度为n的短语字典中的短语在预测序列中的出现种类数。

           例如:长为1的短语字典中有10种在序列中出现,则该序列特征向量的x1=10

    更多相关内容
  • 提出一种结合词特征与语义特征的评价对象识别方法。针对商品评论语料,使用条件随机场进行评价对象识别,在词特征、依存句法特征的基础上引入语义特征,并将各特征进行组合,以充分利用上下文信息,提高评价对象的...
  • 针对复杂语境下自然语言语义特征提取、匹配精度和实时性较差的问题,提出了模糊聚类、单亲遗传搜索匹配算法相结合的新方法,通过对候选特征点进行模糊聚类处理,使其分布在高斯差分图像的灰度轮廓线边缘,利用单亲遗传...
  • 论文介绍:针对现有模型不能充分提取语义特征,以及单个使用语义或语言学特征来进行预测等不足,使用BERT预训练模型进行句子的特征提取。同时阅读了关于多模态以及特征融合的论文,使用LSTM-Attention和CNN进行文档...
  • 笔者以性能优越的回归型支持向量机(SVR)理论为基础,结合重要的图像边缘信息及人眼视觉特性,提出了一种基于多种高级语义特征的图像检索新方法。该方法首先利用Canny检测算子提取原始图像的边缘信息,并据此得到低层...
  • 该方法通过提取音乐文件的低层音频特征参数,使用通俗易懂的关键词来描述音乐的高层语义特征,利用混合高斯模型(GMM)对每一个关键词进行训练来生成该类歌曲的模板,完成低层音频特征参数到高层语义特征的映射,...
  • “高”是描述物体垂直维度“高度”的形容词。“高”有两个空间义,即维度...“高”本身的语义特征为:垂直性、方向性、延伸性;与其搭配的名词的语义特征为:固定的底部、完形结构、垂直维度最大、垂直维度功能凸显。
  • 大数据中一种基于语义特征阈值的层次聚类方法.pdf
  • 基于文本深层语义特征的亚马逊商品推荐.pdf
  • 我们知道传统的视觉SLAM是基于关键点、描述子等低级图像特征来进行定位和建图的,那么对于一些更高层次的带有明确意义的语义信息,比如现实世界中真实的物体,将它作为特征来进行优化的SLAM就称为语义SLAM,...

    在这里插入图片描述

    首先什么是语义SLAM,我们知道传统的视觉SLAM是基于关键点、描述子等低级图像特征来进行定位和建图的,那么对于一些更高层次的带有明确意义的语义信息,比如现实世界中真实的物体,将它作为特征来进行优化的SLAM就称为语义SLAM,它更接近于人类的感知,因为人类对地图的观测不是看一堆点云的点,或者位姿的四元数,人类看的地图,就是这里有地铁站,那前里有红绿灯。

    在这里插入图片描述
    现如今语义SLAM的工作主要分为semantic mapping和real semantic slam,语义建图中一部分工作就是将2D图像的语义分割结果,即带标签的像素,映射到3D点云中,这种大多数是采用RGBD相机的稠密或半稠密的室内方案,在室外的应用是西交有一篇大型户外环境的路标slam,在kitti数据集上建了一个带有gps地标数据和语义标签的地图。还有一部分工作是以对象为单位构建地图,这种大多数就是在一个稀疏特征点的地图上融入单个目标三维重建的结果,最终得到一个带有目标对象的地图,比如cmu的cubeslam,伦敦大学学院的dsp-slam,它们是将车作为一个物体加到地图上。此外还有秦通的avp-slam,是直接将停车线减速带这种路面物体作为特征构建地图,它并没有把这种语义特征加到优化中去优化位姿,就是单纯的用语义特征建图,其他两个都是将语义特征加到了优化中,属于真正意义上的语义slam。

    真正的语义SLAM就是要将语义信息当作一种约束融合到优化中去优化地图的成员,比如相机的位姿和地图点或者语义物体,有一部工作就是将语义物体加到BA公式里,然后联合物体,相机和地图点去量化重投影误差,比如宾夕法尼亚大学的一篇论文语义slam的概率数据关联Probabilistic Data Association for Semantic SLAM和cmu的cubeslam,还有一部分工作是从语义信息中推断出动态区域,因为在室外建图,必然有动态物体,传统SLAM方法几乎都是假设当前场景是静态的,当面对含有运动物体的场景时,运动物体就会对相机位姿估计产生巨大的偏差,所以就有人从语义信息中推断出动态区域,然后剔除它,比如清华的DS-SLAM,但是这是在室内,室外有篇印度帝国理工的鸟瞰图单目多体slam就是解决动态车辆定位的,最后就是因为语义信息提供的物体级别的描述,拥有季节(光线)不变性,所以有一部分工作就是用语义特征做定位的,就比如avp-slam有一个实验就是用orb和avp建的图去算一定时间后重定位的召回率,orb一天之后到25%了,而avp在一个月以后还能保持80%。

    在这里插入图片描述

    下面首先介绍ICRA2017的Best Paper,是美国宾夕法尼亚大学做的,这篇是语义slam的开山之作,本文第一次将几何,语义,IMU统一到一个优化框架中,用EM算法(期望最大化算法)求解,实现了一个更高定位精度的slam系统。他的核心目标是用语义信息辅助获得路标和摄像头姿态,也就是探索语义信息在数学模型中对姿态估计造成的影响。
    在语义SLAM中,假如空间中有一个静态的物体M(真正意义上的landmark),相机在运动过程中连续观测到了很多的物体Z,那么如何知道那些观测是对应到静态物体M,在传统SLAM中,可以通过匹配或者跟踪的方法来确定某些观测属于同一个几何结构,但是对于物体级别的特征而言,并没有很好的方法来确定这件事情。

    整个SLAM问题的概率表达式如下,也就是带着关联关系的最大似然问题,传统的SLAM方法将整个SLAM过程拆分为了两个部分:根据初值路标L,相机位姿X和观测Z求解数据之间关联关系D,然后根据初值和关联关系求解优化变量,所有的变量中,除去待优化的变量,观测可以通过几何结构提取方法和目标检测方法获得,只有关联关系是无法显式获得的,也就是是关联关系是一个隐变量,于是作者想到用EM方法进行求解整个带隐变量的优化问题,他引入期望测量的似然模型,最后通过一系列变换得到最后这个公式,他将这种硬性的数据关联,即观测就是和某个路标对应,转成了考虑每一个观测和每一个路标之间都有可能对应,这个对应关系的可信度用一个权重因子w来表示,EM算法的E步骤就是求解数据关联的概率分布,也就是这个权重因子。

    在这里插入图片描述

    M步骤是做一个位姿图优化,即把所有的语义factor、几何factor和IMU factor联合起来一起构成一个要优化的目标函数,在这个分布基础上最大化期望测量似然,其中语义factor的误差函数的几何意义是最小化投影点到检测框中心的距离,即最小化高斯分布均值和检测框中心点位置之间的差,几何factor是将所有地图上的特征点投影到当前图像中计算距离差,imu factor是计算两个连续关键帧之间的相对姿态差(位置、速度和方向)。到此这篇论文就讲解完了,这篇论文说到底就是解决了一个语义特征的数据关联问题以及如何将语义特征融入优化去获得路标和摄像头姿态,这也是语义slam最核心的两个问题。
    接下来粗略的介绍两篇国内的工作,清华的DX-SLAM,这个其实也不算语义slam,它的本质还是用低级图像特征,只不过他是用深度学习的特征点来代替传统基于几何的特征点,他是在orbslam2的框架上做的,重新做了一个重定位和回环检测模块,这个我是跑过orb和superpoint两种特征点,可以看到这种基于学习的特征点对于视角变化和低光照环境有更强的鲁棒性,我觉得可以考虑在地下停车场环境中如果需要稀疏点云地图,可以用这种基于学习的特征点。

    在这里插入图片描述

    这篇DS-SLAM也是清华的,他是结合语义信息和运动特征点检测,来剔除每一帧中的动态物体,从而提高位姿估计的准确性,同时建立了一个八叉树地图,他是在orbslam2的框架上加了一个语义分割和稠密地图生成的线程,我主要关注作者是如何去对动态物体进行剔除的,它是由两个步骤组成的,首先是进行一个运动一致性检测,作者提出一种基于多视图几何的算法,就是计算当前帧的像素点到极线的距离,若大于设定的阈值则视为动态点,这里他用到了基础矩阵和RANSAC,这个方法能检测物体是否运动,但很难提取出完整动态区域的轮廓,因为它是针对像素的,所以作者接下来就联合语义分割的结果,他认为人这类标签的对象都是属于可移动类别的,因此,将这两个步骤的结果结合起来,如果在一个物体被分类为可移动类别,且在它的语义分割边界内,有足够数量的由运动一致性检测得到的运动点,那么这个物体的所有点都被视为动态的,然后去除这些运动点再进行运动估计就会得到一个更加准确的位姿。

    在这里插入图片描述

    下边这篇印度帝国理工的鸟瞰图单目多体slam就涉及到动态物体定位的问题,首先左上图是说多体slam中存在的一个问题是用一个移动的相机对一个移动的物体进行三角定位是不可能的,因为在拍摄第二张图像时,该物体已经移动走了。而且三角化很难得到深度信息,因为这种背面投射的光线会在错误的位置相交。当汽车沿着黄线移动时,许多可能的轨迹会投射到图像中的相同位置。这篇论文在bev视图中解决了这些问题。它建的是一个鸟瞰的道路地图,用一个语义分割去保留路面上的特征点,然后通过一个固定的相机高度加内外参将路面图像点转成道路上定高的地图点云,再聚合传感器随时间的观测将得到的稠密点云投影到栅格图上得到道路和车道边界两种BEV占据网格图,为了解决动态对象遮挡车道路面问题,作者用了两个网络将单独的占据网格图转成模态的车道点云。对于动态物体的定位,作者是用一个单目深度估计网络去得到一个伪雷达的深度图,然后再用一个Frustum-PointNet网络去定位车辆,同时用2D检测结果作为定位来源,最后是都投到BEV视角下,就得到了车辆在bev图中的定位信息。在后端作者是提出了一种轻量级的在线位姿图表示,融合了场景中多个对象的约束。其中包括场景中车辆的动态信息和场景中的路标即地图点的静态信息,这种动态信息把连续时刻的相机运动,车辆运动和相机-车辆运动都约束起来,静态信息是用地图点去约束相机和车辆,最后相加得到损失函数。

    在这里插入图片描述

    对于在地图上加上物体,就要知道物体在三维地图中的表达方式,现在主流上有四种表达方式,前两种更偏向于三维重建,这里就不说了,主要来看第三种。

    在这里插入图片描述

    这是CMU的一篇工作,如何从单目利用2D检测框,辅助VP来恢复三维立方体结构就不说了,这里我主要关注如何在传统SLAM的静态假设上,追踪动态物体并实现相机位姿估计和运动物体位姿估计。那么对于这种物体级的slam,要进行运动估计首先要解决的问题就是数据关联,这也是语义slam中的一个研究点和难题,前面我介绍了一篇语义slam的数据关联,它是利用EM法来解决数据关联的,这篇论文它对静态物体和动态物体分别采用不同的关联方法:对于静态物体,首先是将提取到的特征点和2D检测框检测的对象关联起来,如果一个特征点至少两帧都在同一个2D检测框里并且它到这个2D检测框构成的立方体中心的三维距离小于1m,那么这个特征点就和这个2D检测的对象关联起来,并表示为同一种颜色,然后就去匹配不同帧之间的两个对象,如果这两个2D检测框对象的共享特征点最多且数量超过10个,就把这两个对象匹配起来了,同时,对于匹配上的点过少的框,认为是动态物体而去除掉。

    对于动态物体,特征点是直接用2D KLT 稀疏光流算法来跟踪,像素跟踪后,动态特征的3D位置通过考虑物体运动完成三角化。存在的问题是当像素位移很大,即当一辆车靠近相机时,稀疏光流的跟踪算法会失效,所以作者又采用了一种视觉对象跟踪算法,去跟踪对象的2D边界框,并从上一帧中预测其位置,然后与当前帧中检测到的重叠比最大的边界框进行匹配。

    将静态物体和动态物体关联起来后,就可以联合相机位姿,物体,和地图点这三个地图成员去做BA,那么我们就看一下作者是如何把语义物体的约束融入BA的,这个函数保留了特征点slam中相机地图点的重投影误差,加上了相机与物体的约束和物体与地图点的约束,物体与地图点的约束很简单,就是地图点要在这个物体的3D框里边,先是将这个地图点转换为长方体框架,然后与3D框的尺寸进行比较,得到三维误差,相机与物体的约束分为二维测量误差和三维测量误差,二维测量误差就是物体投影到二维平面的二维边界框与检测框的误差,也就是左图中红色框和蓝色框的误差,三维测量误差是由相机坐标系下位姿和已有3D框测量的位姿的对数误差加上物体的尺寸差构成的,那么现在就将语义物体的约束加到BA公式中进行完整的优化了,这就是真正意义上的语义slam。

    除了立方体表示物体,还有椭圆体表示物体,但是椭圆体的物体表示只是一种近似,它的检测框和实际测量的检测框不可能完全重合,所以这个quadricSLAM的贡献只是加入了物体层级的路标,对精度提升并没有帮助,但相反cubeslam的精度提升很大,在kitti07序列中几乎和真值重合,我觉得是因为车的检测框满足立方体的模型,那么加入这种语义对象做优化就很合理。

    在这里插入图片描述

    接下来是一篇最近的物体级建图的论文dsp-slam,基于先验的物体重建就不说了,还是关注它的数据关联和联合地图优化。它关联的是检测和地图中最近的物体,它定义的一个检测包括2D的检测框,2D的分割掩膜,三角化得到的3D点云深度和3D检测框初始的位姿,是针对不同的数据来源设计不同的数据关联方法,对于雷达输入的点云,是比较3D边界框检测和重建物体之间的距离,然后关联距离最近的,对于单目和双目图像,是计算2D边界框检测和物体之间匹配特征点数量,在多个关联中,保留最近的一个。无关联的检测初始为新对象,关联上的检测只进行位姿估计。它的联合地图优化的损失函数和上一篇cubeslam很像,就是没有约束物体和点,我觉得是因为它单个物体的三维重建是基于表面一定数量的特征点的,就隐性包含了这种约束。
    这两篇论文的基础框架都是orbslam,就是把一个物体级的三维重建算法加到一个传统slam算法中,它们的数据关联还是都要用到特征点的,然后都在地图优化中加入物体与相机和物体与地图点的约束,值得考虑的问题是相比于车辆,在一个稀疏点云地图的基础上怎样把一些更有用的地面标志比如减速带,箭头或者空中元素路灯、车牌这种加到地图中,增加地图的丰富性和拓扑性,然后怎样用这种语义特征配合点特征去进行定位?

    在这里插入图片描述

    接下来就是韩国KAIST的一篇Road-SLAM,这篇论文比较早,是开了利用IPM图像构建子地图进行ICP匹配的一个先河,它是用车辆的单个前视相机的IPM语义特征来建图的,大致流程是在里程计上投影IPM图像的二值化点生成车道线和标记点云,为了避免IPM造成的大的透视失真,点云生成限制在了相机附近的感兴趣区域,然后经过点云语义分割和随机森林分类后,将道路标记和周围车道组成的特征定义为子地图,进行子地图间的ICP去匹配局部地图得到这两个局部地图之间的相对姿态,把这个相对姿态用于全局姿态图的优化,以纠正漂移。姿态图优化的损失函数由里程计和回环检测构成的。在Road-SLAM里点云语义分割是用传统的方法,分类是采用机器学习的方法。

    在这里插入图片描述

    而在AVP-SLAM里,是用一个U-Net网络对图像进行语义分割得到了比Road-SLAM更精确的语义特征,同时是采用了四个环视相机生成环视IPM图,感知范围更广,为了解决停车场中存在的一些无纹理区域提取不到语义特征的问题,在定位中采用了EKF框架,将里程计与视觉定位结果结合起来。在该滤波器中,使用里程计进行预测,并使用视觉定位结果进行更新。不仅提高了系统的鲁棒性,而且使估计的轨迹更加平滑,其他的流程就和road-slam一样。它存在的问题是语义点云会提供错误的数据关联,导致运动估计不准,还有虽然ICP是非常好的点云配准方法,但它仍然属于暴力匹配,匹配效率低下而且容易出错。

    针对这两个问题,有两篇论文分别去解决。

    在这里插入图片描述

    小米科技的AVP-Loc做的工作是直接使用停车场的高清矢量地图进行定位,它提出了一种基于语义分割的环视图与高清矢量图相匹配的异构数据关联方法和一种利用分布在矢量图之间的独特道路标志组合的封闭形式重定位的策略,匹配方法大致就是用了一种类匹配策略,对地图中不同形式表现的道路标线用不同的方法匹配点和线的矢量段。左上角下边的这个图红色代表的是ICP重定位的初始姿态,绿色是收敛到的局部最小值,ICP算法它很依赖于初始姿态的接近程度,初值不好会陷到局部最小值里,而回不到实际的位置。这个AVP-Loc就提出了一种新的算法,如左上图所示,无论噪声如何扰动,解都会收敛到相同的最小值。具体就是作者把减速带、箭头和仪表段这三个基本的离散道路标记组合起来,当作一种地标的标签特征,每一个地标它都有自己独特的空间特征,就是它在地图中的位置,重定位是通过将局部地标候选物与矢量图中的对应物进行距离信息的匹配来实现的。

    上交的这篇鸟瞰图混合边缘slam解决的就是数据关联的问题,当某些道路标记或停车点边缘临时位于相机焦点的射线方向上时,可能会被错误地删除,因此,当前图像上提取的边缘通常是不完整和不稳定的,这将使基于关键帧的策略难以获得鲁棒的相对姿态估计。作者的思想就是既然我处理不了这种车道线的点云,我就直接不用车道线和减速带建图,而是用鸟瞰边缘和自由空间边缘两个边缘构建地图,同时用高斯滤波器平滑地更新局部地图并填补边缘间小的空白,用滑动窗口去除添加到局部地图中不正确的分割边缘,最后将重要的边缘尽可能地保留在局部地图中,使用最近邻搜索建立起局部地图上边缘的数据关联,再通过这个函数计算位姿。

    以上这几种利用车道线等地面语义标志建图的地下停车场语义slam,它有个好处就是高度是给定的,所有的语义物体都是地面上的,然后用里程计去做坐标系变换,维护子地图,在子地图间用ICP做回环检测拼成全局地图,而姿态图优化就用里程计和回环帧的约束,但是存在的问题除过以上两种,还有landmark基本都是车道线,纵向精度受影响,建图过程中大部分区段视觉是没起约束作用,那么我们是否可以考虑将这种车道线的语义加入优化中去优化地图的位姿。

    在这里插入图片描述

    然后同样是秦通的工作,这个就是面向于城市道路建图了,涉及到一个云端数据的处理,建图还是和avp-slam类似,其中为了解决语义分割带来的噪声,利用统计的方法来过滤噪声,具体实现是把地图分为小网格,对插入语义点的语义标签得分进行计数,将得分最高的语义标签表示为网格的类。它存在的问题我觉得是定位偏差导致多次轨迹无法重叠,表现在地图上就是车道线很粗,还有车道线欠约束,时间长了精度可能下降,再者就是如何将空中元素加到地图中。归根结底还是怎么在优化中约束车道这种语义特征。

    在这里插入图片描述

    对于空中元素在语义地图上的使用,阿里巴巴有一篇基于稀疏视觉语义特征的SLAM,这篇工作的亮点在于它用不同的方法去参数化道路上的一些常见的语义实体,比如对于道路元素,是集成了级联深度模型来检测标准化的道路元素,对于路灯和标志,是通过其代表性深度关键点为骨架和边界建模,对于车道是通过分段立方样条曲线来参数化。对于语义实体的特征追踪,是用IMU预积分得到的T作为相对位姿的初值,使用匈牙利匹配策略在像素空间中以实例级和像素级方式关联地面特征。对于竖直的Pole Objects语义特征如路灯、标志牌,提取FREAK描述子然后使用光流法追踪,加上代表同一个地图点在两个相邻关键帧之间的投影。为了把语义元素引入状态估计中,作者设计了5种优化变量,包括检测到的语义特征点对应的3D空间点,相机可视范围内地面对象对应的地面参数,极点对象的竖直平面参数,车道线对象的每个样条曲线的控制点,初始化样条曲线的数据关联变量,基于这5类优化变量,对每个图像关键帧的位姿应用了三种类型约束,包括点观测系数,样条观测系数和共面观测系数,使用GNSS-VIO给出的位姿初始化所有优化变量,初始化结束后,在vio基础上得到一个因子图开融合水平地面、竖直平面、语义特征点、c样条曲线控制点,对相机位姿产生约束。

    在这里插入图片描述

    最后就是西交的一篇大尺度室外环境地标的视觉语义SLAM,通过坐标系变换和贝叶斯更新,将三维地图与相关语义信息进行融合。利用基于高斯分布的模糊归属关系实现地标数据融合,建立地标数据的拓扑语义图。

    在这里插入图片描述

    接下来说一下我对基于视觉语义路标的室外SLAM建图的理解,我觉得有两种方案,一种是在稀疏点云地图加高层次的语义特征,一种是直接用车道线等语义特征去建图,这个也包括在停车场做avp,前者能做的就是怎么用这些静态的语义特征去丰富地图和增加地图的拓扑性,或者去考虑如何去除道路上的动态物体,后者存在的问题就是语义特征描述信息的缺失,会导致错误的数据关联,从而导致错误的位姿和地标估计,怎么去在输入数据去改进配准的方法,或者如何将语义特征加入优化去提高slam的精度。

    展开全文
  • 为了提高图像语义特征提取的精确度, 克服目前大部分图像语义特征提取算法中, 因图像特征提取不当, 导致特征参数不能全面反映图像语义的问题, 提出了一种基于典型相关分析CCA的特征融合的图像语义特征提取方法。...
  • 考察三种语义特征(名词、名词短语、语义角色)对主题聚类的作用以及不同特征之间的相容关系,提出一种消除冗余特征的方法。该方法能有效地去除冗余特征,提高聚类精度。同时还提出一种基于语义角色标注的直接定位有效词...
  • 针对在微博情感分析中没有有效地构造情感词典...针对情感分析中特征选择的问题,利用不同的特征组合通过对比实验选取了有效的特征组合。实验证明,构造的情感词典和选择的特征组合有效,能够明显提高微博情感分析的质量。
  • 针对该问题,提出一种将句法结构的变换和传统词汇语义特征结合的中文文本蕴涵识别方法。对文本进行基于句法分析树变换的预处理,将句法分析中适用于文本蕴涵识别的特征加入到相关的统计和词汇语义特征中,使用统计机器...
  • 由于基于词向量空间文本模型很难处理文本的高维特性和语义复杂性,为此通过语义特征选取方法对文本输入空间进行语义特征的抽取和降维。实验结果表明,新的RAN学习算法具有学习速度快、网络结构紧凑、分类效果好的优点,...
  • 现有的端到端青光眼筛査模型往往忽略细微病变区域而导致过拟合冋题,并且其可解释性区域尚不明确针对上述问题,提出一种语义特征图引导的青光眼筛查方法。利用基于 Mobilenet v2作为特征提取网络的 Deeplal3+分割...
  • 针对中文问题分类方法中提取语义信息不准确和特征向量维数过高导致处理速度过慢的问题,提出了一种融合多种语义特征的问题分类方法。借助HowNet,兼顾问句的句法和语义信息,选取问题疑问词、核心词的主要义原、命名...
  • 针对网页信息内容丰富且结构复杂,难以准确挖掘的问题,采用中心聚类和语义特征相互融合的方法.利用中心聚类算法确定样本最终的聚类中心,根据每个词在网页中出现的频率和词的上下文语义,构造一个网页-词语的权重映射...
  • 针对复杂语境下自然语言语义特征提取、匹配精度和实时性较差的问题,提出了模糊聚类、单亲遗传搜索匹配算法相结合的新方法,通过对候选特征点进行模糊聚类处理,使其分布在高斯差分图像的灰度轮廓线边缘,利用单亲...
  • 现有的基于语义特征的图像情感分类算法,更多的是在低端特征的基础上通过低端特征的不同组合,构建相应的语义分类器,比如物体或者场景,然后对于具体的图像,将其在分类器上的对各概念的响应作为语义特征,最后利用...

    现有的基于语义特征的图像情感分类算法,更多的是在低端特征的基础上通过低端特征的不同组合,构建相应的语义分类器,比如物体或者场景,然后对于具体的图像,将其在分类器上的对各概念的响应作为语义特征,最后利用语义特征进行图像情感分类的研宄。显然,该方法非常依赖于语义特征的表征能力,而基于低端特征构建的语义特征相比较深度语义特征而言,其在表征能力上有着非常大的差距,因此提出基于深度语义特征的图像情感分类算法。一方面,提出使用深度语义特征进行图像情感分类,具体包括使用不同语义特征以及同一语义特征不同抽象层次的图像情感分类算法;另一方面,提出改进的多特征融合算法,包括基于微调双路网络的多特征早融合算法,以及强调不同特征分类结果对最终分类结果不同影响力的多特征晚融合算法。

    1.基于单一深度语义特征的图像情感分类算法

    在卷积神经网络中,随着层次逐渐深入,对所获取的信息不断抽象,因而从其中所抽取到的特征也从低级到高级。从图中可以看出,对于卷积神经网络而言,底层特征是非常类似的,大多是边缘以及形状等信息,而后随着层次深入,特征抽象程度越来越高,越来越接近分类的物体。基于这一点,对于我们提出的基于单一深度语义特征的图像情感分类算法而言,显然语义特征的抽取需要从卷积神经网络的较高层中进行。

    具体而言,在卷积神经网络模型的选择上,我们选择了在计算机视觉领域中
    广泛应用的VGGNET。图给出了VGGNET的具体架构,从图中,我们可以看出与传统的卷积神经网络类似,VGGNet也是低层通过卷积操作抽取局部特征,高层通过全连接层去构建高级的语义抽象。因而在深度语义特征的选择上,我们更多应该从全连接层去选取。VGGNET算上最后的分类层,总共有三个全连接层。显然三个全连接层,都可以看作深度语义特征,不过区别在于一层比一层抽象,一层比一层接近分类内容。我们的算法即选取该三种不同层次的特征,分别构建相应的分类器,进行图像情感分类。

     对于VGGNET而言,其基础模型训练的目的不同,所抽取到的语义特征也是完全不同的。分析发现,我们在观察一幅图像时,主要关注其中的物体跟场景信息,因而在基础模型的选择上,我们选取的是物体分类模型以及场景分类模型。

    2基于深度语义特征融合的图像情感分类算法

    正如前文提及的一样,物体与场景是图像中的两个重要因素,因而基于单一语义特征的图像情感分类算法,虽然在图像情感分类上有不错的效果,但是其仍有较大的提升空间。其中一种提升方式,即多种信息融合,多信息融合有助于图像情感分类性能的进一步提升。传统的融合方式,一种是早融合,即在特征层面的融合,首先将抽取到的不同信息合并,然后再将其通过分类器进行分类;一种是晚融合,即结果层面的融合,首先通过不同的信息分别进行分类,然后将分类的结果进行合并。在传统融合策略的基础上,分别提出了基于深度语义特征早融合的图像情感分类算法以及基于深度语义特征晚融合的图像情感分类算法。

    2.1基于深度语义特征早融合的图像情感分类算法

    对于多特征融合而言,其融合方式非常关键,合适的融合方式能够进一步提升模型的性能表现,而不恰当的融合方式不仅有可能使得最终性能不是最佳,甚至有可能起到反作用。传统的早融合策略将不同特征结合起来,虽然具有一定的分类效果,但是其没有考虑到两种特征的搭配是否合适,甚至是否最优。考虑到上述问题,本节提出基于双路网络早融合的图像情感分类算法。图是具体的网络架构图。双路网络中,一路网络为物体识别网络,一路网络为场景识别网络,两路网络分别抽取图像的物体特征以及场景特征,最终两路特征融合作为深度网络中的一层,然后通过一个全连接层进行图像情感分类。需要注意的适,与传统的早融合策略不同,两路特征抽取网络参数不再是完全固定不动,其部分参数可以通过最终的分类误差进行调整,从而使得两路网络以最终的图像情感分类为目标,在考虑两者融合的基础上找到各自最合适的特征表达。

    具体来说,在训练开始之前,双路网络分别用预训练好的物体识别网络与场景识别网络初始化,然后在训练过程中,固定其中的卷积层权重参数,允许全连接层进行参数更新。整个网络通过常用的多分类损失函数Softmax loss进行监督。
    总结起来,整个基于图像显著性的图像情感分类算法的训练流程如下:
    输入:训练数据集{It},初始化深度网络参数\Theta以及学习率,以及设定最大的迭代次数T以及当前迭代次数t=1。
    执行以下步骤,直到t>T:
    1)从所有训练数据中采样,获取训练的batch。
    2)通过物体识别网络抽取深度物体特征。
    3)通过场景识别网络抽取深度场景特征。
    4)融合双路特征,得到融合后的图像特征表示。
    5)预测图像情感,并根据损失函数计算当前误差。
    6)反向传播误差到每一层,并更新层中对应的参数。

    2.2基于深度语义特征晚融合的图像情感分类算法

    传统的后融合方法,直接将每一种特征的分类结果进行加权,虽然能够取得一定的效果,但是其存在一定的缺陷,即其直接默认每个特征的分类结果对最终的分类影响完全是凭借经验估计而来,而实际上,单纯凭借估计,不一定能够得到最优的权重组合,因而也不一定能够获得最好的图像情感分类效果。另外,传统的后融合方法,默认同一特征对于所有的分类类别的贡献是相同的,而实际中也并非究全如此。基于这些考虑,我们提出了两种改进的基于深度语义特征晚融合的图像情感分类算法。
    1)同一特征分类结果对最后各分类类别的影响是相同的。
    该种方法默认同一特征分类结果对最后各分类类别的影响是相同的,只是不同特征分类结果所占的权重不同。具体而言,各特征分类结果的相对权重,在训练中通过优化以下损失函数得到
     

    其中,\Theta为待优化的权重参数,R为单一深度语义特征预测结果的类概率表示,G为真正图片类别的类概率表示,r为特征数目,n为batch大小。

    2)同一特征分类结果对最后各类分类结果的影响是不同的。与上面的方法认为同一特征分类结果对最后各分类类别的影响是相同的不同,该种方法认为,同一特征分类结果,对于最终分类结果中不同类别的影响力是不同的。具体而言,各特征分类结果对于最终分类结果中各类别的相对贡献,在训练中通过优化以下损失函数训练获得:
     

     其中,\Theta为待优化的权重参数,R为单一深度语义特征预测结果的类概率表示,G为真正图片类别的类概率表示,r为特征数目,n为batch大小,m为情感类别数目。

    在实际训练过程中,只有\Theta是需要训练的参数,我们通过梯度下降法进行参数寻优。因而整个基于深度语义特征晚融合的图像情感分类算法的训练流程可以表示如下:

    输入:训练数据集{It},初始化深度网络参数\Theta以及学习率,以及设定最大的迭代次数t以及当前迭代次数t=1。

    执行以下步骤,直到t>T:
    1)从所有训练数据中采样,获取训练的batch。
    2)通过基于深度物体特征的图像情感分类器获取图像情感分类结果。
    3)通过基于深度场景特征的图像情感分类器获取图像情感分类结果。
    4)晚融合两种结果,得到最终的图像情感分类结果,并根据对应的损失函数计算当前误差。
    5)根据所得误差,更新相应的权重参数。
     

     

     

    展开全文
  • 快照分析器 这是一回事! 目的是分析编程练习快照以提取和分类语义特征
  • 该技术利用语义特征模型具有操作局部化的特点,通过细胞元变化模型得出(修改前/后)两个特征模型的相关部分,将原模型的复制网格节点直接关联到修正模型中,并结合对自由节点扩大自由集来进行优化过程。利用这种方法,...
  • 该技术利用语义特征模型具有操作局部化的特点,通过细胞元变化模型得出 (修改前/后)两个特征模型的相关部分,将原模型的复制网格节点直接关联到修正模型中,并结合对自由节点扩大自由集来进行优化过程。利用这种方法...
  • 建立并行编程语言的特征序列分布模型,采用连续概率密度泛函分析方法构建并行编程语言特征分布函数式,通过 Python 进行函数式并行编程语言的语义分割,提取函数式并行编程语言的语义关联特征量,根据语义关联性进行...
  • 提出与评价对象抽取相关的7类语义特征:评价触发词、评价消解词、评价对象绝缘词、后指动词、前指动词、心理动词和指向定语的评价名词,以及与极性判定相关的5类语义特征:褒义性名词、贬义性名词、语义偏移型名词、...
  • 针对中文问题分类方法中提取语义信息不准确和特征向量维数过高导致处理速度过慢的问题,提出了一种融合多种语义特征的问题分类方法。借助HowNet,兼顾问句的句法和语义信息,选取问题疑问词、核心词的主要义原、命名...
  • Lecture_04_语义特征分析示例_(V-le-T-le)中V的语义特征.ppt
  • 基于句法语义特征的中文实体关系抽取
  • 由于网络评论用语的多样...针对这个问题,从语义理解的角度出发,提出一种基于语义特征的情感倾向识别方法,通过增加语义特征使得原始文本表现出更加明确的情感倾向,并且更加容易区分。实验结果表明了该方法的有效性。

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 133,040
精华内容 53,216
关键字:

语义特征

友情链接: Xilinx_3.rar