精华内容
下载资源
问答
  • 图像场景识别是15类开源数据集,基于该数据集进行场景图像的分类和识别, 图像场景识别是15类开源数据集,基于该数据集进行场景图像的分类和识别 图像场景识别是15类开源数据集,基于该数据集进行场景图像的分类和...
  • 深度学习 场景识别Recognizing the environment in one glance is one of the human brain’s most accomplished deeds. While the tremendous recent progress in object recognition tasks originates from the ...

    深度学习 场景识别

    Recognizing the environment in one glance is one of the human brain’s most accomplished deeds. While the tremendous recent progress in object recognition tasks originates from the availability of large datasets such as COCO and the rise of Convolution Neural Networks ( CNNs) to learn high-level features, scene recognition performance has not achieved the same level of success.

    一眼认清环境是人类大脑最成就的事迹之一。 尽管最近在对象识别任务中取得的巨大进步源于大型数据集(例如COCO)的可用性以及卷积神经网络(CNN)的兴起,以学习高级功能,但场景识别性能并未达到相同的成功水平。

    In this blog post, we will see how classification models perform on classifying images of a scene. For this task, we have taken the Places365-Standard dataset to train the model. This dataset has 1,803,460 training images and 365 classes with the image number per class varying from 3,068 to 5,000 and size of images is 256*256.

    在此博客文章中,我们将看到分类模型如何对场景图像进行分类。 为此,我们采用了Places365-Standard数据集来训练模型。 该数据集包含1,803,460个训练图像和365个类别,每个类别的图像编号从3,068到5,000不等,图像大小为256 * 256。

    安装和下载数据 (Installing and Downloading the data)

    Let’s start by setting up Monk and its dependencies:

    让我们开始设置Monk及其依赖项:

    !git clone https://github.com/Tessellate-Imaging/monk_v1.git! cd monk_v1/installation/Linux && pip install -r requirements_cu9.txt

    After installing the dependencies, I downloaded the Places365-Standard dataset which is available to download from here.

    安装依赖项后,我下载了Places365-Standard数据集,可从此处下载该数据集。

    创建实验 (Create an Experiment)

    I have created an experiment, and for this task, I used mxnet gluon back-end.

    我创建了一个实验,为此任务,我使用了mxnet gluon后端。

    import os
    import sys
    sys.path.append("monk_v1/monk/");
    from gluon_prototype import prototype
    gtf = prototype(verbose=1);
    gtf.Prototype("Places_365", "Experiment");

    选型与培训 (Model Selection and Training)

    I experimented with various models like resnet, densenet, inception, vgg16, and many more but only vgg16 gives the greater validation accuracy than any other model.

    我尝试了各种模型,如resnet,densnet,inception,vgg16等,但只有vgg16可以提供比其他任何模型都更高的验证精度。

    gtf.Default(dataset_path="train/",
    path_to_csv="labels.csv",
    model_name="vgg16",
    freeze_base_network=False,
    num_epochs=20);gtf.Train();

    After training for 20 epoch I got the training accuracy of 65% and validation accuracy of 53%.

    经过20个时期的训练,我得到了65%的训练准确度和53%的验证准确度。

    预测 (Prediction)

    gtf = prototype(verbose=1);
    gtf.Prototype("Places_365", "Experiment", eval_infer=True);img_name = "test_256/Places365_test_00208427.jpg"
    predictions = gtf.Infer(img_name=img_name);from IPython.display import Image
    Image(filename=img_name)
    Image for post
    Prediction on test images
    对测试图像的预测
    img_name = "test_256/Places365_test_00151496.jpg" 
    predictions = gtf.Infer(img_name=img_name);from IPython.display import Image
    Image(filename=img_name)
    Image for post
    Prediction on test images
    对测试图像的预测

    After this, I tried to find out why the accuracy has not improved more than what I got. Some of the possible reasons are:

    此后,我试图找出为什么精度没有比我得到的提高更多的原因。 一些可能的原因是:

    Incorrect Labels:- While inspecting the training folder, there are images that have incorrect labels like baseball_field has the wrong image. There are many more incorrect labels.

    标签不正确:-检查训练文件夹时,有些图像的标签不正确,例如balloon_field的图像错误。 还有更多不正确的标签。

    Image for post
    Wrong Image in baseball_field
    棒球场中的图片有误
    img=mpimg.imread(“images/train/baseball_field2469.jpg”)
    imgplot = plt.imshow(img)

    Unclear Scenes:- Due to various similar classes that share similar objects like dining_room and dining_hall, forest_road and field_road, there are unclear images that are very hard to classify.

    不清楚的场景:-由于共享相似对象的各种相似类(例如Dining_room和Dining_hall,forest_road和field_road),存在难以分类的模糊图像。

    Image for post
    Label: field_road
    标签:field_road
    Image for post
    Label: forest_road
    标签:forest_road

    As we can see it is very hard to classify these 2 images.

    如我们所见,很难对这两个图像进行分类。

    Multiple Scene Parts:- Images consist of multiple scenes parts can not be classified into one category like buildings near the ocean. These scenes can be hard to classify and require more ground truth labels for describing the environment.

    多个场景部分:-由多个场景部分组成的图像无法分类为一类,例如海洋附近的建筑物。 这些场景可能难以分类,并且需要更多地面真实性标签来描述环境。

    To summarize, this blog post has shown how we can use deep learning networks to perform a natural scene classification and why scene recognition performance has not achieved the same level of success as that of object recognition.

    总而言之,这篇博客文章显示了我们如何使用深度学习网络执行自然的场景分类,以及为什么场景识别性能没有达到与对象识别相同的成功水平。

    翻译自: https://towardsdatascience.com/natural-scene-recognition-using-deep-learning-91b6ba86bad5

    深度学习 场景识别

    展开全文
  • 结合结构和纹理特征的场景识别
  • 首先构建了一个场景类的语义描述系统,然后通过最小化损失(element-wise logistic loss)函数训练多标签分类网络,获取交通场景图像的高维特征表示,最后在4个大规模场景识别数据集上进行验证,实验结果显示,新...
  • 遥感影像场景识别—含有代码数据训练模型结果-亲测有效
  • 基于深度学习的视觉场景识别,有测试图,完整的代码,可以顺畅运行,是关于深度学习很好的算法学习,作为算例可深入研究应用。
  • 基于音频事件和主题模型的音频场景识别
  • 采用不 同于传统的使用生成模型方法学习上下文场景识别模型的方式, 首先引入稀疏贝叶斯学习机对上下文模型中图像特 征的后验概率进行建模, 然后通过贝叶斯原理将稀疏贝叶斯模型与隐马尔可夫模型结合, 提出一...
  • 深度学习场景识别方法研究,是深度学习场景识别方法研究
  • 基于matlab的深度学习的视觉场景识别,本实验选择经典的Corel图像库,基于注明的matconvnet工具箱进行深度学习实验,包括工具箱配置、训练集制作、模型设计、训练和识别验证等过程,可应用于视觉场景分类识别,仿真...
  • 使用梯度方向描述符的加权直方图进行自然场景识别
  • 紧凑的BoW和集成ELM可以进行准确而高效的场景识别
  • 基于高维特征表示的交通场景识别刘文华,李浥东,王涛,邬俊,金一北京交通大学计算机与信息技术学院,北京 100044【摘 要】随着智能交通的发展,快速、精确识别交通场景成为亟待解决的重要问题。目前已有许多识别方法...

    8518da92dcf1df555ac34393881a9c5c.png

    基于高维特征表示的交通场景识别

    刘文华, 李浥东, 王涛, 邬俊, 金一

    北京交通大学计算机与信息技术学院,北京 100044

    【摘  要】随着智能交通的发展,快速、精确识别交通场景成为亟待解决的重要问题。目前已有许多识别方法可以提高交通场景的识别效果,但这些算法无法提取视觉概念的交通语义特征,导致识别精度低下。为此,设计了一种提取高维场景语义特征和结构信息的识别算法,以提高识别精度。为减少图像高维与低维特征表示之间的“语义鸿沟”,首先构建了一个场景类的语义描述系统,然后通过最小化损失(element-wise logistic loss)函数训练多标签分类网络,获取交通场景图像的高维特征表示,最后在4个大规模场景识别数据集上进行验证,实验结果显示,新算法在识别性能上优于其他的方法。【关键词】 场景识别 ; 卷积神经网络 ; 高维特征 ; 低维特征【引用格式】刘文华, 李浥东, 王涛, 邬俊, 金一.基于高维特征表示的交通场景识别[J]. 智能科学与技术学报, 2019, 1(4): 392-399.

    1.引言

    场景识别已被广泛应用于图像处理任务中,如图像检索、行为检测和目标识别。场景识别问题本质上是图像语义分类问题,通过使用场景特征向量表示图像,将场景图像分为站台、轨道、变道等不同类别的场景。特征表示和分类方法是影响场景识别效果的关键。特征表示是场景识别处理任务的第一步,特征表示的效果直接影响识别精度,如何提取具有判别性的特征成为新的研究热点。图像特征中包含的图像信息越多,识别效果越好。目前,许多用于提取图像特征的算法被陆续提出,较为经典的有:基于梯度的GIST(generalized search tree)算子[1],该算子专门用于描述图像空间特征,以估计全局空间特征;基于纹理的尺度不变特征转换(scale-invariant feature transform,SIFT)算子[2],该算子检测尺度空间中的特征,并识别关键点的位置。这两种方法获得的特征是图像的低维统计信息,将低维特征直接进行映射,导致对图像的识别效果差。为解决低维表示直接映射引起的“语义鸿沟”问题, Li 等人[3]提出了一种高层语义表示方法——对象库(OB),它由许多对象特征图构成,对图像对象的语义和空间信息进行编码,图像被表示为通用对象的特征图。图像的 GIST特征图、SPM表示直方图和OB对象特征图具体如图1所示。OB算法表示图像的效果明显优于前两种算法,语义信息更丰富,但 OB 提取的特征中不包含描述性的图像信息。近年来,深度神经网络给计算机视觉领域带来了革命性的变革,极大地推动了场景识别技术的发展。深度神经网络中场景识别任务是从已标注的训练图像集中学习语义模型,建立低层视觉特征到高层语义概念之间的映射。基于已有研究方法,本文提出了一种新的图像语义表示方法,以减小高层识别任务与低层特征之间的“语义鸿沟”。本文所提算法将提取图像特征过程视为多标签分类,每个语义特征对应训练网络,得到分类标签,并在4个经典场景数据集上进行了验证。

    2.特征表示

    特征表示有低维特征表示和高维特征表示,具体如下。低维特征表示方法是指从图像纹理、颜色、形状等方面来表示图像[4,5,6]。这些算法可解释性强且时间复杂度低,但其表示性能较差。随后,中层特征表示方法被提出,其中被广泛使用的方法有计算图像每个子区域局部特征直方图的 SIFT 空间金字塔算法[5]、词袋(bag of words)模型[6]、提取图像结构特征的视觉描述符算法[7]等。研究发现,图像中低维特征的直接映射可能会引起更大的“语义鸿沟”。为此,Fang H[8]、Farhadi A[9]、Li F F[10]等人提出了从低维特征表示中学习高维语义的学习模型,获得了优异的识别性能,在Sports数据集上取得的识别准确率分别为84.4%、84.92%和85.7%。Felzenszwalb P F[11]提出了一种基于多种特征的混合特征提取方法,该方法在MIT-Indoor数据集上的识别精度达到了43.1%。高维特征表示方法是由低维特征组合而成的更结构化、更复杂的特征表示方法。比如,经典的OB 算法首先利用目标检测器[12,13,14]获得图像中包含的对象,然后编码对象的语义和空间信息。随后, Hauptmann[15]使用对象到类(O2C)的距离构建场景识别模型,基于对象库的O2C距离的显式计算获得的图像特征更加抽象、复杂。现实世界中的对象具有层次结构概念,这导致基于对象的表示方法可能存在语义层次结构问题,无法同时识别同一张图中的“车”和“汽车”。为了解决语义层次结构问题,使用语义特征作为图像的表示方法,在没有训练图像的情况下,语义特征可用于识别对象类,使用语义特征识别对象类的这一过程被称为zero-short learning。为了获取图像的全局和局部特征,Vogel 等人用图像局部语义与图像全局特征组合来表示图像。Hinton G E等人[16]定义了中级特征,设计了6组特征,并将其作为图像的中层语义描述符。实验表明,图像特征包含的信息越丰富,其识别准确率越高。

    d3c862ec54ac446bd04d11ccbf298fc4.png

    图1   图像特征结果

    3.交通场景识别算法

    本文定义了一种基于深度卷积神经网络(convolutional neural network,CNN)的图像特征提取模型,并利用该模型进行场景识别。卷积神经网络通过卷积核提取每层特征,前一层的输出作为后一层的输入,递归获取图像特征,卷积神经网络的深度越深,获得的特征越抽象,语义信息越丰富,越有利于学习识别算法。基于深度卷积神经网络的图像特征提取模型主要包含 3步:首先通过在图像数据集 ImageNet[17]上预训练模型VGGNet(visual geometry group)[18]来初始化网络参数,以提高网络的收敛速度;然后利用多标签COCO(common objects in context)数据集[19]调整网络参数,构建多标签预测网络;最后对场景数据集进行特征预测。具体过程如图2所示。

    3.1 字典设计

    在预测图像特征之前,需构造一个特征词汇表,这里的特征应涵盖场景图像包含的对象,如图像可视对象、抽象对象或意象对象等。本文词汇表是基于文献[20-21]的思想进行构建的,首先利用多标签 CNN 模型获得图像对应的特征向量091902d6070a42bde8b7a3e63e0cccc2.png,其中vij为图像 j第i个特征的预测概率,然后判断图像集中所有图像的特征 i的预测概率是否大于预设参数γ,若vij >γ,j∈{imageset},vij就被加入词汇表V中。词汇表V构建完成之后,利用多标签CNN模型预测图像的特征概率2e1f500151774e658ab878b4ff2c1157.png,然后从中选择前t个最显著的特征,为每个图像构造一个固定长度的向量。

    3.2 图像特征提取

    随着对象数量的增加,图像中对象的层次问题更加显著。例如,对一张包含“公交车”的图像,OB算法无法提取出“车”和“公交车”两个特征,因为OB 算法设定对象向量是二进制的,当对象位于图像中时,图中对象对应的二进制向量值为1,否则为0。但从现实分析,“公交车”属于“车”的一种,包含“公交车”的图像应具有“车”的特征。由于目前无法提取具有层次特征的图像,为解决这一问题,现有方法[22]采用多层次、多尺度特征融合策略,经过金字塔池化各级特征,由深到浅逐步融合,最后输入soft max分类器,输出“公交车”或者“车”(不并存)。为解决同时预测层次类对象问题,本文提出一种基于词汇表的特征概率向量(特征集)表示方法。假设词汇表为0c7c28a8fcd0af1ff41eb79fe87e65d5.png,本文算法旨在预测时得到对应于词汇表的特征概率向量a088501310b0c4b4d808aaf983e4f336.png。图像特征向量中的每个特征具有不同的概率值,抽象程度越高的特征(对象越具体)对应的概率向量值越大。96942f989ae9f4aa2905723d44b46685.png图2   图像特征提取过程为了增加特征的表述能力,本文引入多标签分类概念。多标签分类算法可获取多类特征,即7318ca595d2e617bdb98ff6fb65af640.png,但这些特征都是名词性特征,描述性差。为提高图像特征的描述性,本文提出一种基于深度模型的多标签分类算法,利用该算法提取多类型特征,即 184232af2f0d302797abe04bb4ac8824.png。预测的特征包含名词(场景标签)、形容词(场景颜色)、动词(场景特征)等,这是与传统多标签分类算法最大的不同点。为提高算法的收敛速度,首先在 ImageNet 数据集上预训练VGG16,获取网络初始参数,修改网络损失函数为c-way multi-logistic,并在COCO数据集上调整网络参数,将特征向量的大小c设置为256。在预测图像特征时,将预测模型的c值设置为特征集的大小,c个单元的multi-logistic输入替换最后一个全连通层的输出,这样通过c-way得到概率分数在多类标签上呈现出的一个概率分布,即图像特征的概率分布。损失函数的定义:假设训练集中有N个样本和c个与图像中特征相关的多标签,第i幅图像的多标签向量为0db9e1bc5abf24ea09e4e2e31c5aee92.png,当第 j个特征包含在第i幅图像中时 yij=1,否则,yij=0。将向量 2b1b4df75ffffb69445258363378dbce.png作为预测概率向量与e3db1ed4c0d74a31b1e19a12120db9b7.png对应。模型的损失函数为:

    7f0759dd58559f2f0fca8f15038bb574.png

    3.3 图像识别模型

    场景识别模型[23,24,25,26]将提取的特征向量作为输入得到识别结果,即c094e2e6d653c4f4ec8768764981fdcd.png 。输入c00d15c85adf3ed3496234428d9d4dfe.png ,R为N×D维矩阵,D表示特征词典 V 的维数,N 为场景图像的个数,7add82ea427a8677f7c946b6368d7ca0.png,表示N幅图像场景标签。本文采用两种类型的函数作为f(.) 。1643a8fdef0b414b8766c54de726567b.png是符号函数,具体定义由式(2)给出。

    9ed8a935d7e21cb4125a4cd4e6962133.png

    其中,053851f2f2e3c415aacb4fd188a4cf18.png,g(x)是一组将W作为法向量的超平面。C1表示一个场景类,C2表示其余数据集中的剩余场景。最大化两类之间的分类区间是选择最优分类超平面的关键条件,即:

    228de4ca73493b89cc4ed445f8d8a465.png

    其中,||w||是归一化的权重,为了简化计算,将最大化分类间隔δ转为求解最小化3938035d43f677d195a82138595ae226.png

    718a65d7a26e7aef42b9108030cca953.png表示特征向量的参数,求解β的目标函数由式(4)给出。

    25e68426c6bd1eeb2fffc4bab03e8df2.png

    其中,2b7b377d83515edb58cc8206ae52453f.png一般选用的是非负函数或凸函数;R(β)是正则化函数,用来避免过度拟合;θ∈R是正则化系数,由交叉验证获得。本算法中采用 log函数作为L(.) 函数。

    0b7c59ecdcbadb661d08481f8fd46444.png

    其中,f2c3e2a461ae0a84af64965d68b5a6a4.png

    4.实验设计与验证

    4.1 数据集

    本次实验选取 4 个经典场景数据集 Sport[27]、Indoor[28]、Outdoor[29]、15 Scene[30]进行性能测试,具体介绍见表1。Outdoor、15 Scene数据集中包含丰富的复杂交通场景图像,如图3所示。

    519e60895ea259d440eb6643fd4e4db8.png

    86bfb4b15496a0166b01130ded3932ce.png图3   交通场景图像

    4.2 实验参数设置

    本算法设计的网络共包含16层,其中包括13个卷积层和3个全连接层。模型中所有卷积滤波器的大小被设置为 3×3,卷积滤波器的接收域被设为7×7,这可以代替较大的滤波器。为提高模型的收敛速度,利用文献[31]中的网络参数初始化模型中的最后两个全连接层的参数w。本算法在ImageNet数据集上进行预训练时,将全连接层f6和f7的学习率均设为0.001,全连通层f8的学习率设为0.01,动量和下降速率均设为0.9和0.5。为避免陷入局部最优,在计算连接层 wij的参数值时,按预设比例降低各层的学习率,具体网络结构如图4所示(解释了13个卷积层和3个全连接层的设计结构)。89ddf5f087dd4f2e48616fd2bbc5795b.png图4   网络结构

    4.3 对比实验

    为了验证算法的有效性,将本文所提算法与两大类图像特征提取算法进行比较:低维语义表示方法(GIST[32]、SIFT[33]和 CENTIRST[34])和高维语义表示方法(OB、KCL[35]),对比结果见表2 (AttributesFinetune表示本模型经过Finetune提取的图像特征)。实验结果表明,高维语义表示算法比低维语义表示算法有更好的识别性能,说明高维特征包含判别性的语义信息,消除了场景识别任务和特征表示之间的“语义鸿沟”。本文所提算法的优势为在识别复杂场景图像时更为突出,例如,对包含杂乱图像的Outdoor数据集的识别精度提升更高。

    11bfe754bc47be8b223f93b9a996a33a.png

    为验证网络结构的有效性,选取经典的CaffeNet、AlexNet、VGGNet16 和 Places-CNN进行网络结构对比,实验结果见表3

    ee5a0d7ddf6dacc008f1b73c094241b0.png

    从表3可以看出,CaffeNet和AlexNet的识别准确率明显低于本文所提模型,VGGNet16 和Places-CNN的性能优于前两种算法,因为VGGNet16具有更深层次的网络结构,而 Places-CNN 是在特殊的场景数据集上训练的。从实验结果可知,网络结构层次越深,特征的抽象程度越高,识别效果越好。为验证损失函数对本文所提模型的影响,分别将softmax、element-wise logistic loss作为损失函数,即表3中的Softattribute、AttributesFinetune。综上所述,本文所提模型所提取的特征可以承载更多的语义信息,将element-wise logistic loss作为损失函数可提升模型的识别效果。模型的性能随调优次数的增加而变化,实验对迭代过程中保存的中间模型的识别准确率进行了比较,其结果如图5所示。758e4bf1db2e2f42a30a1e800951054c.png图5   识别精度随微调次数的变化趋势从图5中可以看出,使用梯度搜索方法求解参数时,随着迭代次数的增加,模型的识别准确率总体呈上升趋势,有微小波动(可忽略不计)。实验表明,每隔 20 个时间间隔保存的模型性能良好,避免了过度拟合,在4个数据集上均获得了较高的识别准确率。以往大量实验表明[36,37]:场景识别算法性能与训练样本个数密切相关。在实验中,本文使用不同大小的训练数据对模型进行微调,并利用不同大小的特征训练分类器来测试其鲁棒性,训练范围为训练数据的50%、70%、100%,其中,将GIST提取的图像特征定义为FeatureGIST。表4总结了训练数据大小对算法性能的影响。

    d3268e3d0467aeed09aee15463d1fc6f.png

    从表4可知,训练数据的比例从50%增加到100%时,本文所提算法的识别性能得到了很大的改善,当所有的训练数据都用于训练模型时,识别性能达到最优。然而,当 GIST 特征用于训练识别算法时,训练数据的大小对其性能影响较小,这也从另一个角度证明了 GIST 算子的局限性。在训练数据比例为 50%的情况下,本文所提算法的识别准确率比GIST在训练数据比例为100%时更高,这充分证明了本文所提出的语义特征表示包含更多的判别信息,这些信息被隐藏在较低维的“信息”特征空间中。不同的分类算法对场景识别的精度和效率都有影响,将提取的语义特征分别作为分类器线性支持向量机(linear SVM)和线性二叉树(linear binary tree)的输入,并进行对比,见表5。从表5可以看出,线性支持向量机在Indoor和15 Scene数据集上的分类效果优于线性二叉树算法,在另两个数据集上的分类效果却低于线性二叉树算法。这说明,针对不同的场景应选用不同的分类算法进行识别。

    973a0c196df505daeb1d64a6bf8a2889.png

    4.结束语

    本文所提算法提取的图像特征不仅有效地缩小了交通场景识别(高维视觉任务)与低维表示之间的“语义鸿沟”,而且解决了语义层次的问题。从网络结构上看,本模型是在VGGNet16网络结构基础上进行的改进,使用element-wise logistic函数作为损失函数。本文所提算法的技术贡献在于提出了一种新的特征表示方法,构建场景特征字典。实验结果表明,本文所提算法在4种场景数据集上的性能明显优于现有的算法。

    (点击篇末

    · 关于《智能科学与技术学报》·

    《智能科学与技术学报》(季刊,www.cjist.com.cn)是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国自动化学会学术指导,北京信通传媒有限责任公司出版的高端专业期刊,面向国内外公开发行。《智能科学与技术学报》以建设世界一流科技期刊为目标,聚焦智能科学与技术领域,秉承“专家办刊”的重要原则,坚持“推进跨界融合,注重协同创新,强化产学研用,搭建开放、创新并具国际化示范引领效应的智能科学与技术研究学术交流平台,进而助力构建智能科学与技术及其产业应用的健康生态场”的办刊宗旨,主要包括“综述”“学术论文”“专题”“评述”等栏目,将主要刊载面向智能科学与技术领域有突破的基础理论研究、创新性关键技术应用、热点问题探讨、重大成果进展等,刊载重点领域包括:人工智能,智能控制,混合智能,平行智能,生物智能,军事智能的前沿理论与方法、技术与趋势、应用系统。

    《智能科学与技术学报》将努力发展成国内外智能科学与技术领域顶级的学术交流平台,为业界提供一批内容新、质量优、信息含量大、应用价值高的优秀文章,为实现《新一代人工智能发展规划》提出的我国人工智能发展的战略目标,促进我国智能科学与技术的快速发展贡献力量。

    5b709f01c17eea86320826f3ae172812.png

    c80faf88c6cd8ec8def5b54edd54accf.gif 点击即可下载本文

    展开全文
  • 基于深度学习的场景识别算法研究,姜轩,俎云霄,近几年,深度学习在计算机视觉领域取得了巨大的成就,场景识别作为计算机视觉中重要的研究方向具有一定的挑战性。随着数据规模的
  • 坡道场景识别算法

    2020-03-11 11:04:29
    坡道场景识别算法 输入输出接口 Input: (1)图像视频分辨率(整型int) (2)图像视频格式(RGB,YUV,MP4等) (3)摄像头标定参数(中心位置(x,y)和5个畸变 系数(2径向,2切向,1棱向),浮点型float) (4)...

    坡道场景识别算法

    输入输出接口

    Input:

    (1)图像视频分辨率(整型int)

    (2)图像视频格式(RGB,YUV,MP4等)

    (3)摄像头标定参数(中心位置(x,y)和5个畸变

    系数(2径向,2切向,1棱向),浮点型float)

    (4)摄像头初始化参数(摄像头初始位置和三个坐标方向

    的旋转角度,车辆宽度高度车速等等,浮点型float)

    Output:

    (1)坡道类型 (上坡,下坡,平路)(整型int)

    (2)坡道角度
    (浮点型float)

    13.1
    功能定义

    检测坡道场景的坡角与距离。
    

    14.2 技术路线方案

    道路坡度是影响车辆安全驾驶和稳定操纵的重要参数。其数学公式为:

    而对于车灯、辅助驾驶来说,了解坡度情况,对于TTC、测距、识别等问题都需要有所参考,才能使输出数值、结果更为精确。

    pitch是围绕X轴旋转,也叫做俯仰角。yaw是围绕Y轴旋转,也叫偏航角。roll是围绕Z轴旋转,也叫翻滚角。

    在这里插入图片描述

    图1. 坡道检查过程演示

    算法原理

    依据实时检测道路消失点来判断前方道路是否处于上坡或者下坡,主要算法原理如下:

    (1)对图像进行二值化和hough变换,找出图像中所有的直线;

    (2)求预设点(图像中点)到这些直线的距离,保留小于设定点到直线距离的线段;

    (3)求出这些线段的两两交点,聚类出这些线段的交点中心;

    (4)利用交点中心,重复步骤2、3直至迭代出来的交点中心点包所含直线线段的数目不再增加;

    (5)由最多直线投票出来的点为道路消失点(灭点),根据灭点位置确定实时确定天际线;

    (6)根据实时检测的天际线和在正常水平道路的天际线对比,向上下超过一定的像素阈值和持续时间判断是否道路处于上坡或者下坡。

    展开全文
  • 什么是负一屏,场景识别 什么是负一屏 在手机桌面的最左屏显示为负一屏,为用户提供搜索、应用建议、快捷服务、情景智能等等服务 近场营销 揽客神器手机营销卡片,智能推荐商家活动给附近2公里用户,吸引到店消费, ...

    什么是负一屏,场景识别

    什么是负一屏
    在手机桌面的最左屏显示为负一屏,为用户提供搜索、应用建议、快捷服务、情景智能等等服务
    近场营销 揽客神器手机营销卡片,智能推荐商家活动给附近2公里用户,吸引到店消费,
    基于第壹近场精准的场景识别技术,我们可以对线下几十个行业2000万POI场景进行精准识别并提供当前场景下用户所需要的服务。
    什么是场景识别

    场景识别是基于指纹+wifi方案可以自动识别手机持有者当前所处在哪个场景的技术,你是在购物还是在看电影,我们会根据你所处场景,推送当前场景下所需要的服务
    第壹近场-智能化近场服务提供商

    在这里插入图片描述

    什么是智能近场营销卡片
    在这里插入图片描述
    营销卡片会依据AI智能展示在用户手机负一屏,为用户推荐,当前位置5公里附近商家的各类优惠活动,一点即享受服务,无需下载注册

    借助场景识别及LBS技术,近场营销本地推广可以精准定向周边1-5公里人群,以营销卡片的形式将门店商品优惠呈现在手机用户的负一屏上用户点击喜爱的商品可直接跳入商家快应用,进行领取优惠券,门店导航,预定座席,到店消费,核销结帐,实现门店消费全流程的营销服务。
    快应用联盟官方服务商—第壹近场,通过WIFI指纹进行场景识别,以手机为流量入口,以AI为核心技术,为线下商家提供一站式SaaS营销平台;赋能线下商家场景的提供从“识别定位”到“手机上开店”一整套的智能场景快应用服务。与手机厂家合作,提供多种流量入口及推广方案,为入驻商家提供丰富的营销推广方案。旗下三大产品,第壹商惠多引流拉客、第壹智拓客营销裂变、第壹猎客宝吸客成粉,引领“近场服务”新玩法,助力商家获取更多流量。

    展开全文
  • 针对以往场景识别研究中将图像分割成大小相等的矩形区域进行特征提取而导致识别率低的问题,提出了一种基于超像素空间金字塔模型的场景识别方法:先对图像做不同分辨率的超像素分割,在得到的每个图像子区域中提取...
  • MRCNN-Scene-Recognition, 用于大规模场景识别的CNNs 基于的大规模场景识别多分辨率这里我们提供了以下纸张( Arxiv预印本)的代码和模型:Knowledge Guided Disambiguation for Large-Scale Scene Classification wit
  • 人工翻译的Visual Place Recognition_ A Survey视觉场景识别综述
  • "NetVLAD"场景识别模型解读

    千次阅读 2019-02-24 10:16:28
    应用:NetVLAD是一种场景识别算法,但实际上其不仅仅能应用于场景识别,该网络结构可以对卷积神经网络得到的中间特征进行编码,并实现了BP,因此可以用于其他任何以卷积神经网络为基础的识别或者检索场景,并获得比...
  • 基于视词袋模型的场景识别

    千次阅读 2017-04-15 16:39:05
    基于视词袋模型的场景识别 一、问题 场景内容的自动识别是计算机视觉领域的一个重要问题,对目标识别、检测基于内容的图像检索等计算机视觉方面的应用具有重要意义,最近12306的图片验证码系统就可以看做一个场景...
  • 基于词袋模型的场景识别配套代码,包括素材,代码,以及实验结果。详细实验过程请见本人博客<计算机视觉项目实战三-基于词袋模型的场景识别>https://blog.csdn.net/Accelerato/article/details/105627078
  • 场景识别论文阅读感想(初步)

    千次阅读 2017-08-27 10:27:54
    近日阅读了一篇cvpr上2016年关于场景识别的论文,写了如下感想   《The Cityscapes Dataset for Semantic Urban Scene Understanding》阅读感想 1.概述   对于城市道路的环境识别一直是一项对视觉识别来说是...
  • 场景识别帮助小白用户实现一键式智能拍照修图前言增强效果开发步骤总结 前言 在手机相机功能日益强大的今天,相对于相机硬件的差异,图像处理算法逐渐显示出更加重要的地位。现在的消费者也开始由看重硬件能力慢慢...
  • ALS点云的多视图和多模式表示的深度融合,用于3D地形场景识别 ALS点云的多视图和多模式表示的深度融合,用于3D地形场景识别 秦楠楠,胡向云*,戴恒明 [] 地形场景类别不仅可用于某些地理或环境研究,而且还可用于为...
  • 为下一步论文做准备。 有一个数据集过大,100多个G,从网上找到一个轻量级的室内场景识别数据集,MIT的,在这里留存一下。数据集下载链接: http://web.mit.edu/torralba/www/indoor.html

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 11,538
精华内容 4,615
关键字:

场景识别