精华内容
下载资源
问答
  • 单模态和跨模态检索任务 依存关系 我们建议对以下软件包使用Anaconda:Python 2.7, (> 0.1.12), (> 1.12.1), 朋克句子分词器: import nltk nltk . download () > d punkt 下载资料 在此示例中,我们使用...
  • 多模态检索论文总结

    2021-11-05 17:22:59
    目标:研究多模态哈希检索。 上述文章其实本质上单模态哈希,跨模态哈希和多模态哈希都有包括。但是我们可以通过窥探他们各自的思想来看看是否对我们多模态的研究提供思路 [外链图片转存失败,源站可能有防盗链机制,...

    1.年份梯度:

    image-20210905230606907

    2.从模态定义来看

    目标:研究多模态哈希检索。

    上述文章其实本质上单模态哈希,跨模态哈希和多模态哈希都有包括。但是我们可以通过窥探他们各自的思想来看看是否对我们多模态的研究提供思路

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TgnUazXC-1636104175271)(C:\Users\winter\AppData\Roaming\Typora\typora-user-images\image-20210905231230309.png)]

    上述文章中属于单模态哈希的有3篇:

    **2012 Compact Kernel Hashing with Multiple Features **引用:45

    **2013 Effective Multiple Feature Hashing for Large-Scale Near-Duplicate Video Retrieval ** 引用:225

    离线的第一阶段,作者使用所提出的算法学习一系列哈希函数,每个哈希函数根据给定的多个特征为一个关键帧(特征)生成一位哈希码。使用派生的散列函数,数据集视频的每个关键帧可以由线性时间内生成的大小为的散列码表示。

    在联机的第二阶段中,查询视频的关键帧也由哈希函数映射的大小哈希码表示。通过对散列码进行有效的异或运算和比特计数运算来计算两个视频之间的相似性。

    2020 Deep Multi-View Enhancement Hashing for Image Retrieval 引用:125

    image-20210906113202902 image-20210906112831753

    计算稳定性评估那一块不是很懂

    是 state-of-the-art single-view and multi-view hashing methods。引用量颇高。

    单模态哈希方法思路借鉴和思考:

    和很多经典图像单模态哈希类似:

    单模态哈希方法是专门为单模态数据设计的。不管是图片还是视频,重点在提取单模态特征(近些年sota文章利用数据的低级分布语义和高级提取语义相结合),然后利用单一模态特征去学习相似性以完成检索任务。如果要支持多媒体搜索,需要先将多模态特征连接到一个特征向量中(文本对齐势必会产生较差性能),然后再导入到单模态哈希模型中。在这种情况下,不同模态特征之间的互补语义关联,以及模态间的冗余要好好考虑(多视图角度符合这个想法)。

    上述文章中属于跨模态哈希的有5篇:

    2016 Discrete Image Hashing Using Large Weakly Annotated Photo Collections引用:20

    用户生成的图像注释通常有噪声且不完整。传统监管和协同监管之间的主要区别在于后者不认为未观察到的标签是负面的。这对于弱标记数据集的训练至关重要。

    协同过滤(CF)用于分析图像和标签之间弱而丰富的关联,然后预测新的(未观察到的)图像标签关联(见图1(b))。关键的动机是CF可以通过有效的稀疏矩阵分解优雅地避免建模丢失注释的大部分,并且CF自然支持多标签训练图像。(详见论文)

    2016 Unsupervised visual hashing with semantic assistant for content-based image retrieval.

    利用辅助文本,通过无监督学习提高视觉哈希的质量

    image-20210901110501129

    核心思想是自动从带有噪声的关联文本中提取语义,以增强哈希码的识别能力,希望得到的结果图如下图中的d。

    image-20210901122324812 image-20210901124208013

    ​ 不只是考虑视觉特征,也不平等地对待图像和文本,而是特别利用辅助文本来辅助视觉哈希。利用主题超图对图像进行语义关联建模,利用集合矩阵分解对图像和潜在共享主题进行关联 。

    ​ 但是构造图会增加计算和存储的复杂性

    2020 Supervised Hierarchical Deep Hashing for Cross-Modal Retrieval 引用:6

    image-20210906095608343

    通过显式地挖掘分层标签来学习散列码。具体地说,标签层次结构的每一层的相似性和不同层之间的关联性都被植入到哈希码学习中。此外,还提出了一种迭代优化算法来直接学习离散哈希码,而不是放松二进制约束。

    image-20210906095827928

    总体框架如图2所示。包括两个主要组件:特征学习和哈希码学习。在特征学习部分,采用CNN网络和MLP网络来获取图像和文本模式的强大语义特征。对于散列码学习,有各层实例类相似性的定义以及跨层类相似性的定义。然后,通过将它们嵌入到目标函数中,进一步得到中间产物:class-wise哈希码。最后,实例的哈希代码可以在中间产品的帮助下生成,同时保留定义的相似性。

    image-20210906110547178

    2018 Cross-Modal Retrieval in the Cooking Context Learning Semantic Text-lmage Embeddings** 引用103

    个人总结:

    (1)挖掘潜在空间,制定了一个具有跨模态检索和分类损失的联合目标函数来构造潜在空间。在表征学习过程中直接注入基于类的证据源更有效地将高层次结构强加给潜在空间。

    (2)改进损失达到提升细粒度和更完善高级语义信息的作用。

    **2020 Online Collective Matrix Factorization Hashing for Large-Scale Cross-Media Retrieval **引用8

    在集合矩阵分解散列(CMFH)的基础上提出了在线集合矩阵分解散列(OCMFH),可以根据散列模型的动态变化自适应地更新旧数据的散列码,而无需访问旧数据

    image-20210906125939678

    理论性较强

    #### 跨模态哈希方法思路借鉴和思考:

    因为哈希最后是二进制码,各种跨模态哈希方法的核心思想是挖掘不同模态之间共享的汉明空间,从而实现不同模态之间的搜索过程。但是图片信息语义更高阶,在处理时,如果和文本同等处理,就很可能让图片丢失语义,也就是可用的汉明语义空间会变小(如下图),所以感觉现在都是在使用文本和图像时,使用一些图结构非同等对待图像和文本,或者直接用深度学习,而且很多之前看的跨模态文章,训练时采样方式是获取训练集中相似或者不相似的子集对或者子集组合(二元组和三元组)。如果是这样做,一个大规模数据不好处理,另一个是图片与图片之间不单纯是相似或者不相似,高阶语义是复杂的,这有语义的模糊和损失。

    image-20210901113631114

    结合之前看的一些文章,我觉得

    创新点集中在:

    1.利用一些新的结构和技巧(如图分析,语义聚集分析,矩阵分解理论等)设计一个更好的共有语义空间(细粒度增加,共同语义空间的表征加强等)

    2.,离散哈希优化,缓解松弛带来的量化损失

    狭义跨模态是单模态去查询,我们是要实现 配合弱监督情景下的多模态哈希,在查询阶段就提供了多模态特性,应该注重模态之间语义融合进入模型后 语义的缺失和冗余,所以跨模态模型用来做多模态应该不是很合适。降低量化损失的手段可以参考,降低模型计算复杂度的手段也可以参考,但是感觉数学理论性较强。

    上述文章中属于多视角多模态哈希的有篇:

    2015 Multiview Alignment Hashing for Efficient Image Search 引用:139

    为了进行比单视角更全面的描述,对象总是通过几种不同类型的特征来表示,并且每种特征都有自己特点。因此,希望将这些异构特征描述合并到学习散列函数中,从而实现多视图多视角学习。

    通过非负矩阵分解(NMF)利用了有区分度的低维嵌入。NMF是数据挖掘任务(包括聚类、协同过滤、异常值检测等)中的一种流行方法。与其他具有正负值的嵌入方法不同,NMF寻求学习基于非负部分的表示法,该表示法可以更好地直观解释高维数据的因式分解矩阵。NMF将原始矩阵分解为基于零件的表示,从而更好地解释非负数据的因式分解矩阵。将NMF应用于多视图融合任务时,基于零件的表示可以减少任意两个视图之间的损坏,并获得更具鉴别能力的编码。这是第一次使用NMF组合多个视图进行图像哈希处理。

    2017 Discrete Multi-view Hashing for Effective Image Retrieval 引用:17

    处理单视图的方法不能充分利用多视图数据中包含的丰富信息。虽然已经提出了一些用于多视图数据的方法;它们通常放松二进制约束或将哈希函数和二进制码的学习过程分为两个独立的阶段,以绕过处理二进制码离散约束进行优化的障碍,这可能会产生较大的量化误差。针对这些问题,本文提出了一种新的哈希方法。可以直接处理多视图数据,充分利用多视图数据中丰富的信息。此外,在DMVH中,我们直接优化离散码,而不是放松二进制约束,从而获得高质量的哈希码。同时,提出了一种新的相似度矩阵构造方法,该方法既能保持局部相似度结构,又能保持数据点之间的语义相似度。

    2017 Dynamic Multi-View Hashing for Online Image Retrieval 引用:75

    image-20210906010529556

    根据图像的动态变化自适应地增加哈希码。当当前代码不能有效地表示新图像时,它可以增加代码长度。此外,为了进一步提高整体性能,为每个视图分配了权重,可以在在线学习过程中有效地更新权重。为了避免代码长度和视图权重的频繁更新,设计了一种智能缓冲方案来保存重要数据,以保持DMVH的良好有效性。

    在动态哈希码中,蓝色区域、红色区域和黄色区域分别表示旧码、新数据的哈希码和扩充码。该数据库由许多图像组成,这些图像具有视觉和文本内容。当新图像到达时,通过多视图字典学习,提取多种视觉特征和一种文本特征并进行组合。微分阈值确定图像是否可以由当前哈希代码表示。如果没有,则将其添加到缓冲区,并使用缓冲区数据扩充哈希代码,直到缓冲区中没有更多可用空间。

    2018 Multiview Discrete Hashing for Scalable Multimedia Search 引用:41 (无监督)

    image-20210913213310375

    MvDH进行矩阵分解,生成哈希码作为多个视图共享的潜在表示,在此过程中同时进行谱聚类。通过哈希码和聚类标签的联合学习。在保证收敛性和低计算复杂度的前提下,提出了一种交替算法来求解该优化问题。采用离散循环坐标下降法(DCC)对二进制码进行优化,以减小量化误差。

    矩阵分解过程中第i个对象的重构误差:

    image-20210913214445759

    θm是对该视图重构误差进行加权的变量。

    image-20210913214343286

    Multiview Alignment Hashing for Efficient Image Search image-20210913215836110

    在训练阶段,通过对核权重α和分解矩阵(U,V)进行交替优化得到优化方法。该算法利用多变量logistic回归,输出投影矩阵和回归矩阵P生成哈希函数,直接在测试阶段使用。

    2015 Learning to Hash on Partial Multi-Modal Data 引用 25

    面对模态缺失的问题,提出了一种处理部分多模态数据的哈希方法。具体来说,哈希码的学习是通过隐子空间学习确保不同模式之间的数据一致性,并通过图拉普拉斯算子保持相同模态内的数据相似性。在此基础上,利用正交不变性进一步改进了正交旋转编码。

    偏理论

    2017 Discrete Multi-view Hashing for Effective Image Retrieval 引用17

    总结:针对之前放松二进制约束的问题,直接进行直接优化离散码,从而获得理论上高质量的哈希码。同时,提出了一种新的构造相似度矩阵的方法。

    **2020 Adaptive Online Multi-modal Hashing via Hadamard Matrix ** arxiv

    ​ 作者受Hadamard矩阵的启发,以自适应的方式捕获多模态特征信息,并保留哈希码中的有区别的语义信息。超参数少。

    **2020 Flexible Multi-modal Hashing for Scalable Multimedia Retrieval ** 引用28

    image-20210914011439050

    FMH在一个模型中同时学习多模态特定哈希码和多模态协作哈希码。查询提供任意一种或多种模态特性

    2019 Online Multi-modal Hashing with Dynamic Query-adaption 引用27

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JKDIkzjs-1636104175293)(C:\Users\winter\AppData\Roaming\Typora\typora-user-images\image-20210914012255630.png)]

    针对现有多模态哈希方法采用固定模态组合权值生成在线查询哈希码的问题,提出了一种查询自适应、自加权的在线哈希模块,以准确捕获不同查询的变化。此外,在线模块是无参数的。它可以避免无监督查询哈希过程中耗费时间和不准确的参数调整

    多模态哈希方法思路借鉴和思考:

    多视角主流且解释性好

    展开全文
  • 多模态检索Deep Cross-Modal Hashing

    千次阅读 2020-02-27 17:24:33
    什么是多模态检索? 现实生活中常有图搜图,文本搜文本,视频搜视频的应用,这些都是单模态检索。多模态检索就是,不同类别之间的搜索,比如用文本搜图,用图搜文本等,这类情况称为多模态检索。 这篇论文的意义?...

    什么是多模态检索?

    现实生活中常有图搜图,文本搜文本,视频搜视频的应用,这些都是单模态检索。多模态检索就是,不同类别之间的搜索,比如用文本搜图,用图搜文本等,这类情况称为多模态检索。

    这篇论文的意义?

    传统的都是手动提取特征方法,这篇论文将特征提取和二进制码生成一起构成一个端到端的学习过程。

    贡献

    • 提出了一个端到端的学习框架

    • 直接离散优化生成二进制编码

    • 实验证明效果很好

    网络模型

    网络模型

    图像卷积部分

    结构:
    在这里插入图片描述
    其实就是类似AlexNet网络,输出是维度是二进制编码长度。

    文本部分

    结构:
    在这里插入图片描述
    用Bag-of-words模型向量来表示文本,然后通过两层全连接,输出为二进制编码。

    损失函数构建

    在这里插入图片描述
    其中: S i j S_{ij} Sij代表相似矩阵,根据标签获取。比如说我们可以认为图像 x i x_i xi和文本 y i y_i yi如果它们拥有一样的标签,也就是 S i j = 1 S_{ij}=1 Sij=1;如果图像 x i x_i xi和文本 y i y_i yi拥有不一样的标签,则认为不相似,那么 S i j = 0 S_{ij}=0 Sij=0

    损失函数的第一部分:
    在这里插入图片描述
    其实就是对下面似然函数取对数,再取符号。
    在这里插入图片描述
    这一部分可以促使相似的图像和文本生成的二进制编码也是相似的。

    损失函数的第二部分:
    在这里插入图片描述
    其中B是离散生成的二进制编码,F和G是网络输出的编码。B的获取
    B ( x ) = s i g n ( F ) B^{(x)}=sign(F) B(x)=sign(F) B ( y ) = s i g n ( G ) B^{(y)}=sign(G) B(y)=sign(G)。F和G可以保持多模态的相似性,因此B也能保持相似。

    损失函数的第三部分:
    在这里插入图片描述
    使网络输出的结果-1和1更加均匀化,利于汉明空间的查找。

    损失函数重建

    由于 B ( x ) B^{(x)} B(x) B ( y ) B^{(y)} B(y)可以在训练时可以认为是相同的。因此损失函数可以改成如下:
    在这里插入图片描述

    学习过程

    采用选择学习策略,每一次先固定某个参数,学习其他参数。

    固定B,学习网络参数

    利用反向求导链式法则,更新网络参数(学习神经网络应该都知道)

    固定网络参数,学习B

    由于网络参数固定,所以优化可以变成如下式子:
    在这里插入图片描述
    可以计算B为:
    在这里插入图片描述
    迭代训练,直到迭代到最大次数或者网络收敛位置

    展开全文
  • 多模态检索之CCA算法

    2019-10-08 11:08:26
    多模态检索主要是实现不同模态下的数据能相互检索,例如文本模态数据,和图像模态数据。要能实现他们之间的相互检索,首先要是它们相互关联起来。CCA·算法用于多模态检索步骤:  1)首先提取文本,图像各自的底层...

             多模态检索主要是实现不同模态下的数据能相互检索,例如文本模态数据,和图像模态数据。要能实现他们之间的相互检索,首先要是它们相互关联起来。CCA·算法用于多模态检索步骤:     

       1)首先提取文本,图像各自的底层特征,也就是会得到不同维度矩阵。     

       2)将训练数据去中心化后,利用CCA算法将不同维度的数据映射到相同的子空间,然后使训练的文本和图像特征相关联起来 。  

       3)最后当利用图像检索文本或者文本检索图像时,首先将图像和文本特征映射到与训练数据相同的子空间中,然后通过计算相同模态的测试数据与训练数据之间的相似性,通过已经训练好图像--文本关联即可找到与之对应的图像后者文本。

           CCA算法的输入是不同维度的特征矩阵x,y。   [A,B] = canoncorr(X,Y); canoncorr()是Matlab自带的cca算法的函数,返回值A,B为各自线性变换的特征向量,能将不同维度的特征映射到相同的维度,并且使它们最大线性相关。

     

    转载于:https://www.cnblogs.com/wust-hy/p/7349157.html

    展开全文
  • 近期对图像检索颇为感兴趣,正巧看到今年KDD Cup赛题中有两道都是它相关的,借着这次机会学习学习。本文将对其中的一道,KDD Cup 2020 Challenges Modern E-...

    近期对图像检索颇为感兴趣,正巧看到今年KDD Cup赛题中有两道都是它相关的,借着这次机会学习学习。本文将对其中的一道,KDD Cup 2020 Challenges Modern E-Commerce Platform: Multimodalities Recall数据进行了初探与可视化处理,便于各位更为直观理解赛题数据与建模目标,同时还会给出基本的解题思路。

    文章末尾还会给出比赛交流群。

    01 赛题介绍

    1.1 赛题背景

    在电商领域图像数据的本身可以帮助商品快速检索,也可以进一步促进销售额。本赛题使用淘宝APP的真实场景多模态数据,数据集由淘宝搜索查询和产品图像特征组成,组织成基于查询的多模态检索任务。

    赛题任务:给定一个自然语言形式的搜索语句,参与的团队需要实现一个模型,根据它们的图像特征对候选产品集合进行排序。查询语句一般为购物相关的商品名词,用于搜索具有特定特征的产品,候选产品的图片由展示产品的卖家提供。与查询最相关的候选产品被视为查询的ground truth,参与模型期望查询的ground truth排在最前面。我们演示一个示例查询如下:

    需要注意本次赛题不是文本匹配任务,而关注跨模态的检索过程,因此不会给出商品的原始文字描述。

    1.2 赛题数据

    训练集包括约300万对查询语句和真实的产品图片特征,这些样本对可以作为训练您的检索模型的积极示例。对于训练集中的每个产品图像,具体包括物体检测物体的CNN特征、位置和分类标签。(为避免版权问题,赛题仅在验证集中发布大约9000张原始产品图片)

    这些训练集tsv文件中的每一行代表一个样本对。

    这些表有9列,各标签之间是制表符:

    1. product_id:产品的索引

    2. image_h:产品图片的高度

    3. image_w:产品图片的宽度

    4. num_boxes:检测到图像的对象边界框的数量

    5. boxes:一个[num_boxes,4]形的二维数组,指定图像中每个对象边界框的位置。

    6. features:一个[num_boxes,2048]形状的2-D数组,指定由图像中每个对象边界框的检测器计算出的2048维特征;

    7. class_labels:一个[num_boxes]形的一维数组,指定每个对象的类别ID。此数据集中有33个对象分类类别;

    8. query:与相应产品匹配的自然语言查询

    9. query_id:查询的索引

    需要注意,完整的训练集tsv文件需要120G存储空间。

    验证集包含大约500个查询,而测试集A和B都包含大约1k个查询。对于这些集合中的每个查询,我们准备一个约30个候选产品,每个候选产品图像的处理方式与训练集相同。

    我们为中的有效集合的每个评估查询提供了真实的产品valid_answer.json。每个评估查询的真实产品未按顺序排序。此json文件的格式如下:

    {
      "query-id":
      [
       "ground-truth product-id 1",
       "ground-truth product-id 2",
       ...,
       "ground-truth product-id n"
      ]
    }
    

    为每个参与模型在测试数据集上计算nDCG @ 5,以评估检索到的产品与基本事实之间的对应关系。每个参赛团队的最终排名将由测试集B上的nDCG @ 5确定。

    02 数据分析

    2.1 数据读取

    import numpy as np
    import pandas as pd
    import glob, base64
    
    
    train_df = pd.read_csv('../input/train.sample.tsv', sep='\t', nrows=None)
    
    
    def decode_rows(row):
        row['boxes'] = np.frombuffer(base64.b64decode(row['boxes']), dtype=np.float32).reshape(row['num_boxes'], 4)
        row['features'] = np.frombuffer(base64.b64decode(row['features']), dtype=np.float32).reshape(row['num_boxes'], 2048)
        row['class_labels'] = np.frombuffer(base64.b64decode(row['class_labels']), dtype=np.int64).reshape(row['num_boxes'])
        return row
    
    
    train_df = train_df.iloc[:].apply(lambda x: decode_rows(x), axis=1)
    

    读取之后,训练集可以用表格形式呈现:

    2.2 数据分析

    (1) 图像尺寸:图像尺寸大部分位于800像素,且长短比为1:1,应该是淘宝商品的主体。

    (2) 图像物体:图像包含的物体主要1-2个居多;

    (3) 商品类别

    0  top clothes (coat, jacket, shirt, etc.)
    1  skirt & dress
    2  bottom clothes (trousers, pants, etc.)
    3  luggage, leather goods
    4  shoes
    5  accessories (jewelry, clothing accessories, belts, hats, scarves, etc.)
    6  snacks, nuts, liquor and tea
    7  makeup, perfume, beauty tools and essential oils
    8  bottle drink
    9  furniture
    10  stationery
    11  household electrical appliances
    12  home decoration
    13  household fabric
    14  kitchenware
    15  home / personal cleaning tools
    16  storage supplies
    17  motorcycle, motorcycle accessories, vehicles, bicycle and riding equipment
    18  outdoor product
    19  lighting
    20  toys
    21  underwear
    22  digital supplies
    23  bed linens
    24  baby products
    25  personal care
    26  sporting goods
    27  clothes (accessories, baby clothing, etc.)
    28  others
    29  human face
    30  arm
    31  hair
    32  hand
    

    03 解题思路

    本赛题主要考察跨模态的检索检索任务,而且数据量非常大,需要选手通过query文本检索到商品,具体使用检索指标进行量化:

    (1) 这一题典型的跨模态检索任务,由于测试集中每个query会给出可能的30个商品,因此也可以使用多模态匹配的方法。

    https://zhuanlan.zhihu.com/p/33627162

    (2) 充分使用query文本信息,根据文本进行分类,进一步再进行检索;

    (3) 如何将120G的数据进行充分训练;

    04 比赛交流群

    正在我寻找本次比赛交流群的时候,得知官方不会创建赛题交流群,那像我这样的推荐小白该向谁请教呢。故创建了本次比赛的交流群,供大家学习交流,答疑解惑。

    昨天已经加群的小伙伴请不要重复加群!


    如果群二维码已满,请添加最下面的微信

    回复【KDD】

    让我知道你在看

    展开全文
  • 针对语义鸿沟问题,在语义学习的基础上设计图像的多模态检索系统。该系统结合3种查询方式进行图像检索。基于视觉特征的查询通过特征提取与相似度匹配进行排位。基于标签的查询建立在图像自动标注的基础上,但在语义...
  • 2018 ICMR Content-Based Video–Music ...难以获得匹配的视频音乐对,视频和音乐之间的匹配标准比其他跨模态任务(例如,图像到文本的检索)更加模糊 Contributions Content-based, cross-modal embedding ne
  • 什么是跨模态检索与多模态检索

    千次阅读 2013-10-08 11:02:29
    徐海蛟 博士华中科技大学计算机学院[数据与软件工程实验室]最近的跨模态检索与多模态检索炙手可热。与传统的单模态检索不同,在跨模态检索中,检索结果的模态和查询的模态是不同的。比如,用户使用图像检索文本,...
  • 近年来,由于多模态数据的快速增长,跨模态检索受到了研究者的广泛关注,它将一种模态的数据作为查询去检索其它模态的数据。
  • 首先是edge↔shoes的检索。上面是输入的轮廓,下面是对应的ground truth图片,即轮廓是从这张图片中提取的。把轮廓放到不同的转换网络中,得到了不同的结果。首先看前3列,这3个网络输出的图片基本都一样,缺乏多样...
  • 这篇文章提出了一个基于主题模型(topic model)的跨模态检索方法M3R。 主要思想 该文的主要思想是建立一个联合的跨模态概率模型,用监督学习的方式,通过跨模态的交互主题强化,自适应地学习一组语义上有意义的潜在...
  • 本文的解决思路是将图像和文本嵌入到一个公共空间,通过查询给出的图像嵌入和文本嵌入之间的算术运算构建该空间中的一个新向量(对应用户的目标),用该新向量通过相似度计算检索用户的目标。下图清楚展示了这一过程...
  • 阿里巴巴淘系技术部与北京大学前沿计算研究中心CVDA实验室、英国爱丁堡大学等合作,正式开源业界首个大规模的多模态直播服饰检索数据集(Watch and Buy),以推动视频多模态检索技术的研究。此前,依托该数据集举办...
  • 论文笔记--跨模态检索研究综述-2018

    万次阅读 多人点赞 2019-07-18 23:53:38
    文章目录文献引用格式论文摘要跨模态检索定义研究现状跨模态检索主要方法子空间的方法基于深度学习的跨模态检索方法基于哈希变换的跨模态方法主题模型法跨模态检索数据集Wikipedia[46] 数据集NUS-WIDE[47] 数据集...
  • 本系列将介绍在淘宝内容电商生态业务中,对短视频直播这类多媒体内容的识别理解工作。其中包括多媒体内容标签结构化、内容多模态融合识别、超大规模视频标签理解、跨模态语义检索、实时流媒体内容数字化...
  • 关注公众号,发现CV技术之美本文转载自淘系技术。背景近年来短视频应用大火,视频媒体逐渐成为用户消费的主要内容载体之一,对视频内容的精准检索成为重要的技术需求。自然文本描述和视频进行跨模态检...
  • 近年来,由于其在大规模跨模态检索中的低存储成本和高查询效率的出色能力,散列吸引了越来越的关注。 得益于深入学习,跨模式检索社区取得了令人信服的结果。 但是,现有的深层交叉模式散列方法要么依赖于标记信息...
  • 由于多媒体数据往往是多种信息的传递媒介(例如一段视频中往往会同时使得文字信息、视觉信息和听觉信息得到传播),多模态学习已逐渐发展为多媒体内容分析与理解的主要手段,国内外研究者也逐步在多模态学习领域取得...
  • 在本文中,我们旨在引起遥感界研究人员对最近方向多模态数据检索(匹配)的关注,特别是图像文本匹配,这被认为是最近的研究方向,因为它对人类智能的重要性鉴于深度学习技术的巨大进步,通过突出研究人员面临的三...
  • 通过多模态图正则化平滑矩阵分解散列的无监督跨模态检索
  • 通过向医生提供以前的病例(视觉上相似的神经影像)和相应的诊断报告,多模态神经影像检索极大地促进了临床实践中决策的效率和准确性。然而,现有的图像检索方法在直接应用于多模态神经影像数据库时往往会失败,因为与...
  • 为了获得更好的三维模型检索分类性能,基于深度学习模型研究了多模态信息融合对三维模型的特征描述,在训练步骤提出相关性损失函数来指导不同模态之间的训练,提取更稳健的特征向量;最后将融合特征应用于三维模型的...
  • 阿里巴巴作为KDD CUP 2020的主办方为参赛团队准备了两大赛题,第一道是关于“电商场景的多模态商品推荐”,下面就这一道题目从认知智能与数学角度谈谈我的理解和可能性的理论框架设计。 一、早期的单模态任务检索 ...
  • 文章目录1、前言2、相关知识3、模型结构MEDN:多模态假新闻事件检测网络问题定义文本特征提取器视觉特征提取器多模态特征融合子网假新闻事件检测子网参考 1、前言 假新闻,指在形式上模仿新闻媒体内容伪造的信息,...
  • 来源于公众号:大数据与多模态计算 . 1.问题背景 图像文本匹配,顾名思义,就是度量一幅图像和一段文本的相似性,该技术是多个模式识别任务的核心算法。例如,在图像文本跨模态检索任务中,当给定查询文本,...
  • 此外,如果将图片、视频中的实体采用类似于实体链接等技术与知识图谱中的实体进行链接,就可以充分利用知识图谱增强对多模态数据的分类、检索和识别等能力,后面会看到知识图谱被用来帮助解决图片的零样本分类问题...
  • 点上方人工智能算法与Python大数据获取更多干货在右上方···设为星标★,第一时间获取资源仅做学术分享,如有侵权,联系删除转载于 :专知近年来,由于多模态数据的快速增长,跨模态检索...
  • 在传统的多目标算法中,常用的评价指标有IGD和HV,它们只能衡量种群在目标空间的分布情况,对于多模态多目标而言,即使目标空间的分布性能良好,决策空间的性质也可能很差。 多模态多目标算法评价指标的性质 能反映...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 5,420
精华内容 2,168
关键字:

多模态检索