为您推荐:
精华内容
最热下载
问答
  • 5星
    333KB HowardEmily 2021-01-14 12:11:19
  • 5星
    2.87MB Darius_Tanz 2021-09-20 10:56:03
  • 5星
    18.25MB ylcto 2020-12-23 13:59:32
  • 5星
    10.33MB weixin_44573410 2021-01-20 19:58:27
  • 5星
    3.44MB q6115759 2021-03-23 09:49:31
  • 5星
    82.04MB GZXGYZ 2021-03-17 22:28:57
  • 113KB weixin_38597889 2020-11-05 15:46:34
  • 1.82MB taylorfan0418 2013-03-21 10:53:40
  • 445KB weixin_38697123 2021-02-23 22:19:16
  • 120KB daggee1 2021-11-11 00:48:05
  • 李国辉· 返回 ---- 对于人的感官来说,有视觉、听觉、触觉和味觉等方面的感知。在视觉方面,可以感知位置、运动、颜色、纹理、形状、符号等;在听觉方面,可以感知位置、运动、音调、音量、旋律...有许多与音频相关

    李国辉·

    返回


    ---- 对于人的感官来说,有视觉、听觉、触觉和味觉等方面的感知。在视觉方面,可以感知位置、运动、颜色、纹理、形状、符号等;在听觉方面,可以感知位置、运动、音调、音量、旋律等;另外还有触觉(机械的、热的、电的、肌肉运动方面的)和嗅觉(气味、味道等)。除了视觉、触觉和嗅觉外,人们可以从听觉中获得许多信息,如我们日常收听的电台节目、欣赏的音乐、聆听的自然声响等。有许多与音频相关的应用,如音频数据库、广播、音频编辑、监控、在线音乐等。

    ----音频是多媒体中的一种重要媒体。我们能够听见的音频频率范围是60Hz~20kHz,其中语音大约分布在300Hz~4kHz之内,而音乐和其他自然声响是全范围分布的。声音经过模拟设备记录或再生,成为模拟音频,再经数字化成为数字音频。数字化时的采样率必须高于信号带宽的2倍,才能正确恢复信号。样本可用8 位或16位比特表示。

    ----以前的许多研究工作涉及到语音信号的处理,如语音识别。机器容易自动识别孤立的字词,如用在专用的听写和电话应用方面,而对连续的语音识别则较困难,错误较多,但目前在这方面已经取得了突破性的进展,同时还研究了辨别说话人的技术。这些研究成果将为音频信息的检索提供很大帮助。

    ----常规的信息检索(IR)研究主要是基于文本,例如我们已经非常熟悉的诸如Yahoo!和AltaVista这样的搜索引擎。经典的IR问题是利用一组关键字组成的查询来定位需要的文本文档,即定位文档中的查询关键字来发现匹配的文档。如果一个文档中包含较多的查询项,那么,它就被认为比其他包含较少查询项的文档更“相关”。于是,文档可以按照“相关”度来排序,并显示给用户,以便进一步搜索。虽然这种一般的IR过程是为文本设计的,但显然也适用于音频或其他多媒体信息的检索。但是,如果我们把数字音频当成一种不透明的位流来管理,虽然可以赋予名字、文件格式、采样率等属性,但其中没有可以确认的词或可比较的实体,因此,不能像文本那样搜索或检索其内部的内容。对于音乐和非语音声响也是这样。

    ----基于人工输入的属性和描述来进行音频检索是我们首先想到的方法。该方法的主要缺点反映在以下几个方面:当数据量越来越多时,人工的注释强度加大;人对音频的感知,如音乐的旋律、音调、音质等,难以用文字注释表达清楚。这些正是基于内容的音频检索需要研究和解决的问题。但我们同时注意到音频检索可以利用的一个优势,那就是语音是一种特殊类型的音频,它与文本可以互相转换,因此,可以利用文本检索技术进行概念检索。

    ----本文将从信息存取的角度介绍基于内容的音频检索概念和方法。

    查询方式

     

    ----音频是声音信号的形式。作为一种信息载体,音频可以分为三种类型:

    ----波形声音 对模拟声音数字化而得到的数字音频信号。它可以代表语音、音乐、自然界和合成的声响。

    ----语音 具有字词、语法等语素,是一种高度抽象的概念交流媒体。语音经过识别可以转换为文本。文本是语音的一种脚本形式。

    ----音乐 具有节奏、旋律或和声等要素,是人声或/和乐器音响等配合所构成的一种声音。音乐可以用乐谱来表示。

    ----不同的类型将具有不同的内在内容。但从整体看,音频内容分为三个级别:最低层的物理样本级、中间层的声学特征级和最高层的语义级,如下图所示。从低级到高级,其内容逐级抽象,内容的表示逐级概括。

    ----在物理样本级,音频内容呈现的是流媒体形式,用户可以通过时间刻度,检索或调用音频的样本数据。如现在常见的音频录放程序接口。

    ----中间层是声学特征级。声学特征是从音频数据中自动抽取的。一些听觉特征表达用户对音频的感知,可以直接用于检索;一些特征用于语音的识别或检测,支持更高层的内容表示。另外还有音频的时空结构。

    ----最高层是语义级,是音频内容、音频对象的概念级描述。具体来说,在这个级别上,音频的内容是语音识别、检测、辨别的结果,音乐旋律和叙事的说明,以及音频对象和概念的描述。

    ----后两层是基于内容的音频检索技术最关心的。在这两个层次上,用户可以提交概念查询或按照听觉感知来查询。

    ----音频的听觉特性决定其查询方式不同于常规的信息检索系统。基于内容的查询是一种相似查询,它实际上是检索出与用户指定的要求非常相似的所有声音。查询中可以指定返回的声音数或相似度的大小。另外,可以强调或关闭(忽略)某些特征成分,甚至可以施加逻辑“非”(或模糊的less匹配关系)来指定检索条件,检索那些不具有或少有某种特征成分(如指定没有“尖锐”或少有“尖锐”)的声音。另外,还可以对给定的一组声音,按照声学特征进行排序,如按声音的嘈杂程度排序。

    ----在查询接口上,用户可以采用以下形式提交查询:

    ----示例 用户选择一个声音例子表达其查询要求,查找出与该声音在某些特征方面相似的所有声音。如查询与飞机的轰鸣声相似的所有声音。

    ----直喻 通过选择一些声学/感知物理特性来描述查询要求,如亮度、音调和音量等。这种方式与可视查询中的描绘查询相似。

    ----拟声 发出与要查找的声音性质相似的声音来表达查询要求。如用户可以发出嗡嗡声来查找蜜蜂或电气嘈杂声。

    ----主观特征 用个人的描述语言来描述声音。这需要训练系统理解这些描述术语的含义,如用户可能要寻找“欢快”的声音。

    ----浏览 这是信息发现的一种重要手段,尤其是对于音频这种时基媒体。除了在分类的基础上浏览目录外,重要的是基于音频的结构进行浏览。

    ----根据对音频媒体的划分可以知道,语音、音乐和其他声响具有显著不同的特性,因而目前的处理方法可以分为相应的三种:处理包含语音的音频和不包含语音的音频,后者又把音乐单独划分出来。换句话说,第一种是利用自动语音识别技术,后两种是利用更一般性的音频分析,以适合更广泛的音频媒体,如音乐和声音效果,当然也包含数字化语音信号。音频信息检索分为以下几方面:

    ----1.基于语音技术的检索

    ----语音检索是以语音为中心的检索,采用语音识别等处理技术。如电台节目、电话交谈、会议录音等。

    ----基于语音技术的检索是利用语音处理技术检索音频信息。过去人们对语音信号处理开展了大量的研究,许多成果可以用于语音检索。

    ----(1)利用大词汇语音识别技术进行检索

    ----这种方法是利用自动语音识别(ASR)技术把语音转换为文本,从而可以采用文本检索方法进行检索。虽然好的连续语音识别系统在小心地操作下可以达到90%以上的词语正确度,但在实际应用中,如电话和新闻广播等,识别率并不高。即使这样,ASR识别出来的脚本仍然对信息检索有用,这是因为检索任务只是匹配包含在音频数据中的查询词句,而不是要求一篇可读性好的文章。例如,采用这种方法把视频的语音对话轨迹转换为文本脚本,然后组织成适合全文检索的形式支持检索。

    ----(2)基于子词单元进行检索

    ----当语音识别系统处理各方面无限制主题的大范围语音资料时,识别性能会变差,尤其当一些专业词汇(如人名、地点)不在系统词库中时。一种变通的方法是利用子词(SubWord)索引单元,当执行查询时,用户的查询首先被分解为子词单元,然后将这些单元的特征与库中预先计算好的特征进行匹配。

    ----(3)基于识别关键词进行检索

    ----在无约束的语音中自动检测词或短语通常称为关键词的发现(Spotting)。利用该技术,识别或标记出长段录音或音轨中反映用户感兴趣的事件,这些标记就可以用于检索。如通过捕捉体育比赛解说词中“进球”的词语可以标记进球的内容。

    ----(4)基于说话人的辨认进行分割

    ----这种技术是简单地辨别出说话人话音的差别,而不是识别出说的是什么。它在合适的环境中可以做到非常准确。利用这种技术,可以根据说话人的变化分割录音,并建立录音索引。如用这种技术检测视频或多媒体资源的声音轨迹中的说话人的变化,建立索引和确定某种类型的结构(如对话)。例如,分割和分析会议录音,分割的区段对应于不同的说话人,可以方便地直接浏览长篇的会议资料。

    ----2.音频检索

    ----音频检索是以波形声音为对象的检索,这里的音频可以是汽车发动机声、雨声、鸟叫声,也可以是语音和音乐等,这些音频都统一用声学特征来检索。

    ----虽然ASR可以对语音内容给出有价值的线索,但是,还有大量其他的音频数据需要处理,从声音效果到动物叫声以及合成声音等。因此,对于一般的音频,仅仅有语音技术是不够的,使用户能从大型音频数据库中或一段长录音中找到感兴趣的音频内容是音频检索要做的事。音频数据的训练、分类和分割方便了音频数据库的浏览和查找,基于听觉特征的检索为用户提供高级的音频查询接口。这里指的音频检索就是针对广泛的声音数据的检索,分析和检索的音频可以包含语音和音乐,但是采用的是更一般性的声学特性分析方法。

    ----(1)声音训练和分类

    ----通过训练来形成一个声音类。用户选择一些表达某类特性的声音例子(样本),如“脚步声”。对于每个进入数据库中的声音,先计算其N维声学特征矢量,然后计算这些训练样本的平均矢量和协方差矩阵,这个均值和协方差就是用户训练得出的表达某类声音的类模型。

    ----声音分类是把声音按照预定的类组合。首先计算被分类声音与以上类模型的距离,可以利用Euclidean或 Manhattan距离度量,然后距离值与门限(阈值)比较,以确定是否该声音纳入或不属于比较的声音类。也有某个声音不属于任何比较的类的情况发生,这时可以建立新的类,或纳入一个“其他”类,或归并到距离最近的类中。

    ----(2) 听觉检索

    ----听觉感知特性,如基音和音高等,可以自动提取并用于听觉感知的检索,也可以提取其他能够区分不同声音的声学特征,形成特征矢量用于查询。

    ----例如,按时间片计算一组听觉感知特征:基音、响度、音调等。考虑到声音波形随时间的变化,最终的特征矢量将是这些特征的统计值,例如用平均值、方差和自相关值表示。这种方法适合检索和对声音效果数据进行分类,如动物声、机器声、乐器声、语音和其他自然声等。

    ----(3)音频分割

    ----以上方法适合单体声音的情况,如一小段电话铃声、汽车鸣笛声等。但是,一般的情况是一段录音包含许多类型的声音,由多个部分组成。更为复杂的情况是,以上各种声音可能会混在一起,如一个有背景音乐的朗诵、同声翻译等。这需要在处理单体声音之前先分割长段的音频录音。另外,还涉及到区分语音、音乐或其他声音。例如对电台新闻节目进行分割,分割出语音、静音、音乐、广告声和音乐背景上的语音等。

    ----通过信号的声学分析并查找声音的转变点就可以实现音频的分割。转变点是度量特征突然改变的地方。转变点定义信号的区段,然后这些区段就可以作为单个的声音处理。例如,对一段音乐会的录音,可通过自动扫描找到鼓掌声音,以确定音乐片断的边界。这些技术包括:暂停段检测、说话人改变检测、男女声辨别,以及其他的声学特征。

    ----音频是时基线性媒体。现在我们看到的典型音频播放接口是与磁带录音机相似的界面,具有停止、暂停、播放、快进、倒带等按钮。为了不丢失其中的重要东西,必须从头到尾听一遍声音文件,这样要花费很多时间,即使使用“快进”,也容易丢失重要的片断,不能满足信息技术的要求。因此,在分割的基础上,就可以结构化表示音频的内容,建立超越常规的顺序浏览界面和基于内容的音频浏览接口。

    ----3.音乐检索

    ----音乐检索是以音乐为中心的检索,利用音乐的音符和旋律等音乐特性来检索。如检索乐器、声乐作品等。

    ----音乐是我们经常接触的媒体,像MIDI、MP3和各种压缩音乐制品、实时的音乐广播等。音乐检索虽然可以利用文本注释,但音乐的旋律和感受并不都是可以用语言讲得清楚的。通过在查询中出示例子,基于内容的检索技术在某种程度上可以解决这种问题。

    ----音乐检索利用的是诸如节奏、音符、乐器特征。节奏是可度量的节拍,是音乐中一种周期特性和表示。音乐的乐谱典型地以事件形式描述,如以起始时间、持续时间和一组声学参数(基音、音高、颤音等)来描述一个音乐事件。注意到许多特征是随时间变化的,所以,我们应该用统计方法来度量音乐的特性。

    ----人的音乐认知可以基于时间和频率模式,就像其他声音分析一样。时间结构的分析基于振幅统计,得到现代音乐中的拍子。频谱分析获得音乐和声的基本频率,可以用这些基本频率进行音乐检索。有的方法是使用直接获得的节奏特征,即假设低音乐器更适合提取节拍特征,通过归一化低音时间序列得到节奏特征矢量。

    ----除了用示例进行音乐查询之外,用户甚至可以唱或哼出要查找的曲调。基音抽取算法把这些录音转换成音符形式的表示,然后用于对音乐数据库的查询。但是,抽取乐谱这样的属性,哪怕是极其简单的一段也是非常困难的。研究人员现在改用MIDI音乐数据格式解决这个问题。用户可以给出一个旋律查询,然后搜索 MIDI文件,就可以找出相似的旋律。

    近期研究的问题

     

    ----在基于内容的多媒体检索研究中,许多方法是通过自动提取的媒体特征来检索的,如图像中的颜色和纹理。现在的研究关注于语义级的检索,这需要一些语义分析或知识,例如分析注释或对象的标题、字幕等。而语义检索是理想的,因为它是人类所希望的一种检索方式,但是,它需要高强度的人工注释,或者需要难以实现的复杂的自动内容分析。从图像中提取语义非常困难,例如,如果没有关键字的注释,找出“长城”的照片非常困难,但现在的自动语音识别技术使音频检索可以达到语义级,可以自动识别出音频流中的词语,而完全可能自动定位到某人,他正在谈论长城,或是真正找出有关长城的记录片或镜头。因此,音频检索具有其自身的优势,并且可以达到较好的效果。

    ----在音频数据库领域,许多研究是有关语音方面的,因为语音是音频中一种重要的信息载体。非语音的音频数据检索和混合系统方面的研究工作也开始引起重视。这项研究涉及多学科,包括语音识别、信息检索、音频分析、信号处理、心理声学、机器学习等。

    ----目前关注的研究问题有:

    ----集成的检索方法 把音频特征与视频检索技术以及其他媒体特征相结合,以提高检索效率和检索能力。

    ---- WWW上基于内容的音频检索 需要研究快速的大规模音频库的浏览、检索和连续音频媒体的提交。

    ----长音频的浏览和检索 结构化表示音频流,并设计出新形式的音频内容浏览界面。研究通用的基于片段级的内容检索,在时间轨迹上匹配一组特征,这需要研究模糊的匹配方法。

    ----其他音频特征 继续研究有效的可区分性的听觉解析特征,以支持通用的和专用的音频检索问题。

    ---- 用户的音频查询接口 需要一种友善的和易用的用户接口来提交音频查询,包括音频轨迹的可视表示、查询表达、交互和求精、结构化浏览等。

    ----音频索引 多维特征索引结构的建立,以满足大容量数据库和WWW检索的要求。

     

    展开全文
    Real_Myth 2016-04-18 09:56:48
  • 2.53MB taylorfan0418 2013-04-16 15:33:47
  • 2. 检索准确率高 3. 抗噪性强   二. 算法基本原理  离线阶段,对音频数据库中所有音频样本提取指纹,构建hash table;在线阶段,通过对待查询音频提取相同规则指纹并构建hash,在hash table中查找指纹匹配,并...


    如需转载请注明出处!


    一. 算法可用性

    1. 能够由片段识别主体

    2. 检索准确率高

    3. 抗噪性强

     

    二. 算法基本原理

        离线阶段,对音频数据库中所有音频样本提取指纹,构建hash table;在线阶段,通过对待查询音频提取相同规则指纹并构建hash,在hash table中查找指纹匹配,并通过一定的规则进行匹配度量。良好的指纹特征包含以下几个特性:(1) 时间局部性,即每个指纹特征由短时信号构成,最大可能避免时间扰动。(2) 转换不变性,即特征与位置无关,具有可复现性。 (3) 鲁棒性,即提取的特征最大程度抵抗噪声及各种音频损伤性修改,如编解码等。(4) 较高信息熵,避免信息孤立特征的低抗扰动性与冗余造成的检索效率问题。

        采用频域极大值构建landmark的方式创建指纹特征来创建指纹索引hash table以及执行匹配检索,验证算法的有效性和性能。算法主要包含以下几个模块:

    1. 鲁棒兴趣点提取

        将频域极值点(能量高于其邻域点)确定为兴趣点,因为极值点具有较强的抗干扰性。兴趣点的选取要遵循一定的密度准则,保证统计上符合均匀分布特性。    

        音频信号的时频谱如Fig.1A所示,通过一定的极值选取准则,最终得到的兴趣点图谱如图Fig.1B所示。需要注意的是,在查找频域极值点时,以能量幅度信息作为判断依据。在确定了兴趣点后,将不再用到幅值信息,此时需记录兴趣的时频位置信息 (t0, f0). 通过极值兴趣点的选择,最终音频信号的复杂时频信息转换为离散稀疏的兴趣点表征。在兴趣点的选取过程中,如何筛选出具有较高的抗干扰性的极值,则需要结合掩蔽效应和动态阈值准则。


     

    2. 特征构建

        经过兴趣点查找过程,确定的是孤立的点信息。特征点则利用兴趣点组合来构建,如图Fig.1C所示。


        依照时频递进顺序,分别选定当前兴趣点为锚点(anchor point),然后以锚点为出发点,在其对应的目标区域(target zone)中选取兴趣点与锚点相结合组成特征点(landmarks). 目标区域的选取可以按照一定的阈值限制,如设定锚点在时频谱中所在位置之后的通过起止时间和起止频率所界定出来的块状区域。此外,特征点密度,即目标区域中与锚点组合特征的兴趣点个数,也要综合检索效率和检索精度综合考虑。

        特征点选取之后,每个特征所包含的信息为两个兴趣点的频率值、锚点的时间位置、两个兴趣点间的时间差。如图Fig.1D所示


        对于每个特征点[f1:f2:∆t], 通过一定的准则来将特征映射为hash索引,将t1 与音频ID按照一定方式进行信息组合生成hash索引下的entry.

     

    3. 检索和排序

        待查询音频以同样的准则提取特征,每个特征点([f01:f02: ∆t0]:t0)都通过构建hash向hash table映射,获取该hash索引下的所有entry. 计算查询点与匹配点的时间差(t1-t0). 对同一音频ID中不同匹配时间差绘制直方图。所有匹配到的音频ID进行相同的处理,最终在所有音频ID的时间差统计直方图中进行排序,再通过一定的阈值限定来判断是否有匹配音频。时间差直方图统计如图Fig.3A和Fig.3B所示。



    展开全文
    qiumingjian 2016-10-08 10:12:44
  • 1.32MB weixin_38665944 2021-05-06 12:08:05
  • 16.25MB luoying_1993 2018-10-08 21:23:20
  • 384KB weixin_38732519 2021-03-16 13:57:59
  • 5星
    1.08MB wyhyhf 2011-12-30 16:35:58
  • 213KB weixin_38697444 2021-05-08 09:39:50
  • 背景介绍人可以通过听觉感知位置、运动、音调、音量、旋律并获取信息。日常生活中,音频是一种重要的多媒体数据,我们会收听电台节目、欣赏在线音乐等。音频可分为以下三种类型[1]:语音:一...


      背景介绍

    人可以通过听觉感知位置、运动、音调、音量、旋律并获取信息。日常生活中,音频是一种重要的多媒体数据,我们会收听电台节目、欣赏在线音乐等。 

    音频可分为以下三种类型[1]: 

    • 语音:一种高度抽象的概念交流媒体,具有字词、语法等语素。语音经过识别可转换为文本。文本是语音的一种脚本形式。 

    • 音乐:人声和乐器音响等配合构成的一种声音,具有节奏、旋律或和声等要素。音乐可以用乐谱来表示。 

    • 波形:对模拟声音数字化而得到的数字音频信号。可以代表语音、音乐、自然界以及合成的声响。  

    音频检索技术可以对网络媒体进行实时检索、审查和监控,从而达到保护版权的目的。音频检索技术在音频数据分类与统计中发挥着重要作用。 

      关键技术

    语音、音乐和其他声响的特性各不相同,一般分为以下两种处理方法: 

    • 包含语音的音频:利用自动语音识别技术进行处理。 

    • 不包含语音的音频:此类音频包括音乐、声音效果和数字化语音信号。利用音频 检索系统进行处理。

    本文将重点介绍如何使用音频检索系统处理不包含语音的音频数据,暂不涉及语音识别。 

    音频特征提取技术 

    音频特征提取是音频检索系统中最核心的技术,基于音频内容提取音频特征后才能进行音频特征相似度检索。特征提取是指提取出能代表原始音频信号的数据形式。提取音频特征的方法分为两类: 

    • 传统音频特征提取模型:经典的高斯混合模型 (GMM) 和隐马尔可夫模型 (HMM) 等。 

    • 基于深度学习的音频特征提取技术:循环神经网络、长短期记忆 (LSTM)、编码-解码框架和注意力机制等。 

    基于深度学习的音频特征提取技术的识别错误率比传统模型低一个级别,因此基于深度学习的音频特征提取技术正逐渐成为音频处理领域的核心技术。 

    音频数据通常由提取出来的音频特征来代表。在检索过程中,我们对这些特征和属性而非信息本身进行搜索和比较,因此音频相似性检索的效果取决于特征抽取的质量。 

    本文利用基于深度学习网络的 PANNs[2] (Large-Scale Pretrained Audio Neural Networks for Audio Pattern Recognition) 模型提取音频的特征向量。PANNs 模型的平均准确率 (mAP) 可达 0.439,优于 Google 的 mAP 值 (0.317)[3]。 

    在提取音频数据的特征向量后,我们可以通过 Milvus 实现高性能的特征向量分析。 

    Milvus 特征向量检索引擎 

    Milvus[4] 是一款开源的向量相似度搜索引擎,可与多种 AI 模型相结合。Milvus 提供向量化的非结构数据检索服务,目前广泛应用于图像处理、计算机视觉、自然语言处理、语音识别、推荐系统以及新药研发。  

    基于 Milvus 搭建的特征向量检索流程如下图所示:

    1. 与深度学习模型相结合,将非结构化数据转化为特征向量。

    2. 将特征向量存储到 Milvus 并对特征向量建立索引。   

    3. 根据用户的向量相似性搜索请求返回结果。   

    系统搭建 

    本文搭建的音频检索系统主要包含两个部分:音频数据导入(下图黑线所示)和音频数据检索(下图红线所示)。 

    本项目中的示例数据为开源游戏声音数据,代码实现详见 Bootcamp-https://github.com/zilliz-bootcamp/audio_search。

    第一步:数据导入 

    利用 panns-inference 预训练模型将音频数据转换为特征向量并导入到 Milvus 中,Milvus 将返回向量对应的 ID。示例代码如下: 

    将返回的 ids_milvus 与音频数据的相关信息(如 wav_name存储到 MySQL 数据库中,方便后续的音频数据检索与结果返还。示例代码如下:

    第二步:音频检索 

    利用 panns-inference 预训练模型提取待检索音频数据的特征向量,在 Milvus 中计算待检索音频数据特征向量与此前导入 Milvus 库中音频数据特征向量的内积距离。根据检索返回结果的 ids_milvus 获取相似音频数据的信息。示例代码如下: 

      系统展示

    接口展示 

    本音频检索系统基于开源代码搭建而成,其主要功能为音频数据插入与删除。在浏览器中输入 127.0.0.1/docs 可查看所有 API。API 查询页面如下图所示: 

    系统演示 

    基于 Milvus 的音频检索系统在线体验版支持通过上传自己的音频数据体验先进的音频检索技术,详见在线体验-https://zilliz.com/solutions。 

      总结

    随着多媒体技术及网络技术的迅速发展,网络信息资源日益丰富。人们已经不再满足于传统的文本检索。如今的信息检索技术需要能够快速实现视频、图像、音频等各种非结构化数据的检索。 

    利用深度学习模型可将计算机难以处理的非结构化数据转换为特征向量。通过特征向量计算可实现对非结构化数据的分析。开源向量相似度搜索引擎 Milvus 能够高效处理 通过 AI 技术提取到的特征向量,并提供多种常用的向量相似度计算方式。 

    Milvus 不仅可以用于音频检索还可应用于更多场景,例如图像检索、智能问答机器人和赋能传统向量计算。详见 Milvus 场景介绍-https://milvus.io/cn/scenarios。 

    参考文献 

    [1] https://baike.baidu.com/item/%E5%A3%B0%E9%9F%B3%E6%A3%80%E7%B4%A2%E5%9E%8B%E4%B8%9A%E5%8A%A1/5935893 

    [2] https://github.com/qiuqiangkong/audioset_tagging_cnn

    [3] Hershey, S., Chaudhuri, S., Ellis, D.P., Gemmeke, J.F., Jansen, A., Moore, R.C., Plakal, M., Platt, D., Saurous, R.A., Seybold, B. and Slaney, M., 2017, March. CNN architectures for large-scale audio classification. In 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 131-135, 2017 

    [4] https://milvus.io/ 

       欢迎加入 Milvus 社区

    github.com/milvus-io/milvus | 源码

    milvus.io | 官网

    milvusio.slack.com | Slack 社区

    zhihu.com/org/zilliz-11| 知乎

    zilliz.blog.csdn.net | CSDN 博客

    space.bilibili.com/478166626 | Bilibili

    展开全文
    weixin_44839084 2021-03-17 00:34:03
  • 图像检索基于内容的图像检索技术 背景与意义 在Web2.0时代,尤其是随着Flickr、Facebook等社交网站的流行,图像、视频、音频、文本等异构数据每天都在以惊人的速度增长。例如, Facebook注册用户超过10亿,每月...

     

    背景与意义

    在Web2.0时代,尤其是随着Flickr、Facebook等社交网站的流行,图像、视频、音频、文本等异构数据每天都在以惊人的速度增长。例如, Facebook注册用户超过10亿,每月上传超过10亿的图片;Flickr图片社交网站2015年用户上传图片数目达7.28亿,平均每天用户上传约200万的图片;中国最大的电子商务系统淘宝网的后端系统上保存着286亿多张图片。针对这些包含丰富视觉信息的海量图片,如何在这些浩瀚的图像库中方便、快速、准确地查询并检索到用户所需的或感兴趣的图像,成为多媒体信息检索领域研究的热点。基于内容的图像检索方法充分发挥了计算机长于处理重复任务的优势,将人们从需要耗费大量人力、物力和财力的人工标注中解放出来。经过十来来的发展,基于内容的图像检索技术已广泛应用于搜索引擎、电子商务、医学、纺织业、皮革业等生活的方方面面。

    图像检索按描述图像内容方式的不同可以分为两类,一类是基于文本的图像检索(TBIR, Text Based Image Retrieval),另一类是基于内容的图像检索(CBIR, Content Based Image Retrieval)。

    基于文本的图像检索方法始于上世纪70年代,它利用文本标注的方式对图像中的内容进行描述,从而为每幅图像形成描述这幅图像内容的关键词,比如图像中的物体、场景等,这种方式可以是人工标注方式,也可以通过图像识别技术进行半自动标注。在进行检索时,用户可以根据自己的兴趣提供查询关键字,检索系统根据用户提供的查询关键字找出那些标注有该查询关键字对应的图片,最后将查询的结果返回给用户。这种基于文本描述的图像检索方式由于易于实现,且在标注时有人工介入,所以其查准率也相对较高。在今天的一些中小规模图像搜索Web应用上仍有使用,但是这种基于文本描述的方式所带来的缺陷也是非常明显的:首先这种基于文本描述的方式需要人工介入标注过程,使得它只适用于小规模的图像数据,在大规模图像数据上要完成这一过程需要耗费大量的人力与财力,而且随时不断外来的图像在入库时离不开人工的干预;其次,”一图胜千言”,对于需要精确的查询,用户有时很难用简短的关键字来描述出自己真正想要获取的图像;再次,人工标注过程不可避免的会受到标注者的认知水平、言语使用以及主观判断等的影响,因此会造成文字描述图片的差异。

    随着图像数据快速增长,针对基于文本的图像检索方法日益凸现的问题,在1992年美国国家科学基金会就图像数据库管理系统新发展方向达成一致共识,即表示索引图像信息的最有效方式应该是基于图像内容自身的。自此,基于内容的图像检索技术便逐步建立起来,并在近十多年里得到了迅速的发展。典型的基于内容的图像检索基本框架如上图1.1所示,它利用计算机对图像进行分析,建立图像特征矢量描述并存入图像特征库,当用户输入一张查询图像时,用相同的特征提取方法提取查询图像的特征得到查询向量,然后在某种相似性度量准则下计算查询向量到特征库中各个特征的相似性大小,最后按相似性大小进行排序并顺序输出对应的图片。基于内容的图像检索技术将图像内容的表达和相似性度量交给计算机进行自动的处理,克服了采用文本进行图像检索所面临的缺陷,并且充分发挥了计算机长于计算的优势,大大提高了检索的效率,从而为海量图像库的检索开启了新的大门。不过,其缺点也是存在的,主要表现为特征描述与高层语义之间存在着难以填补的语义鸿沟,并且这种语义鸿沟是不可消除的。

    基于内容的图像检索技术在电子商务、皮革布料、版权保护、医疗诊断、公共安全、街景地图等工业领域具有广阔的应用前景。在电子商务方面,谷歌的Goggles、 阿里巴巴的拍立淘等闪拍购物应用允许用户抓拍上传至服务器端,在服务器端运行图片检索应用从而为用户找到相同或相似的衣服并提供购买店铺的链接;在皮革纺织工业中,皮革布料生产商可以将样板拍成图片,当衣服制造商需要某种纹理的皮革布料时,可以检索库中是否存在相同或相似的皮革布料,使得皮革布料样本的管理更加便捷;在版权保护方面,提供版权保护的服务商可以应用图像检索技术进行商标是否已经注册了的认证管理;在医疗诊断方面,医生通过检索医学影像库找到多个病人的相似部位,从而可以协助医生做病情的诊断……基于内容的图像检索技术已经深入到了许许多多的领域,为人们的生活生产提供了极大的便利。

    基于内容的图像检索技术

    相同物体图像检索

    相同物体图像检索是指对查询图像中的某一物体,从图像库中找出包含有该物体的图像。这里用户感兴趣的是图像中包含的特定物体或目标,并且检索到的图片应该是包含有该物体的那些图片。如1.3图所示,给定一幅”蒙娜丽莎”的画像,相同物体检索的目标就是要从图像库中检索出那些包含有”蒙娜丽莎”人物的图片,在经过相似性度量排序后这些包含有”蒙娜丽莎”人物的图片尽可能的排在检索结果的前面。相似物体检索在英文文献中一般称为物体检索(Object Retrieval),近似样本搜索或检测(Duplicate Search or Detection)也可以归类于相同物体的检索,并且相同物体检索方法可以直接应用到近似样本搜索或检测上。相同物体检索不论是在研究还是在商业图像搜索产业中都具有重大的价值,比如购物应用中搜索衣服鞋子、人脸检索等。

    对于相同物体图像检索,在检索相同的物体或目标时,易受拍摄环境的影响,比如光照变化、尺度变化、视角变化、遮挡以及背景的杂乱等都会对检索结果造成较大的影响,图1.3左图给出了这几种变化的例子,此外,对于非刚性的物体,在进行检索时,物体的形变也会对检索结果造成很大的影响。

    由于受环境干扰比较大,因而对于相同物体图像检索,在选取特征的时候,往往会选择那些抗干扰性比较好的不变性局部特征,比如SIFT1、SURF2、ORB3等,并以此为基础通过不同的编码方式构建图像的全局描述,具有代表性的工作有词袋模型4(BoW, Bag of Words) 局部特征聚合描述符5(VLAD, Vector of Locally Aggregated Descriptors)以及Fisher向量6(FV, Fisher Vector),这一类以类SIFT为基础的图像检索方法,由于结合了类SIFT不变性的特性,并且采用了由局部到全局的特征表达方式,并且在实际应用时在提取SIFT 的时候还可以使用siftGPU加速SIFT提取,因而从整体上来说能够获得比较好的检索效果,但这一类方法通常其特征维度往往是非常高的,如图1.2所示,在牛津建筑物图像数据库上采用词袋模型进行检索,为了获得较高的检索精度,在聚类时聚类数目一般都设置到了几十万,因而其最终表示的特征其维度高达几十万维,因此为它们设计高效的索引方式显得十分必要。

    相同类别图像检索

    对给定的查询图片,相似图像检索的目标是从图像库中查找出那些与给定查询图像属于同一类别的图像。这里用户感兴趣的是物体、场景的类别,即用户想要获取的是那些具有相同类别属性的物体或场景的图片。为了更好的区分相同物体检索和相同类别检索这两种检索方式区,仍以图1.3左图所举的”蒙娜丽莎”为例,用户如果感兴趣的就是”蒙娜丽莎”这幅画,那么检索系统此时工作的方式应该是以相同物体检索的方式进行检索,但如果用户感兴趣的并不是”蒙娜丽莎”这幅画本身,而是”画像”这一类图片,也就是说,用户所感兴趣的已经是对这幅具体的画进行了类别概念的抽象,那么此时检索系统应该以相同类别检索的方式进行检索。相同类别图像检索目前已广泛应用于图像搜索引擎,医学影像检索等领域。

    对于相同类别图像检索,面临的主要问题是属于同一类别的图像类内变化巨大,而不同类的图像类间差异小。如图1.3右图所示,对于”湖泊”这一类图像,属于该类别的图像在表现形式上存在很大的差异,而对于图??????右图下面所示的”dog” 类和”woman”类两张图像,虽然它们属于不同的类,但如果采用低层的特征去描述,比如颜色、纹理以及形状等特征,其类间差异非常小,直接采用这些特征是很难将这两者分开的,因此相同类别图像检索在特征描述上存在着较大的类内变化和较小的类间差异等挑战。近年来,以深度学习(DL, Deep Learning)为主流的自动特征在应用到相同类别图像检索上时,能够极大的提高检索的精度,使得面向相同物体的检索在特征表达方面得到了较好的解决。目前,以卷积神经网络(CNN, Convolutional Neural Network)为主导的特征表达方式也开始在相同物体图像检索上进行展开,并已有了一些相应的工作7,但由于相同物体在构造类样本训练数据时并不像相同类别图像检索那样那么方便,因而相同物体图像检索在CNN模型训练以及抽取自动特征等方面还有待深入。不管是相同物体图像检索还是相同类别图像检索,在使用CNN模型提取自动特征的时候,最终得到的维度一般是4096维的特征,其维度还是比较高的,直接使用PCA等降维的手段,虽然能达到特征维度约减的目的,但在保持必要的检索精度前提下,能够降低的维度还是有限的,因而对于这一类图像检索,同样有必要为它构建够高效合理的快速检索机制,使其适应大规模或海量图像的检索。

    大规模图像检索特点

    无论是对于相同物体图像检索还是相同类别图像检索,在大规模图像数据集上,它们具有三个典型的主要特征:图像数据量大、特征维度高以及要求相应时间短。下面对这三个主要特征逐一展开说明:

    (1) 图像数据量大。得益于多媒体信息捕获、传输、存储的发展以及计算机运算速度的提升,基于内容的图像检索技术经过十几年的发展,其需要适用的图像规模范围也从原来的小型图像库扩大到大规模图像库甚至是海量图像数据集,比如在上世纪九十年代图像检索技术发展的早期阶段,研究者们在验证图像检索算法性能的时候,用得比较多是corel1k,该图像库共1000张图片,与今天同样可以用于图像检索的最流行的图像分类库imageNet数据集相比,其量级已经有了成千上万倍的增长,因而图像检索应满足大数据时代的要求,在大规模图像数据集上应该具备伸缩性。

    (2) 特征维度高。图像特征作为直接描述图像视觉内容的基石,其特征表达的好坏直接决定了在检索过程中可能达到的最高检索精度。如果前置特征未表达好,在构建后置检索模型的时候,不但会复杂化模型的构建,增加检索查询的响应时间,而且能够提升的检索精度也是极其有限的。所以在特征提取之初,应该有意识的选取那些比较高层特征。如果将局部特征表达方式也作为”高维”的一种,那么特征的描述能力跟特征的维度高低具有较大的关联,因而在特征描述方面大规模图像检索具有明显的特征维度高的特性,比如词袋模型BoW、VLAD、Fisher向量以及CNN特征。为了对这些高维的特征有一个维度量级的定量认识,本文以词袋模型构建的特征向量为例,在牛津大学建筑物图像数据集上试验了特征维度(在数值上跟聚类单词数目大小相等)对检索精度的影响,从图1.2中可以看到,词袋模型的特征维度是非常高的。因此,面向大规模图像数据集检索的另一个典型特点是图像特征描述向量维度高。

    (3) 要求响应速度快。对于用户的查询,图像检索系统应该具备迅速响应用户查询的能力,同时由于大规模图像数据量大、特征维度高,直接采用暴力搜索(Brute Search) 索引策略(也称为线性扫描)难以满足系统实时性的要求,图1.2右图所示的是在牛津大学建筑物图像数据集上平均每次查询所耗费的时间,可以看到在图像数量仅有4063张的牛津大学建筑物图像集,其查询时间在单词数目为100万且重排深度为1000的条件下就需要耗费1 秒左右的时间,并且整个程序还是运行在一台高配的服务器上,因此,大规模图像检索需要解决系统实时响应的问题。

    基于哈希的图像检索技术其具体框架如图1.4所示,按步骤可以分为特征提取、哈希编码、汉明距离排序以及重排四个步骤:

    (1) 特征提取。对图像数据库中的图像逐一进行特征提取,并将其以图像文件名和图像特征一一对应的方式添加到特征库中;

    (2) 哈希编码。哈希编码可以拆分成为两个子阶段,在对特征进行编码之前需要有哈希函数集,而哈希函数集则通过哈希函数学习阶段而得到,因此这两个子阶段分别为哈希函数学习阶段和正式的哈希编码阶段。在哈希函数学习阶段,将特征库划分成训练集和测试集,在训练库上对构造的哈希函数集H(x)=h1(x),h2(x),…,hK(x)H(x)=h1(x),h2(x),…,hK(x) 进行训练学习;正式的哈希编码阶段时,分别将原来的特征xi(i=1,2,…,N)xi(i=1,2,…,N) 代入到学习得到的哈希函数集H(x)H(x) 中,从而得到相应的哈希编码。值得注意的是,如果设计的哈希算法已经经过实验验证有效,那么在实际的应用系统中,在划分数据集的时候,可以将整个图像库既作为训练集也作为图像数据库,从而使得在大规模图像上学到的哈希函数具备较好的适应性;

    (3) 汉明距离排序。在汉明距离排序阶段,对于给定的查询图像,逐一计算查询图像对应的哈希编码到其他各个哈希编码之间的汉明距离,然后按从小到大的顺序进行相似性排序,从而得到检索结果;

    (4) 重排。针对步骤(3)汉明排序后的结果,可以选择前M(M«N)M(M«N) 个结果或者对汉明距离小于某一设置的汉明距离dcdc 的结果进行重排。一般地,在重排的时候采用欧式距离作为相似性度量得到重排后的结果。因此,从这里可以看到,哈希过程可以看作是筛选候选样本或是粗排序的过程。在采用哈希方法进行大规模图像检索的应用系统中,通常会有重排这一步,但是在设计哈希算法的时候,对性能进行指标评价直接采用的是汉明距离,也就是在评价哈希算法性能的时候,不需要重排这一步。

    随着视觉数据的快速增长,面向大规模视觉数据的基于内容的图像检索技术不论是在商业应用还是计算机视觉社区都受到了极大的关注。传统的暴力(brute-force) 搜索方法(又称线性扫描)通过逐个与数据库中的每个点进行相似性计算然后进行排序,这种简单粗暴的方式虽然很容易实现,但是会随着数据库的大小以及特征维度的增加其搜索代价也会逐步的增加,从而使得暴力搜索仅适用于数据量小的小规模图像数据库,在大规模图像库上这种暴力搜索的方式不仅消耗巨大的计算资源,而且单次查询的响应时间会随着数据样本的增加以及特征维度的增加而增加,为了降低搜索的空间的空间复杂度与时间复杂度,在过去的十几年里研究者们找到了一种可供替代的方案— 近似最近邻(ANN, Approximate Nearest Neighbor)搜索方法,并提出了很多高效的检索技术,其中最成功的方法包括基于树结构的图像检索方法、基于哈希的图像检索方法和基于向量量化的图像检索方法。

    近似最近邻搜索

    基于树结构的最近邻搜索方法和基于哈希的最近邻搜索方法在理论计算机科学、机器学习以及计算机视觉中是一个很活跃的领域,这些方法通过将特征空间划分成很多小的单元,以此减少空间搜索的区域,从而达到次线性的计算复杂度。

    基于树的图像检索方法将图像对应的特征以树结构的方法组织起来,使得在检索的时候其计算复杂度降到关于图像库样本数目nn的对数的复杂度。基于树结构的搜索方法有KD-树8、M-树9等。在众多的树结构搜索方法中,以KD-树应用得最为广泛,KD-树在构建树的阶段,不断以方差最大的维对空间进行划分,其储存对应的树结构则不断的向下生长,并将树结构保存在内存中,如图2.1右图示例了一个简单的KD-树划分过程:在搜索阶段,查询数据从树根节点达到叶节点后,对叶节点下的数据与查询数据进行逐一比较以及回溯方式从而找到最近邻。虽然基于树结构的检索技术大大缩减了单次检索的响应时间,但是对于高维特征比如维度为几百的时候,基于树结构的索引方法其在检索时候的性能会急剧的下降,甚至会下降到接近或低于暴力搜索的性能,如表2.1所示,在LabelMe数据集上对512维的GIST特征进行索引的时候,单次查询Spill树(KD-树的变形)耗时比暴力搜索用时还要多。此外,基于树结构的检索方法在构建树结构的时候其占用的存储空间往往要比原来的数据得多,并且对数据分布敏感,从而使得基于树结构的检索方法在大规模图像数据库上也会面临内存受限的问题。

    相比基于树结构的图像检索方法,基于哈希的图像检索方法由于能够将原特征编码成紧致的二值哈希码,使得基于哈希的图像检索方法能够大幅的降低内存的消耗,并且由于在计算汉明距离的时候可以使用计算机内部运算器具有的XOR异或运算,从而使的汉明距离的计算能够在微秒量级内完成,从而大大缩减了单次查询响应所需要的时间。如表2.1所示,在LabelMe图像数据集上,相比于暴力搜索方法以及基于树结构的搜索方法,通过将图像的特征编码后进行搜索,在编码位数为30比特时基于哈希的搜索方法单次查询时间比暴力搜索以及基于树结构的方法降低了将近4个数量级,并且特征维度由原来的512维降低至30维,因而极大的提高了检索的效率。

    基于哈希的图像检索方法其关键之处在于设计一个有效的哈希函数集,使得原空间中的数据经过该哈希函数集映射后,在汉明空间其数据间的相似性能够得到较好的保持或增强。由于未经编码的特征在数域上是连续的,而哈希编码得到的是一个二值哈希码,也就是说从数域上来讲哈希函数集是一个将数值从连续域变换到离散域的过程,因而会导致在优化哈希函数集时往往难于求解10,从而使得设计一个有效的哈希函数集极其不易。在过去的十几年里,尽管设计有效的哈希函数集面临很大的挑战,但研究者们仍然提出了很多基于哈希的图像检索方法,其中最经典的哈希方法是局部敏感哈希方法11(LSH, Locality Sensitive Hashing)。

    局部敏感哈希被认为是高维空间(比如成百上千维)快速最近邻搜索的重要突破,它在构造哈希函数的时候采用随机超平面的方法,即使用随机超平面将空间分割成很多子区域,每一个子区域可以被视为一个”桶”,如图2.1右图所示。在构建阶段,局部敏感哈希仅需要生成随机超平面,因而没有训练的过程;在索引阶段,样本被映射成二进制哈希码,如图2.1右图示意的二进制哈希码,具有相同的二进制哈希码的样本被保存在同一个“桶”中;在查询阶段,查询样本通过同样的映射后可以锁定查询样本位于哪个“桶”中,然后在锁定的”桶”中将查询样本与该“桶”中的样本进行逐一的比较,从而得到最终的近邻。局部敏感哈希其有效性在理论分析中得到了保证,但是由于局部敏感哈希在构造哈希函数过程中并没有利用到数据本身,使得在应用局部敏感哈希时为了获得较高的精索精度常常采用很长的编码位,但在长编码位数下会降低相似样本在哈希离散过程中的碰撞概率,从而导致检索的召回率会出现比较大的下降,因此出现了多个哈希表的局部敏感哈希。 在相同的编码长度下,相比于只有一个哈希表的局部敏感哈希(即单哈希表局部敏感哈希),多哈希表局部敏感哈希中的每一个哈希表的编码长度减小为单哈希表局部敏感哈希编码长度的LL 分之一倍(假设LL 为多哈希表局部敏感哈希),因此多哈希表局部敏感哈希能够获得比具有相同编码长度的单哈希表局部敏感哈希更高的召回率,但无论是多哈希表局部敏感哈希还是单哈希表局部敏感哈希,它们的编码都不是紧致的,从而使得它们在内存使用效率方面并不是很有效。

    在面向大规模图像检索时,除了采用图像哈希方法外,还有另一类方法,即向量量化的方法,向量量化的方法中比较典型的代表是乘积量化(PQ, Product Quantization)方法,它将特征空间分解为多个低维子空间的笛卡尔乘积,然后单独地对每一个子空间进行量化。在训练阶段,每一个子空间经过聚类后得到kk个类心(即量化器),所有这些类心的笛卡尔乘积构成了一个对全空间的密集划分,并且能够保证量化误差比较小;经过量化学习后,对于给定的查询样本,通过查表的方式可以计算出查询样本和库中样本的非对称距离12。乘积量化方法虽然在近似样本间的距离时比较的精确,但是乘积量化方法的数据结构通常要比二值哈希码的复杂,它也不能够得到低维的特征表示,此外为了达到良好的性能必须加上不对称距离,并且它还需要每个维度的方差比较平衡,如果方差不平衡,乘积量化方法得到的结果很差。

    参考文献

    1. LOWE D G. Distinctive Image Features from Scale-Invariant Keypoints, Int. J. Comput. Vis., 2004, 60(2):91–110. 

    2. BAY H, TUYTELAARS T, GOOL L J V. SURF: Speeded Up Robust Features, Proc. IEEE Int. Conf. Comput. Vis., 2006:404–417. 

    3. RUBLEE E, RABAUD V, KONOLIGE K, et al. ORB: An Efficient Alternative to SIFT or SURF, Proc. IEEE Int. Conf. Comput. Vis., 2011:2564–2571. 

    4. CSURKA G, DANCE C, FAN L, et al. Visual Categorization with Bags of Keypoints, Workshop on statistical learning in computer vision, Eur. Conf. Comput. Vis., 2004,1:1–2. 

    5. JEGOU H, DOUZE M, SCHMID C, et al. Aggregating Local Descriptors into A Compact Image Representation, Proc. IEEE Int. Conf. Comput. Vis. Pattern Recognit., 2010:3304–3311. 

    6. PERRONNIN F, SÁNCHEZ J, MENSINK T. Improving the Fisher Kernel for Large-Scale Image Classification, Proc. Eur. Conf. Comput. Vis., 2010:143–156. 

    7. KIAPOUR M H, HAN X, LAZEBNIK S, et al. Where to Buy It: Matching Street Clothing Photos in Online Shops, Proc. IEEE Int. Conf. Comput. Vis., 2015:3343–3351. 

    8. BENTLEY J L. Multidimensional Binary Search Trees Used for Associative Searching, Commun. ACM, 1975, 18(9):509–517. 

    9. UHLMANN J K. Satisfying General Proximity/Similarity Queries with Metric Trees, Inf. Process. Lett., 1991, 40(4):175–179. 

    10. GE T, HE K, SUN J. Graph Cuts for Supervised Binary Coding, Proc. Eur. Conf. Comput. Vis., 2014:250–264. 

    11. DATAR M, IMMORLICA N, INDYK P, et al. Locality-Sensitive Hashing Scheme Based on p-stable Distributions, Proc. Symp. Comput. Geom., 2004:253–262. 

    12. DONG W, CHARIKAR M, LI K. Asymmetric Distance Estimation with Sketches for Similarity Search in High-dimensional Spaces, Proc. ACM SIGIR Conf. Res. Develop. Inf. Retr., 2008:123–130. 

     

    展开全文
    weixin_41521681 2020-12-14 22:59:49
  • 234KB weixin_39840387 2019-08-21 04:28:39
  • 3星
    40.32MB qq_41508673 2019-01-18 16:23:39
  • qq_33208851 2019-07-05 20:59:34
  • 421KB weixin_39841882 2019-08-14 17:05:23
  • 308KB jiebing2020 2021-09-25 17:17:25
  • 3星
    19.29MB wangjunhui1984 2011-05-28 15:24:05
  • 433KB weixin_38654415 2020-10-16 08:15:12
  • 4.3MB weixin_38538224 2021-05-25 04:54:24
  • 5星
    4.68MB clamour123 2014-03-25 10:24:05
  • 582KB weixin_38744207 2019-09-07 04:54:55
  • 1.03MB weixin_42128676 2021-05-15 07:24:23
  • helloworldding 2016-09-12 11:36:01

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 15,834
精华内容 6,333
关键字:

基于内容的音频检索