精华内容
下载资源
问答
  • 视频摘要检索系统有哪些功能——北京明景科技 明景视频摘要检索系统可以将原始视频进行结构化浓缩,将视频浓缩到约5%的长度,大大降低了检索视频的时间。还可以进一步通过特征捕捉,设定检索条件,继续缩小...
    
    


    明景视频摘要检索系统可以将原始视频进行结构化浓缩,将视频浓缩到约5%的长度,大大降低了检索视频的时间。还可以进一步通过特征捕捉,设定检索条件,继续缩小排查范围,找到具有目标特征的车辆或人物。

    视频摘要

    可以说视频摘要检索系统是十分有效的图侦工具了。

    视频摘要浓缩

    wang-视频摘要03.jpg

    视频检索系统能够进行人车分离,视频浓缩后,依据区域划定、颜色、大小、类型、途径、跋涉方向、逗留时间选择等进行车辆筛查,也可依据衣服颜色、穿着打扮等条件进行人物筛查,选择同一类特征的目标进行快速浏览筛查。


    展开全文
  • 本文简单总结一下,电商检索系统需要向用户提供哪些功能。 搜索页面结构 下图是一个电商搜索结果页的基本结构: 大家可以看到,页面基本上以下几种元素构成: 搜索栏 商品列表 面包屑...

    自己作为后端研发工程师,一直在公司电商项目中参与和检索相关的工作。工作的时间也不短了,一直希望能写一些文章来总结、整理下自己接触到的知识点,一方面是为了梳理自己的思路,另一方面也作为一种分享和交流。

    本文简单总结一下,电商检索系统需要向用户提供哪些功能。

    搜索页面结构

    下图是一个电商搜索结果页的基本结构:

    大家可以看到,页面基本上有以下几种元素构成:

    • 搜索栏
    • 商品列表
    • 面包屑
    • 分类树
    • 筛选项
    • 商品推荐

    每一种元素,都为用户展现了不同纬度的检索结果;同时,部分元素也为用户提供了进一步的检索、过滤功能。

    搜索栏,提供了query检索的功能,用户最常用的寻找商品的方式;

    分类树和面包屑,一方面从分类纬度展示了搜索结果,同时用户也可以对于上面的结果进行分类检索

    筛选项,提供了对于检索出的商品属性的聚合,同时用户又可以对于自己感兴趣的属性进行单独筛选;

    商品列表,是呈现给用户的最终结果;

    商品推荐,除了自然的检索结果,还会根据用户当前的检索行为以及历史行为,进行商品推荐。

    功能

     

    上面提到的元素,都是为了让用户使用电商检索系统的某些功能,或者向用户展现某些功能的最终结果。下面就具体讲一下电商检索系统需要具备的基本功能:

    Query检索

    即关键词检索,用户通过输入一个检索词来描述自己的需求,比如“iphone5s”、“三星Galaxy”、“Nike运动鞋”等等。关键词检索,涉及到建立一个检索系统的一些基本步骤:

    • 切词(将一段文本转化为一个一个单元,即term)
    • 建立倒排索引(Inverted Index)
    • 索引归并
    • 排序

    切词之前,首先需要确定的是:商品的哪些字段需要被切词并且建入索引。商品的标题是需要建索引的,另外,一般来说,商品的品牌名称、商家名称、分类名也是需要建索引。选择建索引字段的范围,其实是需要一些权衡的,范围选得过大,当然可以提高召回率,但这样也会出现一些bad case(比如将商品描述中一些不相关的term建进了索引),同时倒排拉链过长也会影响性能。

    分类检索

    一般来说,综合型电商网站的首页,都会有一个分类树全集,供用户直接点击查询。例如下图:

    除了Query检索,用户按照商品的分类进行检索的比例也会较大。分类检索和Query检索相比,不同点只是少了切词步骤,另外将term改为商品的分类ID。

    说到分类,就要涉及到分类体系。一般来说,有两种分类体系:后端分类体系,和前端分类体系。后端分类体系相对稳定,几乎不变,用户感知不到后端分类;前端分类体系结构可以很灵活,随意变化,一般由运营同学来维护。前、后端分类体系都是树状的结构,而后端分类树的任意节点可以“挂载”至一个或者多个前端分类树的叶子节点上面,这样两套分类体系之间就产生了关联。

    这两个分类体系可以类比为超市的货物分类(严格来说应该是电商参考了零售行业的分类方式),一开始货物都是放在后台的库房里面的,它们按照一种分类体系(后端分类系统)来存放,非工作人员是看不到的;而等到货物需要从库房摆放到货架时,超市工作人员可以以时令、促销活动等为依据,让货架上的商品按照另一种体系(前端分类体系)进行组织,顾客只能看到这种组织形式。

    排序

    用户通过query或者分类检索出的商品结果,默认都是按照相关性排序的。(关于相关性排序,内容还是比较复杂的,另外自己也不是专门做这一块的,这里就不展开讲了)除了按照相关性进行排序,用户还可以按照其它条件进行排序,例如:

    • 价格
    • 折扣
    • 评论数
    • 好评度
    • 上架时间
    • 是否正在促销
    • ……

    上面都是用户可以看得到、自己可以选择的排序方式。除了这些,还会有一些其它因素影响商品结果的排序。

    首先是一些基本的业务逻辑,比如在自然排序下,有库存的商品排在前面,无库存的排在后面;SPU商品排在前面,SKU商品排在后面。(SKU、SPU的概念后面会讲到)

    另外还有一些运营方面的考虑。比如,发现搜索结果中有一个很不相关的商品出现,这时就急需在query粒度上对这个商品进行打压、甚至是不允许展现。或者,由于某种合作关系,在某些query或者分类下,必须将某个商家的商品排在前面。因此,检索系统后台就需要维护这么一份各个维度的商品“黑白名单”。

    标签聚合

    所谓标签,就是用一些“键-值”的概念来描述一个商品的特点。比如说MacBookPro,可以有如下标签:

    • 品牌:Apple
    • 尺寸:13寸
    • 处理器:Intel i7
    • 价格:9288 RMB
    • ……

    当用户检索商品时,检索系统除了直接展示商品以外,还会将商品上面的标签进行聚合,一般都是通过“标签名 + 标签值的列表”的形式展现给用户(如下图),方便用户通过标签进行进一步的筛选。

    分类树

    当用户进行query检索时,检索系统会进行query分析,将这个query可能对应的分类,通过分类树的形式展现给用户。比如用户搜索“小米”,query分析出的分类既有“手机通讯”,又有“粮油米面”。

    一般来说,检索系统为了保证query的准确率,会在检索条件中添加query的预测分类,使得检索结果不至于各种分类的商品混杂在一起,影响用户体验。所以当用户搜索“小米”时,检索结果会限定在“手机通讯”这个分类下,但是如果用户真的是想搜索“粮油米面”下的小米,也没关系,只需在点击分类树中相应分类进行限定即可。

    面包屑

    面包屑,原来是用于在网站上面显示当前页面在整个sitemap中的位置,方便用户跳转至网站其它地方。在电商网站中,就变成了展现网站所在的分类路径( + 品牌名称 + query),例如

    电脑、办公 > 电脑整机 > 笔记本 > 清华同方(THTF) > 清华同方锋锐T200

    点击面包屑上面的每一级分类,就可以在某个分类下进行商品检索,方便用户扩大或者缩小检索范围。

    过滤

    除了进行各种触发(query检索、分类检索等),还需要在触发结果的基础上面,再进行过滤。上面说到的标签过滤、分类树限定,都属于过滤。总结下来,会有这么几种过滤方式:

    • 分类过滤
    • 标签过滤
    • 价格区间过滤
    • 地域过滤
    • 库存过滤
    • 是否自营
    • 商家过滤(针对于微购这样的电商平台)

    Query提示

    所谓query提示,就是当用户在搜索框中建入query时,系统能提供给用户一个query list,或者一些分类建议,方便用户向检索系统提供给准确的query以及分类范围,减少用户进行重复搜索的次数。

    以下是京东的query提示截屏,有拼音翻译为query、有分类预测、有每个query对应的检索商品数,做的比较完善。

    相对而言,微购做的query提示就原始许多,输入“shouji”,居然连本身的“手机”都没有,囧……

    Query改写

    Query分析中的一项功能就是做“query correction”,通过算法或者人工标注的形式,判断出用户真正需要搜索的query是什么。比如用户输入了“按着手机”,检索系统需要能判断出用户搜索的真正query可能是“安卓手机”,当然,好的产品肯定能让用户自行选择,而不是强奸用户,就像上面提到的用户可以选择分类树上的分类,用以明确告知系统自己所需要查找的分类范围。

    以下是在京东搜索“按着手机”的截图:

    SPU聚合

    首先需要提供两个概念:SKU,以及SPU。

    根据我在网上查找到的资料,SKU是Stock Keeping Unit,指的是库存的最小单位;而SPU是Standard Product Unit,是指商品信息聚合的最小单位,是一组可复用、易检索的标准化信息的集合,该集合描述了一个产品的特性

    简单的理解就是,“iPhone4S”是一个SPU,“iPhone4S 白色 16G 电信版”就是一个SKU;“MacBookPro”是一个SPU,“MacBookPro 13寸 8G内存 128G硬盘”就是一个SKU。

    因此,当用户进行商品检索时,需要将SKU粒度的商品聚合成SPU粒度,使得检索结果比较多样,从而不至于满屏都是各种颜色、型号的同一款商品。等到用户进行商品详情页之后,再来选择具体的型号。

    下图是微购检索结果页SPU、SKU排列结果:

    以下是京东商品详情页的截屏,红框中的选项的每一种组合,都代表着不同的SKU。

    推荐

    推荐系统,是和检索系统同样负责的系统,另外我也并不熟悉相关的知识,所以这里只是根据自己的理解,简单的说一下。

    从页面角度来说,几乎所有页面上面都可以进行商品推荐:首页、搜索结果页、详情页、购物车页面、下单成功页、错误页,等等。而不同的页面,推荐的侧重点也会不尽相同。

    比如首页推荐,用户这次购物流程还没有任何行为,所以一般都是通过该用户的历史行为向用户进行推荐。

    在详情页,用户则已经表现出对于这个商品的较强的需求,一般会有两种类型的推荐:

    • 推荐和该商品类似的商品
    • 推荐可以和该商品进行组合的商品

    第一种推荐,在各分类商品中出现的都比较多,一般的推荐理由是“看(购买)过该商品的用户也看(购买)了”;

    第二种推荐,一般出现在数码产品中。比如用户在看一款手机时,向用户推荐手机套、手机耳机、SD卡,让用户可以“一页式”完成许多商品的购买,减少用户决策的过程,激发用户的购物欲望(原来根本没想到手机套这回事,既然你推荐了,又不贵,就买一个呗)。

    到了购物车页面,用户的购物流程即将结束,能让用户在这个阶段再购买的一个主要动力是:凑单,这样可以节省运费或者参加活动。所以在这个阶段推荐的商品一般是:同店铺的相似商品,以及一些单价较低的、日常消费的商品。

    总结

    本文并没有讲解与电商检索相关的技术细节,只是单独从产品的角度,罗列了一下一个电商检索系统需要具备的功能,只能算是自己粗浅的整理和归纳,肯定有许多遗漏或者错误之处。有问题的话,欢迎大家反馈,我也会及时进行更正。以后有机会的话,还会对电商检索系统中的技术细节进行一些归纳和整理。

    转载于:https://www.cnblogs.com/wanghuaijun/p/7112952.html

    展开全文
  • 解析后的文档应划分为哪些字段(如果)? 应该使用哪些停用词删除,词干识别,短语识别和其他分析器? 是否可以使用更复杂的语言建模过程? 查询在任务一中,查询是简单的,预定义的短文本字符串。 但是,在许多...
  •  使用数组什么好处,在c语言中,数组是一组连续数字的集合它们数组的下标,代表了数组的相对位置,所以说,在一些高效的查表过程中,我们经常会使用到数组,数组在检索,查阅的过程中,它的检索速度是最快的。...

      1)表 链表

      表中主要了解链表,尤其是单向链表。

      2)数组 一维数组 二维数组

      使用数组有什么好处,在c语言中,数组是一组连续数字的集合它们数组的下标,代表了数组的相对位置,所以说,在一些高效的查表过程中,我们经常会使用到数组,数组在检索,查阅的过程中,它的检索速度是最快的。

      3)位图

      实际上位图就是一个二维的数组,或者说是一个多维的数组过程,假设这里有个位图,位图中填写了各种各样的数据,那在使用的过程中,这个位图的好处也是检索速度快,还有一个是它的横向和列向的交叉点就是可以很容易的找到我们的数据。

      4)结构体

      5)队列

      队列分为两种,一种是FIFO,这个叫做先进先出的队列,还有一个是FILO,这个叫做先进后出的队列。队列的讲解我们在消息队列中也简单的讲解了一下,假设这里有个队列,先进先出的队列是这样的,先进的数据放在最后,第二个进来的数据也放在最后,然后往上面走一个,第三次进的数据也放在最后,前两个数据往前走,这是一个先进先出的队列。什么叫做叫做先进后出呢?

      同样还是这个队列,第一次进的数据放在最后,第二次进来的数据放在倒数第二,第三次进来的数据放在倒数第三,这样的队列就构成了一个先进后出的队列,因为出的时候,我们总是从前面出数据,所以,这就是一个先进的先出,后进的后出。

      6)堆栈

    堆栈和队列比较类似,堆栈就是,我们只能在一端进行插入,在一端进行输出,在同一端插入取出,这样的结构就叫做堆栈,那这样很明显,先进的数据那肯定是后出的,也就是说,我们先进的数据是压在栈底的,先出的数据肯定是压在栈顶的数据,这样的数据结构就是堆栈。

     

    原文链接:http://www.maiziedu.com/wiki/iot/ucoscode/

    转载于:https://www.cnblogs.com/maizi008/p/6020556.html

    展开全文
  • MDX 基于 XML for Analysis (XMLA) 规范,并带特定于 SQL ServerAnalysis Services 的扩展。MDX 使用由标识符、值、语句、函数和运算符组成的表达式,Analysis Services 可以通过计算表达式来检索某个对象(如集或...

    福哥答案2021-01-12:

    这个面试题很偏,连题意都不知道。

    多维表达式 (MDX) 是用于在 MicrosoftAnalysis Services 中处理和检索多维数据的查询语言。MDX 基于 XML for Analysis (XMLA) 规范,并带有特定于 SQL ServerAnalysis Services 的扩展。MDX 使用由标识符、值、语句、函数和运算符组成的表达式,Analysis Services 可以通过计算表达式来检索某个对象(如集或成员)或标量值(如字符串或数字)。
    SQL ServerAnalysis Services 中的 MDX 查询和表达式可用于执行以下操作:
    1.从 SQL ServerAnalysis Services 多维数据集向客户端应用程序返回数据。
    2.设置查询结果的格式。
    3.执行多维数据集设计任务,包括定义计算成员、命名集、范围分配和关键绩效指标 (KPI)。
    4.执行管理任务,包括维度和单元安全性。
    MDX 在很多方面与关系数据库常用的 SQL 语法看起来很相似。但是,MDX 并非 SQL 语言的扩展,在许多方面都有别于 SQL。为了创建用于设计或保护多维数据集的 MDX 表达式,或创建 MDX 查询以返回多维数据并设置其格式,您需要了解有关 MDX 和维度建模的基本概念、MDX 语法元素、MDX 运算符、MDX 语句以及 MDX 函数。

    摘要:网络应用中内容主导的系统需要管理海量的多维数据,比如新闻网页中的标题、图片、作者、时间等多维信息;拼接成网页地址的多个字符串片段;视频分发系统中描述一个片段的多个特征等。大规模多维数据通常是以集合的形式保存在互联网系统中的。因此,需要一种表示多维集合元素的数据结构以及判断元素是否属于某个集合的算法,也就是多维集合的元素表示与存在性查询算法。类似的解决方案除了有低时间和空间复杂度的要求,而且还要能够支持灵活的查找方式,并有效处理高相关查询。  本文的研究工作采用了一种概率型数据结构来表示多维集合的元素,这种刻画能够有效地节省空间,并保存同一个元素不同属性之间的关联信息,从而实现快速准确的查询。在此基础上,提出了一种能够快速准确地支持多维集合中的元素表示与存在性查询的数据结构和相关算法。  我们提出的大规模多维数据查询算法(乘积型布鲁姆过滤器Cartesian-join ofBloom Filters,简称CBF)不仅能够较好的处理完整查询、不完整查询和相关查询,而且还能够有较低的时间复杂度和空间复杂度。相比传统的基于表的解决方案,CBF能够明显节省存储空间;与标准布鲁姆过滤器比较,CBF能够使用同样的空间支持多维元素的完整查询,同时还能额外支持提供不完整信息的元素存在性查询。  论文从理论上推导出了CBF的虚警率的解析表达式和最优哈希函数个数与元素个数及存储空间的关系,证实了CBF的虚警率具有与SBF基本相同的形式。从理论上分析了算法的时间复杂度和空间复杂度,CBF的时间复杂度与维数成正比,与集合元素个数无关。在占用空间不低于其下限的情况下,CBF空间复杂度与标准的布鲁姆过滤器相同。  我们使用公共数据集与合成数据集来检验我们的理论推导的正确性。公共数据集由56663条二维数据构成,用于验证CBF虚警率和最优哈希函数个数解析表达式。合成数据集用来验证时间复杂度、空间复杂度、算法可用性等内容。我们选取了虚警率与最优哈希函数实验、维度扩展性实验、完整查询实验、不完整查询实验、空间复杂度实验和时间复杂度实验。并将实验结果与理论推导进行比较。实验证明了我们的理论推导的准确性。在实验中,我们使用大约10个比特来保存一个元素,虚警率约为1%。  为了使用多线程技术来加速集合表示和存在性查询过程,我们迸一步提出了基于CBF的改进算法——并行化乘积型布鲁姆过滤器Parallel Cartesian-join ofBloom Filters,简称PCBF。该算法在继承CBF的优势的同时,避免了对同一个元素进行哈希时不同哈希数据点出现冲突的问题,能够较好地支持多线程加速,可以较快地完成集合元素表示。我们通过理论分析和实验验证了PCBF的算法特性。理论分析和实验证明,PCBF的性能和CBF基本一致,同时可以在使用多线程加速技术后有较好的性能。  最后,本文展示了CBF和PCBF算法的应用场景和未来的研究方向。


    2021-01-12:多维快查多维查询系统,你了解的解决方案都有哪些?
    查询多维数据(Analysis Services - 多维数据)
    多维数据查询效率分析(1)
    评论

    展开全文
  • 描述文件的元数据信息有哪些,分别表示什么含义,如何查看? 1、元数据定义: 数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示...
  • 搜索引擎基本构成有哪些

    千次阅读 2019-10-12 20:19:26
    搜索引擎由搜索器、索引器、检索器和用户接口四部分构成。 1、搜索器,是一个机器人程序自动地在互联网中搜集和发现信息,对Web进行遍历并下载到本地文档库。由于Web信息的大容量、分布性和动态性,搜索器主要两个...
  • 信息检索复习范围

    2014-06-26 17:13:46
    12.信息检索系统常见的索引技术有哪些,各自的使用场合如何? 13.实例分析倒排索引 14.信息检索查询处理的基本过程 15.什么是相关度反馈 16.实例计算相关度反馈的查询重写 17.分析违反馈和隐反馈 18.查询扩展的方法...
  • 数据可视化系统并不是为了展示用户的已知的数据之间的规律,而是为了帮助用户通过认知数据,新的发现,发现这些数据所反映的实质。  从技术上来说,大数据可视化的实施步骤主要四项:需求分析,建设数据仓库...
  • HugeGraph图数据库有哪些功能?

    千次阅读 2018-08-26 19:54:07
    图数据库的关键概念是边,通过边将顶点连接在一起,从而进行快速的图检索操作。 HugeGraph是一款开源图数据库系统,可以存储海量的顶点(Vertex)和边(Edge), 实现了Apache TinkerPop 3框架,支持Gremlin查询语言。 ...
  • 废话不多说,直接开干! 系统垃圾清理 ...以检索系统日志 sudo ncdu /var/log 常用命令 操作方法如下: up, k — 向上移动光标 down, j – 向下移动光标 right/enter — 打开选定的目录 left, &l
  • 是指根据一定的策略,运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后为用户提供检索服务,将用户检索相关的信息展示给用户的系统。 搜索引擎的优化就是SEO优化。 搜索引擎的组成: 搜索引擎...
  • 大数据测试步骤有哪些,卓码测评小编就简单分析下大数据相关的内容,以及如何做好大数据测试工作。 什么是大数据测试? 大数据测试涉及数据创建,存储,检索和分析,在处理数据的时候,通过验证大数据功能性能测试...
  • 软件测试技术;缺陷模式;故障模式;故障模式 ;故障模式;例题;例4-6申请内存的pointer发生了变化 char *p=malloc(10; ++p; free(p; 例=指针赋值不能重复删除 ...文件检索系统中关于内存错误;故障模式;故障模式;2字符串拷贝
  • </li><li>数据库/数据挖掘/内容检索;</li><li>计算机科学理论;</li><li>计算机图形学与多媒体;</li><li>人工智能;</li><li>人机交互与普适计算;</li><li>交叉/新兴/综合...
  • 清华大学智能技术与系统国家重点实验室信息检索组 北京大学计算语言学教育部重点实验室 北京大学计算机科学技术研究所语言计算与互联网挖掘研究室 哈工大社会计算与信息检索研究中心 哈工大机器智能与翻译研究室 ...
  • 所以,大数据是指海量的、多种类的、需要大规模的处理才能够凝聚足够价值的、处理和检索响应速度快的数据。 大数据是一个数据集合,包括三类数据:  (1)结构化数据,如企业用的人事系统、财务系...
  • 虽然已的研究表明,相对于词袋模型,利用词项依存关系能够显著地提高检索性能,但这两类词项依存关系却缺乏系统的比较:在利用词项依存关系来改进文档和查询的表达上,如何有效地利用句法信息,哪些句法信息对文本检索...
  • 1什么是搜索引擎搜索引擎有哪些类型简述搜索引擎的基本工作原理 答搜索引擎(search engine)是一种Web上应用的软件系统它根据一定的策略运用特定的计算机程序从互联网上搜集信息在对信息进行组织和处理后为用户提供...
  • DISTINCT 关键字是用来进行重复数据抑制的最简单的功能,而且所有的数据库系统都支持 DISTINCTDISTINCT 的使用:只要在 SELECT 之后增加 DISTINCT 关键字即可检索公司里有哪些垂直部门,且每...
  • 当我们在招聘网站上检索算法工程师时,通常看到的招聘要求一般为: 工作职责: 1.负责推荐系统、产品的架构、研发和持续优化 2.和业务团队深入合作,解决在推荐业务发展中遇到的产品和平台架构问题;具备...
  • 信息检索习题答案第四章 精品文档 精品文档 收集于网络如侵权请联系管理员删除 收集于网络如侵权请联系管理员删除 精品文档 收集于网络如侵权请联系管理员删除 第四章 网络搜索引擎 思 考 题 1什么是搜索引擎...
  • 1什么是搜索引擎搜索引擎有哪些类型简述搜索引擎的基本工作原理 答搜索引擎(search engine)是一种Web上应用的软件系统它根据一定的策略运用特定的计算机程序从互联网上搜集信息在对信息进行组织和处理后为用户提供...
  • 生成 ...与此类似的教材《数据库系统概念》,还有一些视频:王珊老师、哈工大战德臣老师、CMU Q3:我是如何找到这本书的 A3:教材 Q4:我为什么要读这本书 A4:获得数据库相关理论知识,了解关系...
  • 为了说明什么是网站对搜索引擎友好,站长不妨看看对搜索引擎不友好的网站有哪些特征: 1、网页中大量采用图片或者Flash等富媒体(Rich Media)形式,没有可以检索的文本信息,而SEO最基本的就是文章SEO和图片SEO; ...

空空如也

空空如也

1 2 3 4 5 ... 15
收藏数 289
精华内容 115
关键字:

检索系统有哪些