精华内容
下载资源
问答
  • 意图搜索最早起源于互联网行业搜索引擎工具,随着互联网信息量的不断增加,能够快速、准确地查找信息越来越困难,主要原因是搜索
  • 随着全球安全形势日趋恶化,意图搜索逐渐与物联网结合并落地,中国工程院吴曼青院士提出了反恐环境下基于大数据的意图搜索的设想充分表明了安防行业已经把意图搜索概念提升到了主流产品形态,充分...

    意图搜索最早起源于互联网行业,通过对传统搜索引擎的智能化应用扩展,基于分类算法对意图分析和分析扩展等功能进行应用,逐渐由搜索引擎学会判断用户的真实搜索意图,实现智能搜索引擎。随着全球安全形势日趋恶化,意图搜索逐渐与物联网结合并落地,中国工程院吴曼青院士提出了反恐环境下基于大数据的意图搜索的设想充分表明了安防行业已经把意图搜索概念提升到了主流产品形态,充分做好了与意图搜索技术结合的准备工作。

    一、意图搜索起源

    意图搜索最早起源于互联网行业搜索引擎工具,随着互联网信息量的不断增加,能够快速、准确地查找信息越来越困难,主要原因是搜索引擎不能理解用户的真实查询意图,因而机器学习如遗传算法、BP神经网络法等在这方面的应用研究快速地被引起关注。Lam Wai 就利用基于事例的机器学习和查询反馈技术实现了文本的自动分类并用于文本检索, 实验证明了其优越性。Mandala Rila 采用加权方法从多类信息中实现查询扩展 , 以及Chakrabarti 探讨的基于矩阵代数的主题提取算法、组合词汇和索引文本等特征提取都是这方面的努力。但目前最有前景的是Doug Lenat 研制的搜索系统, 通过建立常识库和推理机来与用户交谈, 进而实现对用户真正意图的理解。知识工程之父Feigenbaum称赞他开创了查询的“语义时代”(TheAge of Semantics)。但前提是要建立一个庞大的百科全书常识库, 这是非常困难的, 而且也不分析用户的潜在意图。构造庞大知识库的一种方法是从网络上自动构造, Craven 和Lesser 提出了信息获取的系统原理, 知识库的结构和实现方法。Choi 则实现了一种具体的自动构造系统,其可从网上发现文本并归入本地数据库供查询, 它相当于智能代理。Alsaffa 做了类似的探索, 利用专家系统在用户喜欢的表达和系统要求的表达之间实现自动转换。意图搜索正在基于这些技术之上实现了智能化的自动搜索。虽然意图搜索起源于互联网行业,但是目前已经被广泛用于其它行业,例如在安防行业与物联网技术紧密结合。

    二、意图搜索在互联网行业的发展

    互联网行业最早由搜索引擎起步,目前数据也都是通过搜索引擎实现数据交换和传递过程。用户之所以会产生搜索行为,往往是在解决任务时遇到自己不熟悉的概念或者问题,由此产生了对特定信息的需求,之后用户会在头脑中逐步形成秒速需求的查询词,将查询提交给搜索引擎,然后对搜索结果进行浏览,如果发现搜索结果不能完全解决用户的信息需求,则会根据搜索结果的启发,改写查询,以便更精确地描述自己的信息需求,之后重新构造新的查询需求,提交搜索引擎,如此形成用户和搜素引擎交互的闭合回路,直到搜索结果已经解决了自己的需求或尝试几次无果而终。从上述过程可以看出,从用户产生信息需求到最终形成用户查询,中间有很大的不确定性,用户未必能够一开始就找到合适的查询词,即使是找到了,也可能存在查询词不能完全描述信息需求的情形,即在形成查询的过程中存在信息丢失的问题。所以后续循环中的查询改写就是用户逐步澄清搜索需求的一个过程。

    用户发出的每个搜索请求背后都隐含着潜在的搜索意图,如果搜索引擎能够根据查询词汇自动找出背后的用户搜索意图,然后针对不同的意图,提供不同的检索方法,将更符合用户意图的搜索结果排在前列,无疑会增加搜索引擎用户的搜索体验。目前搜索引擎已经部分实现了这种搜索模式,比如用户搜索“北京 天气”的时候会主动将当天的气温等情况列在搜索结果最前面。

    意图搜索是基于目前internet上信息的无组织、异构、分布和动态的特点以及现有搜索的不足而提出的,用于解决现有信息检索系统所面临的“信息过载”、“资源迷向”和搜索结果个性化需求等实际问题,实现Internet信息个性化主动服务。搜索引擎在强化“智能化”方向的理念之上,在自动分类、自动聚类的基础上推出智能导航、概念搜索、个性化搜索功能,使搜索引擎充分领会用户意图的进行搜索,这是意图搜索在搜索引擎方面的落地应用模式。

    当前大多数搜索引擎是通过用户注册及用户个性化配置(利用cookie机制、为用户建立配置文件等)来提高对用户搜索请求的精度和命中率,实现一定程度上的个性化搜索服务。这种方式需要用户在服务器上登记个人信息,但这可能造成用户某些隐私信息的泄露。目前比较公认的搜索引擎意图搜索方法是采用特征获取方法。特征获取方法分为两类,第一类方式可以称为事先方法,这种方法在查询被提交给搜索引擎以前,利用查询本身的特征来表示查询,比如表示特定需求的特征词汇、词与词之间关系、词的词性以及词的选择优先性、在语料集中的统计信息等等;第二类方法可以称为事后方法,这种方法利用查询被提交给搜索引擎以后的相关数据来获取查询的特征。

    意图搜索分为意图分析和分析扩展两个部分。意图分析是解决“信息过载”和“资源迷向”问题的有效途径,通过对用户所需的信息资源进行搜集、加工、整理,可以梳理和有序化网络上的专业信息资源,向用户提供智能化的信息服务。意图分析和分析扩展的具体步骤如下所述:

    (1)意图分析。①根据用户对问题的回答,检索知识库中的相关信息,以提供直接的回答。②对输入的原始查询根据其概念内容进行组织和安排,以析取相关的概念信息和范畴知识。然后,通过语义联想等意图推理修改查询向量。③将查询向量交由用户交互确认、编辑。④根据用户的编辑结果可以再次意图推理,直到用户满意为止。⑤将此次意图推理的结果记入知识库中,以备以后的意图推理。

    (2)分析扩展。根据意图分析的结果,更新原始查询向量,形成新的查询向量。方法是将应用领域知识和索引、相关性、估计和查询表达相结合来实现查询扩展,即查询索引还包括不在用户查询中出现的查询词部分。查询扩展所需要的查询词的选择策略有:①非独立类。非独立词指的是和查询词具有较大相关性的词。查询扩展通过知识库推理从知识库中找出相关性词、短语、句子、段/篇章。②交互式选择。用户从通过上述策略得出的待选词中决定最后的查询词。

    三、意图搜索与安防行业的结合

    2014年发生的震惊全球的“马航失联”事件牵动了无数中国人的心,泛太平洋各国均提供了大量帮助用于搜索失联航班,但是由于搜索方式千奇万种、信息达到海量级别、信息来源不连续性等多种问题,导致搜索迟迟没有结果。仔细分析搜索方式,可以发觉这类型的搜索形式其实与互联网行业的搜索引擎意图搜索有相似之处,相似点在于都需要对数据进行收集、甄别、过滤、分类、整合,都不是一个单一的行动,而是一整套连贯的过程。

    物联网行业本身由于传感器的多种多样导致数据形式多样性、信息海量性等特征,如果大数据环境下还是采用过去的全文检索方式进行单一化搜索,未来一定无法满足用户的智能化需求。针对这一挑战,2014中国大数据峰会上中国工程院吴曼青院士发表了名为“存在就有痕迹,联系就有信息,反恐环境下大数据的意图搜索”的专题演讲,吴院士以众多美国案例为引,描述了新时代反恐行动应用的特性:法律保障、以人为核心、高技术手段、国际合作,通过构建虚拟空间信息社会雷达的方式将意图搜索引用到反恐活动中,提升反恐能力。

    基于“存在就有痕迹,联系就有信息”的基本理念,构建网络空间中行为事件、思想事件等模型,在实体空间和虚拟空间中全面收集人的存在痕迹和联系信息,关注人物或事件间联系链,从而实现网络空间中存在的各种意图,完成对意图产生源头、传播途径和发展趋势的全方位描述,达到对个人和组织的所思所想行为所在的全面搜索和分析。物联网行业拥有海量的视频、音频、图片数据,通过相应智能算法可以从中提取出可供分类的结构化信息,通过这些结构化信息与意图搜索技术相结合可以帮助用户快速预判事物、事件发生概率和趋势。

    因国内反恐形势严峻,大数据搜索需要积极应对新时期恐怖主义威胁,立足恐怖主义存在和意图特征,运用大数据技术进行深入关联分析,实现对恐怖分子的准确识别和暴恐事件的提前预警,有力提升反恐维稳核心能力。海康威视作为安防行业的龙头,物联网概念提出之处就已经开始涉及其中,相信在不远的将来,意图搜索应用可能就在海康威视率先落地。

    四、结语

    本文首先针对意图搜索的来源、基本概念作了一些解释,随后针对产生意图搜索概念的互联网行业具体发展过程、应用模式及技术等做了一些讨论,最后对安防行业与意图搜索技术相结合的具体形式进行了探讨,通过马航失联事件的预测性分析告诉读者意图搜索如何在安防、反恐等领域发挥自己的作用,如何与物联网紧密结合。

    本文转自d1net(转载)

    展开全文
  • 亚马逊搜索意图识别

    2018-08-09 23:28:11
    亚马逊搜索意图识别,Query Understanding in Amzaon Search
  • 在搜索引擎中的意图识别,主要是为了解决通用搜索的通用展现形式和用户意图的冲突,对于用户的一些意图,比如购物、地图等需求在通用网页搜索的展示情况下...本演讲将剖析意图搜索中涉及的技术和难点,以及未来的趋势。
  • 搜索引擎用户搜索意图分析

    千次阅读 2012-04-30 21:43:51
    搜索引擎要做到更好的用户体验,就不得不去分析搜索用户的搜索意图。  雅虎的研究专家Andrei Broder将搜索者的意图分为三类:  一类是导航型搜索者,这类搜索者从某种渠道听说了一个网站,或者曾经访问过一...
    你可能会觉得很奇怪,在百度里会有大量的用户搜百度、google、MSN、yahoo,同样在google里也会有大量的人搜百度、新浪,搜索者它希望搜索到什么结果?搜索引擎要做到更好的用户体验,就不得不去分析搜索用户的搜索意图。
    

      雅虎的研究专家Andrei Broder将搜索者的意图分为三类:

      一类是导航型搜索者,这类搜索者从某种渠道听说了一个网站,或者曾经访问过一个网站但忘记了域名,他们就会试图通过搜索这个网站的名称到达这个网站。例如用户搜索起点、天天基金网、新浪等等,就是用户通过一些渠道知道了这些网站的名称,但不知道域名,试图通过搜索到达这个网站。

      第二类用户是信息型用户,这类用户的搜索目的是希望在网上搜索到它想要的一个问题的答案,或关于这个关键的字相关信息。

      第三类用户是交易型用户,这类用户希望购买商品,搜索目的是希望找到商品。

      搜索引擎研究这些意图,对于其改进算法有着重要的意义。

      对于导航型搜索,搜索引擎应如何改进算法,使出现在搜索引擎第一个搜索结果的就是其官方网站。Google的首页的“手气不错”按钮有没有用过,这就是google提供给导航型用户的快捷搜索按钮。你在google中输入某个单位、某个网站的名称,再点手气不错试试,google能将你带入其官方网站。

      对于信息型用户,搜索引擎已经注意到了这部分用户希望能得到准确的信息,百度提供了百度知道,并往往将百度知道的结果作为首选结果推荐给用户,这是搜索引擎对于提升搜索型用户的动作。但已经有人指出了,百度知道、百度百科由于大量地使用了其它网站的内容,涉嫌侵犯他人的版权信息。

      交易型搜索者的目的性很强,他们不是寻找信息,而是要做点什么。

      由于搜索者搜索意图的差异,搜索引擎就有必要去统计分析用户的搜索目的,以便给出用户最佳的搜索结果。
    展开全文
  • 搜索意图识别浅析

    万次阅读 2017-05-22 21:15:26
    对于搜索引擎来讲,很多情况下只需要用户在搜索输入框内输入所需要查询的内容就可以了,其余的事情就全部交给搜索引擎去处理。理想的情况下,搜索引擎会优先返回用户想要的结果。理想很丰满,但总会存在一些骨感的...

    转自:http://www.tuicool.com/articles/aIby6be

    对于搜索引擎来讲,很多情况下只需要用户在搜索输入框内输入所需要查询的内容就可以了,其余的事情就全部交给搜索引擎去处理。理想的情况下,搜索引擎会优先返回用户想要的结果。理想很丰满,但总会存在一些骨感的现实,用户通过搜索无法找到最想要的结果。如果应用中压根不存在用户搜索的内容,倒还可以理解。反之的话,就是一个大写的尴尬。本文主要谈论和解决的是令人尴尬的问题。

    为什么会搜索不到

    1、不同的用户对同一种诉求的表达往往是有差别的,往往会存在一种比较常见的现象,用户输入的query并不能清晰准确的表达需求。

    2、搜索系统对用户query的理解能力较弱,无法挖掘出用户的真实需求。

    3、召回结果集的排序不合理,可能用户需求的内容被排在后面而未曝光。

    以上几点大概是用户无法找到需求内容的主要原因,本文主要讨论的是前两点,主要是想解决如何更好的理解用户的需求并进行准确的召回,进而对第三点所涉及到的排序起到积极作用。

    用户作为一个使用主体,其知识水平和表达能力会有差异,当不同用户想搜索同一个商品时所输入的query会存在差别,具体如下所示:


    可见,对于同一个商品往往会对应不同的query,相对精确的有“蔓越莓胶囊欧洲”、“blackmore蔓越莓”;品牌优先的有“blackMores”;功效优先的有“女士痛经”,”泌尿系统感染”;输入错误的有”蔓越梅”,输入别名的有”圣洁莓”;输入较模糊的有“妇科”,“炎症”。所以说用户的输入一般会存在表达差异,词汇差异,需求明确性差异等。

    要想解决这些问题就需要通过用户输入的query来获取用户的真实需求,本文把对用户输入的理解称为QueryParser,包含:query切分(分词),query意图识别,query改写(query扩展/query纠错/query删除等),接下来本文主要针对query意图识别和query改写结合在考拉海淘搜索中的具体应用来和大家聊聊。

    1.query意图识别

    本文主要针对垂直搜索进行介绍,不同的垂直引擎中的query会有自己的特点。像去哪儿网的日志中肯定有很多“城市a到城市b的机票”这种pattern的query,而电商网站中肯定大部分是“产品/品牌/型号/款式/价格”等类型数据的组合,音乐类应用中大部分应该是艺人和歌曲名相关的query。相比通用搜索而言,垂直搜索可能更针对性的挖掘用户的意图。

    1.1意图识别的难点

    1、输入不规范,前文中已有介绍,不同的用户对同一诉求的表达是存在差异性的。

    2、多意图,查询词为:”水”,是矿泉水,还是女生用的化妆水。

    3、数据冷启动。当用户行为数据较少时,很难获取准确的意图。

    4、没有固定的评价标准。pv,ipv,ctr,cvr这种可以量化的指标是对搜索系统总体的评价,具体到用户意图的预测上并没有标准的量化指标。

    1.2 意图识别的方法

    1.2.1 词表穷举法

    这种方法最简单暴力,通过词表直接匹配的方式来获取查询意图,同时,也可以加入比较简单并且查询模式较为集中的类别。

    • 查询词:德国[addr] 爱他美[brand] 奶粉[product] 三段[attr]
    • 查询模式:[brand]+[product];[product]+[attr];[brand]+[product]+[attr]

    当然查询模式是可以做成无序的。这种意图识别的方式实现较为简单,能够较准确的解决高频词。由于query一般是满足20/80定律,20%的query占据搜索80%的流量。但是,80%得长尾query是无法通过这种方式来解决的,也就是说这种方式在识别意图的召回可能只占20%。同时,需要人工参与较多,很难自动化实现。

    1.2.2 规则解析法

    这种方法比较适用于查询非常符合规则的类别,通过规则解析的方式来获取查询的意图。比如:

    • 北京到上海今天的机票价格,可以转换为[地点]到[地点][日期][汽车票/机票/火车票]价格。
    • 1吨等于多少公斤,可以转换为[数字][计量单位]等于[数字][计量单位]。

    这种靠规则进行意图识别的方式对规则性较强的query有较好的识别精度,能够较好的提取准确信息。但是,在发现和制定规则的过程也需要较多的人工参与。

    1.2.3 机器学习方法

    意图识别其实可以看做是一个分类问题,针对于垂直产品的特点,定义不同的查询意图类别。可以统计出每种意图类别下面的常用词,对于考拉海淘而言,可以统计出类目词,产品词,品牌词,型号词,季节时间词,促销词等等。对于用户输入的query,根据统计分类模型计算出每一个意图的概率,最终给出查询的意图。 但是,机器学习的方法的实现较为复杂,主要是数据获取和更新较困难,数据的标注也需要较准确才能训练出较好地模型。

    2. query意图识别在考拉海淘中的应用

    考拉海淘是一个电商类的产品,目前其搜索意图相对单一为产品购买。本文主要讨论考拉海淘中用到的query改写,类目相关,命名实体识别和Term Weight等内容。 考拉的搜索系统有大量的用户访问,我们希望通过对用户query的意图分析来提高搜索体验,目前,考拉系统的架构包含下图所示的几个部分: 


    2.1 实体词识别

    通过对日志分析,将用户常用的搜索词分为以下四类:地址(澳洲),品牌词(爱他美),产品词(奶粉),属性词(三段)。当用户输入query时,如果能准确的识别每个实体词,就能去索引里面精确匹配对应的字段,从而提高召回的准确率,在排序中也可以用到实体词进行优化。 举一个栗子:有一个商品的标题是”AYAM BRAND 雄鸡标 辣椒金枪鱼“,它的类目是“冷面/熟食/方便菜 其他熟食”。当用户搜“辣鸡面”的时候,通过单字逻辑召回这款商品。通过实体识别会得到这个商品的产品词是“金枪鱼”,而query要搜的产品词是“面”。这样就可以判断出其实这是一个误召回,进而可以将这个商品进行过滤或者是排序的时候放到较后的位置。

    我们的实体词识别模型是通过crf来进行训练的,语料是用户搜索的真实query,用一个相对准确的词典(品牌词/产品词/属性词/地址词)去标注语料。具体的标注预料如下所示:

    • 爱 B-brand 他 I-brand 美 I-brand 奶 B-product 粉 I-product 三 B-attr 段 I-attr

    训练出的模型对于地址,品牌词,产品词的识别准确率平均95%左右,英文属性词的识别准确率还有待提高,crf模型还有一个比较好的地方是具有一定的泛化能力。另外,模型的训练是使用考拉平台上的商品数据,所以对非考拉平台的产品和品牌识别的准确率也不理想。但是,最重要的是识别本平台已有的实体,尽可能准确的向用户展示最准确的商品搜索结果。

    2.2 query改写

    query改写包括:query纠错,query扩展,query删除,query转换。本文主要讨论在考拉中常用的query扩展,query删除和query转换。

    2.2.1 query扩展

    搜索召回依赖索引数据,商品数据依赖于编辑运营的录入,数据的完整性很难得到保障,也就是说很难从各个角度来描述这个商品。

    还是用例子说明,一个商品的标题是“Fisher-Price 费雪 碎花儿童学步鞋”,由于用户输入的差异性存在,会有用户搜索”婴儿鞋”,”宝宝鞋”。很明显这个学步鞋恰恰用户所需的商品,但是因为数据的不完整性而无法被召回。这就是前文提到的有商品却无法展示给用户,这是最不希望遇到的情况。这时候就需要用到query扩展,我们会维护一个同义词扩展表,当用户输入一个query的时候,会进行同义词扩展,从而尽可能召回所有与用户相关的商品。

    2.2.2 query删除

    query删除一般的应用场景是在当用户输入query过多时导致无法正常召回,可以通过丢词的方式来筛选用户的query,从而召回与query最相关的商品。

    依旧用例子说明,当用户的query为”卡乐比水果麦片”时,由于这款商品可能被下架,或者商品种类较少,通过query删除,可以把原query改写为“水果麦片”,进而可以召回其他品牌的水果麦片。query删除是需要用到实体识别的,因为要决定query中的哪些数据被删除才能对用户原意图造成的影响最小。像”卡乐比水果麦片”,通过意图识别得到”卡乐比“是品牌,”水果麦片“是产品,显然用户更需要的是水果麦片,而不是“卡乐比”其他类型的麦片。

    2.2.3 query转换

    会存在这样一种情况,确实没有商品是满足用户的明确需求。 比如,用户搜索”祖马龙”,考拉海淘并没有这款商品。也无法通过query同义词扩展和query删除来对原query进行处理。通过session数据可以发现,用户搜索“祖马龙”后会伴随着“香水”这个query出现,利用用户行为数据是可以挖掘出“祖马龙”和”香水”这两个query是相关的。当用户搜索”祖马龙”而无法召回时,是可以把query转换为”香水”来尽可能满足用户的需求。

    2.3 类目相关

    当用户搜索“Adidas”的时候,是想要搜索“运动鞋”,还是“衣服”,又或者是“沐浴露”。当然,你可能说不同的用户有不同的需求,这就涉及到个性化搜索的内容了,暂时不在本文的讨论范围内。如果用户行为数据足够多,直接使用统计分析就可以找到query对应的类目相关程度。当然,统计算法也是机器学习的一种。但是,仍有一部分问题是需要机器学习算法来完成的。

    通过对用户行为数据的挖掘,发现“Adidas”对应的类目相关性排序为:运动鞋>衣服>沐浴露。当用户搜索“Adidas”的时候,会按照类目相关性的顺序,将运动鞋排在最前面。当然,考虑到多样性,排序时会通过类目打散将衣服和沐浴露适当的掺杂在运动鞋中。

    query的类目相关性是通过用户行为数据进行挖掘的,一些长尾的类目虽然与query相关,由于马太效应却无法被挖掘。比如query“面膜”所挖掘出的相关性类目为“男士面膜”/“女士面膜”/“面膜粉”等,而“孕妇面膜”这个类目却一直处于不相关的状态。其实,“男士面膜”/”女士面膜”/”面膜粉”/“孕妇面膜”在”面膜”这个维度都是相关的,我们通过虚拟类目的做法来解决这种长尾问题。离线将这四个类目归一为一个虚拟类目,当用户的query落在虚拟类目中的大部分类目时,认为这个query与虚拟类目包含的其他类目也具有相关性。

    2.4 Term Weight

    中文自然语言处理的第一步就是分词,分词的结果中,每个词的重要性显然应该时候区别的。Term Weight就是为了给这些词不同的打分,根据分值就可以判断出核心词,进而可以应用到不同的场景。比如,有一个商品的标题为“碗装保温饭盒套装”,通过Term Weight可以得到核心词为“饭盒”。当用户搜”碗”召回这个商品的时候,是可以根据term weight来进行排序降权的。

    通过以上几点可以看出,query意图识别在一个搜索系统中是必不可少的,可以说query意图识别的精确程度高低决定着一次搜索质量的优劣。


    展开全文
  • 探讨用户搜索意图

    2011-03-02 13:16:17
    讨用户搜索意图  用户搜索意图,可以理解为用户通过搜索希望获取到的信息,可以量化为用户希望得到的检索结果集。根据意大利学者米扎罗的理论,用户的信息需求可以为分四个层次:一是用户的潜在的真实信息需求...

    讨用户搜索意图

           用户搜索意图,可以理解为用户通过搜索希望获取到的信息,可以量化为用户希望得到的检索结果集。根据意大利学者米扎罗的理论,用户的信息需求可以为分四个层次:一是用户的潜在的真实信息需求(RIN),二是用户感知或意识到的信息需求(PIN),三是用户表达出的信息需求(Request),四是检索时的检索式(Query)。用户在实际检索系统中提出的检索关键词等检索式请求,只是用户真实意图真实需求的很小一部分,这被兰卡斯特形象地比喻为“冰山之角”。因此通过用户检索时关键词等信息推测出用户想表达的信息需求甚至是真实的信息需求,使检索结果更能满足用户的需求。

    一、如何分析用户搜索意图

    分析用户搜索意图不能凭空想像,必须以对相关数据的分析作为依据。目前主要可以利用的方式有用户直接调查和用户行为分析两种途径。

    用户直接调查是指通过各种方式向用户调查他们的搜索意图,如电话采访、调查问卷、网络问卷等方式。

    用户行为分析是指通过分析用户的检索行为、用户对检索结果的满意程序及用户对结果的反应、反馈等来探测用户的真实意图。目前主要可以通过搜索引擎检索词分析、通过用户点击流分析等方式。目前大多数搜索引擎都对搜索关键词相行了分析,如对百度搜索关键词进行观察和研究,利用百度搜索风云榜、百度指数、网站统计等搜索分析,可以总结出百度搜索用户的意图。在对搜索关键词分析时可以采用多种方法,比较成功的有中心词分析、历史搜索关键词、语义分析、语境分析、点击统计分析、最后关键词优先等手段。

          二、用户搜索意图分析

    根据一些网友对百度等搜索引擎的分析,可以将用户所要搜索的内容分为如下几类:

    1、搜索网站(33%)

    搜索网站在用户的主要搜索关键词中占了相当一部分比例。现在用户记住网站时,大多只会记住网站的中文名,很少有用户去记住网站的确切域名。在要访问某个网站的时候,大多数用户是通过baidu、google等综合性搜索引擎输入网站中文名来找到网站,通过搜索引擎提供的键接地址来访问网站。能记住超过10个以上域名的网民的数量还属于少数,而且以后也会是少数,在这样的情况下,搜索引擎的第一大的作用就是“搜索导航”。

    2、资源和下载型(31%)

    这一类的搜索包括有软件、影音、PDF、WORD等下载资料。网络的一大好处就是有很多免费资源下载。例如搜索360时多数用户希望得到360的下载地址,输入卡巴可能希望得到卡巴的下载或者卡巴KEY的下载地址。

    3、信息型(16%)

    这类信息包括一般的网络新闻、相关知识、娱乐信息等。网络是一个大平台,较多的用户利用网络作为获取社会信息的平台,以使自己不至于在同类中感觉落伍了,同时网络是一个大的学习环境,网络中存在大量的知识类信息。这些知识类信息的搜索主要为工作或学习服务。以软件公司为例,老板让员工做一个东西时,可能员工当时并不会写那样的程序,但是如果有网络通过GOOGLE等搜索引擎,员工是很容易上手的。如果没有网络,那么他就得下岗了。

    4、seqing类(13% )

    艳照门照片新浪不敢登,搜狐也不敢登,QQ也不敢弹(顶多弹个带马赛克的)。于是大家一起搜,而且还得搜“最新”“视频”“全套”“打包”等。97sese、丁香成人等XX站经常被封IP、换域名,根本记不过来,直接百度搜。顶着钓鱼网站、中毒中马也不怕!没事还搜搜张筱雨人体艺术休闲下。

    5、财经股票类(4%)

    这无须多说,与股市和金融有关的。这部分是广大股民利用较多的吧。

    6、商业相关(B2C,C2C,以及有可能产生消费的流量,占4%)

           真正意图上的搜索商品信息,能带来一定的消费流量。从整体来看,该部分只占4%。而真正能带来消费的可能就更少了。

    同时雅虎的研究专家Andrei Broder将搜索者的意图分为三类:

    1、导航型搜索者 要寻找特定的网站(可能因为他们不知道确切的网址),使用的搜索请求如“新浪”或者“网易”。

    2、信息性搜索者 需要信息来回答他们的问题或者要了解新的主题,使用的搜索请求如“什么是SEO”或者“网站优化”。

    3、交易型搜索者 想要做些事情(买东西、注册、参加竞赛等),他们使用的搜索请求如“悉尼天气”或者“NOKIA5200如何解锁”。

    三、分析用户搜索意图的意义

    1、利用搜索引擎营销。通过分析用户的搜索行为,分析是哪些人在使用搜索引擎,这些人是不是产品的购买者或潜在购买者,用户搜索的最终目的是想获取信息,还是购买产品。通过分析交易型搜索者与信息型搜索者在搜索关键词的输入等搜索请求的差别,通过各种网搜索引擎优化(SEO)技术和方法,增加真正有购买意图行为的用户访问量,从而达到网络营销的目的。

    2、改进搜索引擎。现有的第二代搜索引擎的工作方式是用户提交搜索关键词,搜索引擎根据该关键词查找出包括该关键词的网页,并以结果集的形式返回给用户。而搜索引擎并没有对该关键词进行分析,没有真正的理解用户的搜索意图。

    现有的搜索引擎也根据用户的搜索意图做了一些改进。例如百度通过加入百度百科、百度知道将大量的信息型用户留在百度内部,形成一个搜索引擎闭环,通过该闭环改进搜索结果。但仅仅有这些还是不够的,它还是只以关键词作为搜索的依据的。例如用户搜索“感冒”,其本意可能有两种,(1)想了解感冒的一些特征,病因;(2)患感冒了想找一些感冒的药物和治疗方法。一般搜索引擎只会查找出包括有“感冒”的网页,而不会查找与“感冒”密切相关的关键词,如某种感冒药、感冒特征、病因。而且在结果排序上,也存在相关性不大的问题。

    不过,已有一些搜索引擎尝试着根据用户的搜索意图做出一些改进。“http://www.cluuz.com/” 搜索引擎已尝试对用户的意图进行分析,做搜索结果更能符合用户的搜索意图。不过该搜索引擎的不足在于其结果集太少,索引的网络资源太少。雅虎也推出“雅虎搜索助手”,以改进其网络搜索功能,使其能够更好理解用户的搜索意图。该方式是搜索引擎通过提供相关的搜索建议词来帮助用户利用搜索引擎能理解的关键词来表达其真实意图,从而尽可能减少用户意图结果集与关键词的搜索结果集的差距。这种方式在GOOGLE和百度等搜索引擎中也有应用,百度的相关搜索,GOOGLE的搜索下拉提示框等都是该方面的改进。此外,雅虎还推出了“搜索捷径”功能,利用用户的评价来为搜索者提供参考,而增强用户的搜索满意度。

    3、社会意义。通过分析用户的搜索意图,可以分析出时下大众对什么比较感兴趣,社会思潮的变化等社会性结论。

    展开全文
  • 搜索行为及其意图搜索行为 目前已经成为了每个上网的人的基本需求,但是用户的搜索行为是怎样一个过程?隐藏在用户查询背后的搜索意图是什么?这都是需要仔细研究的领域,只有这样才能提供更好的用户体验。 用户...
  • 最近读了“大数据杂谈”公众号上的一篇文章“搜你所想”之用户搜索意图识别,主要讲了搜索意图识别主要的步骤和一些方法,觉得讲得挺详细的所以根据文章内容绘制了脑图,方便以后回顾。
  • 电信设备-基于搜索交互信息和用户搜索意图的词义提取方法.zip
  • 使用意图层次结构评估搜索结果的多样性
  • 基于用户意图识别的元搜索组推荐机制
  • 现在,网易视频云与大家分享一下搜索意图识别浅析。 对于搜索引擎来讲,很多情况下只需要用户在搜索输入框内输入所需要查询的内容就可以了,其余的事情就全部交给搜索引擎去处理。理想的情况下,搜索引擎会优先返回...
  • 用户搜索行为及其意图浅析

    千次阅读 2014-04-25 09:50:08
    隐藏在用户查询背后的搜索意图是什么?这都是需要站长、营销人员仔细研究的领域,只有这样才能提供更好的用户体验。  用户搜索行为  用户之所以会产生搜索行为,往往是在解决任务时遇到自己不熟悉的概念或者...
  • 咨询方法-搜索结果驱动的查询意图标识.zip
  • 搜索引擎广告点击率的多少直接影响搜索引擎的收入,而深入分析用户查询的广告点击意图则是提高广告点击率的基础性工作.针对与此,基于商用搜索引擎的用户查询点击日志,统计分析了搜索引擎用户查询的广告点击率,...
  • 用户搜索意图的理解及其难点解析 搜索引擎涉及的技术非常的繁复,既有工程架构方面的,又有算法策略方面的。综合来讲,一个搜索引擎的技术构建主要包含三大部分: 对 query 的理解 对内容(文档)的理解 对 ...
  • 搜索引擎算法体系简介 排序和意图篇 刘珊瑞 2018.03.17 shanrui.liu@ 1 个人简介 搜索引擎 8年搜索引擎从业经验曾就职于搜狗搜索腾讯搜搜 带领团队搭建搜狗VR平台并进行多次重大升级改版构 建垂直搜索若干 涉及NLP...
  • 搜索引擎的查询意图识别(query理解)
  • 基于本体推理的搜索意图识别与应用,郭健,郑岩,随着网上的数据每日都在海量且无止尽地增加,精确、快速地搜索到自己想要的信息显得尤为重要。如果能改变传统搜索引擎基于
  • 搜索引擎基本原理及实现技术——用户查询意图分析.pptx
  • 关键词排名必先了解用户搜索意图

    千次阅读 2015-08-15 16:30:10
    我们在做关键词排名研究的时候,确定关键词用户意图是一件非常开心的事,我们可以知道那些词可以定义为核心,那些词归类为长尾,并...搜索词 查询次数(假设) 意图 价值 搜浪 100 导航型 低
  • 基于地理-时间意图和偏好个性化Web搜索框架GT-Wsearch
  • 最近调研了下查询理解的相关知识体系 分享个前段时间阿里对外分享的一个电商查询理解的PPT: 【搜索推荐直播系列第三场】开放搜索行业智能搜索技术介绍-电商查询理解-20191105 ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 35,038
精华内容 14,015
关键字:

意图搜索