精华内容
下载资源
问答
  • 关键词的匹配方式和选择方式
    2017-11-16 15:06:00

    百度竞价最主要的产品是关键词,针对的用户群体是企业,消费群体是消费者,展现的样式是广告(创意)。消费者搜索的关键词是多种多样,不同的关键词针对的产品不同,特别是在百度竞价中每个关键词都需要你去研究到底需不需要购买。同时为了控制竞价账号的消费及ROI,我们需要去了解关键词匹配方式。
    一、关键词匹配方式种类

    网民搜的词与选的关键词匹配在一起,相关时,也能展现广告创意。企业通过设置匹配方式,来决定网民搜索词与关键词的对应关系。关键词匹配方式主要分为以下几种:广泛匹配、短语匹配(短语核心包含、短语同义包含、短语精确包含)、精确匹配。

    关键词匹配方式


    二、关键词匹配方式详解

    1、精确匹配

    网民搜索词与关键词一模一样时,才展现广告创意
    如:关键词:SEM优化——精确匹配
    网民搜索:“SEM优化”——能展现
     “SEM 优化”——看不到
    表示方式:[关键词]
    受众范围最小

    2、短语匹配

    核心>同义>精确

    (1)、短语-精确包含

    表现方式:“[关键词]”
    受众范围:
    (1)网民搜索词与关键词一模一样
    (2)网民搜索词完全包含关键词时,能展现
    举例:关键词“英语培训”——短语精确包含
    网民搜索:“英语培训哪家强”——能看见
    “英语培训费用”“英语培训价格”“英语培训哪家好”“北京英语培训”“最好的英语培训在哪”——能看见
    “英语 培训”“英语语法培训”“培训英语”——看不见

    (2)、短语同义包含

    表示方式:“关键词”
    受众范围:
    (1)完全一致
    (2)完全包含关键词时
    (3)关键词的变形词
    a、语序颠倒
    关键词:英语培训——短语同义包含
    网民搜索“培训英语”——能看见
    b、允许中间插入词
    关键词:英语培训——短语同义包含
    网民搜索“英语 培训”“英语口语培训”“英语语法培训”——能看见
    c、允许同义词
    关键词:英语培训——短语同义包含
    网民搜索“英语学习”“外语培训”“英文培训”“英语教学”——能看见

    (3)、短语核心包含

    表示方式:“{关键词}”
    范围:(1)完全一致
        (2)完全包含
        (3)关键词的变形词(1.允许语序颠倒2.允许中间插入词3.允许同义词)
        (4)支持核心部分的变形(跟核心部分沾边就行)
    举例:关键词“北京英语培训哪家好”——短语核心包含
    核心部分“英语”或“培训”或“英语培训”……由百度判定,不一定判断准确
    如果百度系统判定“英语”为核心部分,与“英语”沾边就行
    网民搜索“英语学院”“英语交流”“英语成绩”“英语有什么好处”“英语论坛”“英语课本”“英语考试”“英语老师”……
    导致后果:锁定潜在消费者定位不准确,会浪费广告费
    短语核心包含受众是否准确,以系统判断的核心部分来看,如果系统判断核心部分不准,锁定网民就不精准

    3、广泛匹配

    表示方式:没有符号
    受众范围:
    (1)完全一致
    (2)完全包含
    (3)关键词变形词
    (4)与核心词沾边
    (5)允许错别字、拼音、英文
    举例:关键词“英语培训”——广泛匹配
    网民搜“音域培训”“yingyu培训”“yingyupeixun”“english培训”——能展现
    (6)与关键词沾边就行
    举例:关键词“英语培训”——广泛匹配
    网民搜“英国”“语文”“培养”“实训”“挖掘机培训”“新东方培训”……
    受众范围非常广,导致后果,锁定潜在消费者很不精准,浪费广告费,没转化
    既然可以利用匹配方式锁定更多网民,是不是只买一个词,开广泛或者短语核心包含就行了?答案肯定是:不行。
    (1)要锁定精准的潜在消费者
    (2)不同的关键词质量度不同,点击价格也不同
    假设:网络营销培训——点击价格20元
        北京网络营销培训——点击价格10元
        北京网络营销培训哪家好——点击价格5元
    如果:只选了“网络营销培训”——短语同义包含
    网民搜索“北京网络营销培训”“北京网络营销培训哪家好”——都能看见广告
    此时网民点击广告,点击价格是:20元
    用A关键词匹配出来的网民,网民点击后,点击价格以A关键词点击价格为准

    三、如何使用匹配方式

    1、找到更多的适合公司推广词:至少不重复关键词2000个左右
    2、加好词以后,将所有关键词匹配方式设为精确匹配,目的控制成本
    3、推广一段时间,经过数据分析后,找出转化效果好且成本低的词,可以选择将匹配方式扩大到短语精确包含

    转载于:https://www.cnblogs.com/szwh/p/7844452.html

    更多相关内容
  • 关键词匹配模式

    千次阅读 2021-03-13 00:13:30
    网民搜索时,系统会自动挑选对应关键词,将推广结果展现给网民,企业可以通过搜索匹配方式,来决定网民搜索词与关键词的对应关系。

    匹配模式的定义 又叫关键词匹配方式

    网民搜索时,系统会自动挑选对应关键词,将推广结果展现给网民,企业可以通过搜索匹配方式,来决定网民搜索词与关键词的对应关系。

     

    匹配模式的分类:

    精确匹配、短语匹配、智能匹配-核心词、智能匹配。

     

    精确匹配:广告主提交的关键词及关键词的同义变体,会与用户的搜索保持整体精确一致,来帮助广告主精确竞争目标流量。

    字面相同的情况下,搜索词中有空格也能精确匹配不带空格的关键词

     

    短语匹配:广告主提交的关键词或关键词的同义变体,会被包含在用户搜索词中,或是在意思一致的前提下,于搜索词的前中后插入或变换顺序,如系统识别出关键词的类目能包含搜索词,也能获得展现机会。

     

    智能匹配-核心词:系统将会自动圈定该关键词中的核心词语。您也可手动圈定核心词,需在新建关键词时,在所需圈定的核心词两侧添加大括号后直接添加,

     

    智能匹配:使用智能匹配模式,当广告主提交关键词,会被系统智能理解并匹配出搜索意图相关的用户搜索词,帮助广告主触达大量的潜在客户。

     

    否定关键词

    分为短语否定关键词和精确否定关键词两种,

    匹配模式的定义 又叫关键词匹配方式

    网民搜索时,系统会自动挑选对应关键词,将推广结果展现给网民,企业可以通过搜索匹配方式,来决定网民搜索词与关键词的对应关系。

     

    匹配模式的分类:

    精确匹配、短语匹配、智能匹配-核心词、智能匹配。

     

    精确匹配

    广告主提交的关键词及关键词的同义变体,会与用户的搜索保持整体精确一致,来帮助广告主精确竞争目标流量。

    字面相同的情况下,搜索词中有空格也能精确匹配不带空格的关键词

    以关键词“英语培训”为例,在精确匹配下:
    1.能触发推广结果的搜索词:英语培训、培训英语、英文培训。
    2.不能触发推广结果的搜索词包括:包含关键词的搜索词:例如暑期英语培训、北京英语培训。网民的搜索习惯千差万别,在表达对同一种产品/业务的需求时,他们可能使用的搜索词是多种多样的。2020年升级的精确匹配,广告主不再需要一一罗列网民可能使用的搜索词,作为关键词提交到系统中来,从而避免因为罗列不完全,而大大降低获取潜在客户的机会

    当您设置的关键词中,包含地域词时,位于该地域(按IP地址来判断)的网民搜索除去地域词以外的部分,也可能展现您的推广结果。例如您设置了关键词“上海光伏电缆”(精确匹配),位于上海的网民在搜索“光伏电缆”时也可能会看到您的推广结果,位于上海以外的其他地区网民搜索“光伏电缆”则不会展现您的推广结果。

     

    短语匹配

    广告主提交的关键词或关键词的同义变体,会被包含在用户搜索词中,或是在意思一致的前提下,于搜索词的前中后插入或变换顺序,如系统识别出关键词的类目能包含搜索词,也能获得展现机会。

     

    智能匹配-核心词:

    系统将会自动圈定该关键词中的核心词语。您也可手动圈定核心词,需在新建关键词时,在所需圈定的核心词两侧添加大括号后直接添加,

     

    智能匹配:

    使用智能匹配模式,当广告主提交关键词,会被系统智能理解并匹配出搜索意图相关的用户搜索词,帮助广告主触达大量的潜在客户。

     

    否定关键词

    分为短语否定关键词和精确否定关键词两种,

    星级客户否定关键词数、精确否定关键词IP屏蔽数
    未生效客户200个200个200个
    一星权益客户200个400个300个
    二星权益客户400个700个300个
    三星权益客户500个900个300个


    1.目前搜索推广系统提供否词量包含200个短语否和200个精确否。相对对大账户而言,这个数值可能是不够的。所以否定关键词的设置,很重要的一点就是合并同类 项的能力,而不是看到不相关的关键词精确否定掉了事,还得有预见性。以合适的方式否定掉将来可能出现的其他不相关搜索词。预见性很重要,筛选出来无效关键词后,要进行分析。每个无效关键词背后可能是一类无效人群。一定要分析无效词产生的原因,可以借助关键词工具去拓展相关无效词,要有关键词敏感度。

    2.优先考虑短语否定,再考虑精确否定。这个顺序很重要。能短语否定的尽量短语,因为精确只能否定一个词。当然,有些词只能精确否定(点击高的单名词),关键词匹配方式也很重要而且两者需要相互配合。

    3.否定关键词列表也需要不断去补充、完善、合并及优化的,定期查看搜索词报告,即时监控无效流量,除了每天的查看之外,还可以按周、按月、甚至按业务周期查看。这样对某个时间段的无效关键词流量有一个全局的观念。

    4.作为SEMer平时整理一份自身行业常用的否定词,在新建计划的同时就可以直接添加进去。例如招聘的“聘”、“招工”、“案例”、“模板”、“素材”、“图片”、“视频”等等这些对于多数行业都是通用的否定词。

    冷门否定关键词:指的是那些至少90天内没被网民搜索过的否定关键词,这些否定关键词虽然存在于账户中,但实际上近期并没有网民搜索过,所以没必要再将其设置为否定关键词,占用否词额度。

     

    否定关键词的使用技巧

    注意:

    选择否定词的步骤

    优先考虑单字否定词,随后考虑多字否定词

    否定词优先级

     

    关键词匹配模式整体策略

    避免账户结构混乱:假设账户由100个词组成,其中20个词为核心关键词,80词为普通长尾词。

     

    避免搜索词匹配混乱

    核心词计划做短语匹配时,会出现以高价关键词匹配低价搜索词的现象

    避免搜索词匹配混乱

       
        
        
        
        


    1.目前搜索推广系统提供否词量包含200个短语否和200个精确否。相对对大账户而言,这个数值可能是不够的。所以否定关键词的设置,很重要的一点就是合并同类 项的能力,而不是看到不相关的关键词精确否定掉了事,还得有预见性。以合适的方式否定掉将来可能出现的其他不相关搜索词。预见性很重要,筛选出来无效关键词后,要进行分析。每个无效关键词背后可能是一类无效人群。一定要分析无效词产生的原因,可以借助关键词工具去拓展相关无效词,要有关键词敏感度。

    2.优先考虑短语否定,再考虑精确否定。这个顺序很重要。能短语否定的尽量短语,因为精确只能否定一个词。当然,有些词只能精确否定(点击高的单名词),关键词匹配方式也很重要而且两者需要相互配合。

    3.否定关键词列表也需要不断去补充、完善、合并及优化的,定期查看搜索词报告,即时监控无效流量,除了每天的查看之外,还可以按周、按月、甚至按业务周期查看。这样对某个时间段的无效关键词流量有一个全局的观念。

    4.作为SEMer平时整理一份自身行业常用的否定词,在新建计划的同时就可以直接添加进去。例如招聘的“聘”、“招工”、“案例”、“模板”、“素材”、“图片”、“视频”等等这些对于多数行业都是通用的否定词。

    冷门否定关键词:指的是那些至少90天内没被网民搜索过的否定关键词,这些否定关键词虽然存在于账户中,但实际上近期并没有网民搜索过,所以没必要再将其设置为否定关键词,占用否词额度。

     

    否定关键词的使用技巧

    注意:

    选择否定词的步骤

    优先考虑单字否定词,随后考虑多字否定词

    否定词优先级

     

    关键词匹配模式整体策略

    避免账户结构混乱:假设账户由100个词组成,其中20个词为核心关键词,80词为普通长尾词。

     

    避免搜索词匹配混乱

    核心词计划做短语匹配时,会出现以高价关键词匹配低价搜索词的现象

    避免搜索词匹配混乱

    展开全文
  • 点击上方DLNLP,选择星标,每天给你送干货!来自:CS的陋室近期在做一些有关FAQ的工作,即问答型对话,比较常见的就是客服场景,用户问一个问题,机器人能库里面找到最接近的答案并且返回给用...

    点击上方DLNLP,选择星标,每天给你送干货!


    来自:CS的陋室

    近期在做一些有关FAQ的工作,即问答型对话,比较常见的就是客服场景,用户问一个问题,机器人能库里面找到最接近的答案并且返回给用户,即Q-A的模式,或者是找到库里面最接近的问题再把其答案返回给用户,即Q-Q-A的模式,由于直接算相似度会比较简单,因此后者经常被当做首选。

    本期谈到的文章来源:keyword-attentive deep semantic matching。

    背景

    先来聊聊我专门谈这篇文章的背景,我们来看问答类场景的case:

    • 浴缸的尺寸是什么样的

    • 你好,春节还送快递吗

    • 核桃有什么口味

    • 我新买的switch,怎么屏幕最近突然变蓝色了

    可以看到其实很多问题都有一个特点,那就是关键词:

    • 浴缸的尺寸是什么样的-浴缸、尺寸

    • 你好,春节还送快递吗-春节、快递

    • 你们的核桃有什么口味-核桃、口味

    • 我新买的switch,怎么屏幕最近突然变蓝色了-switch、屏幕、蓝色

    另外,还想谈的是,做语义匹配表面上是为了完成一个分类任务,实际上其实是一个表征任务,我们需要构建的语义空间不仅仅是为了用超平面去切割语义分块,还有一个深层次的任务,我这里想解释为“排除异己”,我希望把和自己通语义的全部划分到一个尽可能接近的簇,而与我不同的则是离我尽可能远,这是一个比分类还要难很多的问题,我这里用今天要讲的论文作show case:

    • 哪些因素会影响中国的GDP。

    • 哪些因素会影响美国的GDP。

    • 中国房价的影响因素。

    • 说说中国GDP的影响因素。

    可以看到,我们是希望1和4离得近可能进,还有一个任务是要把2和3拉的和1和4远,这个所谓的“表征”任务,或者说度量学习其实才是语义匹配的一个更高级的任务。

    而我们发现,我们找到这些关键词,其实就可以很容易找到匹配的问题,与其他的词汇关系不大,因此,一方面我们要识别好关键词,另一方面我们用好这些关键词,相信效果会有非常明显的提升。

    今天想谈的文章来自于腾讯的论文:keyword-attentive deep semantic matching。该论文主要讲述的是如何识别和应用关键词,来提升匹配的效果。

    思路

    前面提到,要用关键词来做语义匹配计算,那需要在原来的语义匹配方案基础上再多做两件事情——识别关键词和应用关键词。

    识别关键词

    识别关键词的方法,有点奇妙,虽然问题从传统搜索时代就已经有的讨论,其实没有像其他领域蹦出什么可以被称为统治级别的方案,当然也有attention能一定程度充当这个功能的原因吧,在这篇文章中提到的,关键词抽取同样不是什么高端的玩法。

    文章提出的是一种基于领域(domain)的关键词抽取方法,文章是用了超过1kw的数据,来划分领域对各个领域的词频进行统计来完成关键词抽取。整个思路是这样的:

    在此之前,然后使用PMI(point wise mutual information)来进行新词发现,PMI主要用于衡量两个字/词的紧密度,当紧密度达到一定的程度,就可以认为这两个词足够接近。

    然后开始做关键词抽取,这个关键词某种程度上说还是有不小的启发的,由于关键词和领域有很大关系,但是我们又不得不面对开放域的问题,因此可以通过领域维度把关键词抽取给做起来,这个指标作者成为

    这里的 表示的是不属于这个领域的词的重要性,另外作者这里用df而非tf的原因是词汇的文档频率比词汇本身的频率要更重要,这点和我之前做的经验一致,说白了就是出现该词汇的文章越多这个词越不重要,例如中文的“的”就很高频,所以他不重要。而idf的相减实质上要体现的是这个领域内这个词的重要性,即这个词更有领域的特殊性。

    应用关键词

    如果说识别关键词的方法不够塞牙缝,那大可作为前菜,主菜当属应用关键词这块了,作者把前面提到的关键词信息诸如到模型里面。

    整体模型架构是这样的:

    常见的两层transformer,然后开始分两块,左边正常走不过只去CLS的向量,右边则是走了一个完整地keyword attention layer,即这一块只关注关键词,这些关键词表示为,这些词才过transformer,然后输出的矩阵通过平均池化归结为向量 ,这个两个变量都是一定程度借两者的关系丑的关键词来做分析的结果,而为了更加深入的对比两者关系,作者又造出了新的向量:

    说实话这个 的含义我不太确定,文章说的是一个连接符,直接concat吗,但是左右两个其实就是一对相反数,两个拼接个人感觉用处没想象中大额,欢迎大佬解读。

    最后的匹配层吸取了直接transformer、keyword attention layer的两个输出以及 给concat起来,然后就是全连接降维预测了。

    构造负样本

    这里小标题是负采样,但我更想叫构造负样本,文章说的方法其实我们很多时候都已经用到了,就是用搜索的方式先找一批文本层面相似的,然后用阈值卡得到一批负样本,文章别出心裁的使用关键字重叠率来作为判断的指标:

    另外还有一个方法就是通过一些槽位的替换来达到特定的效果。

    实验

    有关实验,不太想聊实验结果,而是这个数据的准备的确给了我不小的启发。

    • 训练的正负样本的构建,负样本使用的是本文的方法,而正样本则来源于ES查询TOP5的人为复核样本。

    • 测试集则是人工复核产生的。

    小结

    我读的语义相似度文章不多,这篇来自一位前辈的推荐,这篇文章的确很击中我目前在思考的QA匹配的一个点——关键词问题,尤其是问答型的文本语义匹配,诚然我已经能明确认识到关键词的相似为整个句子的相似带来关键作用,一般关键词准了整个句子含义也就差不多了,这篇文章给出了一种简单的方式来实现了这个想法,思路非常值得借鉴,文章没有源码,我只能自己探索,找到最适合我面临的问题的方式。

    另外,语义相似度对文本质量要求很高,hard case对一个好模型的产生起到了至关重要的作用,文章中提到的样本生成和筛选都是很有借鉴意义的,这里也可以mark一下。

    说个正事哈

    由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:

    (1)点击页面最上方深度学习自然语言处理”,进入公众号主页。

    (2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。

    感谢支持,比心

    投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

    方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

    记得备注呦

    推荐两个专辑给大家:

    专辑 | 李宏毅人类语言处理2020笔记

    专辑 | NLP论文解读

    专辑 | 情感分析

    
    整理不易,还望给个在看!
    
    展开全文
  • 政府网站发布的文本信息,如何及时有效的推荐给相关企业,我们采用的是利用文本(项目文本)中的关键词与每个领域的概念描述(相关的关键词)进行匹配,得出结果,来判断文本与哪个领域关联性最强。 二、研究思路...

    目录

    一、研究问题

    二、研究思路

    三、技术路线

    3.1 构建领域概念网络​

    3.2 文本与公司推荐匹配 

    3.3 公司与项目推荐匹配

    ​四、相关数据

    4.1 政府网站文本数据

    ​4.2 领域概念数据

    五、代码实现

    5.1 文本匹配领域

    5.2 企业匹配领域


    一、研究问题

    政府网站发布的文本信息,如何及时有效的推荐给相关企业,我们采用的是利用文本(项目文本)中的关键词与每个领域的概念描述(相关的关键词)进行匹配,得出结果,来判断文本与哪个领域关联性最强。

    二、研究思路

    (1)构建领域概念网络;

    2)将公司划分到相关领域;

    3)将项目划分到相关领域;

    4)结合领域匹配,综合匹配度和项目发布时间等其他影响要素,实现公司和信息的相互推荐。

    三、技术路线

    3.1 构建领域概念网络

    (1) 通过百科数据和word2vec工具进行词汇扩展,结合知网论文关键词,选择种子词汇

    (2) 这些种子词汇与其他高频词汇一起作为关键词,通过所在文本关联在一起,构建概念关联网络

    (3) 结合信息熵算法约束非关键高频词的传播能力,利用改进标签传播算法迭代出整个概念网络

    结果展示

    左图以词云的形式展示了种子词汇和部分核心关键词,用来体现“人工智能”相关概念,右图以抽象形式体现了概念表达网络的内容,核心概念“人工智能”,扩展概念“自然语言处理”等,周围有许多词环绕。

    3.2 文本与公司推荐匹配 

     

    3.3 公司与项目推荐匹配

    公司与项目推荐匹配基于时间匹配度的两种推荐方式

    四、相关数据

    4.1 政府网站文本数据

    4.2 领域概念数据

    我们共关注12个领域

    每个领域关键词(例如新能源领域)

    新能源
    太阳能
    地热能
    风能
    海洋能
    生物质能
    ...
    水能

    五、代码实现

    5.1 文本匹配领域

    import os
    import numpy as np
    import pandas as pd
    class RecommendTo:
        def __init__(self):
            self.projectfilename = "E:/data/科创项目及政策汇总.xlsx"
            self.__keyworddict = self.test02()
            projs = self.test()
            projs = self.__evaluate_projects(projs)
            self.myprojs = projs
        def test02(self):
            dir = "D:/area_keywords_new/"
            keywordfilenames = []
            for filename in os.listdir(dir):
                if filename.endswith(".csv"):
                    keywordfilenames.append(filename)
                else:
                    continue
            keyworddict = {}
            for fname in keywordfilenames:
                keyworddict[fname.split('.')[0]] = np.concatenate(pd.read_csv(dir + fname).values)
            return keyworddict
        def test(self):
            projectfilename = self.projectfilename
            dir = "D:/area_keywords_new/"
            projs = pd.read_excel(projectfilename)
            return projs
        def __evaluate_projects(self, projs):
            # evaluate projects
            npprojs = projs.values
            projs_strs = []
            for item in npprojs:
                s = ""
                for area, keywords in self.__keyworddict.items():
                    count = 0
                    for keyword in keywords:
                        try:
                            # print(item[2],item[3])
                            if item[1].find(keyword) != -1:
                                count += 1
                            if item[3].find(keyword) != -1:
                                count += 1
                        except:
                            pass
                    if count != 0:
                        s += area + ":" + str(count) + ","
                s = s.strip(",")
                projs_strs.append(s)
            projs["area_rate"] = pd.DataFrame(projs_strs)
            projs.to_excel(self.projectfilename)
            return projs
    RecommendTo()

    5.2 企业匹配领域

    通过企业经营范围等相关描述信息将企业划分到相关领域

    首先对文本的经营范围列数据繁体转换为简体

    链接:https://pan.baidu.com/s/1nui8DyKcUmlw1qaqy3NXvA (提取码:dyyg )

    提示:需要将这两个代码文件和你的代码放在同级目录下,然后调用相关文件,实现如下代码

    #!/usr/bin/env python 
    # -*- coding:utf-8 -*-
    from langconv import *
     
    # 繁体转简体
    def TraditionalToSimplified(content):
        line = Converter("zh-hans").convert(content)
        return line
     
    # 简体转繁体
    def SimplifiedToTraditional(content):
        line = Converter("zh-hant").convert(content)
        return line

    经营范围列繁体字转为简体字,先读取数据,然后转换

    io = r'E://新评分及数据补全合并.xlsx'
    data = pd.read_excel(io, sheet_name = 0)
    data.head(10)
    range_old = data['经营范围']
    range_new = []
    for i in range_old:
        m = TraditionalToSimplified(str(i))         
        range_new.append(m)
    data['经营范围新'] = pd.DataFrame(range_new)     #数据存入Excel列
    data.to_excel(io)                             #数据保存

    企业领域划分

    import os
    import numpy as np
    import pandas as pd
    class RecommendTo:
        def __init__(self):
            self.projectfilename = "E:/新评分及数据补全合并.xlsx"
            self.__keyworddict = self.test02()
            projs = self.test()
            projs = self.__evaluate_projects(projs)
            self.myprojs = projs
        def test02(self):
            dir = "D:/深度之眼/study/area_keywords_new/"
            keywordfilenames = []
            for filename in os.listdir(dir):
                if filename.endswith(".csv"):
                    keywordfilenames.append(filename)
                else:
                    continue
            keyworddict = {}
            for fname in keywordfilenames:
                keyworddict[fname.split('.')[0]] = np.concatenate(pd.read_csv(dir + fname).values)
            return keyworddict
        def test(self):
            projectfilename = self.projectfilename
            dir = "D:/area_keywords_new/"
            projs = pd.read_excel(projectfilename)
            return projs
        def __evaluate_projects(self, projs):
            # evaluate projects
            npprojs = projs.values
            projs_strs = []
            for item in npprojs:
                s = ""
                for area, keywords in self.__keyworddict.items():
                    count = 0
                    for keyword in keywords:
                        try:
                            # print(item[2],item[3])
                            if item[11].find(keyword) != -1:
                                count += 1
                            if item[14].find(keyword) != -1:
                                count += 1
                        except:
                            pass
                    if count != 0:
                        s += area + ":" + str(count) + ","
                s = s.strip(",")
                projs_strs.append(s)
            projs["匹配领域"] = pd.DataFrame(projs_strs)
            projs.to_excel(self.projectfilename)
            return projs
    RecommendTo()

    展开全文
  • AC自动机是多模式匹配的一个经典数据结构,原理是KMP一样的构造fail指针,不过AC自动机是在Trie树上构造的,但原理是一样的。官方github: https://github.com/WojciechMula/pyahocorasick/ 文章目录1 安装2 ...
  • SEM的关键词规则、匹配模式、出价

    万次阅读 2017-08-07 20:32:49
    SEM3:关键词规则、匹配模式、出价 一、关键词状态:(百度一下:百度推广关键词状态 ) 审核中、有效、不宜推广(审核不通过)、暂停推广(人为手动暂停)     待激活:要百度客户管理系统帮你改好 暂停...
  • HTML字符串中匹配关键词高亮

    千次阅读 2020-12-05 23:16:36
    来源:木马啊转载自:https://wintc.top/article/59很久之前写过一个Vue组件,可以匹配文本内容中的关键词高亮,类似浏览器ctrl+f搜索结果。实现方案是,将文本...
  • 很久之前(好像刚好是一年前)写过一个Vue组件,匹配文本内容中的关键词高亮,类似浏览器ctrl+f搜索...当时的实现过于简单,没有支持接收HTML字符串作为内容进行关键词匹配。这两天有同学问到,就又思考了这个问题.
  •  站内广告关键词匹配方式有三种类型:广泛匹配、词组匹配、精确匹配。有很多卖家概括了一个逻辑,大词做广泛匹配、长尾词做词组匹配或精准匹配,这是没问题的。  假设你为你的产品设置的竞价关键词是W...
  • 分 析 电 子 邮 件 的 多 关 键 词 匹 配 算 法
  • 如今,竞价推广已成为网络营销中...做竞价推广最重要的就是关键词了,关键词选择是做百度竞价开始的一项基础操作,也是用户在百度投放广告之后为此能不能带来效果的一个关键之处,很多用户不是很懂百度的竞价系统,在
  • 实现关键词高亮在本质上是利用es的自定义ResultMapper功能,将匹配到的结果通过反射替换为加入高亮标识的片段的过程,对于这一点来说,网上相关文档数不胜数,并不是说完全不能用,但是对于聚合字段的处理基本是选择...
  • NLP之文本匹配及语义匹配应用介绍

    万次阅读 多人点赞 2019-07-11 18:11:57
    2 主题模型2-3 深度语义匹配模型表示型交互型3、语义匹配应用介绍3-1 短文本-短文本语义匹配3-2 短文本-长文本语义匹配案例1-用户查询-广告页面相似度案例2:文档关键词抽取3-3 长文本-长文本语义匹配案例3:新闻...
  • 公众号关注 “ML_NLP” ...基本定义是:给出问题q该问题的答案候选池 (s是池大小),目标是从答案池中找到可以准确回答问题最佳答案候选 。这项任务的主要挑战是正确的答案可能不会直接与问题共享词
  • 【NLP】深度文本匹配综述

    万次阅读 2021-06-29 22:07:28
    目 录 1.研究背景与意义 2.深度学习在自然语言处理的应用 3.深度文本匹配与传统文本匹配 4.深度文本匹配国内外研究现状 ...随着我国信息化建设的不断完善,生活变得更加便捷方便,与此同时,基于互联网...
  • 关键词出价

    千次阅读 2021-03-13 00:17:02
    排名是由您其他客户的质量度出价共同决定的,由系统实时调整。在关键词质量度不变的情况下,出价越高,排名就越靠前;在出价不变的情况下,质量度越高,排名就越靠前。如果想改善推广排名,既可以提升出价快速...
  • 怎样设置优化关键词让你在搜索引擎中排名靠前.pdf怎样设置优化关键词让你在搜索引擎中排名靠前.pdf怎样设置优化关键词让你在搜索引擎中排名靠前.pdf怎样设置优化关键词让你在搜索引擎中排名靠前.pdf怎样设置优化...
  • 在软件开发领域,任务指派数据关联是一种常见业务需求,比如买卖订单的匹配,共享出行的人车匹配,及自动驾驶领域中目标追踪。 这都牵扯到一种技术,那就是数据关联,而匈牙利算法就是解决此类问题最典型的算法,...
  • Excel表格匹配合并

    千次阅读 2021-06-02 15:45:52
    在日常的工作中,免不了存在多个表格根据相同数据匹配合并的情况,很多人会因为复杂的公式导致匹配失败或错误。接下来,我将用一个简单的方式完成这一个任务。 1、打开网址www.excelutil.com 2、 ...
  • Sphinx之匹配方式

    千次阅读 2016-12-14 00:37:14
    Sphinx添加了相当多的匹配rank模式...匹配方式有基础匹配模式拓展的匹配模式。 匹配本质 Sphinx 1.10版本中使用的两个最重要的权重因子是: 1)经典统计学BM25因子,从80年代开始被大部分的搜索引擎使用, 2)
  • 人工智能-机器学习-搜索竞价广告关键词优化算法与实验.pdf
  •   前言  代码很多都是参考网上有的(参考借鉴了下),融入自己遇到的需求,整理了下, 让大家少走点弯路。里面很多注释 没有详细注释,是因为带着关键字,百度很容易搜到解释。... 最主要的核心就是定位。...
  • 答 是人和人之间非常重要的沟通方式,其关键在于:我们要理解对方的问题,并给出他想要的答案。设想这样一个场景,当你的女朋友or老婆大人在七夕前一晚,含情脉脉地跟你说 亲爱的,七夕快到了,可以给我换个新手机...
  • 广告的匹配方式你会用吗?

    千次阅读 2013-11-20 11:19:45
    百度竞价系统关键词总共有四种匹配方式,用户可以在百度竞价后台根据自身需求自行设置关键词的匹配方式,很多人觉得关键词匹配没什么设置,不重要,我认为关键词的匹配设置好了,不仅可以为你节省许多推广费用,并且...
  • python实现关键词提取的示例讲解

    千次阅读 2021-02-10 14:05:01
    _今天我来弄一个简单的关键词提取的代码文章内容关键词的提取分为三大步:(1) 分词(2) 去停用词(3) 关键词提取分词方法有很多,我这里就选择常用的结巴jieba分词;去停用词,我用了一个停用词表。具体代码如下:...
  • e成科技人岗匹配中的匹配模型

    千次阅读 2019-07-23 16:14:50
    随着网络招聘的发展与壮大,网聘渠道积攒着数亿份...传统人岗匹配中通过对求职者简历的工作经历文本JD岗位信息进行文本挖掘,两者的技能能力是否契合作为判断JDCV是否匹配的重要依据。早期的人岗匹配版本基于t...
  • 用户提问的问题与语料库中的问题进行相似度匹配选择相似度最高的问题的答案作为回答。 聊天机器人 --- 检索式模型: 利用文本相似度实现问答的聊天机器人例子:  单看每一轮对话,效果似乎还不错...
  • 中文分词与关键词提取概述

    千次阅读 2019-10-16 15:22:10
    主要难点为中文不同于英文,存在明确的分隔符(如空格)用于切分词语,且不同的切分方式,不一定存在语病,举个例子: 结婚的/和尚/未结婚的人。 结婚的尚未结婚的人 基本概念 评价指标 一般,中文分词从...
  • 数据清洗,特征转换,特征选择,降维,异常数据处理及自然语言处理详细介绍。
  • 关键词提取算法概述

    千次阅读 2019-01-22 09:23:10
    关键词提取概述 概念 关键词是指能反映文本主题或者主要内容的词语。关键词提取是NLP领域的一个重要的子任务。在信息检索中,准确的关键词提取可以大幅提升效率;在对话系统中,机器可以通过关键词来理解用户意图;...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 53,646
精华内容 21,458
关键字:

关键词的匹配方式和选择方式