精华内容
下载资源
问答
  • 关键词优化推广需要怎么做?有哪些方法和技巧 当一个企业推广自己的网站时,通常需要先根据网站的主题...因此,当我们定位网站时,我们需要分析关键词确认目标关键词。我们可以扩展长尾关键词来驱动更多的长尾词并...

    关键词优化推广需要怎么做?有哪些方法和技巧
    当一个企业推广自己的网站时,通常需要先根据网站的主题筛选出适合自己网站的关键词,然后在拥有这些关键词后设计一套具体的推广计划。当我们执行促销计划的构建时,我们需要如何操作?关键字优化应该注意哪些方法和技术?  
     一、关键词分析  。 在网站中,我们需要分析网站本身的关键词。不同类型的企业对主要关键词有不同的选择。许多企业在产品中加入关键词,这也很难提升网站排名。因此,当我们定位网站时,我们需要分析关键词并确认目标关键词。我们可以扩展长尾关键词来驱动更多的长尾词并获得相关的排名。 

    二.竞争对手网站分析  
     当我们优化我们的网站时,我们需要对竞争对手的网站有一定的了解。我们需要分析对手网站的情况,包括他们的公关,记录状态和快照时间。站内优化包括标题、关键字描述、段落url处理以及目录页面和内部页面的优化。以及其外部优化、外部链接的数量和质量、友情链接和全站链接。针对这几个方面的分析,完成自己网站的规划。

     第三,找到你自己的网站  
    了解竞争对手的网站后,我们需要对自己的网站有一定的了解。在优化网站时,我们需要知道网站的维护和更新,包括外部链接和收藏等。你也可以使用seo工具来进行网站优化测试。分析完网站后,你可以清楚地定位你的网站,并知道下一步该做什么。

     第四,关键词布局 
    为了优化关键词,我们需要注意布局,注意密度,不要造成关键词堆积的现象。企业网站的主要目标关键字应该放在首页进行关键字优化,其他一些次要关键字可以分布到渠道页面或栏目页面进行优化,长尾关键字可以放在内容页面上。通过这种分布,我们可以根据优化的难度排列不同的关键字。 

    五、网站内容更新
     这里对网站的内容介绍不多。内容应具有基本的原创性和独特性。发表的文章应该是与我们的产品有一定相关性的原创文章。这类文章可以为用户创造良好的用户体验。  。

     六.外链的构造 
    不同的企业在构建外部链时,不仅要优化首页的关键词,还要在内容页上做一些栏目页或长尾关键词。请注意,当创建多个关键字链时,可以使用相同的url。  。 以上是我们在做关键词优化推广时需要注意的问题。无论是喜爱优化还是推广的关键,我们都需要在网站上有一个清晰的位置,优化是一样的,有目标、方法和技巧。在优化的时候会更方便,只有这样才能获得好的排名。

    展开全文
  • 古志强网络营销师: 关键词策略 关键词是SEO核心!...关键词决定了SEO的效果: ...网站上线之前确定关键词,上线后修改关键词对SEO不利。 一、关键词的选取原则 1.相关性原则 关键词与网站内容高度相

    古志强网络营销师:


    关键词策略

    关键词是SEO核心!

    关键词决定了SEO的效果:

    Index.baidu.com

    不同的关键词搜索量不同,同排名下给网站带来的流量不同!

    不同的关键词转化效果不同,给网站带来的转化业绩不同。

    什么时候确定网站关键词?

    网站上线之前确定关键词,上线后修改关键词对SEO不利。

    一、关键词的选取原则

    1.相关性原则

    关键词与网站内容高度相关(相关性越高越容易做出排名、相关性越高后期转化效果越好)

    2.符合用户的搜索习惯

    SEO/搜索引擎优化

    CMA/美国注册管理会计师

    3.用户搜索的多样性

    CMA、CMA是什么、CMA是什么意思

    网络营销、互联网营销、网络推广、网络运营

    4.关键词不宜过于宽泛

    服装/男士服装/男士商务服装

    房地产/北京房地产

    旅游/旅游资讯/三亚旅游资讯

    关键词越宽泛竞争度往往越大(难做出排名);关键词宽泛转化率低。

    5.关键词的商业价值

    不同的关键词转化率不同,转化率高的关键词商业价值高。

    企业站:精准性高、搜索量高。

    资讯站:关键词搜索量高。

    6.网站核心关键词

    给网站带来绝大多数流量的关键词。

    核心关键词数量:5-8个;

    核心关键词竞争度不宜过大(不易做出排名)

    核心关键词竞争度不宜过小(过小之后有排名没流量)

    核心关键词必须有搜索量!!

    二、关键词的拓展方法

    网站拓展关键词主要考虑关键词选取原则。

    网站主题:北京家庭装修企业站

    1.头脑风暴

    主要考虑具体的产品词、业务词。

    2.调研竞争对手的关键词(不要看广告)

    自然排名较好的网站的keywords中的关键词。(公司不与平台竞争)

    任务:调研3个竞争对手的关键词。

     

    3.搜索引擎相关搜索和推荐

    搜索不同关键词获取更多的推荐词。

    相关搜索和推荐的关键词更加符合用户的搜索习惯。

     

    4.关键词工具-百度关键词规划师

    www2.baidu.com

     

    注册账号时—完善信息—首页URL书写自己注册的域名。其他信息随便!!!

     

    拓展完的关键词需删除重复项!

    三、关键词的分析筛选

    1.精准度分析

    通过逆向思维考虑用户搜索关键词的需求,与网站内容/服务/产品是否相关。

     

    提问:卖“婷美减肥茶”,以下哪些关键词有效?

    减肥茶、减肥产品、运动减肥的方法、减肥茶价格、什么茶减肥、瘦身减肥茶、减肥茶有害、三九减肥茶、营养减肥、什么减肥产品好、轻松减肥、减肥产品排行榜。

    2.搜索量分析

    工具:百度关键词规划师

    关键词搜索量越高竞争度往往越大。

    3.商业价值分析

    CMA培训结构:

    CMA培训/CMA自学 

    卖液晶电视

    液晶电视价格、液晶电视促销

    企业站:精准度高且搜索量高的关键词商业价值高。

    资讯站:搜索量高的关键词商业价值高。

    4.竞争度分析

    确定网站核心关键词

    Ø  搜索结果数

    搜索结果越多,关键词竞争度越大。

    Ø  搜索指数

    Index.baidu.com

    搜索指数高的关键词竞争度高;

    百度指数未收录的关键词可参考搜索量。

    Ø  搜索结果广告数量

    需要不同时间段搜索不同关键词来同广告数量。

    广告数量即为竞争对手数量(竞争对手越多,竞争度越大)

    Ø  搜索结果页

    首先剔除百度阿拉丁结果位置。

    主要看百度快照结果的SEO水平SE表现分析)

    搜索结果的SE表现越高,关键词的竞争度越大!!!

    网页的竞争度排名:

    首页>栏目页(列表页、频道页)>文章页

     

     

    任务:1.明确网站主题;

    2.搭建网站的关键词库(拓展至不可拓展为止!不可包含无效关键词)

    3.确定网站核心关键词(5-8;竞争度适中;必须有搜索量

     

    人工拓展关键词方法:

    地域拓展:北京美食/云南美食/

             北京旅游攻略/上海旅游攻略

    人群拓展:中年颈椎病/老年人颈椎病

    大学生学什么好  军人转业做什么?

    商业模式拓展:服装批发、服装零售、服装代理、服装加盟

    季节拓展:夏季女装、冬季男装


    【详细seo讲解请点击!更多seo内容参考!】


    展开全文
  • 提出非齐次左—右型级联隐马尔可夫模型,用于应用层网络协议报文建模,描述状态之间的转移规律和各状态的内部相位变化规律,刻画报文的字段跳转规律和字段内的马尔可夫性质,基于最大似然概率准则确定协议关键词的...
  • 舆情监测关键词怎么确定及收集的方法: 一、百度指数查找 1、搜索一下“百度指数”,进入网站,在搜索框内填入想要搜索的关键词,然后点击“查看指数”。 2、接下来首先进入的是“趋势研究”页面,可以看到一个搜索...

    对于舆情监测专员们来说,在开展网络舆情监测工作之前,需要先确定舆情监测关键词,那么舆情监测关键词如何确定呢?关键字段的收集,需要从哪几个方面入手呢?

    舆情监测关键词怎么确定及收集的方法:

    一、百度指数查找

    1、搜索一下“百度指数”,进入网站,在搜索框内填入想要搜索的关键词,然后点击“查看指数”。
    2、接下来首先进入的是“趋势研究”页面,可以看到一个搜索量的折线图,根据后面的数值可以知道每天的准确搜索量。同时也给出了整体同比(较长一段时间内的搜索量起伏情况)、整体环比等关键数据(近期内的搜索量起伏情况)。
    3、点击进入“需求图谱”页面,可以看到“需求分布”、“热门搜索”、“上升最快检索词”等信息。我们可以根据这些信息来分析跟小米有关的关键词的搜索热度及变化趋势。
    4、点击进入“舆情管家”页面,可以看到网友在“百度知道”上的热门提问。

    二、百度下拉和百度搜索相关查看

    百度下拉和百度相关的数据是怎么体现出来,用户经常搜索的次数经百度数据分析才把它放出来,当我们搜索半个词的时候,百度下拉提示给我们需求, 看大家需要那个词,提升体验和快捷,让用户感觉到爽,就一直会用它,而且数据真实。这些词都是跟踪用户搜索行为和习惯留下来的,也是用户经常搜的,利用下拉框搜集舆情搜索关键词是一个比较好并且比较准确的方法。

    三、参考新闻网站和相关舆情网站

    想要找到事件的发展情况和发展原有,最简单快捷的方式是去新闻网站和舆情系统网找相关关键词,新闻网站是舆情发布的源地。所以很多关键词都是从新闻网站开始流出。然后就是比较有名的舆情系统网站,比如。蚁坊软件舆情网上就会经常有每天的最新舆情和最近一段时间热门的舆情时间分析,还有一些舆情事件的热门评论,从这些舆情监测系统网站往往能够找到你想要的舆情监测关键词。

    展开全文
  • NLP关键词提取方法总结及实现

    万次阅读 多人点赞 2019-07-23 21:09:41
    一、关键词提取概述 二、TF-IDF关键词提取算法及实现 三、TextRank关键词提取算法实现 四、LDA主题模型关键词提取算法及实现 五、Word2Vec词聚类的关键词提取算法及实现 六、信息增益关键词提取算法及实现 七...

    目录

    一、关键词提取概述

    二、TF-IDF关键词提取算法及实现

    三、TextRank关键词提取算法实现

    四、LDA主题模型关键词提取算法及实现

    五、Word2Vec词聚类的关键词提取算法及实现

    六、信息增益关键词提取算法及实现

    七、互信息关键词提取算法及实现

    八、卡方检验关键词提取算法及实现

    九、基于树模型的关键词提取算法及实现

    十、总结


    一、关键词提取概述

    关键词是能够表达文档中心内容的词语,常用于计算机系统标引论文内容特征、信息检索、系统汇集以供读者检阅。关键词提取是文本挖掘领域的一个分支,是文本检索、文档比较、摘要生成、文档分类和聚类等文本挖掘研究的基础性工作。

    从算法的角度来看,关键词提取算法主要有两类:无监督关键词提取方法有监督关键词提取方法

    1、无监督关键词提取方法

    不需要人工标注的语料,利用某些方法发现文本中比较重要的词作为关键词,进行关键词提取。该方法是先抽取出候选词,然后对各个候选词进行打分,然后输出topK个分值最高的候选词作为关键词。根据打分的策略不同,有不同的算法,例如TF-IDF,TextRank,LDA等算法。

    无监督关键词提取方法主要有三类:基于统计特征的关键词提取(TF,TF-IDF);基于词图模型的关键词提取(PageRank,TextRank);基于主题模型的关键词提取(LDA)

    • 基于统计特征的关键词提取算法的思想是利用文档中词语的统计信息抽取文档的关键词;
    • 基于词图模型的关键词提取首先要构建文档的语言网络图,然后对语言进行网络图分析,在这个图上寻找具有重要作用的词或者短语,这些短语就是文档的关键词;
    • 基于主题关键词提取算法主要利用的是主题模型中关于主题分布的性质进行关键词提取;

    2、有监督关键词提取方法

    将关键词抽取过程视为二分类问题,先提取出候选词,然后对于每个候选词划定标签,要么是关键词,要么不是关键词,然后训练关键词抽取分类器。当新来一篇文档时,提取出所有的候选词,然后利用训练好的关键词提取分类器,对各个候选词进行分类,最终将标签为关键词的候选词作为关键词。

    3、无监督方法和有监督方法优的缺点

    无监督方法不需要人工标注训练集合的过程,因此更加快捷,但由于无法有效综合利用多种信息 对候选关键词排序,所以效果无法与有监督方法媲美;而有监督方法可以通过训练学习调节多种信息对于判断关键词的影响程度,因此效果更优,有监督的文本关键词提取算法需要高昂的人工成本,因此现有的文本关键词提取主要采用适用性较强的无监督关键词提取。

    4、关键词提取常用工具包

    二、TF-IDF关键词提取算法及实现

    TF-IDF算法的详细介绍及实现方法总结参看博客:TF-IDF算法介绍及实现

    三、TextRank关键词提取算法实现

    TextRank算法的详细介绍及实现方法总结参看博客:TextRank算法介绍及实现

    四、LDA主题模型关键词提取算法及实现

    1、LDA(Latent Dirichlet Allocation)文档主题生成模型

    主题模型是一种统计模型用于发现文档集合中出现的抽象“主题”。主题建模是一种常用的文本挖掘工具,用于在文本体中发现隐藏的语义结构。

    LDA也称三层贝叶斯概率模型,包含词、主题和文档三层结构;利用文档中单词的共现关系来对单词按主题聚类,得到“文档-主题”和“主题-单词”2个概率分布。

    通俗理解LDA主题模型原理

    2、基于LDA主题模型的关键词提取算法实现

    from gensim import corpora, models
    import jieba.posseg as jp
    import jieba
    
    
    # 简单文本处理
    def get_text(text):
        flags = ('n', 'nr', 'ns', 'nt', 'eng', 'v', 'd')  # 词性
        stopwords = ('的', '就', '是', '用', '还', '在', '上', '作为')  # 停用词
        words_list = []
        for text in texts:
            words = [w.word for w in jp.cut(text) if w.flag in flags and w.word not in stopwords]
            words_list.append(words)
        return words_list
    
    
    # 生成LDA模型
    def LDA_model(words_list):
        # 构造词典
        # Dictionary()方法遍历所有的文本,为每个不重复的单词分配一个单独的整数ID,同时收集该单词出现次数以及相关的统计信息
        dictionary = corpora.Dictionary(words_list)
        print(dictionary)
        print('打印查看每个单词的id:')
        print(dictionary.token2id)  # 打印查看每个单词的id
    
        # 将dictionary转化为一个词袋
        # doc2bow()方法将dictionary转化为一个词袋。得到的结果corpus是一个向量的列表,向量的个数就是文档数。
        # 在每个文档向量中都包含一系列元组,元组的形式是(单词 ID,词频)
        corpus = [dictionary.doc2bow(words) for words in words_list]
        print('输出每个文档的向量:')
        print(corpus)  # 输出每个文档的向量
    
        # LDA主题模型
        # num_topics -- 必须,要生成的主题个数。
        # id2word    -- 必须,LdaModel类要求我们之前的dictionary把id都映射成为字符串。
        # passes     -- 可选,模型遍历语料库的次数。遍历的次数越多,模型越精确。但是对于非常大的语料库,遍历太多次会花费很长的时间。
        lda_model = models.ldamodel.LdaModel(corpus=corpus, num_topics=2, id2word=dictionary, passes=10)
    
        return lda_model
    
    
    if __name__ == "__main__":
        texts = ['作为千元机中为数不多拥有真全面屏的手机,OPPO K3一经推出,就簇拥不少粉丝', \
                 '很多人在冲着这块屏幕购买了OPPO K3之后,发现原来K3的过人之处不止是在屏幕上', \
                 'OPPO K3的消费者对这部手机总体还是十分满意的', \
                 '吉利博越PRO在7月3日全新吉客智能生态系统GKUI19发布会上正式亮相', \
                 '今年上海车展,长安CS75 PLUS首次亮相', \
                 '普通版车型采用的是双边共双出式排气布局;运动版本车型采用双边共四出的排气布局']
        # 获取分词后的文本列表
        words_list = get_text(texts)
        print('分词后的文本:')
        print(words_list)
    
        # 获取训练后的LDA模型
        lda_model = LDA_model(words_list)
    
        # 可以用 print_topic 和 print_topics 方法来查看主题
        # 打印所有主题,每个主题显示5个词
        topic_words = lda_model.print_topics(num_topics=2, num_words=5)
        print('打印所有主题,每个主题显示5个词:')
        print(topic_words)
    
        # 输出该主题的的词及其词的权重
        words_list = lda_model.show_topic(0, 5)
        print('输出该主题的的词及其词的权重:')
        print(words_list)
    

    运行结果:

    五、Word2Vec词聚类的关键词提取算法及实现

    1、Word2Vec词向量表示

    利用浅层神经网络模型自动学习词语在语料库中的出现情况,把词语嵌入到一个高维的空间中,通常在100-500维,在高维空间中词语被表示为词向量的形式。

    特征词向量的抽取是基于已经训练好的词向量模型。

    2、K-means聚类算法

    聚类算法旨在数据中发现数据对象之间的关系,将数据进行分组,使得组内的相似性尽可能的大,组间的相似性尽可能的小。

    算法思想是:首先随机选择K个点作为初始质心,K为用户指定的所期望的簇的个数,通过计算每个点到各个质心的距离,将每个点指派到最近的质心形成K个簇,然后根据指派到簇的点重新计算每个簇的质心,重复指派和更新质心的操作,直到簇不发生变化或达到最大的迭代次数则停止。

    3、基于Word2Vec词聚类关键词提取方法的实现过程

    主要思路是对于用词向量表示的词语,通过K-Means算法对文章中的词进行聚类,选择聚类中心作为文本的一个主要关键词,计算其他词与聚类中心的距离即相似度,选择topK个距离聚类中心最近的词作为关键词,而这个词间相似度可用Word2Vec生成的向量计算得到。

    具体步骤如下:

    • 对语料进行Word2Vec模型训练,得到词向量文件;
    • 对文本进行预处理获得N个候选关键词;
    • 遍历候选关键词,从词向量文件中提取候选关键词的词向量表示;
    • 对候选关键词进行K-Means聚类,得到各个类别的聚类中心(需要人为给定聚类的个数);
    • 计算各类别下,组内词语与聚类中心的距离(欧几里得距离或曼哈顿距离),按聚类大小进行降序排序;
    • 对候选关键词计算结果得到排名前TopK个词语作为文本关键词。
       

    :第三方工具包Scikit-learn提供了K-Means聚类算法的相关函数,本文用到了sklearn.cluster.KMeans()函数执行K-Means算法,sklearn.decomposition.PCA()函数用于数据降维以便绘制图形。

    六、信息增益关键词提取算法及实现

    信息增益算法的详细介绍及实现方法总结参看博客:信息增益算法介绍及实现

    七、互信息关键词提取算法及实现

    1、互信息(Mutual Information,MI)

    在概率论和信息论中,两个随机变量的互信息或转移信息(transinformation)是变量间相互依赖性的量度。不同于相关系数,互信息并不局限于实值随机变量,它更加一般且决定着联合分布 p(X,Y) 和分解的边缘分布的乘积 p(X)p(Y) 的相似程度。互信息是度量两个事件集合之间的相关性(mutual dependence)。

    互信息被广泛用于度量一些语言现象的相关性。在信息论中,互信息常被用来衡量两个词的相关度,也用来计算词与类别之间的相关性。

    2、互信息计算公式

     3、互信息算法实现

    from sklearn import metrics
    import numpy as np
    
    # 训练集和训练标签
    x_train = [[1, 2, 3, 4, 5],
               [5, 4, 3, 2, 1],
               [3, 3, 3, 3, 3],
               [1, 1, 1, 1, 1]]
    y_train = [0, 1, 0, 1]
    # 测试集和测试标签
    x_test = [[2, 2, 2, 2, 2], [2, 1, 1, 2, 1]]
    
    x_train = np.array(x_train)  # 转为array
    
    # 存储每个特征与标签相关性得分
    features_score_list = []
    for i in range(len(x_train[0])):
        # 计算每个特征与标签的互信息
        feature_info = metrics.mutual_info_score(y_train, x_train[:, i])
        features_score_list.append(feature_info)
    
    print(features_score_list)
    

    运行结果: 

    4、信息论中的互信息和决策树中的信息增益的关系 

    两者表达意思是一样的,都是表示得知特征 X 的信息而使得类 Y 的信息的不确定性减少的程度。

    注:

    • 标准化互信息(Normalized Mutual Information,NMI)可以用来衡量两种聚类结果的相似度。
    • 标准化互信息Sklearn实现:metrics.normalized_mutual_info_score(y_train, x_train[:, i])。
    • 点互信息(Pointwise Mutual Information,PMI)这个指标来衡量两个事物之间的相关性(比如两个词)。

    八、卡方检验关键词提取算法及实现

    1、卡方检验

    卡方是数理统计中用于检验两个变量独立性的方法,是一种确定两个分类变量之间是否存在相关性的统计方法,经典的卡方检验是检验定性自变量对定性因变量的相关性。

    2、基本思路

    • 原假设:两个变量是独立的
    • 计算实际观察值和理论值之间的偏离程度
    • 如果偏差足够小,小于设定阈值,就接受原假设;否则就否定原假设,认为两变量是相关的。

    3、计算公式

    其中,A为实际值,T为理论值。卡方检验可用于文本分类问题中的特征选择,此时不需要设定阈值,只关心找到最为相关的topK个特征。基本思想:比较理论频数和实际频数的吻合程度或者拟合优度问题。

    4、基于sklearn的卡方检验实现

    from sklearn.feature_selection import SelectKBest
    from sklearn.feature_selection import chi2
    
    # 训练集和训练标签
    x_train = [[1, 2, 3, 4, 5],
               [5, 4, 3, 2, 1],
               [3, 3, 3, 3, 3],
               [1, 1, 1, 1, 1]]
    y_train = [0, 1, 0, 1]
    # 测试集和测试标签
    x_test = [[2, 2, 2, 2, 2], [2, 1, 1, 2, 1]]
    y_test = [1, 1]
    
    # 卡方检验选择特征
    chi2_model = SelectKBest(chi2, k=3)  # 选择k个最佳特征
    # 该函数选择训练集里的k个特征,并将训练集转化所选特征
    x_train_chi2 = chi2_model.fit_transform(x_train, y_train)
    # 将测试集转化为所选特征
    x_test_chi2 = chi2_model.transform(x_test)
    
    print('各个特征的得分:', chi2_model.scores_)
    print('各个特征的p值:', chi2_model.pvalues_)  # p值越小,置信度越高,得分越高
    print('所选特征的索引:', chi2_model.get_support(True))
    print('特征提取转换后的训练集和测试集...')
    print('x_train_chi2:', x_train_chi2)
    print('x_test_chi2:', x_test_chi2)

    运行结果:

    九、基于树模型的关键词提取算法及实现

    1、树模型

    主要包括决策树和随机森林,基于树的预测模型(sklearn.tree 模块和 sklearn.ensemble 模块)能够用来计算特征的重要程度,因此能用来去除不相关的特征(结合 sklearn.feature_selection.SelectFromModel)

    sklearn.ensemble模块包含了两种基于随机决策树的平均算法:RandomForest算法Extra-Trees算法。这两种算法都采用了很流行的树设计思想:perturb-and-combine思想。这种方法会在分类器的构建时,通过引入随机化,创建一组各不一样的分类器。这种ensemble方法的预测会给出各个分类器预测的平均。

    • RandomForests 在随机森林(RF)中,该ensemble方法中的每棵树都基于一个通过可放回抽样(boostrap)得到的训练集构建。另外,在构建树的过程中,当split一个节点时,split的选择不再是对所有features的最佳选择。相反的,在features的子集中随机进行split反倒是最好的split方式。sklearn的随机森林(RF)实现通过对各分类结果预测求平均得到,而非让每个分类器进行投票(vote)。
    • Ext-Trees 在Ext-Trees中(详见ExtraTreesClassifier和 ExtraTreesRegressor),该方法中,随机性在划分时会更进一步进行计算。在随机森林中,会使用侯选feature的一个随机子集,而非查找最好的阈值,对于每个候选feature来说,阈值是抽取的,选择这种随机生成阈值的方式作为划分原则。

    2、树模型的关键词提取算法实现

    (1)部分代码实现1

    from sklearn.tree import DecisionTreeClassifier
    from sklearn.ensemble import RandomForestClassifier
    from sklearn.ensemble import ExtraTreesClassifier
    from sklearn.feature_selection import SelectFromModel
    
    # 导入SelectFromModel结合ExtraTreesClassifier计算特征重要性,并按重要性阈值选择特征。
    # 基于树模型进行模型选择
    clf_model = ExtraTreesClassifier(n_estimators=250, random_state=0)
    clf_model.fit(x_train, y_train)
    # 获取每个词的特征权重,数值越高特征越重要
    importances = clf_model.feature_importances_
    # 选择特征重要性为1.5倍均值的特征
    model = SelectFromModel(clf_model, threshold='1.5*mean', prefit=True)
    x_train_new = model.transform(x_train)  # 返回训练集所选特征
    x_test_new = model.transform(x_test)  # 返回测试集所选特征
    

    (2)部分代码实现2

    # 训练集和训练标签
    x_train, y_train
    # 候选特征词列表
    words_list
    
    # 基于树模型进行模型选择
    forest = RandomForestClassifier(n_estimators=250, random_state=0)
    forest.fit(x_train, y_train)
    importances = forest.feature_importances_  # 获取每个词的特征权重
    
    # 将词和词的权重存入字典
    feature_words_dic = {}
    for i in range(len(words_list)):
        feature_words_dic[words_list[i]] = importances[i]
    
    # 对字典按权重由大到小进行排序
    words_info_dic_sort = sorted(words_info_dic.items(), key=lambda x: x[1], reverse=True)
    
    # 将关键词和词的权重分别存入列表
    keywords_list = []  # 关键词列表
    features_list = []  # 关键权重列表
    for word in words_info_dic_sort:
        keywords_list.append(word[0])
        features_list.append(word[1])
    
    # 选取前一千个关键词和权重写入文本文件
    keywords = keywords_list[:1000]
    features = features_list[:1000]
    
    # 将含有关键字的文本写入文件
    with open('data/keywords_features.txt', 'a', encoding="utf-8") as f:
        for i in range(len(keywords)):
            f.write(keywords[i] + '\t' + features[i] + '\n')

    十、总结

    本文总结了本人在实验过程中所用到的常用关键词抽取方法,实验数据是基于公司的内部数据,但此篇总结只是方法上的讲解和实现,没有针对某一具体数据集做相应的结果分析。从实验中可以很明显看出有监督关键词抽取方法通常会显著好于无监督方法,但是有监督方法依赖一定规模的标注数据。

     

     

    参考:

    1、NLP关键词抽取常见算法

    2、gensim models.ldamodel

    3、卡方检验原理及应用

    4、特征选择 (feature_selection)

    5、随机森林算法总结及调参

    6、句子相似度计算

    展开全文
  • 怎样确定网站关键词

    2012-10-15 14:19:00
    可以说网站关键字就是确定网站排名的“脊椎”,“脊椎”都没有了,那么后续的工作基本上是白费了。也许你看到过很多网站介绍的确定关键字的方法,但是笔者今天就从不一样的角度去分析怎样正确确...
  • 关键词怎么确定

    2014-04-05 01:47:47
    关键词怎么确定 尚奇公司的欧朝晖曾谈到一个案例: 他为一个全球著名的手机网站做优化时,该公司的营销策略不允许使用任何带有“cheap”字眼的词,因为他们认为这个词对产品有负面影响。然而,在搜索引擎关键字...
  • 关键词怎么确定

    2010-05-26 11:06:00
     比如,一个脱发的网站,可以确定关键词非常多:脱发治疗、如何防脱发、快速生发、防脱发产品、脱发网、掉发、掉发方法。 那么到底如何来确定关键词呢?这里涉及到三点: 关键词的相关性和密度。是的,“脱发”...
  • 我们知道,淘宝的数据库里有很多很多的宝贝,可以说是亿万的,那么在这亿万的宝贝当中,自然就有亿万的宝贝标题。这些标题都是由一个个关键词组成的,下面介绍淘宝拆分关键词方面的内容。  无规矩不成方圆,其实...
  • 找出你圈定的关键词的同义词:如网站的主题是 旅游,相应的同义词可能有 旅行,自由行,自助游 等,可以根据你网站可提供的服务和内容来确定 找出你网站主题或产品或服务所属领域的上一级类别关键词。并不是所有网站都...
  • 做网站SEO优化想必你也已经发现,一个网站的主要流量80%是来自长尾关键词。长尾关键词最常见的是分布在网站内容页,其次是栏目title、标签页、专题页。那么什么是长尾关键词呢?其实长尾关键词就是词比较长、比较具体...
  • 源码关键词搜索方法

    2019-12-27 13:33:22
    推荐如下两种代码搜索方法,简单快速...由于OpenGrok是全词搜索,所以在OpenGrok中搜索关键词时建议如下方法按顺序都使用,以免遗漏出错: Full Search 栏搜索关键词CONFIG_XXX_SUPPORT Full Search 栏搜索关键词DC...
  • 确定网站关键词及其工具

    千次阅读 2007-11-08 19:47:00
    如何有效确定网站关键词?如果你正在考虑如何通过搜索引擎获得较高的流量,那么关键词一定是对你的工作非常有益的投资。无论你是想要自己做关键词确定工作,还是雇一个专业人士来做,我保证,只要你读了这篇文章,...
  • 在网站不同的阶段,使用的优化方法也是有区别的,而且针对不同类型的网站,其采用的优化方法也是各不相同的,如刚接手一个网站,需要根据网站的建站时间、关键词排名等数据进行分析,来确定今后的优化步骤。...
  • 我们把确定和选取关键词分为三个部分,确定关键词、挖掘关键词和选取关键词。 一、 确定关键词确定关键词时,我们要了解自己的网站是什么类型的,不同的网站在确定和选取关键词是都会有一定的差别。例如: ...
  • seo优化中关键词优化非常的重要,很多seo公司认为只要关键词确定了,网站优化的大致方向也就确定了。一般seoer到底是如何来优化关键词的呢?想要把关键词优化好,就要先找到属于自己的关键词,进而把关键词分类,...
  • 文本关键词提取方法综述

    千次阅读 2018-11-29 10:26:49
    第二步,使用关键词提取算法提取关键词。 最后得到的关键词应满足以下三个条件: 1·、Understandable. The keyphrases are understandable to people. This indicates the extracted keyphrases shoul...
  • 说到网站长尾关键词挖掘,大部分人会想到很复杂的关键词软件,其实并没有这么复杂,Kiwi就把一些很经典很实用的长尾关键词挖掘的方法在这里分享出来。在外贸建站之前,自己去实操几遍,把自己的网站关键字找出来,...
  • 关键词提取

    2018-09-19 13:30:40
    利用算法进行关键词提取 -> 多算法结果融合,生成最终关键词  一、关键词的特点: 关键词是指能够反映文本语料主题的词语或短语。在实际业务中,单个词语的意义不大,主要是短语,而且大多数关键词是名词...
  • 我们就转而对这些词进行有效合理的修饰,这些修饰之后的词一般可称为长尾关键词,需要注意的是,热门关键词和核心关键词的扩展和补充都可称为长尾关键词,如seo是核心关键词,对它的修饰或扩展就有广州seo,seo优化...
  • 比如像比较简单的关键词“交流”、“心得”并没有可供选择的选项,怎么办?而且输入后按确定也没有用。 解决方法 可以直接在输入后回车,然后确定。 ...
  • 也就是说你确定关键词,一定要在你的站点上经常被提及的。关注搜索频率在中文意义上,我们认为“快速减肥方法”和“快速减肥办法”应该是一样的。但搜索引擎却不这样认为,百度的数据表明,“快速减肥方法”每日...
  • app应用关键词排名都有哪些因素?

    千次阅读 2018-12-13 17:40:19
    我们知道app应用关键词排名的因素是比较多的,我们都很迷茫都有哪些关键词排名因素呢,我们该怎么做呢,下面我们来看下关于app应用关键词排名都有哪些因素的介绍。 1,应用商店的优化(aso) TItle(app名称、应用...
  • 做网站优化都知道,选择关键词是很重要的一步,只有选择了利于优化的关键词,才能够让网站优化有效果。那应该如何对关键词进行挖掘,才能够找到适合优化的关键词呢?今天就为大家分享一些小技巧。 1、 必须根据网站...
  • NLP 关键词提取常用方法

    千次阅读 2020-07-08 19:36:12
    候选词的重要性根据它和其他候选词的关系来确定。 3.基于语义的关键词提取(SKE) 得分由三部分组成:1、居间度密度Vd;2、词性pos(名词、动词……), 位置loc(标题,段首,段尾),词长;3、TF-IDF值;对1、2、3加权...
  • final关键词

    2018-10-27 14:33:15
    final是java中的一个关键词,是域、方法和类的修饰符,通常的作用是来表述被修饰的内容是无法改变的。 final数据 作用:一个恒定不变的编译时常量可以减轻运行时的负担,或者我们还可以定义一个运行时被初始...
  • 过去一年,互联网寒冬的声音一直伴随着中国互联网企业,市场波澜不断也让大小企业都变得危机感和...浙江天搜科技股份有限公司上周就刚刚通过一场开年员工大会,明确了企业未来发展方向,梳理了一些重要关键词。而这...
  • 长尾关键词

    2013-04-10 13:07:00
    长尾关键词,就是目标用户可能搜索并且可以带来搜索流量的关键词 特点是搜索量较少但数量较多、竞争较弱、转化率高。这也是做长尾关键词的原因 最近做一个“SEO教程”这个关键词,做了一段时间排名上升不大,网站...
  • 关键词优化

    2015-01-20 16:51:27
    因为客户不可能简单的直达你的网站,他们在互联网上要想找到他们所要的东西,最简单、最快、最通用的方法就是使用搜索引擎。那么在搜索引擎中输入关键词就是他们的选择。你的工作就是要很好的分析出你的客户可能在...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 96,042
精华内容 38,416
关键字:

哪些方法可以确定关键词