精华内容
下载资源
问答
  • python 关键词提取 (jieba+sklearn)

    千次阅读 2020-06-26 15:21:52
    python 关键词提取 (jieba+sklearn) 原文链接:https://www.jianshu.com/p/85a0e7a7bebf #!/usr/bin/python # coding=utf-8 # TF-IDF提取文本关键词 # ...

    python 关键词提取 (jieba+sklearn)
    原文链接:https://www.jianshu.com/p/85a0e7a7bebf

    #!/usr/bin/python
    # coding=utf-8
    # TF-IDF提取文本关键词
    # http://scikit-learn.org/stable/modules/feature_extraction.html#tfidf-term-weighting
    
    import sys
    import os
    from config_ch import *
    import chardet
    import numpy as np
    import pandas as pd
    import xlrd
    import copy
    import glob
    import jieba.posseg
    import jieba.analyse
    import io
    from sklearn import feature_extraction
    from sklearn.feature_extraction.text import TfidfTransformer
    from sklearn.feature_extraction.text import CountVectorizer
    """
           TF-IDF权重:
               1、CountVectorizer  构建词频矩阵
               2、TfidfTransformer 构建TF-IDF权值计算
               3、文本的关键词
               4、对应的TF-IDF矩阵
    """
    # 数据读取
    """
        输入数据所在文件夹路径data_path, 输出data为一字典, 包含'id', 'title', 'abstract'
    """
    def dataRead(data_path):
        file_list = os.listdir(data_path)
        idList, titleList, abstractList = range(0, len(file_list)), [], []  # 构建3个list, 用于存放文本编号, 文本标题, 文本内容
        for file_name in file_list:
            file_path = os.path.join(data_path, file_name)
            if os.path.isfile(file_path):
                f = io.open(file_path, 'rb').read()
                encoding_type = chardet.detect(f)  # 获取文本的编码形式
                if not encoding_type['encoding']:
                    encoding_type['encoding'] = 'utf-8-sig'  # 一些文本编码形式为none, 强制转换
                file = f.decode(encoding_type['encoding'])
                titleList.append(file[0:file.find('\n', 1)+1])  # 文本第一行为标题
                abstractList.append(file)
        data = {"id": idList, "title": titleList, "abstract": abstractList}
        return data
    
    # 预处理
    """
        输入文本text及停用词表stopword, 输出分词结果text_seg
        预处理包括jieba分词, 去停用词, 筛选词性
    """
    def dataPrepos(text, stopword):
        text_seg = []
        seg = jieba.posseg.cut(text)  # 分词
        for i in seg:
            if i.word not in stopword and i.flag in pos:  # 去停用词 + 筛选词性
                text_seg.append(i.word)
        return text_seg
    
    # 关键词映射
    """
        输入关键词key及映射表mapword, 输出key_left_mapped,
        包括映射后剩余关键词"left"及映射得到的关键词"mapped"
        映射表第1列为atom词列表, 从第2列起为替换词列表,
        若key中某词属于atom列表, 则将该atom对应的替换词加入mappedList, 并从leftList中删除该词,
        若key中某词本身属于替换词列表, 则将该词加入mappedList, 并从leftList中删除
    """
    def keysMapping(key, mapword):# key中关键词若存在于atom中,则加入mappedList,leftList只保留未出现在atom中的关键词
        leftList, mappedList = copy.deepcopy(key), []  # 初始化leftList, mappedList
        atom = mapword.col_values(0)
        for i in key:
            if i in atom:  # 关键词为atom列表中的词, 则用对应的替换词进行替换
                mappedList.extend(mapword.row_values(atom.index(i))[1:])
                mappedList = list(filter(None, mappedList))  # 去除""字符串
                leftList.pop(leftList.index(i))  # 从leftList中删除
            else:
                for n in range(len(atom)):
                    row = mapword.row_values(n)[1:]
                    if i in row:  # 关键词本身为替换词列表中的词, 则加入mappedList, 并从leftList中删除
                        mappedList.extend([i])
                        leftList.pop(leftList.index(i))
                        break
    
        mappedList = list(set(mappedList))  # 去除重复词
        key_left_mapped = {"left": leftList, "mapped": mappedList}
        return key_left_mapped
    
    # TF-IDF提取topK关键词
    """
        输入包括数据data, 停用词表stopword, 映射表mapword, 及中间变量mapped和keys_all,
        当mode为'tf'时, 每个文本单独调用getKeyword, 需传入文本id,
        当mode为'tfidf'时, 多个文本作为整体只调用一次getKeyword, 不需id, 令id = 0
    """
    def getKeywords(data, id, stopword, mapword, mapped, keys_all):
        # 从data中取出id, title, abstract, 构建3个list
        if mode == 'tfidf':
            idList, titleList, abstractList = data['id'], data['title'], data['abstract']
        elif mode == 'tf':  # 取出第id个文本的信息
            idList, titleList, abstractList = [data['id'][id]], [data['title'][id]], [data['abstract'][id]]
    
        corpus = []  # 将所有文本到输出到一个list中, 每行为一个文本
        result = pd.DataFrame({"id": [], "title": [], "key": [], "left": [], "mapped": []},
                              columns=['id', 'title', 'key', 'left', 'mapped'])
        # 分别对每个文本进行预处理, 将处理后的词连接成字符串(空格分隔), 输入到corpus中的一行
        for index in range(len(idList)):
            text = '%s' % abstractList[index]
            text_seg = dataPrepos(text, stopword)
            text_seg = " ".join(text_seg)
            corpus.append(text_seg)
        if corpus == ['']:
            return result  # 空文本
        # 1、构建词频矩阵,将文本中的词语转换成词频矩阵
        vectorizer = CountVectorizer()
        X = vectorizer.fit_transform(corpus)  # 词频矩阵
        # 2、统计每个词的TF-IDF权值
        transformer = TfidfTransformer()
        tfidf = transformer.fit_transform(X)
        # 3、获取词袋模型中的关键词
        word = vectorizer.get_feature_names()
        # 4、获取TF-IDF矩阵
        weight = tfidf.toarray()
        # 5、打印词语权重
        # 以下变量分别用于存放文本编号, 标题, 提取出的关键词, 映射得到的关键词, 映射后剩余的关键词
        ids, titles, keys, keys_mapped, keys_left = [], [], [], [], []
        for i in range(len(weight)):
            print(u"-------这里输出第", i+1, u"篇文本的词语TF-IDF------")
            ids.append(idList[i])  # 添加编号到ids
            titles.append(titleList[i])  # 添加标题到titles
            df_word, df_weight = [], []  # 当前文本的所有词汇列表、词汇对应权重列表
            for j in range(len(word)):
                print(word[j], weight[i][j])
                if weight[i][j] == 0:
                    df_word.append(' ')  # 用空字符串替换权重为0的词
                else:
                    df_word.append(word[j])
                df_weight.append(weight[i][j])
            # 将df_word和df_weight转换为pandas中的DataFrame形式, 用于排序
            df_word = pd.DataFrame(df_word, columns=['word'])
            df_weight = pd.DataFrame(df_weight, columns=['weight'])
            word_weight = pd.concat([df_word, df_weight], axis=1)  # 拼接词汇列表和权重列表
            word_weight = word_weight.sort_values(by="weight", ascending=False)  # 按照权重值降序排列
            keyword = np.array(word_weight['word'])  # 选择词汇列并转成数组格式
            key = [keyword[x] for x in range(0, min(topK, len(word)))]  # 抽取前topK个词汇作为关键词
            keys_all.extend(key)  # 将当前文本提取出的关键词加入keys_all中, 用于后续的高频关键词提取
    
            # 关键词映射
            key_left_mapped = keysMapping(key, mapword)
            # 将list中的词连接成字符串
            key = " ".join(key)
            key_left_split = " ".join(key_left_mapped["left"])
            key_mapped_split = " ".join(key_left_mapped["mapped"])
    
            mapped.extend(key_left_mapped["mapped"])  # 将每个文本映射后的关键词合并到mapped中, 有重复
    
            keys.append(key)
            keys_left.append(key_left_split)
            keys_mapped.append(key_mapped_split)
    
        result = pd.DataFrame({"id": ids, "title": titles, "key": keys, "left": keys_left, "mapped": keys_mapped}, columns=['id', 'title', 'key', 'left', 'mapped'])
        return result
    
    # 提取topN高频关键词
    """
        输入keys_all为每个文本提取出的topK关键词合并后的列表,
        输出key_most为提取出的topN个高频关键词
    """
    def getKeymost(keys_all):
        counts = []
        keys_nodup = list(set(keys_all))  # keys_all去重后结果
        for item in keys_nodup:
            counts.append(keys_all.count(item))  # 统计每个关键词出现的次数
        key_word = pd.DataFrame(keys_nodup, columns=['key'])
        count_word = pd.DataFrame(counts, columns=['count'])
        key_count = pd.concat([key_word, count_word], axis=1)
        key_count = key_count.sort_values(by="count", ascending=False)
        key_freq = np.array(key_count['key'])
    
        key_most = [key_freq[x] for x in range(0, min(topN, len(key_word)))]
        return key_most
    
    
    def main():
    
        # 删除历史结果
        for f in glob.glob(os.path.join('result', '*.xls')):
            os.remove(f)
    
        # 加载停用词表
        stopword = [w.strip() for w in io.open(stopword_path, 'r', encoding='UTF-8').readlines()]
    
        # 加载映射表
        mapword = xlrd.open_workbook(map_path).sheet_by_index(0)
    
        # 加载自定义字典,用于jieba分词
        jieba.load_userdict(dict_path)
    
        folderList = os.listdir(data_path)
    
        for folder in folderList:  # 遍历全部电影文件夹, 每个文件夹中为1部电影的全部影评
            folder_path = os.path.join(data_path, folder)
    
            # 读取数据
            data = dataRead(folder_path)
    
            keys_all = []  # 用于存放所有文本提取出的关键词
            mapped = []  # 用于合并所有文本映射后的关键词
    
            # 关键词提取,
            if mode == 'tfidf':
                result = getKeywords(data, 0, stopword, mapword, mapped, keys_all)
                result.to_csv("result/CHkeys_tfidf_" + folder + ".xls", index=False, encoding='utf-8-sig')
            elif mode == 'tf':
                for i in range(len(data['id'])):  # 'tf'模式下, 每个文本单独调用getKeywords
                    result = getKeywords(data, i, stopword, mapword, mapped, keys_all)
                    result.to_csv("result/CHkeys_tf_" + folder + ".xls", mode='a', header=False, index=False, encoding='utf-8-sig')
    
            mapped = list(set(mapped))  # 去除重复词
            mapped_result = pd.DataFrame({"mapped": [" ".join(mapped)]}, columns=['mapped'])
            pd.DataFrame({"": [" ".join([])]}).to_csv("result/CHkeys_tf_" + folder + ".xls", mode='a', index=False)  # 增加空行
            mapped_result.to_csv("result/CHkeys_tf_" + folder + ".xls", mode='a', index=False, encoding='utf-8-sig', columns=['', '', 'mapped'])
    
            # 提取高频关键词
            key_most = getKeymost(keys_all)
            key_most = pd.DataFrame({"most mentioned": [" ".join(key_most)]}, columns=['most mentioned'])
            pd.DataFrame({"": [" ".join([])]}).to_csv("result/CHkeys_tf_" + folder + ".xls", mode='a', index=False)  # 增加空行
            key_most.to_csv("result/CHkeys_tf_" + folder + ".xls", mode='a', index=False, encoding='utf-8-sig', columns=['', '', 'most mentioned'])
    
    
    if __name__ == '__main__':
        main()
    
    展开全文
  • python关键词 False class finally is return None continue for lambda try True def from nonlocal while and del global not with as elif if or yield assert else import pass break except...

    python关键词

    False class finally is return
    None continue for lambda try
    True def from nonlocal while
    and del global not with
    as elif if or yield
    assert else import pass
    break except in raise

    phthon内置函数

    abs() divmod() input() open() staticmethod()
    all() enumerate() int() ord() str()
    any() eval() isinstance() pow() sum()
    basestring execfile() issubclass print() super()
    bin() file() iter() preperty() tuple()
    bool() filter() len() range() type()
    bytearray() float() list() raw_input() unichr()
    callable() format() locals() reduce() unicode()
    chr() frozenset() long() reload() vars()
    classmethod() getattr() map() repr() xrange()
    cmp() global() max() reversed() Zip()
    compile() hasattr() memoryview() round() import()
    complex() hash() min() set() apply()
    delattr() help() next() setattr() buffer()
    dict() hex() object() slice() coerce()
    dir() id() oct() sorted() intern()
    展开全文
  • python实现了知网论文的高频关键词提取,生成高频关键词矩阵,并进行了社会网络分析
  • 程序需要传入三个参数,图片关键词、图片保存路径、需要抓取的数量。运行过程中可能会有一些错误(大部分的是网络错误,比如超时等)我这里捕获到只打印出来然后跳过。代码中翻页的url请求是抓包获取到的(没有写全,...
  • python 关键词抽取工具

    2020-11-05 15:49:58
    依任务需要,对多种关键词抽取工具进行比较,测试、调研。特此记录相关调用方法及最终评测结果。 1、jieba Github地址:https://github.com/fxsjy/jieba/ 安装:pip install jieba -i ...

    前言

    依任务需要,对多种关键词抽取工具进行比较,测试、调研。特此记录相关调用方法及最终评测结果。

    1、jieba

    Github地址:https://github.com/fxsjy/jieba/
    安装:pip install jieba -i https://pypi.douban.com/simple/

    基于 TextRank 算法的关键词抽取

    import jieba
    
    def keyword_extraction(content):
        """TextRank关键词抽取"""
        keywords = jieba.analyse.textrank(content, topK=50, allowPOS=('n', 'v', 'vn'))
        return keywords
    

    基于 TF-IDF 算法的关键词抽取

    def keyword_tfidf(content):
    	"""tf-idf关键词抽取"""
        keywords = jieba.analyse.extract_tags(content, topK=50, allowPOS=('n', 'v', 'vn'))
        return keywords
    

    参数说明:

    • content:表示待提取文本
    • topK:返回权重最大的关键词数,默认值为20
    • withWeight:表示是否一并返回关键词权重值,默认值为False
    • allowPOS:表示仅包括指定词性的词,默认值为空,即不筛选

    2、hanlp

    Github地址:https://github.com/hankcs/HanLP
    安装:pip install pyhanlp -i https://pypi.douban.com/simple/
    修改自定义词典方法:修改~\Anaconda3\Lib\site-packages\pyhanlp\static\data\dictionary\custom\ CustomDictionary.txt路径下的文件

    from pyhanlp import *
    
    def keyword_hanlp(content):
    	"""基于textrank算法"""
        keywords = HanLP.extractKeyword(content, 50)
        return keywords
    

    3、snownlp

    Github地址: https://github.com/isnowfy/snownlp
    安装:pip install snownlp -i https://pypi.douban.com/simple/

    from snownlp import SnowNLP
    
    def keyword_snownlp(content):
    """textRank"""
        keywords = SnowNLP(content).keywords(50)
        return keywords
    

    4、jiagu

    Github地址:https://github.com/ownthink/Jiagu
    安装:pip install -U jiagu -i https://pypi.douban.com/simple/

    import jiagu
    
    def keyword_jiagu(content):
    	"""基于BiLSTM"""
    	keywords = jiagu.keywords(content, 50)
        return keywords
            
    

    5、harvestText

    Github地址:https://github.com/blmoistawinde/HarvestText
    安装:pip install --upgrade harvesttext

    from harvesttext import HarvestText
    ht = HarvestText()
    
    def keyword_harvestText(content, method="tfidf"):
        if method == "tfidf":
        """调用jieba-tfidf方法"""
        	keywords = ht.extract_keywords(content, 50, method="jieba_tfidf", allowPOS={'n', 'v', 'vn'})
        elif method == "textrank":
        """基于networkx的textrank算法"""
         keywords = ht.extract_keywords(content, 50, method="textrank", allowPOS={'n', 'v', 'vn'})
    

    6、SIFRank_zh

    Github地址:https://github.com/sunyilgdx/SIFRank_zh
    安装:下载GitHub源码调试,调试文件路径:~/SIFRank_zh-master/test/test.py

    """基于预训练模型ELMo+句向量模型SIF"""
    keyphrases = SIFRank(content, SIF, zh_model, N=50, elmo_layers_weight=elmo_layers_weight)
    
    keyphrases_ = SIFRank_plus(content, SIF, zh_model, N=50, elmo_layers_weight=elmo_layers_weight)
    

    7、macropodus

    Github地址:https://github.com/yongzhuo/Macropodus
    安装:python3.6下pip install macropodus -i https://pypi.douban.com/simple/

    import macropodus
    
    def keyword_macropodus(content):
    	"""基于Albert+BiLSTM+CRF"""
    	keywords = macropodus.keyword(content)
        return keywords
    

    结论

    1. jiagu和hanlp关键词抽取结果中包含字母、数字记忆单个字情况,且无法直接根据词性过滤掉人名和机构名。
    2. harvestText中引入了networkx的图与复杂网络分析算法,就测试效果而言与jieba-textrank不分伯仲。
    3. SIFRank做了关键词聚合(就是将几个距离比较近的关键词合为一个),在测试时发现这种合并会导致关键词不通顺,不可用。
    4. macropodus抽取关键词,不能设置额外参数,关键词抽取固定(改的话就得改源码了),而且有的文章抽不出关键词(很奇怪)。
    5. 最终试了一圈发现,还是jieba香!!!(也可能和自己处理的文本有关,大家可以自己亲自比较试试哈。)
    展开全文
  • 为什么要做个关键词挖掘工具 最近做了28找群的平台,需要做seo,然后要挖掘关键词,建立关键词库,然后根据关键词做优化. 网上找了一圈,大部分关键词感觉工具都是要收费的,也不能下载,一个个复制实在是麻烦. 要获得...

    为什么要做个关键词挖掘工具

    最近做了个平台,需要做seo,然后要挖掘关键词,建立关键词库,然后根据关键词做优化.

    网上找了一圈,大部分关键词感觉工具都是要收费的,也不能下载,一个个复制实在是麻烦.

    要获得关键词,要么付费,要么一个个复制.

    干脆自己动手,从网上采集。今天就来谈一谈如何使用Python采集站长工具(chinaz.com)关键词库。

    从网上看了,相关的python源码,大部分都已经过期了,网址都不是那个了.所以也没啥参考价值

    关键词挖掘主要功能

    • 关键词挖掘相关提示信息
    • 关键词获取,导出EXCEL
    • 工具打包成python exe

    界面截图

    • 程序运行图List item
      -关键词 导入Excel截图
      -在这里插入图片描述

    源代码

    import urllib.request as request
    import lxml.html as html
    import time
    import requests
    from lxml import etree
    import xlwt
    from pyquery import PyQuery as pq
    
    def search_keyword(keyword):
        a = 1
        b = 0
        xpath = '//ul[@class="Module-table-list clearfix"]' 
        data_list = []
        while a <= 5: 
            url = 'https://data.chinaz.com/keyword/allindex/%s/%s' % (keyword,a)
            print(url)
            requests.packages.urllib3.disable_warnings()
            data = requests.get(url,verify=False).text
            dom = etree.HTML(data) 
            links = dom.xpath(xpath)
            doc = pq(data)  
             
            ms = doc('.z-fl.fz14.lh32').text()
            print(ms)
            #count=dom.xpath('//div[@class="z-fl fz14 lh32"]/span[1]/text()') 
            #print(links)
            tplt = "{0:{3}^2}\t{1:{3}^10}\t{2:^10}"
            print(tplt.format("序号", "长尾词", "指数", chr(12288))) 
            for link in links:
                num = link.xpath("./li[1]/text()")[0].strip()
                word = link.xpath("./li[2]/a/text()")[0].strip()
                zhishu = link.xpath("./li[3]/a/text()")[0].strip() 
                print(tplt.format(num,word,zhishu, chr(12288)))
                data = [
                        num,
                        word,
                        zhishu, 
                    ]
                data_list.append(data) 
    
            a  += 1
            time.sleep(3)
        if(len(data_list)==0):
            print("该关键词没有挖掘到关键词数据")
            return
        bcsj(keyword, data_list) 
    
    
    
    #保存关键词数据为excel格式
    def bcsj(keyword,data):
        workbook = xlwt.Workbook(encoding='utf-8')
        booksheet = workbook.add_sheet('Sheet 1', cell_overwrite_ok=True)
        title = [['序号', '长尾词', '指数']]
        title.extend(data) 
        for i, row in enumerate(title):
            for j, col in enumerate(row):
                booksheet.write(i, j, col)
        workbook.save(f'{keyword}.xls')
        print(f"保存关键词数据为 {keyword}.xls 成功!")
    
    if __name__ == '__main__': 
        keyword = input('请输入关键词>>')
        print('正在查询,请稍后...')
        search_keyword(keyword)
        
    

    源代码毫无保留.谢谢给出指点意见.

    这样一个免费的关键词挖掘工具做好了.
    以上就是这里以采集站长工具为例,同样的还可以采集其他类似网站,比如爱站网、5118等,多个网站综合起来,采集的关键词将更多更全一些。
    另外有些seo工具,类似域名挖掘,死链查询,自动伪原创.

    本人长期从事python ,c#开发,需要工具,插件的可以找我,一起学习.

    如果要使用此挖掘工具,不会Python 的人有一定的难度.
    需要exe文件的可以在下面留言.
    这样就可以一键使用

    展开全文
  • 原标题:李亚涛:python批量查询关键词百度手机与PC排名目前很多工具可以输入一个关键词和网址,查询出该关键词在百度的排名情况,但是目前没有一个工具或网站可以查询关键的手机排名情况。百度手机排名如何查呢?绝...
  • 关键词1.什么是关键词:就是系统已经定义...怎么查看有哪些,学了模块之后,我们就可以导入一个keyword模块来查看:使用keyword.kwlist查看系统关键词,注意:Python2中True/False不是关键字,但Python3中是,上面使...
  • 本人python小白一个,为了入门,决定还是直接上个小项目-->爬虫。废话不多说,先剖析一下必应的响应页面。打开firefox,到必应里搜索关键词“欧阳娜娜”,再查看请求头发现是这样的: ...
  • 关键词百度指数采集,抓包Cookie及json数据处理 1.抓包处理 2.Cookie使用添加 3.json数据处理转换 #关键词百度指数采集 #20191119 by 微信:huguo00289 # -*- coding: UTF-8 -*- import requests,json,time def ...
  • 各位大牛好,我想用python做一件事:在新浪微博上用关键词搜索微博,并尽可能多地抓取相关微博,然后抓取其评论,并进行文本分析。 现在得知可: 1、用API接口。但是我不知道个人可不可以申请使用,是不是要创建应用...
  • python实现关键词提取

    万次阅读 热门讨论 2017-09-13 22:17:59
    python实现关键词提取新人小菜鸟又来写博客啦!!!没人表示不开心~~(>_<)~~ 今天我来弄一个简单的关键词提取的代码 文章内容关键词的提取分为三大步: (1) 分词 (2) 去停用词 (3) 关键词提取分词方法有...
  • python 实现关键词提取

    万次阅读 2019-02-10 13:42:12
    Python 实现关键词提取 这篇文章只介绍了Python关键词提取的实现。 关键词提取的几个方法:1.textrank 2.tf-idf 3.LDA,其中textrank和tf-idf在jieba中都有封装好的函数,调用起来十分简单便捷。常用的自然语言...
  • 介绍了在Windows下如何通过运行python爬取百度搜索关键词提交。即采用python的request库编制程序自动向搜索引擎提交关键词,并获得搜索结果。工具/原料安装Python的电脑方法/步骤1打开百度页面,搜索关键词,比如:...
  • 前段时间为了查找自己的老王python关键词排名怎么样,特意用python写了一个查找网页关键词排名的程序,感觉效果还不错。特别是查找关键词排名靠后的网页来说非常的方便,不用自己手动的去一个个的翻页,废话不说了...
  • python根据关键词 批量下载百度图片到本地文件夹 ,python练手小程序
  • python构建关键词共现矩阵

    万次阅读 多人点赞 2017-04-05 15:44:37
    本文仅仅提供了实现思路,如果对算法速度有追求的请移步python构建关键词共现矩阵速度优化(在此非常感谢这位同学的优化) 非常感谢南京大学的张同学发现我代码中的bug,现文中的代码均已经更新请放心使用,并且代码...
  • 主要介绍了python提取内容关键词的方法,适用于英文关键词的提取,非常具有实用价值,需要的朋友可以参考下
  • python百度关键词相关搜索采集,链轮查询采集相关关键词工具exe 1.随机生成协议头 2.关键词相关筛选 3.关键词去重 4.链轮采集 #百度关键词相关搜索采集 #20191118 # -*- coding: UTF-8 -*- import requests,re,time...
  • python,关键词pass

    2017-03-12 13:39:27
    for letter in 'python': if letter == 'h': pass print " This is pass block" print "Current letter:", letterprint " Goodbye"for letter in 'Patrick': if letter == 'r':
  • Python 检索关键词对比

    2019-11-24 06:25:57
    内容:做数据爬取时,爬取完成后为了确认检索关键词是否都进行爬取,使用此程序进行对比,提高效率。 # -*- coding: utf-8 -*- import os #more.txt保存全部关键词,less.txt保存检索过的关键词 with open("more....
  • python实现关键词共现矩阵

    千次阅读 2017-08-21 10:25:00
    python实现关键词共现矩阵,将下图中同时出现的关键词, 转化为下图的共现矩阵。 代码如下: import pandas as pd import numpy as np data = pd.read_excel(r'E:\Python\data.xlsx',header=None) ...
  • 简单的关键词提取的代码 文章内容关键词的提取分为三大步: (1) 分词 (2) 去停用词 (3) 关键词提取 分词方法有很多,我这里就选择常用的结巴jieba分词;去停用词,我用了一个停用词表。具体代码如下: import ...
  • python实现关键词搜索

    千次阅读 2018-11-18 22:17:23
    这个项目是要从存储了许多菜谱的json文件中依据关键词快速找到相应菜谱。 使用时,直接使用search函数即可找相关菜谱,支持多个关键词搜索,支持高评分词条优先显示。搜索结果为前十个相关菜谱,显示时有三种排序...
  • 需求:如何用python代码实现百度搜索关键词的功能?比如输入关键词:“python爬虫”,得到一个搜索结果的页面,并保存到本地。这是经典的python爬虫教学案例之一,也是比较基础的python实现。今天主要通过python自带...
  • RAKE关键词提取python代码,python源码RAKE关键词提取python代码,python源码

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 68,803
精华内容 27,521
关键字:

python关键词

python 订阅