精华内容
下载资源
问答
  • 直通车 关键词 组合生成器 做淘宝直通车的用得着
  • 搜索关键词生成云图,其中需要创建"分词词典.txt",‘w’,encoding=‘utf-8’ from urllib.parse import urlencode import requests from pyquery import PyQuery as pq import time import os import csv import ...

    下面展示一些 内联代码片

    搜索关键词,生成云图,其中需要创建"分词词典.txt",‘w’,encoding=‘utf-8’

    from urllib.parse import urlencode
    import requests
    from pyquery import PyQuery as pq
    import time
    import os
    import csv
    import json
    import pandas as pd
    #-----------------------------------判断是否存在文件,否则增加
    if os.path.exists('微博热词.csv'):
        os.remove('微博热词.csv')
    if os.path.exists('微博热词.txt'):
        os.remove('微博热词.txt')
    try:
      f =open("停用词库.txt",'r')
      f.close()
    except IOError:
      f = open("停用词库.txt",'w')
      f.close()
    
    try:
      f =open("分词词典.txt",'r',encoding='utf-8')
      f.close()
    except IOError:
      f = open("分词词典.txt",'w',encoding='utf-8')
      f.close()
    
    #-----------------------------------判断是否存在文件,否则增加
    
    
    base_url = 'https://m.weibo.cn/api/container/getIndex?'
    
    headers = {
        'Host': 'm.weibo.cn',
        'Referer': 'https://m.weibo.cn/u/2830678474',
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
        'X-Requested-With': 'XMLHttpRequest',
    }
    class SaveCSV(object):
    
        def save(self, keyword_list,path, item):
            """
            保存csv方法
            :param keyword_list: 保存文件的字段或者说是表头
            :param path: 保存文件路径和名字
            :param item: 要保存的字典对象
            :return:
            """
            try:
                # 第一次打开文件时,第一行写入表头
                if not os.path.exists(path):
                    with open(path, "w", newline='', encoding='utf-8') as csvfile:  # newline='' 去除空白行
                        writer = csv.DictWriter(csvfile, fieldnames=keyword_list)  # 写字典的方法
                        writer.writeheader()  # 写表头的方法
    
                # 接下来追加写入内容
                with open(path, "a", newline='', encoding='utf-8') as csvfile:  # newline='' 一定要写,否则写入数据有空白行
                    writer = csv.DictWriter(csvfile, fieldnames=keyword_list)
                    writer.writerow(item)  # 按行写入数据
                    print("^_^ write success")
    
            except Exception as e:
                print("write error==>", e)
                # 记录错误数据
                with open("error.txt", "w") as f:
                    f.write(json.dumps(item) + ",\n")
                pass
    
    def get_page(page,title): #得到页面的请求,params是我们要根据网页填的,就是下图中的Query String里的参数
        params = {
            'containerid': '100103type=1&q='+title,
            'page': page,#page是就是当前处于第几页,是我们要实现翻页必须修改的内容。
            'type':'all',
            'queryVal':title,
            'featurecode':'20000320',
            'luicode':'10000011',
            'lfid':'106003type=1',
            'title':title
        }
        url = base_url + urlencode(params)
        print(url)
        try:
            response = requests.get(url, headers=headers)
            if response.status_code == 200:
                print(page)
                return response.json()
        except requests.ConnectionError as e:
            print('Error', e.args)
    
    # 解析接口返回的json字符串
    def parse_page(json , label):
        res = []
        if json:
            items = json.get('data').get('cards')
            for i in items:
                if i == None:
                    continue
                item = i.get('mblog')
                if item == None:
                    continue
                weibo = {}
                weibo['id'] = item.get('id')
                weibo['label'] = label
                weibo['text'] = pq(item.get('text')).text().replace(" ", "").replace("\n" , "")
                res.append(weibo)
        return res
    
    if __name__ == '__main__':
    
        title = input("请输入搜索关键词:")
        path = "微博热词.csv"
        item_list = ['id','text', 'label']
        s = SaveCSV()
        for page in range(10,20):#循环页面
            try:
                time.sleep(1)         #设置睡眠时间,防止被封号
                json = get_page(page , title )
                results = parse_page(json , title)
                if requests == None:
                    continue
                for result in results:
                    if result == None:
                        continue
                    print(result)
    
    
                    s.save(item_list, path , result)
            except TypeError:
                print("完成")
                continue
    
    #数据转txt------------------------------------
    data = pd.read_csv('微博热词.csv', encoding='utf-8')
    with open('微博热词.txt','a+', encoding='utf-8') as f:
        for line in data.values:
            f.write((str(line[0])+'\t'+str(line[1])+'\n'))
    
    
    #---------------------------------词云图
    #!/usr/bin/env python3
    # -*- coding:utf-8 -*-
    # Author LQ6H
    
    import jieba
    from collections import Counter
    import pyecharts.options as opts
    from pyecharts.charts import WordCloud
    
    
    def get_text():
    
        # f=open("text1.txt",encoding="gbk")
        f = open("微博热词.txt", encoding="utf-8")
        lines=f.read()
    
        text=lines.split("\n\n")
    
        return "".join(text)
    
    
    
    
    def split_word(text):
    
        jieba.load_userdict("分词词典.txt")
        # word_list=list(jieba.cut_for_search(text))#精准模式后搜素模式
        word_list = list(jieba.cut(text))#默认进准模式
    
    
    
        with open("停用词库.txt") as f:
            meaningless_word=f.read().splitlines()
    
        result=[]
    
        for i in word_list:
    
            if i not in meaningless_word:
                result.append(i.replace(" ",""))
    
        return result
    
    def word_counter(words):
    
        words_counter=Counter(words)
    
        words_list=words_counter.most_common(301)#排名前N
    
        return words_list
    
    
    def word_cloud(data):
        (
            WordCloud()
                .add(
                series_name="热词分析",
                data_pair=data,
                word_gap=5,
                word_size_range=None,#词的大小[20,500]
                shape="",
    
                # width=2000,
                # height=1000
                # mask_image="书.jpg"
            ).set_global_opts(
                title_opts=opts.TitleOpts(
                    title="热词分析",title_textstyle_opts=opts.TextStyleOpts(font_size=23)
                ),
                tooltip_opts=opts.TooltipOpts(is_show=True),
            )
            .render("微博热词.html")
        )
    
    
    def main():
    
        text=get_text()
    
        words=split_word(text)
    
        data=word_counter(words)
    
        word_cloud(data)
    
    if __name__ == '__main__':
    
        main()
    

    预览在这里插入图片描述

    展开全文
  • 根据关键词生成词云

    2015-08-22 10:15:43
    wordscloud.jar 根据关键词生成词云
  • -无业游民找工作莫得结果的第十四天,继续人间小苦瓜和关键词云的爱恨情仇 快速指路: 1.1腾讯视频弹幕提取并制作关键词云1:弹幕在哪里 1.2腾讯视频弹幕提取并制作关键词云2:scrapy弹幕的获取 1.3企鹅弹幕提取并...

    -无业游民找工作莫得结果的第十四天,继续人间小苦瓜和关键词云的爱恨情仇
    快速指路:
    1.1腾讯视频弹幕提取并制作关键词云1:弹幕在哪里
    1.2腾讯视频弹幕提取并制作关键词云2:scrapy弹幕的获取
    1.3企鹅弹幕提取并制作关键词云3:自动爬取全集+sql数据库写入
    1.4企鹅弹幕提取并制作关键词云4:jieba分词+collections词频统计+wordcloud制作关键词云
    写完代码好几天了,但是这几天真的好累好懒。
    本篇用到的库如下:

    import jieba #jieba分词
    import collections #词频统计库
    import numpy
    import wordcloud #词云展示库
    from PIL import Image #图像处理库
    import matplotlib.pyplot as plt #图像处理库
    

    1.4.1jieba分词
    调用python中的jieba库对句子进行分词操作。jieba 是目前最好的 Python 中文分词组件,它有多重分词的模式,可以通过不同的需求和效果调用不同的函数。同时jieba还可以添加自定义库。比如我是用小欢喜的弹幕进行处理的,词典中我会提前将演员的名字,人物的名字,还有剧中可能会出现的词语等等。这个词典需要经过反复的测试,通过分词的效果来看是否要添加新的字。
    词典的格式:一行一个:

    小欢喜
    黄磊
    方圆
    海清
    童文洁
    陶虹
    宋倩
    王砚辉
    季胜利
    

    利用jieba分词:

     jieba.load_userdict("F:\danmu_process\dic_xiaohuanxi.txt") #载入自建jieba字典
     result_4=jieba.cut(result_2,cut_all=False)#jieba分词
    

    1.4.2collections统计
    在用jieba分词之后,就可以调用collections库来统计词语出现的次数了。
    我们会发现分词的结果存在着特殊字符或者我们不想要的字词等,在用collections统计的时候,我们可以添加一个list存储我们不想被统计的字词等:

    remove_words=[u'的',u'是',u'就',u'我',u'了',u'来',u'啊',u'这',u'吗',u'像',u'那',u'跟',u'呢',u'吧',u'都',
    			  u'你',u'也',u'还',u'呀','怎么','说','在','他','又','两',
    			  '.',' ',',','。','~','?','!','[',',',']','\\',':','...','…','~',
    			  '1','6',
    			  'xa0','😂','😭','👏'] #自定义去除字库
    for word in result_4:
    	if word not in remove_words: #如果觉得单字没有意义的话,可以再添加len(word)>1来只统计2个字以上的词语
    		 word_list.append(word)
    #统计词频率
    word_counts=collections.Counter(word_list)
    word_counts_top=word_counts.most_common(100)
    

    1.4.3 wordcloud词云生成
    接下来就是词云生成和展示的部分了:
    wordcloud生成词云,通过调用matplotlib进行图像处理。wordcloud还能根据自定义背景图案更改字的颜色。

     mask=numpy.array(Image.open("F:\\danmu_process\\background.jpg"))
     wc=wordcloud.WordCloud(
                font_path='C:\\Windows\\Fonts\\simhei.ttf',#设置字体格式
                mask=mask,#设置背景图
                max_words=75,#最多显示词数
                max_font_size=110, #字体最大值
                background_color='white',
                prefer_horizontal=0.9#默认就是0.9,可以不写。如果要全部横向显示,就写=1
            )
    
    #从字典生成词云
    wc.generate_from_frequencies(word_counts)
    #颜色方案建立
    image_colors=wordcloud.ImageColorGenerator(mask)
    #将词云颜色设置为背景图方案
    wc.recolor(color_func=image_colors)
    #显示词云
    plt.imshow(wc)
    #关闭坐标轴
    plt.axis('off')
    #显示
    plt.show()
    

    选择的背景图案:
    在这里插入图片描述1.4.4最后的效果展示:
    在这里插入图片描述1.4.6 巴拉巴拉
    弹幕爬取和弹幕词云的简单制作就告一段落了。发现写博客也算是复习了一波了。以前写的代码用完了也就完事了,到最后变成代码每年的量也挺多,但是回忆起来又觉得好像也没做啥。还是得努力找工作啊害。白白。

    展开全文
  • 来源 | 京东智联开发者导读:京东商城背后的 AI 技术能力揭秘:基于关键词自动生成摘要过去几十年间,人类的计算能力获得了巨大提升;随着数据不断积累,算法日益先进,我们已经步入了人...

    来源 | 京东智联云开发者

    导读:京东商城背后的 AI 技术能力揭秘: 基于关键词自动生成摘要

    过去几十年间,人类的计算能力获得了巨大提升;随着数据不断积累,算法日益先进,我们已经步入了人工智能时代。确实,人工智能概念很难理解,技术更是了不起,背后的数据和算法非常庞大复杂。很多人都在疑惑,现在或未来AI将会有哪些实际应用呢?

    其实,关于AI的实际应用以及所带来的商业价值并没有那么的“玄幻”,很多时候就已经在我们的身边。接下来,【AI论文解读】专栏将会通过相关AI论文的解读,由深入浅地为大家揭秘,AI技术是如何对电商领域进行赋能,以及相关的落地与实践。

    人工智能技术在电商领域,有着丰富的应用场景。应用场景是数据入口,数据通过技术得到提炼,反过来又作用于技术,二者相辅相成。

    京东基于自然语言理解与知识图谱技术,开发了商品营销内容AI写作服务。并将此项技术应用到了京东商城【发现好货】频道中。

    京东【发现好货】频道

    通过AI创作的数十万商品营销图文素材,不仅填补了商品更新与达人写作内容更新之间的巨大缺口,也提升了内容频道的内容丰富性。

    同时,AI生成内容在曝光点击率、进商详转化率等方面其实都表现出了优于人工创作营销的内容。

    接下来让我们让我通过解读入选 AAAI 2020 的论文来一起来看看,如何通过AI来实现针对不同群体采用不同营销策略及不同风格的营销文案从而提高营销转化率的。

    自动文本摘要(简称“自动文摘”)是自然语言处理领域中的一个传统任务,其提出于 20 世纪 50 年代。自动文摘任务的目标是对于给定的文本,获得一段包含了其中最重要信息的简化文本。常用的自动文摘方法包括抽取式自动文摘(Extractive Summarization)和生成式自动文摘(Abstractive Summarization)。抽取式自动文摘通过提取给定文本中已存在的关键词、短语或句子组成摘要;生成式自动文摘通过对给定文本建立抽象的语意表示,利用自然语言生成技术,生成摘要。

    本文所介绍的是基于关键词指导的生成式句子摘要方法,该方法融合了抽取式自动文摘和生成式自动文摘,在Gigaword句子摘要数据集上与对比模型相比,取得了更好的性能。

    论文链接:

    http://box.jd.com/sharedInfo/B2234BB08E365EEC

     

    生成式句子摘要

    生成式句子摘要(Abstractive Sentence Summarization)任务的输入是一个较长的句子,输出是该输入句子的简化短句。

    我们注意到,输入句子中的一些重要词语(即关键词)为摘要的生成提供了指导线索。另一方面,当人们在为输入句子创作摘要时,也往往会先找出输入句子中的关键词,然后组织语言将这些关键词串接起来。最终,生成内容不仅会涵盖这些关键词,还会确保其流畅性和语法正确性。我们认为,相较于纯粹的抽取式自动文摘和生成式自动文摘,基于关键词指导的生成式自动文摘更接近于人们创作摘要时的习惯。

    1:输入句和参考摘要之间的重叠关键词(用红色标记)涵盖了输入句的重要信息,我们可以根据从输入语句中提取的关键字生成摘要

    我们举一个简单的句子摘要的例子。如图1所示,我们可以大致将输入句子和参考摘要的重叠的词(停用词除外)作为关键词,这些重叠的词语覆盖了输入句子的要点。例如,我们通过关键词“世界各国领导人”“关闭”和“切尔诺贝利” ,可以获取输入句子的主旨信息,即“世界各国领导人呼吁关闭切尔诺贝利”,这与实际的参考摘要 “世界各国领导人敦促支持切尔诺贝利核电站关闭计划”是相吻合的。这种现象在句子摘要任务中很常见:在Gigaword句子摘要数据集上,参考摘要中的词语超过半数会出现在输入句子中。

    模型概述

    句子摘要任务的输入为一个较长的句子,输出是一个简短的文本摘要。我们的动机是,输入文本中的关键词可以为自动文摘系统提供重要的指导信息。首先,我们将输入文本和参考摘要之间重叠的词(停用词除外)作为Ground-Truth关键词,通过多任务学习的方式,共享同一个编码器对输入文本进行编码,训练关键词提取模型和摘要生成模型,其中关键词提取模型是基于编码器隐层状态的序列标注模型,摘要生成模型是基于关键词指导的端到端模型。关键词提取模型和摘要生成模型均训练收敛后,我们利用训练好的关键词提取模型对训练集中的文本抽取关键词,利用抽取到的关键词对摘要生成模型进行微调。测试时,我们先利用关键词提取模型对测试集中的文本抽取关键词,最终利用抽取到的关键词和原始测试文本生成摘要。

    1、多任务学习

    文本摘要任务和关键词提取任务在某种意义上非常相似,都是为了提取输入文本中的关键信息。不同点在于其输出的形式:文本摘要任务输出的是一段完整的文本,而关键词提取任务输出的是关键词的集合。我们认为这两个任务均需要编码器能够识别出输入文本中的重要信息的能力。因此,我们利用多任务学习框架,共享这两个任务编码器,提升编码器的性能。

    2、基于关键词指导的摘要生成模型

    我们受Zhou等人工作[1]的启发,提出了一种基于关键词指导的选择性编码。具体来说,由于关键词含有较为重要的信息,通过关键词的指导,我们构建一个选择门网络,其对输入文本的隐层语义信息进行二次编码,构造出一个新的隐层。基于这个新的隐层进行后续的解码。

    我们的解码器基于Pointer-Generator网络[2],即融合了复制机制的端到端模型。对于Generator模块,我们提出直连、门融合和层次化融合的方式对原始输入文本和关键词的上下文信息进行融合;对于Pointer模块,我们的模型可以选择性地将原始输入和关键词中的文本复制到输出摘要中。

    实验与分析

    1、数据集

    在本次实验中,我们选择在Gigaword数据集上进行实验,该数据集包含约380万个训练句子摘要对。我们使用了8000对作为验证集,2000对作为测试集。

    2、实验结果

    表1显示了我们提出的模型比没有关键词指导的模型表现更好。我们测试了不同的选择性编码机制,分别是输入文本的自选择,关键词选择和互选择,实验结果显示互选择的效果最佳;对于Generator模块,我们发现层次化融合的方式要优于其他两种融合方式;我们的双向Pointer模块比原始的仅能从输入文本中复制的模型表现更好。

    表1

      

    总结

    本文致力于生成式句子摘要的任务,即如何将一个长句子转换成一个简短的摘要。我们提出的模型可以利用关键词作为指导,生成更加优质的摘要,获得了比对比模型更好的效果。

    1)通过采用了多任务学习框架来提取关键词和生成摘要;

    2)通过基于关键字的选择性编码策略,在编码过程中获取重要的信息;

    3)通过双重注意力机制,动态地融合了原始输入句子和关键词的信息;

    4)通过双重复制机制,将原始输入句子和关键词中的单词复制到输出摘要中。

    在标准句子摘要数据集上,我们验证了关键词对句子摘要任务的有效性。

    注释:

    [1]  Zhou, Q.; Yang, N.; Wei, F.; and Zhou, M. 2017. Selective encoding for abstractive sentence summarization. In Proceedings of ACL, 1095–1104.

    [2] See, A.; Liu, P. J.; and Manning, C. D. 2017. Get to the point: Summarization with pointer-generator networks. In Proceedings of ACL, 1073–1083.

    同时,欢迎所有开发者扫描下方二维码填写《开发者与AI大调研》,只需2分钟,便可收获价值299元的「AI开发者万人大会」在线直播门票!

    推荐阅读全球呼吸机告急!医疗科技巨头美敦力“开源”设计图和源代码京东商城背后的AI技术能力揭秘 - 基于关键词自动生成摘要互联网之父确诊新冠,一代传奇:任谷歌副总裁、NASA 访问科学家微软为一人收购一公司?破解索尼程序、写黑客小说,看他彪悍的程序人生!在Kubernetes上部署一个简单的、类PaaS的平台,原来这么容易!2020年,这20个大家都认识的加密交易所过得怎么样?
    你点的每个“在看”,我都认真当成了AI
    
    展开全文
  • -无业游民找工作莫得结果的第七天,继续人间小苦瓜和关键词云的爱恨情仇 快速指路: 1.1腾讯视频弹幕提取并制作关键词云1:弹幕在哪里 1.2企鹅视频弹幕提取并制作关键词云2:scrapy弹幕的获取 1.3企鹅弹幕提取并制作...

    -无业游民找工作莫得结果的第七天,继续人间小苦瓜和关键词云的爱恨情仇
    快速指路:
    1.1腾讯视频弹幕提取并制作关键词云1:弹幕在哪里
    1.2腾讯视频弹幕提取并制作关键词云2:scrapy弹幕的获取
    1.3企鹅弹幕提取并制作关键词云3:自动爬取全集+sql数据库写入
    1.4企鹅弹幕提取并制作关键词云4:jieba分词+collections词频统计+wordcloud制作关键词云

    1.3 scrapy爬取弹幕
    爬取弹幕的部分在这一小节基本可以结束了。主要是对之前的代码进行修正和添加了SQL代码(真的是毕业之后就再也没用过数据库,语法都忘了好多。为了CDA的考试,就链接一下数据库吧。)
    1.3.1 连续爬取一个视频的弹幕
    如果需要爬取一集内的所有弹幕,就需要对timestamp进行一直叠加,直到返回的信息中“”count=0“”。
    使用yield+用真循环。(停止条件需要放在处理response的函数中。自行补充XXXXX中的网址)

            while True:
                url = "https://XXXXXXXXX&timestamp={}".format(timestamp)
                yield scrapy.Request(url,callback=self.parse)
                timestamp=timestamp+15
    

    yield:生成器
    生成器是一个不断产生值的函数;一般和for循环配合使用。生成器每产生一个值(yield),当前函数冻结,值被保留,等待下一次调用之后再产生新的值。
    {}.format(timestamp)
    用timestamp的值来填充{}内的值。

    1.3.2 如何停止爬虫
    因为当前爬虫停止的条件是需要根据response的内容来判断的,因此用真的条件中无法有判断停止。
    为此我找了很多办法,比如直接退出python程序等,但是效果都不好。在查找了多个资料资料之后,在巨人1的肩膀上发现了停止spider的办法。即在parse()函数中停止spider的代码如下:

    from scrapy.exceptions import CloseSpider
    def parse(self, response):
    	if count==0:
    		raise CloseSpider('close it')
    

    在这里只截取关于本爬虫使用的方法介绍,更多的办法可以查看Reference中巨人1的肩膀。
    特点:发送此信号的时候,实际上还有一些在列队中的url,需要完成才会停止。类似当运行的时候,使用ctrl c停止一样。

    1.3.3 写入数据库
    连接的数据库:sqlserver
    python连接数据库使用的库为:pymssql
    我目前为止直接去了四个值存入数据库:commentid,content,opername,uservip_degree

    import pymssql #导入库
    connect = pymssql.connect('localhost', 'sa', '**', 'danmu')  # 服务器名,账户,密码,数据库名
    cs1=connect.cursor() #获取cursor对象
    #因为需要根据response的内容进行补全valuse中的值,需要使用%s
    query='INSERT INTO danmu_IF (commentid,content,opername,uservip_degree) VALUES(%s,%s,%s,%s)'
    

    接下来的我们需要对json文件进行逐行读取,然后再加入数据库中,因此真正构建sql的insert语句需要放在json的for循环中。

    1.3.4 json类型循环逐行读取

    for danmu_1 in danmu["comments"]:
    	commentid=danmu_1["commentid"]
    	content=danmu_1["content"]
    	opername=danmu_1["opername"]
    	#valus值构成
    	values=(commentid,content,opername,uservip_degree)
    	#生成sql语句
    	cs1.execute(query,values)
    	#提交之前的操作,如果之前已经执行多次的execute,那么就都进行提交
    	connect.commit()
    

    1.3.5 关闭sql语句

     # 关闭cursor对象
     cs1.close()
     # 关闭connection对象
     conn.close()
    

    结果展示:
    在这里插入图片描述一共是截取到了33517个弹幕,出现的情况:
    1.运行过程中有发现sql数据库的报错,怀疑可能的原因是因为弹幕中存在着不可识别的字符。
    2.发现关闭spider的时间会稍稍比yield生成器生成的慢一些些。怀疑是因为线程的原因。

    不过,不论如何,企鹅弹幕爬取就先告一段落啦。接下来就是弹幕云的制作了,继续摸索吧。革命尚未成功,同志仍需努力啊哭唧唧。

    备注一下今天用到的sql语句,真的是本科毕业之后就再也没用过sql了,研究生的论文为了少配置环境直接用了文本存储信息,为了CDA拼了老命害。

    /*删除表中的所有信息,且不做单独操作*/
    TRUNCATE TABLE danmu_IF  
    /*返回top100的内容*/
    SELECT TOP (100) [commentid]
          ,[content]
          ,[opername]
          ,[uservip_degree]
      FROM [danmu].[dbo].[danmu_IF] 
    

    Reference:
    巨人1的肩膀

    展开全文
  • -无业游民找工作莫得结果的第四天,继续人间小苦瓜和关键词云的爱恨情仇 -1.2 scrapy爬取弹幕
  • 关键词云图生成器是生成关键词云图的一种工具。一、简介关键词云图,也叫文字,是通过对一个或多个关键词进行重复的、字体大小颜色不一的、不规则的排列,使其看上去类似于某种形状的图片,是对文本中出现频率较高...
  • 关键词提取模型和摘要生成模型均训练收敛后,我们利用训练好的关键词提取模型对训练集中的文本抽取关键词,利用抽取到的关键词对摘要生成模型进行微调。测试时,我们先利用关键词提取模型对测试集中的文本抽取关键词...
  • 来源 | 京东智联开发者过去几十年间,人类的计算能力获得了巨大提升;随着数据不断积累,算法日益先进,我们已经步入了人工智能时代。确实,人工智能概念很难理解,技术更是了不起,背后的数据...
  • 推荐9款便签云生成工具

    千次阅读 2013-12-17 13:00:21
    标签或文字关键词的视觉化描述,用于汇总用户生成的标签或一个网站的文字内容。标签一般是独立的词汇,常常按字母顺序排列,其重要程度又能通过改变字体大小或颜色来表现,所以标签可以灵活地依照字序或热门...
  • 之上是整理文献管理与信息分析,罗昭峰老师的课,有需要的可以去慕课或b站去看
  • 9个优秀的标签免费生成工具

    千次阅读 2015-06-15 17:47:04
    标签或文字关键词的视觉化描述,用于汇总用户生成的标签或一个网站的文字内容。标签一般是独立的词汇,常常按字母顺序排列,其重要程度又能通过改变字体大小或颜色来表现,所以标签可以灵活地依照字序或热门...
  • 以百度“AI”这个关键词为例子,搜集搜索结果相关网站中的网页内容,用Python+matplotlib+wordcloud生成词云图。
  • 一款很稀有的jQuery echarts上传图片生成文字标签代码,基于echarts图表插件和jQuery实现根据图片样式生成彩色文字标签特效,点击标签关键词还可以放大。
  • 主要介绍了php实现根据词频生成tag的方法,涉及php分析与操作字符串以及标签生成技巧,具有一定参考借鉴价值,需要的朋友可以参考下
  • 方案中设计了一种需要数据拥有者私钥参与的索引生成机制抵抗关键词猜测攻击,基于线性秘密共享访问结构描述用户的搜索权限,支持一对多应用场景,借鉴连接子集关键词搜索技术和在线/离线思想提高搜索的灵活性和效率...
  • https://github.com/fxsjy/jieba可以直接pip 安装pip install jieba主要看到这么一篇文章https://zhuanlan.zhihu.com/p/20432734?columnSlug=666666参考,测试我写的一个学习计划分析其关键词并给出权重# -*- coding...
  • 一款很稀有的jQuery+echarts上传图片生成文字标签代码,基于echarts图表插件和jQuery实现根据图片样式生成彩色文字标签特效,点击标签关键词还可以放大。
  • 爬虫之js加密破解抓取网易音乐评论生成词云

    千次阅读 多人点赞 2019-06-20 13:29:27
    js破解历程 前言 技能点 界面概况 静态网页 动态网页 页面解析 step1: 找参数 step2:分析js函数 step3:分析参数 step4: 校验 step5:转为...但是没有深入研究,借着这次实践研究了一下网易音乐的加密方式...
  • 大段的聊天记录存储于csv文件的text列,生成词云的原理在Jerry的文章 在SAP分析里根据业务数据绘制词云(Word Cloud) 里有过介绍。 生成的效果见下图: R脚本源代码: library(wordcloud) library(tm) texts = as...
  • ,通过这四大关键词,SAP Concur真正将云计算、人工智能、移动应用等创新科技融入到差旅和费用管理,实现预算管控更加精准、财务分析更加智能、全球管控更加到位,差旅体验更加高效,助力企业轻松降低运营成本,加速...
  • 比较屌丝,看电影经常用百度网盘,所以写个脚本方便查看。 保持脚本为 baidu.py,然后 python baidu.py -h 查看帮助。 -p:指定第几页; -k:关键词 把符合的电影最后生成Html文件然后浏览(文件位置自己再修改下...
  • Python生成标签/词云

    千次阅读 2020-01-04 17:16:07
    中文的话去网上也能找到类似的词表关键词:中文停用词,中文stopwords。 增加分辨率 通过设置scale属性,值为float型,表示对图像放缩的倍数,默认值为1,指定比较高的值可以提高分辨率 WordCloud(scale=4)....
  • 1. 词云简介词云,又称文字、标签,是对文本数据中出现频率较高的“关键词”在视觉上的突出呈现,形成关键词的渲染形成类似一样的彩色图片,从而一眼就可以领略文本数据的主要表达意思。常见于博客、微博、...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 10,902
精华内容 4,360
关键字:

关键词云生成