精华内容
下载资源
问答
  • 【seo工具】关键词挖掘,获取关键词数据比较基础的部分,渠道很多,这次我们来采集凤巢的关键词数据,对关键词的分析,以及使用才是重点!我们先解决基础部分:每次使用脚本需抓包获取cookies数据登陆百度凤巢后台...

    【seo工具】关键词挖掘,获取关键词数据比较基础的部分,渠道很多,这次我们来采集凤巢的关键词数据,对关键词的分析,以及使用才是重点!我们先解决基础部分:

    每次使用脚本需抓包获取cookies数据登陆百度凤巢后台

    找到返回json关键词数据的链接作为请求对象

    构造header信息,假装你是个人类

    构造data信息,用作post

    使用pycurl模块请求,使用json模块把返回的json数据可识别,这边直接用正则提取

    写入到csv文件当中,就酱了

    #coding:utf-8

    import pycurl,StringIO,json,urllib,re,time,random,csv

    #找到返回json数据的链接

    url = 'https://fengchao.baidu.com/nirvana/request.ajax?path=jupiter/GET/kr/word&reqid=1473662256226_43'

    # filename = raw_input('input your filename\t')

    #轮换ua

    def getUA():#随机取ua

    uaList = [

    'Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+.NET+CLR+1.1.4322;+TencentTraveler)',

    'Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+.NET+CLR+2.0.50727;+.NET+CLR+3.0.4506.2152;+.NET+CLR+3.5.30729)',

    'Mozilla/5.0+(Windows+NT+5.1)+AppleWebKit/537.1+(KHTML,+like+Gecko)+Chrome/21.0.1180.89+Safari/537.1',

    'Mozilla/5.0 (Windows NT 6.1; rv:44.0) Gecko/20100101 Firefox/44.0',

    'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36'

    ]

    newUa = random.choice(uaList)

    return newUa

    #构造头部信息

    headers = [

    'Accept:*/*',

    'Accept-Encoding:gzip, deflate',

    'Accept-Language:zh-CN,zh;q=0.8',

    'Connection:keep-alive',

    # 'Content-Length:857',

    'Content-Type:application/x-www-form-urlencoded',

    # 'Cookie:-----自定义cookie--------',

    'Cookie:FC-FE-TERMINUS=fc_terminus_user; PSTM=1470278993; BIDUPSID=68D179B9795C9500BE7ECCE65F4DABDE; __cfduid=d76a2eae0d2d244e95526665c082a83c21470281708; BAIDUID=D845C1483B574B75268F3B55DD7C3E99:FG=1; BDUSS=RQQkxEOE5XNVZEdlBjTnpiTVQwdHI1YX5IdDJnQkJ-UnBvMEMtRmpuTjFqUDFYQUFBQUFBJCQAAAAAAAAAAAEAAAABgNQ2Qmlnd2F5c2VvAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAHX~1Vd1~9VXUT; H_PS_PSSID=1457_18280_21097_20856_20732; SFSSID=1854195357ed9983fd81f60449bb8f68; SIGNIN_UC=70a2711cf1d3d9b1a82d2f87d633bd8a02236744899; uc_login_unique=2fd154d0e97cc43a168b297ce0a3b280; __cas__st__3=0bafc4a741efb26d56acf2af8ec6b681db29020e1105f6d9b48086a98f6689d9cd346297babc34f158f94392; __cas__id__3=21291948; __cas__rn__=223674489; SAMPLING_USER_ID=21291948',

    'Host:fengchao.baidu.com',

    'Origin:https://fengchao.baidu.com',

    'Referer:https://fengchao.baidu.com/nirvana/main.html?userid=21291948',

    #'User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36',

    'User-Agent: %s' %getUA(),

    ]

    #打开fengchao.csv用来保存关键词数据

    fengchao = open('fengchao.csv','a')

    fengchao.write('关键词,Total,PC,Mobile\n')

    # n=0

    for query in [word.strip() for word in open('word.txt').readlines()]:

    # frist = 'Word:%s\tTotal\tPc\tMobile\n\n' % query #表头

    # fengchao.write(frist)

    # n+=1

    for pagelink in range(1,5):

    #构造需要post的data

    data = urllib.urlencode({

    'params': '{"entry":"kr_station","query":"%s","querytype":1,"pageNo":%d,"pageSize":300}' % (query,pagelink),

    'source':'',

    'path':'jupiter/GET/kr/word',

    'userid':21291948,

    'token':'0bafc4a741efb26d56acf2af8ec6b681db29020e1105f6d9b48086a56f6689d9cd346297babc34f158f94392',

    #'eventId':'1471855302096_47',

    #'reqId':'1471855302096_30',

    'Name':'',

    })

    time.sleep(1)

    c = pycurl.Curl()#通过curl方法构造一个对象

    c.setopt(pycurl.FOLLOWLOCATION, True)#自动进行跳转抓取

    c.setopt(pycurl.MAXREDIRS,5)#设置最多跳转多少次

    c.setopt(pycurl.CONNECTTIMEOUT, 60)#设置链接超时

    c.setopt(pycurl.TIMEOUT,120)#下载超时

    c.setopt(pycurl.ENCODING, 'gzip,deflate')#处理gzip内容,有些傻逼网站,就算你给的请求没有gzip,它还是会返回一个gzip压缩后的网页

    # c.setopt(c.PROXY,ip)# 代理

    c.fp = StringIO.StringIO()

    c.setopt(pycurl.URL, url)#设置要访问的URL

    c.setopt(pycurl.HTTPHEADER,headers)#传入请求头

    c.setopt(pycurl.POST, 1)

    c.setopt(pycurl.POSTFIELDS, data)#传入POST数据

    c.setopt(c.WRITEFUNCTION, c.fp.write)#回调写入字符串缓存

    c.perform()

    code = c.getinfo(c.HTTP_CODE)#返回状态码

    html = c.fp.getvalue()#返回源代码

    # print n

    for word,total,pc,mobile in re.findall(r'rd":"(.*?)","pv":(\d+),"pvPc":(\d+),"pvWise":(\d+),',html):

    print word,total,pc,mobile

    # fengchao.writelines(word + '\t' + total + '\t' + pc + '\t' + mobile + '\n')

    fengchao.writelines('%s,%s,%s,%s\n'%(word,total,pc,mobile))

    fengchao.close()

    脚本中很多地方是需要修改成自己的,注册一个凤巢的账号(免费的),抓包修改信息即可;

    脚本写的有一段时间了,能不能用,不知道,思路清晰就好!

    展开全文
  • 采集数据来源于站长之家!需要输入关键词!引用的库...保存excel格式#站长工具关键词挖掘# -*- coding=utf-8 -*-import requestsfrom lxml import etreeimport r...

    采集数据来源于站长之家!

    需要输入关键词!

    引用的库

    import requests

    from lxml import etree

    import re

    import xlwt

    import time

    1c73add2364f25-1024x683.jpg

    例子:

    1.etree采集列表

    2.切片操作

    3.保存excel格式

    #站长工具关键词挖掘

    # -*- coding=utf-8 -*-

    import requests

    from lxml import etree

    import re

    import xlwt

    import time

    headers={

    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_3) AppleWebKit/534.55.3 (KHTML, like Gecko) Version/5.1.3 Safari/534.53.10'

    }

    #查询关键词是否能找到相关的关键字

    def search_keyword(keyword):

    data={

    'kw': keyword,

    'page': '1',

    'by': '0',

    }

    url="http://stool.chinaz.com/baidu/words.aspx"

    html=requests.post(url,data=data,headers=headers).text

    time.sleep(3)

    #print(html)

    con=etree.HTML(html)

    key_result=con.xpath('//div[@class="col-red lh30 fz14 tc"]/text()')

    try:

    key_result=key_result[0] #没有找到相关的关键字

    except:

    key_result=[]

    #print(key_result)

    return key_result

    #获取关键词页码数和记录条数

    def get_page_number(keyword):

    data = {

    'kw': keyword,

    'page': '1',

    'by': '0',

    }

    url = "http://stool.chinaz.com/baidu/words.aspx"

    html = requests.post(url, data=data, headers=headers).text

    time.sleep(3)

    # print(html)

    con = etree.HTML(html)

    page_num = con.xpath('//span[@class="col-gray02"]/text()')

    page_numberze = r'共(.+?)页'

    page_number = re.findall(page_numberze, page_num[0], re.S)

    page_number = page_number[0]

    #print(page_number)

    total_data = con.xpath('//p[@class="col-gray lh24 fr pr5"]') # 数据记录

    total_datas = total_data[0].xpath('string(.)') # 获取节点所有文本

    #print(total_datas)

    print(f'挖掘关键词:{keyword}-{total_datas}')

    return page_number

    #获取关键词数据

    def get_keyword_datas(keyword,page_number):

    datas_list = []

    for i in range(1,page_number+1):

    print(f'正在采集第{i}页关键词挖掘数据...')

    data = {

    'kw': keyword,

    'page': i,

    'by': '0',

    }

    #print(data)

    url = "http://stool.chinaz.com/baidu/words.aspx"

    html = requests.post(url, data=data, headers=headers).text

    time.sleep(3)

    #print(html)

    con = etree.HTML(html)

    key_words = con.xpath('//p[@class="midImg"]/a/span/text()') # 关键词

    #print(key_words)

    keyword_all_datas = []

    keyword_datas = con.xpath('//ul[@class="ResultListWrap "]/li/div[@class="w8-0"]/a')

    for keyword_data in keyword_datas:

    keyword_data = keyword_data.text

    if keyword_data != None:

    keyword_all_datas.append(keyword_data)

    #print(keyword_all_datas)

    overall_indexs = keyword_all_datas[0::5] # 整体指数

    #print(overall_indexs )

    pc_indexs = keyword_all_datas[1::5] # pc指数

    #print(pc_indexs)

    mobile_indexs = keyword_all_datas[2::5] # 移动指数

    #print(mobile_indexs)

    s360_indexs = keyword_all_datas[3::5] # 360指数

    #print(s360_indexs)

    collections = keyword_all_datas[4::5] # 收录量

    #print(collections)

    ips = con.xpath('//ul[@class="ResultListWrap "]/li/div[@class="w15-0 kwtop"]/text()') # 预估流量

    if ips==[]:

    ips =['--']

    #print(ips)

    first_place_hrefs = con.xpath(

    '//ul[@class="ResultListWrap "]/li/div[@class="w18-0 lh24 tl"]/a/text()') # 首页位置链接

    if first_place_hrefs==[]:

    first_place_hrefs=con.xpath('//ul[@class="ResultListWrap "]/li/div[@class="w18-0 lh24 tl"]/text()')

    #print(first_place_hrefs)

    first_place_titles = con.xpath(

    '//ul[@class="ResultListWrap "]/li/div[@class="w18-0 lh24 tl"]/p[@class="lh17 pb5"]/text()') # 首页位置标题

    if first_place_titles == []:

    first_place_titles=['--']

    #print(first_place_titles)

    data_list = []

    for key_word, overall_index, pc_index, mobile_index, s360_index, collection, ip, first_place_href, first_place_title in zip(

    key_words, overall_indexs, pc_indexs, mobile_indexs, s360_indexs, collections, ips, first_place_hrefs,

    first_place_titles

    ):

    data = [

    key_word,

    overall_index,

    pc_index,

    mobile_index,

    s360_index,

    collection,

    ip,

    first_place_href,

    first_place_title,

    ]

    print(data)

    print('\n')

    data_list.append(data)

    time.sleep(3)

    datas_list.extend(data_list) #合并关键词数据

    return datas_list

    #保存关键词数据为excel格式

    def bcsj(keyword,data):

    workbook = xlwt.Workbook(encoding='utf-8')

    booksheet = workbook.add_sheet('Sheet 1', cell_overwrite_ok=True)

    title = [['关键词', '整体指数', 'PC指数', '移动指数', '360指数', '预估流量(ip)', '收录量', '网站首位链接', '网站首位标题']]

    title.extend(data)

    #print(title)

    for i, row in enumerate(title):

    for j, col in enumerate(row):

    booksheet.write(i, j, col)

    workbook.save(f'{keyword}.xls')

    print(f"保存关键词数据为 {keyword}.xls 成功!")

    if __name__ == '__main__':

    keyword = input('请输入关键词>>')

    print('正在查询,请稍后...')

    result=search_keyword(keyword)

    if result=="没有找到相关的关键字":

    print('\n')

    print (result)

    print("该关键词没有挖掘到关键词数据")

    else:

    print('\n')

    page_number=get_page_number(keyword)

    print('\n')

    print('正在采集关键词挖掘数据,请稍后...')

    print('\n')

    page_number=int(page_number)

    datas_list=get_keyword_datas(keyword,page_number)

    print('\n')

    print('关键词挖掘数据采集结果:')

    print('========================采集结果========================\n\n')

    for datas in datas_list:

    print(datas)

    print('\n\n========================采集结束========================\n')

    bcsj(keyword, datas_list)

    展开全文
  • 数据挖掘之提取关键词

    千次阅读 2017-10-06 12:12:06
    关键词关键词 快速了解文档内容、把握主题的重要方式。 广泛应用到新闻报道、科技论文等领域,以方便人们高效的管理和检索文档 一篇文档的关键词一般是几个词或短语,作为对该文档主要内容的提要 一个简单的关键词...

    关键词

    关键词

    • 快速了解文档内容、把握主题的重要方式。
    • 广泛应用到新闻报道、科技论文等领域,以方便人们高效的管理和检索文档
    • 一篇文档的关键词一般是几个词或短语,作为对该文档主要内容的提要

    一个简单的关键词提取举例

    • 使用jieba包中的extract_tags方法
    展开全文
  • 挖掘长尾关键词的方法:首先可以利用关键词研究工具查看长尾数据,从而来挖掘长尾关键词;然后我们还可以通过辨别长尾模式,查看是否有通用模式,这样也可以挖掘长尾关键词。你可以用下列方式获得关键字:1、从...

    挖掘长尾关键词的方法:首先可以利用关键词研究工具查看长尾数据,从而来挖掘长尾关键词;然后我们还可以通过辨别长尾模式,查看是否有通用模式,这样也可以挖掘长尾关键词。

    64fe5a867567eb4f0cc7096ddbfecebc.png

    你可以用下列方式获得关键字:

    1、从Technorati和Delicious的相关结果中进行文字挖掘。

    2、使用纯粹来自某种搜索结果(本地、学术)的文件,使关键词挖掘更集中。

    3、在相关论坛帖子中进行挖掘,可以使用inurl:forum指令找到这些帖子中出现的关键词。

    以下两种方法挖掘长尾词:

    方法一、挖掘关键词研究工具

    虽然通过关键词研究工具查看长尾数据有明显限制,但还是有方法可以做到。

    例如,如果你在50个城市拥有比萨连锁店,而你想发现长尾词,当然可以做到。我们看一下在Wordtracker中搜索Orlando Pizza(奥兰多比萨)、San Diego Pizza(圣地亚哥比萨)和San Jose Pizza(圣何塞比萨)时得到的关键词建议的尾部数据。

    “pizza san diego delivery”(比萨圣地亚哥送货)是一个有效长尾词的例子。

    如果有人搜索“pizza san diego delivery”,那么很可能其他人会搜索“pizza san diegodelivery”(比萨圣地亚哥送货)由于关键词研究工具的限制,这个词的搜索量很低,没有出现在数据中。我们在关键词工具中输入多个搜索词,实际上是使工具能有更多数据可以运用。

    从中得到的方法是有效的:将这些长尾扩展运用到所有的城市名称,虽然关键词工具只显示了一个,但是你可能从这些关键词吸引搜索流量。

    方法二、辨别长尾模式

    你也可以用另外一种方法确定长尾信息。假设我们以digital camera(数码相机)为例,下面是从KeywordDiscovery数据库中得到的,只被搜索过一次的两种不同品牌和型号的40个数码相机搜索词。

    我们的目标是确定用户搜索时是否有通用模式。在这个搜索子集中,呈现出来几个模式:

    1、48%以品牌名称开始,以数码相机结束。

    2、35%是这样的顺序:品牌、型号名称、型号编号、像素、数码相机。

    3、22.5%是这样的顺序:品牌、像素、型号名称、数码相机。

    4、60%是按照这样的模式:品牌、型号名称、数码相机。

    你可能也注意到了,至少在这个例子中像new(新)这样的限定词、特定商店名称及斥户评论,通常出现在搜索词组最前面。

    而与功能和产品有关的限定词,如内存、焦距、保修、支架、产品信息,甚至像素或型号编号的重复使用,通常加在搜索词组的最后面。

    展开全文
  •  实际上关键词挖掘难度并没有想象中那么高,在海量的互联网数据资源中,找对挖掘关键词的方法和合理利用工具能够对网站优化起到事半功倍的效果。 1、金花关键词工具 金花关键词工具是一款综合型的软件,而关键词...
  • 数据挖掘关键词提取)学习总结 参考文献: [1]胡少虎,张颖怡,章成志.关键词提取研究综述[J].数据分析与知识发现,2021,5(03):45-59. [2]刘学颖. 无监督的专利文本关键词提取研究[D].重庆邮电大学,2020. 参考书目: ...
  • 品牌女装关键词挖掘

    2017-06-24 19:58:24
    品牌女装关键词挖掘,移动,百度数据
  • 数据挖掘对网络消费者隐私的影响分析 摘要网络安全隐私保护是互联网运用中不可避免的话题尤其是移动互联网智能手机移动支付等的发展促进了网络消费规模不断扩大随之而来...关键词数据挖掘网络消费隐私影响 1数据挖掘
  • 傲杰关键词工具,主要用于在搜索引擎中挖掘关键词,产品是国内首款真正实现即时查询百度指数的辅助工具,可直观显示关键词60天内指数信息的数据视图。拥有数据视图、对手分析
  • 抓取百度关键词相关关键词挖掘工具使用的前提就是需要本地或者线上连接MySQL数据框,还有就是需要有ip代理才可以使用。因为这个脚本依旧是使用Python写的,所以你的电脑或者服务器需要有Python的运行环境才可以。...
  • 陈 虹模糊关联观则算法在数据挖掘中的血用 模糊关联规则算法在数据...分析 发现 了经典算~,L~-Apriori算法的缺陷给 出了改进 的基于筛选压缩的Apriorl挖掘算 法并将其应用到数据挖掘中进行对比分析 关键词数据挖掘 模糊
  • 熊猫关键词工具是一款基于百度,搜狗,360搜索,淘宝的长尾词挖掘软件。软件小巧好用,挖掘速度快,是站长日常必备软件。 熊猫关键词工具 更新日志: 2016.11.17 1.下线站长工具接口,新增阿里巴巴数据接口 2.修正...
  • 淘宝关键词挖掘大师(淘宝关键词挖掘软件)是一款绿色免费的由数据学院官方制作的最强大的淘词挖掘神器。软件功能强大,可以同时查看最优类目和类目下的宝贝竞争数量,这样挖掘关键词之后就不需要在一个一个查询...
  • 取得了阶段性的成就,但是发展现状仍然不容乐观,本篇文章将针对数据挖掘的定义以及国内的现状进行分析,并对其发展趋势进行预测,目的在于加快我国的数据挖掘技术研究进程 关键词数据挖掘;中国;现状;发展; 0引言 随着...
  • 淘宝关键词挖掘软件是一款专业好用的淘宝关键字优化辅助软件。软件能够全面的挖掘和处理关键词,并进行很有效率的筛选精准关键词,并允许用户分类添加,自行设定关键字并进行淘宝指数查询,通过分析,设置最佳的淘宝...
  • SEO关键词挖掘工具

    2012-11-20 09:19:58
    现在关键词挖掘工具已经很多了,但是基本都大同小异。不是忽悠人的,就是盗用其他工具的数据,其实我们只要用好搜索引擎自带的工具就可以了,不需要再花费时间去找一个更好的分析长尾关键词的工具,更何况压根就...
  • 数据挖掘在CRM中的应用分析 摘 要客户资源是企业最重要的战 略资源之一企业...略降低企业运营成本增加利润加速企业 的发展 关键词 数据挖掘CRM应用 客户资源是企业最重要的战略资源之 一拥有客户就意味着企业拥有了在
  • 多维关联规则数据挖掘在税务数据分析中的研究与应用 摘要 关键词数据挖掘关联规则 ABSTRACT 目录 TOC \o "1-3" \h \z 第一章 绪论 6 1.1论文研究背景及意义 6 1.2国内外的研究现状 7 1.3 论文研究内容 9 1.4 论文的...
  • 数据挖掘技术在高校学生成绩分析中的应用研究论文 摘要本文主要...关键词数据挖掘高校学生成绩分析 1.确定数据挖掘的对象 本文数据挖掘的对象主要是以本人所授的大学计算机基础课程的数据为例对象是本校学生总人数250
  • 11) 支持关键词批量导出,在排序和过滤的基础上,允许用户把指定的关键词数据导出的Excel文件或者Txt文本文件。 12) 支持关键词批量导入,支持从文本文件批量导入,手工批量导入,从目标网站分析meta keyword标签...
  • 麒麟爱站关键词采集器超强三合一软件绝对是必备的功能,数据的统计、分析,同行站点关键词的分析等等,功能,操作简单,运行稳定。麒麟爱站关键词采集器三大功能:1、百度
  • 考虑到影视评论数据量较大,因此采用Spark处理框架。关键词提取的处理主要包含分词+算法抽取两部分。目前分词工具包较为主流的,包括哈工大的LTP以及HanLP,而关键词的抽取算法较多,包括TF-IDF、TextRank、互信息等...
  • 精品文档可编辑 值得下载 基于云计算的web数据挖掘 摘 要 计算机技术的快速发展对经济的发展...关键词云计算 web数据挖掘 在信息时代计算机技术的快速发展对整个经济的发展具有重要的作用如今的计算机互联网是人们交流
  • SEO关键词神 器,FTP扫站利器。功能强大,通过输入一个短词,即可获得一系列的长尾词,并且可以将查询到的结果导出为TXT文本文件,非常方便,已经不是纯抓百度相关词了。而是加入了有百度指数的长尾数据。让你流量...
  • 精品文档可编辑 值得下载 数据仓库与数据挖掘技术在建筑施工企业管理中的应用 摘要新兴的数据仓库数据挖掘技术能够从...关键词数据仓库 数据挖掘技术 建筑施工 企业管理 中图分类号TU7文献标识码 A 目前建筑施工企业
  • 基于属性重要度约简算法在数据...关键词数据挖掘属性约简重要度 数据挖掘是从海量的且不断动态变化的数据中借助有效的方法挖掘出潜在有价值的知识过程而粗糙集理论它是一种刻画不完整性和不确定性的数学工具能在保持分
  • 考虑到影视评论数据量较大,因此采用Spark处理框架。关键词提取的处理主要包含分词+算法抽取两部分。目前分词工具包较为主流的,包括哈工大的LTP以及HanLP,而关键词的抽取算法较多,包括TF-IDF、TextRank、互信息等...
  • 数据挖掘中所需的概率论与数理统计知识

    万次阅读 多人点赞 2012-12-17 19:24:47
    数据挖掘中所需的概率论与数理统计知识  (关键词:微积分、概率分布、期望、方差、协方差、数理统计简史、大数定律、中心极限定理、正态分布)   导言:本文从微积分相关概念,梳理到概率论与数理统计中的...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 973
精华内容 389
关键字:

关键词数据挖掘