精华内容
下载资源
问答
  • 微博评论爬虫
    千次阅读
    2021-01-30 00:05:50

    import requests

    import re

    import time

    import pandas

    as pd

    urls = 'https://m.weibo.cn/api/comments/show?id=4073157046629802&page={}'

    headers = {'Cookies':'Your cookies',

    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6)

    AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'}

    第二步:找到html标签

    tags = re.compile('?\w+[^>]*>')

    第三步:设置提取评论function

    def get_comment(url):

    j = requests.get(url, headers=headers).json()

    comment_data = j['data']['data']

    for data in comment_data:

    try:

    第四步:利用正则表达式去除文本中的html标签

    comment = tags.sub('', data['text']) # 去掉html标签

    reply = tags.sub('', data['reply_text'])

    weibo_id = data['id']

    reply_id = data['reply_id']

    comments.append(comment)

    comments.append(reply)

    ids.append(weibo_id)

    ids.append(reply_id)

    第五步:爬取评论

    df = pd.DataFrame({'ID': ids, '评论': comments})

    df = df.drop_duplicates()

    df.to_csv('观察者网.csv', index=False, encoding='gb18030')

    以上python爬虫爬取微博评论的实例,对于新入手的小白,可以用微博端练练手哦~

    原文至:https://www.py.cn/spider/example/22977.html

    更多相关内容
  • weibo-comments-word-cloudGenerates a Chinese word-cloud with the comments...Steps:A crawler that crawles comments from Weibo一个抓取微博评论爬虫。Data Cleaning.数据清洗。Generates word cloud.生成词云。
  • 微博评论爬虫+可视化

    2021-12-03 11:04:59
    通常我们在复制url的时,url的最后一位为用户id,取出用户id,替换url; 例如 ... 我们要爬取此网页,要找到其数据的json文件,可以直接F12...然后对url得到的json文件读取就可以得到评论数据。 先暂缓--------------.

    通常我们在复制url的时,url的最后一位为用户id,取出用户id,替换url;

    例如

    url: https://m.weibo.cn/status/4661133254069552?

    我们要爬取此网页,要找到其数据的json文件,可以直接F12,network,CTRL+F搜索comment(如果没有网络文件,就刷新一下),得到对应comment json的URL,把URL中的id进行替换。如图

     然后对url得到的json文件读取就可以得到评论数据。

    先暂缓------------------

    展开全文
  • python爬虫手把手教你抓取微博评论(完整代码)
  • 微博评论图片爬虫,用来爬取微博评论中的图片
  • R语言微博评论爬虫练习

    千次阅读 2017-12-05 14:58:00
    1.随意选个热点微博 2. 参考 R微博数据分析 http://blog.sina.com.cn/s/blog_9bed162b0102wu1w.html R语言实现代码 devtools::install_github("sjhfx/rwda") library(rwda) access_token = "2.00xxxxxx...

    1.随意选个热点微博

     

    2. 参考

    R微博数据分析

     http://blog.sina.com.cn/s/blog_9bed162b0102wu1w.html

    R语言实现代码
    devtools::install_github("sjhfx/rwda")
    library(rwda)
    access_token = "2.00xxxxxxxxx"
    weiboid = "4181525459234737"
    df_comments = get_comments(access_token, weiboid, maxpage = 20)
    weibo_cloud(df_comments, stopwords = c("心心", "回复"))
     
    3. 看看大家的看法

     

     
    过程中遇到的困难主要在于 获取新浪微博的access_token , access_token可以通过 http://open.weibo.com/tools/console 获取。
    个人创建了一个网页应用,最后获取access_token时采用的方法是 用谷歌浏览器,添加应用 Postman,在Postman中运用Post 请求获取access_token。
     
    最后,顺手

     又顺手

     

    转载于:https://www.cnblogs.com/JaniceZD/p/7986962.html

    展开全文
  • 本文实例讲述了Python爬虫爬取新浪微博内容。分享给大家供大家参考,具体如下: 用Python编写爬虫,爬取微博大V的微博内容,本文以女神的微博为例(爬新浪m站:https://m.weibo.cn/u/1259110474) 一般做爬虫爬取...
  • python爬虫100例--微博评论(5)

    千次阅读 2022-04-25 16:59:06
    微博某博主号的文章 2、工具 a> sublime text b> python 解释器 3、网站分析 a> 找到评论对应的网址 Step1:打开源代码 发现没有任何与评论相关的信息。放弃这条路 Step2:登录网站 打开开发者工具,点击...

    在这里插入图片描述

    ##今天是个“特殊”的日子##

    今天是2022年04月25日,上证指数刷新了至2020年7月以来的历史新低。对于股民来说,抱怨肯定少不了。那么小编想看看他们都说了些啥。

    1、目标网站

    微博某博主号的文章

    2、工具

    a> sublime text
    b> python 解释器

    3、网站分析

    a> 找到评论对应的网址

    1. Step1:打开源代码
      发现没有任何与评论相关的信息。放弃这条路
    2. Step2:登录网站
      打开开发者工具,点击查看评论,观察Fetch/XHR这个模块下的url.
      在这里插入图片描述
      很明显,主要的url如下所示:
    url = "https://weibo.com/ajax/statuses/buildComments?\n
    is_reload=1&id=4762132170410005&is_show_bulletin=2&is_mix=0&count=10&uid=5993531560"
    

    仔细观察“”预览“”下的内容有仅仅只有10条记录(count=10),因此继续拖动鼠标,发现出现了新的url如下所示:

    url = "https://weibo.com/ajax/statuses/buildComments?\n
    flow=0&is_reload=1&id=4762132170410005&is_show_bulletin=2&is_mix=0&max_id=269013940992537&count=20&uid=5993531560"
    

    比较上面两个url,我们可以得出在新的url中,我们发现多了一些新的参数,例如:

    flow=0,max_id = 269013940992537
    

    这样看来,url之间并有什么规律,我们继续观察下一条新的url,如下:

    url= "https://weibo.com/ajax/statuses/buildComments?\n
    flow=0&is_reload=1&id=4762132170410005&is_show_bulletin=2&is_mix=0&max_id=159062778435413&count=20&uid=5993531560"
    

    通过比较第二条和第三条url,我们发现只有一处不同,即

    max_id_1 = 269013940992537
    max_id_2 = 159062778435413
    

    继续观察的话,我们很容易得出了url之间的关系,只有max_id发生了变化。只要找到每一url的max_id就可以获取到相应的数据了。

    如果小伙伴足够细心的话,就很快就能发现,当前url的内容里面有下一条url的max_id,不信的话可以仔细瞧瞧。

    这样一来,评论对应的网址找到了。

    b> 敲代码,存储

    import requests
    import json
    import time 
    
    def download(html):
    	contents = html["data"]
    	for item in contents:
    		message = item["text_raw"]
    		fp.write(message)
    		fp.write("\n")
    
    def get_comment(url):
    	global count
    	count+=1
    	headers = {
    		"accept":"application/json, text/plain, */*",
    		"accept-encoding":"gzip, deflate, br",
    		"accept-language":"zh-CN,zh;q=0.9",
    		"cache-control":"no-cache",
    		"cookie":"请使用各位自己的Cookie,前提是必须是登陆后的"
    		"pragma":"no-cache",
    		"referer":"https://weibo.com/1191965271/Ll4up5uxI",
    		"sec-ch-ua-mobile":"?0",
    		"sec-fetch-dest":"empty",
    		"sec-fetch-mode":"cors",
    		"sec-fetch-site":"same-origin",
    		"traceparent":"00-f2e1a0f377faabdd2d3b38f06e9a59ae-6ae9c963cc8d5d53-00",
    		"user-agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36",
    		"x-requested-with":"XMLHttpRequest",
    		"x-xsrf-token":"DBrIiRZWYprdvVW6Q1FymDxW",
    	}
    	res = requests.get(url=url,headers=headers)
    	html = res.json()
    	download(html) # 写入文件
    	if count<=10:  # 在这里小编只写了10个url,各位小伙伴可以自行调节
    		time.sleep(1)  # 避免爬取速度过快,稍微停下
    		print(f"{count}下载完成")
    		next_max_id = html["max_id"] 
    		# 从第二个url开始后,所有的url的形式如同下面一致
    		new_url = f"https://weibo.com/ajax/statuses/buildComments?flow=0&is_reload=1&id=4762132170410005&is_show_bulletin=2&is_mix=0&max_id={next_max_id}&count=20&uid=5993531560"
    		get_comment(new_url)
    
    
    if __name__=='__main__':
    	count = 0  # 记录获取多少个评论URL
    	fp = open('a.txt','a',encoding="utf-8") # 利用txt文件写入即可
    	# 初始URL
    	url = 'https://weibo.com/ajax/statuses/buildComments?is_reload=1&id=4762132170410005&is_show_bulletin=2&is_mix=0&count=10&uid=5993531560'
    	get_comment(url) # 程序开始
    	fp.close() # 文件写入完毕
    

    4、分析评论

    为了避免被微博禁止爬取数据,我们少爬取点数据,10页就行。
    在这里,我们仅仅只做了10页248条数据的词云分析,仅供大家观看。
    在这里插入图片描述

    5、结束语

    以上所有内容仅供学习使用,切莫用来“干坏事”。如果有什么问题,可以在评论区回复,小编看到后会及时做出回复。如果想转发,请说明转发地址。

    展开全文
  • 关于新浪微博爬虫实战。
  • R语言微博爬虫RWEIBO

    2017-11-14 20:05:07
    R语言微博爬虫RWEIBOR语言微博爬虫RWEIBOR语言微博爬虫RWEIBO
  • 我突然灵光一闪,可以用爬虫把这些评论抓取下来,提取每一条评论中的包含露露、猫咪等关键词,每一条评论出现一次 vote 就 + 1,然后可视化出来大家都想选啥英雄,说干就干。昨晚下班后熬夜干到快 12 点,终于 done ...
  • 评论 用于个人博客的评论系统
  • Github上3.5k star 的微博爬虫,很赞!

    千次阅读 多人点赞 2021-03-09 00:20:50
    大家好,我是Kuls。前段时间帮一位老哥爬微博的一些数据,发现Github上有一个微博爬虫项目挺完善的。微博上一些基本的信息都是可以爬取的,当然也有一些没有完善的地方。但是对于微博基本数据...
  • 1.方法一: install.packages(&quot;devtools&quot;) library(devtools) library(RCurl) library(bitops) library(rjson) library(jiebaR) library(jiebaRD) library(wordcloud2) ...libr...
  • 这是新浪微博爬虫,采用python+selenium实现。 免费资源,希望对你有所帮助,虽然是傻瓜式...[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上) 主要爬取内容包括: 新浪微博手机端用户信息
  • 微博评论数据爬取思路及代码分享

    千次阅读 2021-08-02 09:12:09
    很久没有发帖了,之前做了有关微博的数据分析,现在将爬取微博评论的思路和代码分享出来,写得有些粗糙,欢迎批评指正。 一、获取bid和uid 就是网址https://weibo.cn/comment/KrsH5tpeY?uid=2000016880&rl=0&...
  • 主要介绍了python爬虫爬取微博评论,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
  • python爬取微博评论的实例讲解

    千次阅读 2021-03-06 16:47:22
    python爬虫是程序员们一定会掌握的知识,...本文介绍python爬取微博评论的代码实例。一、爬虫微博与QQ空间爬虫类似,可以爬取新浪微博用户的个人信息、微博信息、粉丝、关注和评论等。爬虫抓取微博的速度可以达到 1...
  • NodeJS爬虫微博热搜

    2020-11-03 22:28:44
    NodeJS爬虫微博热搜一、安装node,并下载依赖二、搭建服务三、请求我们要爬取的页面,返回json 一、安装node,并下载依赖 去node官网nodejs.org/zh-cn/下载node node-v查看版本号 二、搭建服务 demo.js npm ...
  • 微博爬虫主要有两个导向,一个是微博内容的爬虫,其目的字段包括微博文本、发布者、转发/评论/点赞数等,另一个是微博评论爬虫,其目的字段主要是评论文本和评论者。 微博的爬虫的目的网站主要有四个,pc 站weibo....
  • 今日发布的微博转发爬虫,是之前从没有发布过的微博爬虫,一样是付费内容,主要实现概述如下: 根据指定的微博 mid 爬取该微博的转发信息。 爬取该微博的转发微博的转发信息;甚至转发地转发地转发,可以无限地套娃...
  • 爬取微博热门评论,可以自由选择需要爬取的微博以及要爬取的页数,需要安装谷歌浏览器
  • 用python爬取微博评论数据,爬虫之路,永无止境。。(附源码)_主打Python的博客-CSDN博客_爬虫微博评论 # !/usr/bin/nev python # -*-coding:utf8-*- from datetime import datetime from requests_...
  • 单独编写了字符优化函数,解决微博评论中的嘈杂干扰字符 本函数是用python写网络爬虫的终极目的,所以采用函数化方式编写,方便后期优化和添加各种功能 # -*- coding:gbk -*- import re import requests import ...
  • 新浪微博评论爬虫小DEMO

    千次阅读 2017-03-02 09:33:33
    微博模拟登陆(用户手动输入): (1) POST代理 ...Chrome浏览器打开m.weibo.cn,右键点击检查-> Network->XHR 复制cookie要爬取的评论网页URL(用户手动输入) Url rnd1487914749536”>http://weibo.

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 4,597
精华内容 1,838
关键字:

微博评论爬虫