精华内容
下载资源
问答
  • 最近刚好找到了一款可以爬取公众号数据的工具,一顿操作爬了21个公众号。废话不多说,分析过程 loading ……第一次更新时间冯大和菜头都是喜欢捯饬新事物的人,公众平台2012年8月23日正式上线,两人就都于同年11月...

    04bd5e155382e0c1f8129957829602a9.png

    一直有爬公众号数据的想法,奈何 python 技术不足搁置许久。

    最近刚好找到了一款可以爬取公众号数据的工具,一顿操作爬了21个公众号。废话不多说,分析过程 loading ……

    第一次更新时间

    efe1698e311a571aed9bf4bf52f2d4db.png

    冯大和菜头都是喜欢捯饬新事物的人,公众平台2012年8月23日正式上线,两人就都于同年11月开始在公众号更新。

    其他的公众号基本在2016年5月左右开始更新,因为样本比较少,不能断言公众号是在这个阶段大爆发。

    e83a3bb212daecaa8043286ab923f743.png

    从“公众号”的百度指数可以看出,2012年到2014年2月,公众号处于引入期,这个阶段的用户量增长较为缓慢。2014年3月到2017年3月,处于成长期,用户数量呈指数级增长,分别于2016年3月和2017年3月爆发了一次。而从2017年3月到现在,产品基本成熟,数据变化不大,开始走向衰退期。

    同时,从百度指数中,我们还可以看到,每年基本都有几个波谷,集中在1-2月和10.1-10.7,刚好是春节和国庆节期间。那时候,大家都忙着团聚吹水和旅游,没空看公众号。

    第一篇文章阅读量

    7b1a29f317f30e7ce8d3f39859aa5dc1.png

    这些公众号的阅读量也不是一开始就很高,大多数人第一篇文章的阅读量都处在100-2000区间内。不过他们本身都有一定的渠道和流量保证冷启动的阅读量(像我这种第一篇阅读量在个位数的,是不是这一生都没希望做成大号了)。

    像半佛仙人,在写公众号之前,是20万知乎粉丝大V,金融领域大咖,第一篇文章的阅读量是1297。

    帅张,前码农,现产品人。在写公众号之前就在CSDN等技术性论坛积累了很多粉丝,第一篇文章的阅读量是1725。

    再看几个不在多数之内的。

    “互联网活化石”—曹大,第一篇阅读量8081,大佬的声量确实不一样。

    王左中右,创意设计师,擅长写让读者闪弯腰的广告。只想说一句 “hentai” ,第一篇阅读量就7.7万。

    小声比比,没错,就是捅了马蜂窝的那位。他的第一篇阅读量为什么这么高,我想看下标题就明白了,《史诗级直男癌赚了280亿会做什么?》

    菜头、冯大还有小马宋的,可能是因为文章日期太早(微信搜索也搜索不到,只能通过引用链接进去)或者是工具的原因,无法获取到具体数据,所以没有一起统计。不过以能看到的前几条数据来看,三人的前期阅读量基本是几百左右。

    第一篇十万加用时

    f5524768b68da5a5248ada520e4d75c7.png

    第一篇十万加用时最短的是王左中右这个“hentai”,第一篇十万加用时20天,而且竟然还是广告!!

    再看看大佬们,菜头、冯大、小马宋,因为写的时间比较早,当时的公号处于引导期,所以十万加耗时也比较长。至少以菜头的实力,十万加并不算太难。

    帅张的十万加耗时最长,可以看出其实很多人缺的不是才华,而是坚持。

    很多人都说现在公众号开始走下坡路,流量基本集中在头部账号,新账号难以出头。

    让我们看看半佛仙人,2018年12月10日开始更新,第一篇十万加用时41天,标题是《拼多多给羊毛党发年终奖背后的那些事》。说明蹭热点还是有一定的道理的,但前提是你有那个实力。如果只是做搬运工,十万加等下辈子吧。

    同时,这里也还是有几个公众号至采集的最后时间3月6日,依然没有十万加。分别是Python爱好者社区、高太爷、挖数、运营模式、yiwebsite,这几个号都有一个共同点,就是技术性比较强,看一篇文章需要花比较多时间去理解消化,所以十万加很难达到。

    更新频率

    3d3623c664aaf345d6723223918bc1f1.png

    这些号的更新频率基本是呈两极分布。一部分2-3天左右更新一次,一部分是一周左右更新一次。

    可以看看曹大、冯大、菜头、小马宋等人的更新频率,都是分布在2-3天。想必很多人的工作是不会比他们忙多少的,所以就不要把没时间推到工作上,想写还是可以写的,就从当下开始,先做再说。

    断更情况

    断更是新媒体人的大敌,一断更就意味着阅读量和关注数的下降。我们来看看这些号的断更情况。

    5fffe707c944efa9016ebd10cbc3595b.png

    可以看到,很多大号一开始也是会和我们一样,第一次更新后就搁置了。像半佛仙人、JZCreative、yiwebsite、三节课、一个程序员的日常,都是第一篇更新后,立马就鸽了。

    bebeeea1999c6de08a3c1ae6a09120d3.png

    再回到最长断更天数来看,至少都是会有一周以上的断更,考虑到有春节等长假的存在,这种情况算是正常。

    最丧心病狂的是高太爷的209天和挖数的232天。

    太爷是心理学领域上的专家,专门输出以心理学为主,结合社会学等各种学科的干货长文。2018年因为个人情绪的原因,处于持续断更的情况,目前来看还会继续断更,有点可惜。

    挖数的话,则是初期断更,目前保持一周一篇的数据分析,文章对于小白来说比较友好,角度新奇,选题也比较奇特。

    33520fe900a67b44a2a45bde04f6514b.png

    最后,看看断更前后阅读量的变化。

    21个公众号,有11个断更后更新的第一篇阅读量下降,10个反而上升。这其中和个人的影响力和内容有极大的关系。

    有时候,并不是断更影响了你的流量,而是你没有维系的实力。像高太爷,断更209天,断更前41695阅读量,断更后39352阅读量,这就是实力。

    有的人可能会说,这些都是特例,一般人做不到。建议可以去了解下stormzhang和一个程序员的日常。

    当然阅读量也不一定是一个公众号成功的标准。像42章经,曲凯创立,他的文章可能很少十万加,但每一篇文章,他的读者基本都是要阅读好几遍,马化腾等人也都有关注。

    再说一个,yiwebsite,微信SVG图文定制专家,输出各类创意SVG,平均阅读量500多,但他给各种品牌制作设计H5和SVG交互图文定制,通过微信开展自己的业务。

    最后的最后,安利一下采集工具WCplus(强调一下,不是我做的,也和我没有任何的利益关系),感兴趣的可以点击 https://shimo.im/docs/E1IjqOy2cYkPRlZd/read 了解学习。

    展开全文
  • 鲲之鹏的技术人员将在本文介绍一种通过模拟操作微信App的方式采集指定公众号的所有历史数据的方法。通过我们抓包分析发现,微信公众号的历史数据是通过HTTP协议加载的,对应的API接口如下图所示,其中有四个关键参数...

    鲲之鹏的技术人员将在本文介绍一种通过模拟操作微信App的方式采集指定公众号的所有历史数据的方法。

    通过我们抓包分析发现,微信公众号的历史数据是通过HTTP协议加载的,对应的API接口如下图所示,其中有四个关键参数(__biz、appmsg_token、pass_ticket以及Cookie)。

    2020112791917771.png?202010279200

    为了能够拿到这四个参数,我们需要模拟操作App,让其产生这些参数,然后我们再抓包获取。对于模拟App操作,前面我们曾介绍过通过Python模拟安卓App的方法(详见http://www.site-digger.com/html/articles/20180912/664.html)。对于HTTP集成抓包,前面我们曾介绍过Mitmproxy(详见http://www.site-digger.com/html/articles/20181109/682.html)。

    我们需要模拟操作微信完成如下步骤:

    1. 启动微信App

    2. 点击"通讯录"

    3. 点击"公众号"

    4. 点击要采集的公众号

    5. 点击右上角的用户图像图标

    6. 点击"全部消息"

    2020112791917772.png?202010279200

    2020112791917773.png?202010279200

    此时,我们可以从https://mp.weixin.qq.com/mp/profile_ext?action=home的应答数据中捕获__biz、appmsg_token以及pass_ticket三个关键参数,以及请求头中的Cookie值。如下图所示。

    2020112791917774.png?202010279200

    2020112791917775.png?202010279200

    2020112791917776.png?202010279200

    有了上述四个参数,我们就可以构造出获取历史文章列表的API请求,通过调用API接口直接获取数据(不需要再模拟App操作)。核心参数如下所示,通过改变offset参数,可以拿到所有历史数据。

    # Cookie

    headers = {'Cookie': 'rewardsn=; wxtokenkey=777; wxuin=584068438; devicetype=android-19; version=26060736; lang=zh_CN; pass_ticket=Rr8cO5c2******3tKGqe7aVZzV9TupvrK+1uHHmHYQGL2WFdKIE; wap_sid2=COKhxu4KElxckFZQ3QzTHU4WThEUk0zcWdrZjhGcUdYdEVSV3Y1X2NPWHNUakRrd1ZzMnpLTERpdE5rbmxjSTg******dlRBcUNRazZpOGxTZUVEQUTgNQJVO'}

    url = 'https://mp.weixin.qq.com/mp/profile_ext?'

    data = {}

    data['is_ok'] = '1'

    data['count'] = '10'

    data['wxtoken'] = ''

    data['f'] = 'json'

    data['scene'] = '124'

    data['uin'] = '777'

    data['key'] = '777'

    data['offset'] = '0'

    data['action'] = 'getmsg'

    data['x5'] = '0'

    # 下面三个参数需要替换

    # https://mp.weixin.qq.com/mp/profile_ext?action=home应答数据里会暴漏这三个参数

    data['__biz'] = 'MjM5MzQyOTM1OQ=='

    data['appmsg_token'] = '993_V8%2BEmfVD7g%2FvMZ****4DNUJNFkg~~'

    data['pass_ticket'] = 'Rr8cO5c23ZngeQHRGy8E7gv*****pvrK+1uHHmHYQGL2WFdKIE'

    url = url + urllib.urlencode(data)

    以"数字工厂"这个微信公众号为例,采集过程运行截图如下所示:

    2020112791917777.png?202010279200

    输出结果截图如下所示:

    2020112791917778.png?202010279200

    以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

    展开全文
  • 爬取公众号文章

    2021-05-29 13:56:24
    爬取公众号文章项目介绍页面详情完整代码输出结果 项目介绍 公众号是我比较喜欢的一个学习途径,经常关注一些技术文章,进行实操训练一下,因此,打算来做一期爬取公众号的文章。 这里我们采用的是selenium库来通过...

    项目介绍

    公众号是我比较喜欢的一个学习途径,经常关注一些技术文章,进行实操训练一下,因此,打算来做一期爬取公众号的文章。
    这里我们采用的是selenium库来通过搜狗微信网址来获取相关的文章内容:

    搜狗微信网址
    https://weixin.sogou.com/

    页面详情

    我们发现进入页面有一个登陆的按钮,如果我们不进行登陆的话,我们只能查看10个页面的内容,如果内容多的话,10页是完全不够的。
    在这里插入图片描述
    这里我设置了一个20秒休眠时间,进行微信扫码登录;然后再进行后续的操作。

    driver.find_element_by_id("loginBtn").click()
    time.sleep(20) #休眠20秒进行微信扫码登录操作
    

    在这里插入图片描述
    接着就是输入我们想要的内容进行搜索相关文章
    我用的是显示等待,超过10秒没有找到对应的内容,则说明其不存在。

    input = WebDriverWait(driver,10).until(EC.presence_of_element_located((By.NAME,'query')))
    input.send_keys("python") #模拟输入
    driver.find_element_by_xpath("//input[@class='swz']").click()#模拟点击
    

    在这里插入图片描述
    最后就是爬取对应的文章了,我们在爬的时候要针对性的爬取,我这里选择的是公众号名称包含Python字眼的账号,如果找到则进行爬取保存。

    #爬取页面所有文章
    new_list = driver.find_elements_by_xpath("//li[contains(@id,'sogou_vr_11002601_box')]")
    #     print(new_list)
    
    for new in new_list:
    	#获取文章账号
    	sourse = new.find_elements_by_class_name("account")[0].text
    	if "python" in sourse:
    	
    	    #获取文章标题
    	    title = new.find_elements_by_xpath("div[2]/h3/a")[0].text
    	               
    

    完整代码

    from selenium import webdriver
    from selenium.webdriver.common.by import By
    from selenium.webdriver.support import expected_conditions as EC
    from selenium.webdriver.support.wait import WebDriverWait
    import time
    import datetime
    from selenium.common.exceptions import TimeoutException
    import xlwt
    
    class official_accounts:
    #     #实例化参数,直接传入参数
    #     def __init__(self,name,deep_num):
    #         self.name = name
    #         self.deep_num = deep_num
            
        #登录页面
        def login_btn(self,name):
            global driver
            driver = webdriver.Firefox()
            driver.get('https://weixin.sogou.com/')
            driver.find_element_by_id("loginBtn").click()
            time.sleep(20) #休眠20秒进行微信扫码登录操作
            input = WebDriverWait(driver,10).until(EC.presence_of_element_located((By.NAME,'query')))
            input.send_keys(name)
            driver.find_element_by_xpath("//input[@class='swz']").click()
    
    	#爬取内容
        def get_news(self,name):
            global data_total
            data = []
            time.sleep(1)
            new_list = driver.find_elements_by_xpath("//li[contains(@id,'sogou_vr_11002601_box')]")
        #     print(new_list)
    
            for new in new_list:
                #获取文章账号
                sourse = new.find_elements_by_class_name("account")[0].text
                if name in sourse:
    
                    #获取文章标题
                    title = new.find_elements_by_xpath("div[2]/h3/a")[0].text
                    
                    #获取文章发表日期
                    date = new.find_elements_by_xpath("div[2]/div/span")[0].text
                    # 文章发表的日期如果较近可能会显示“1天前” “12小时前” “30分钟前”
                    # 这里可以用`datetime`模块根据时间差求出具体时间
                    # 然后解析为`YYYY-MM-DD`格式
                    if '前' in date:
                        today = datetime.datetime.today()
                        if '天' in date:
                            delta = datetime.timedelta(days=int(date[0]))
                        elif '小时' in date:
                            delta = datetime.timedelta(hours=int(date.replace('小时前', ' ')))
                        else:
                            delta = datetime.timedelta(minutes=int(date.replace('分钟前', ' ')))
                        date = str((today - delta).strftime('%Y-%m-%d'))
                    date = datetime.datetime.strptime(date, '%Y-%m-%d').strftime('%Y-%m-%d')
                    
                    #获取文章简介
                    content = new.find_elements_by_xpath("div[2]/p")[0].text
                    
                    #获取链接
                    url = new.find_elements_by_xpath("div[2]/h3/a")[0].get_attribute('href')
                    
                    data.append(title)
                    data.append(date)
                    data.append(content)
                    data.append(url)
                    
                    if data not in data_total:
                        data_total.append(data)
                    print(sourse,title,date,content)
                    print(url)
                    print('------'*10)
    
                else:
                    continue
          #写入Excel中          
        def save(self,data_total,name):  #将爬取的信息写入Excel文件
            #         xlwt.Workbook用来创建一个工作表,style_compression=0表示是否被压缩
            con = xlwt.Workbook(encoding='utf-8',style_compression=0)
            #     添加sheet表格,并允许重复修改
            sheet = con.add_sheet("公众号文字爬取信息",cell_overwrite_ok=True)
            colunm = ("title","date","content","url") #定义列名
            for i in range(0,4):
                sheet.write(0,i,colunm[i])
            for i in range(0,len(data_total)-1):
                d = data_total[i]
                for j in range(0,4):
                    sheet.write(i+1,j,d[j])
    
            con.save( name +".xls")
            print("数据保存成功!")
    
    	#定义爬取深度,要爬取多少个页面后就停止
        def depth(self,name,deep_num):
            
            self.login_btn(name)
            
            global data_total
            data_total = []
            self.get_news(name)
            d = 1  #定义一个爬取深度,爬取多少个页面
            while d < deep_num:
                try:
                    btn = WebDriverWait(driver,10).until(EC.presence_of_element_located((By.ID,'sogou_next')))
                    btn.click()
                    self.get_news(name)
                    d = d+1
                except TimeoutException:
                    break
            self.save(data_total,name)
    
    
    OA = official_accounts()
    name = 'Python'
    deep_num = 25
    OA.depth(name,deep_num)
    driver.close()
    

    输出结果

    在这里插入图片描述

    展开全文
  • 微信爬取公众号评论

    千次阅读 热门讨论 2018-08-28 16:49:31
    微信爬取公众号评论 大家平常都喜欢看公众号的文章,但是仅仅是文章内容又不足以使我们更好的参与与作者的互动,于是我找了一篇我喜欢的公众号的最新文章进行爬取分析。 结尾有彩蛋欧… 环境:Windows10、...

    大家平常都喜欢看公众号的文章,但是仅仅是文章内容又不足以使我们更好的参与与作者的互动,于是我找了一篇公众号的最新文章评论进行爬取分析。
    这是效果图:
    词云图

    结尾有彩蛋欧…

    废话不多说,现在开始跟我来实现这个充满黑科技的词云图把!!!
    源代码下载链接

    环境

    首先我利用的是Python的requests库来模拟请求,如果没有下载的同学就请打开cmd,如果你已经对Anaconda配置过环境变量了,就直接输入以下命令:
    pip install requests
    这里写图片描述
    现在我们开始来准备编写代码
    我们打开Jupyter Notebook
    Ps:当然你也可以用Spyder,如何使用请看我上面的那篇Anaconda的安装博客

    在你配置了Anaconda的环境变量的前提下,你打开cmd,在命令框中输入命令
    jupyter notebook
    就会运行如图所示:
    jupyter notebook
    然后就会自动打开一个浏览器页面,如图所示:
    首页
    每个人的默认工作路径是C盘的用户目录下
    然后新建一个文件(点击右上角的New后选择Python3)
    新建
    创建成功后进入如图所示:
    这里写图片描述
    现在我们就开始码代码啦
    首先我们要导入我们所需要用到的库
    1
    第二步就是通过抓包工具分析公众号评论的请求链接(url)和请求头(headers)
    这里我使用的是Fiddler工具,具体安装使用请参考我的另一篇博客Fiddler的安装与使用

    我们在配置好Fiddler后打开手机微信,找到你所想要的文章并打开,这里我显示的是我所分析的那一篇推文
    然后你就首先根据Host查找到属于微信的mp.weixin.qq.com这个主机所对应的一系列请求
    一个一个点开(因为第一次分析你也不知道哪个请求对应的是评论)然后思路是找到响应内容最多的那个。
    经过漫长的寻找我们找到了这个请求(抓包是一个很繁琐的过程,因为你需要准确定位到你所需要查找的那个请求,所以大家在学习的过程中需要耐心一点)
    抓包
    还有如果你得到的响应内容是乱码,那么你需选中你找到的那个请求右键选择Decode…
    decode
    这样就解码成功啦
    当然不要高兴的太早,在这里你还需要将这个请求的url和headers复制到粘贴板中,因为我们的代码需要它们。

    首先我们来看一下requests库里面的get方法

    requests.get(url, params=None, **kwargs)

    从表达式这里看出url是必须要有的,还有其它的比较重要的参数例如headerstimeout
    将我们粘贴板中的url和headers复制到代码中,如图
    url
    这里写图片描述
    链接(url)直接复制上去赋值给url就行了,但是headers需要做一下进一步的处理,这里我就不解释里面各参数的含义了,经测试发现只有Cookie是需要加上去的,连User-Agent都不用,这里我解释一下为什么,因为这里我们其实访问的是一个评论接口,而接口一般对爬虫的UA是没有做反爬处理的,所以最后我们保留Cookie一行加进headers字典里面就行了。
    这里写图片描述
    然后第一个难点抓包(分析请求)搞定了,接下的难点来就是处理响应内容了。
    当然首先我们向服务器发出请求
    发出请求
    最终我们得到了一个字典类型的数据,然后我们观察一下字典的结构
    结构
    得到大概结构以后我们来迭代输出每一行评论信息,并把评论内容存储到字符串里面(倒数第一行代码是在做结巴分词,后面那个参数5指的是返回切分后权重值最高的5个词组)

    这里看起来是比较繁琐,其实就是根据列表字典结构的特性根据索引或者关键字来取值,这一步最关键的是要理清返回内容的结构结巴分词只是调用api而已。
    解析
    词组
    看到了排列整齐的评论,你离成功只差个词云图,接下来就是词云图的制作,这里主要用了
    词云库:wordcloud
    画图的库:matplotlib.pyplot
    如果你没有安装wordcloud库,建议去官网下载wordcloud的whl文件本地安装(踩过的坑,默默不说话)
    代码如下:
    词云
    大概讲一下流程,先读取背景图片1.png,然后通过WordCloud来设置相应的参数。
    这里注意一点,因为WordCloud里面默认的语言是英语,所以你需要往里面加载一个简体中文的字体,一般Windows10自带的有的,你文件搜索一下,改一下路径,如果没找到就去网上下载一个。

    接着读取字符串Comments(已经分词过了),为了以后方便查看把图片存储下来。

    最后就是画图了,其实你不画找到存好的文件打开也是可以的,但是程序员能这样吗!!!
    不能,能用代码实现的我就不用其他方法。
    这里我们用的是数据分析流行的画图库matplotlib
    将wc传进去imshow方法,设定一下插值的参数为bilinear
    设置off参数不显示难看的坐标轴
    最后大功告成,你也做了一张充满黑科技感的词云图啦。
    这里写图片描述
    是不是在找彩蛋在哪,不要慌,就是下面那狗,皮一下。
    巴扎黑

    我的个人博客网站是:www.coderyyn.cn
    上面会不定期分享有关爬虫、算法、环境搭建以及有趣的帖子
    欢迎大家一起交流学习

    转载请注明

    展开全文
  • python爬取公众号文章

    千次阅读 2018-03-09 11:25:39
    跟着网上一教学视频编写爬取公众号文章,代码结构如下:login.py是登录模块,cookies.txt是登录获取到的cookie信息,cookie.py是解析cookie文件,登录公众号并查询公众号文章进行解析一、模拟登陆获取cookie,登陆...
  • log(u'调用selenium渲染html完成,开始解析公众号文章') articles = parse_wx_articles_by_html(selenium_html) log(u'抓取到微信文章%d篇' % len(articles)) # Step 6: 把微信文章数据封装成字典的list log(u'开始...
  • 文章转载于公众号:早起Python作者:陈熹大家好,今天我们来讲点Selenium自动化,你是否有特别喜欢的公众号?你有想过如何将一个公众号历史文章全部文章爬下来学习吗?现在我们就演示用Selenium实现这个功能。下面...
  • 基于Anyproxy使用"中间人攻击"半自动化爬取公众号推送并上传到数据库中
  • python爬取公众号

    2021-02-21 11:30:11
    是1 2年前做的了 现在应该有点不一样了。发出来记录 参考:https://blog.csdn.net/qq_28804275/article/details/82150874 https://cuiqingcai.com/4652.html ... ... 目前使用的爬取单个公众号
  • 用python制作一款爬虫软件,爬取公众号文章信息,爬虫之路,永无止境!!! 今天拿手机看公众号里面的文章,不小心退出来,进去之后还得一页一页的翻,好麻烦,突发奇想,把信息爬下来,想看哪个看哪个。。嘿嘿,...
  • 前几天,书文问我能不能爬取微信公众号“北邮家教部”的历史推送,分析一下其中最多的年级和科目。我之前还没有做过微信公众号的爬虫,于是去研究了一下,就有了这篇文章。
  • 前面写都是抓取一些网站上的数据,今天工作提前完成了,闲来无事写一篇如何抓取公众号数据爬取公众号 常见的爬取公众号有3种方法 1、通过抓包获取公众号数据(app端) 2、通过抓包获取公众号数据(PC端) ...
  • 序 爬取目标:微信公众号“纵梦广科”中“表白墙”(可选“吐槽墙”)的...爬取收获:简单爬取公众号文章、简单生成词云 爬取注意: 1、因为爬取内容可以简洁地直接保存txt文本进行绘画词云分析,但因为作业项目...
  • python批量爬取公众号文章

    千次阅读 2020-06-09 14:32:58
    爬取的方法多种多样,今天和大家分享一种较为简单的方法,即通过微信公众号后台的“超链接”功能进行爬取。可能有些小伙伴没有接触过微信公众号的后台,这里贴张图让大家了解一下 到这里有些小伙伴可能会说,我不能...
  • 爬虫爬取公众号内容

    2020-10-17 09:59:37
    *不涉及具体代码 具体步骤 ...调查发现,所有移动端访问公众号内容发起的流量请求跟实际内容URI均保持统一格式: [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mhRAOmnn-
  • 今天继续向 Python 头条添加数据信息,完成了微信公号的爬虫,接下来会继续通过搜狗的知乎搜索抓取知乎上与 Python 相关的文章、问答。微信公众号的文章链接有些是具有时效性的,过一段时间会变成参数错误而无法访问...
  • 经常有读者微信私聊我,问我有没有博客之类的,因为在手机上看公众号技术文章没有电脑上方便。确实,手机上看截图需要点击放大才能看得更清楚,代码也需要左右滑动才能看到全部。我的文章大部分都是首发于公众号,...
  • 由于最近需要公众号的历史文章信息,所以就尝试爬了一下,虽然目前可以爬到数据,但是还不能够大量的自动化爬取。原因是参数key值具有时效性(具体时间没有验证20分钟的样子),目前也不知道是如何生成的。 文章历史...
  • 点击上方"brucepk",选择"置顶公众号"第一时间关注 Python 技术干货!阅读文本大概需要 3 分钟。经常有读者微信私聊我,问我有没有博客之类的...
  • 爬取公众号文章中的图片。 第1步 确定公众号文章的地址,以微信公众号“Python小屋”里的一篇文章为例,文章标题为“报告PPT(163页):基于Python语言的课程群建设探讨与实践”,地址为: ...mid=2247486249&...
  • 我订阅了近 100 个公众号,有时候想再找之前读过的文章,发现搜索起来特别困难,如果忘了收藏,估计得找半小时,更让人无语的是,文章...最近正好看到一个牛逼的 Python 爬虫项目,就是爬取微信公众号的文章的,看...
  • 1. 需求 ... 2. 实现方案       通过Jsoup访问URL,获得DOM,然后解析出标题、正文等...由于公众号文章的css样式都相同,所以将style保存在服务器中,通过 <link href="…">的方式引入css文件。 &...
  • 目标公众号:吃鸡搞笑视频设备:python集成工具--pyCharm之所以称之为最近单方式,是因为--代码少,效果好这里只爬了公众号的标题和链接,先上效果代码效果图image.png操作步骤:1、先自己申请一个公众号,链接:...
  • 目标公众号:吃鸡搞笑视频 设备:python集成工具--pyCharm 之所以称之为最近单方式,是因为--代码少,效果好   这里只爬了公众号的标题和链接,先上效果 效果图 操作步骤: 1、先自己申请一个公众号,链接...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 10,693
精华内容 4,277
关键字:

如何爬取公众号数据