精华内容
下载资源
问答
  • 小红书爬虫-最新版

    千次阅读 2021-05-12 11:24:27
    小红书web爬虫opencv滑块验证思路实现![在这里插入图片描述](https://img-blog.csdnimg.cn/20210512112326143.gif#pic_center) opencv滑块验证 思路 实现 交流wx:Code__Lee

    opencv滑块验证

    小红书数美滑块验证

    opcv.matchTemplate

    效果

    实现流程

    附:算法生成x-sign 状态:可用

    在这里插入图片描述

    交流wx:Code__Lee
    
    展开全文
  • 小红书爬虫 -- Airtest

    千次阅读 2019-08-06 20:18:30
    小红书爬虫主要是从搜索入手,爬取某个关键词下的所有笔记,通过调研发现有有两个渠道,第一个是 App,第二个小程序。先说小程序端,通过抓包发现,每篇文章对应着一个 `auth-sign` ,这个参数应该有小程序内部...

    一、前言:

    小红书的爬虫主要是从搜索入手,爬取某个关键词下的所有笔记,通过调研发现有有两个渠道,第一个是 App,第二个小程序。先说小程序端,通过抓包发现,每篇文章对应着一个 `auth-sign` ,这个参数应该有小程序内部生成,无法获取到,有种思路就是可以通过按键精灵或者 Mitmproxy 获取到每篇笔记的 `auth-sign` ,然后就可以通过接口去爬,这中间还需要一个自动化控制手机工具;再来说 `App` 端,需要有好几个加密参数 `sign\token\shield`,之前git上面还有大神维护着一个服务器可以破解签名,现在已经失效了,App 逆向暂时还没学(已提上日程),所以还是用手机端的自动化测试工具来爬,主要软件有Appium和Airtest,Appium 坑比较大,不仅安装麻烦而且调试时极不方便,再者获取不到小红书笔记的详情页的页面结构,本文主要讲下使用 Airtest + Mitmproxy 进行手机端的爬虫,这两者加起来,可以解决90%的 App 爬虫吧,除了淘宝...但可以用Pypeteer。

    二 、Airtest

    Airtest 是一个跨平台的、 基于图像识别 的`UI`自动化测试框架,适用于游戏和`App`,支持平台有Windows、Android 和 IOS,主要编写语言为 python。官网 -> [点我](http://airtest.netease.com/), 官方文档 -> [点我] ,基本使用可以看下青南大佬的blog -> [点我]

    Airtest与Appium相比最大的优点是可以实时的看到页面的动态,而且支持图像识别进行点击等操作

    三、使用Airtest自动化控制App

    前期的使用可以在Airtest自带的IDE中调试,毕竟边操作边看到界面是非常方便地,等成熟之后搬到pycharm中执行再考虑作定时任务等

    四、Airtest基本[Api]使用:

    1. 获取元素:

      • ls = poco(name="com.xingin.xhs:id/aj8") 通过name获取

      • ls = poco(text=item.get_text()) 通过text

      • poco("android.widget.LinearLayout").offspring("com.xingin.xhs:id/ak6") 通过目录树

    2. 点击元素: x.click()

    3. 获取文本: x.get_text()

    4. 滑动屏幕: swipe([0.5, 0.8], [0.5, 0.7]) 从一个点到另一个点

    5. 是否存在: x.exist()

    6. 安卓ADB操作:

      from airtest.core.android.adb import ADB
      adb = ADB(serialno='OF9SBMY59D69756L')
      ​
      # 原始 adb shell 命令为 adb shell input keyevent 26
      adb.start_shell('input keyevent 26') # 唤醒屏幕
      ​
      # 启动app app包名
      adb.start_shell('am start -n com.xingin.xhs/.activity.SplashActivity') 
      # 获取app包名
      aapt dump badging C:\Users\xx\Desktop\xiaohongshu.apk
      # launchable-activity: name='com.xingin.xhs.activity.SplashActivity'  
      其他 API

       

    7.  
    8. 踩的一些坑

      • 官方的问题示例 能解决大部分问题 [点我]

      • Airtest与pycharm中执行脚本互斥 不能同时开

      • 点击时可能会有两种BUG出现,第一是点击无反应,只能作容错处理;第二是点击内容在屏幕之外,这时需要上滑屏幕,然后再做点击

    五、Mitmproxy

    mitmproxy是一个支持HTTP和HTTPS的抓包程序,类似Fiddler、Charles的功能,只不过它通过控制台的形式操作;使用 mitmproxy 最主要是使用它的一个组件 mitmdump ,它可以通过python脚本处理响应内容,类似于Fiddler的界面抓包,但是我们可以更加方便地拿到响应数据
    1. 安装 -> 点我

    2. 使用:

      • mitmdump -s mitm.py   # 手机连接电脑ip:8080
      • # 拦截某个链接
        if flow.request.url.startswith(detail_url):
            text = flow.response.text # 获取链接的响应
      • 需注意每个链接都会经过这个方法

    六、小红书

    主要逻辑:
    1. 进入App:

      • 唤醒屏幕 adb.start_shell('input keyevent 26')

      • 解锁

      • 启动APPadb.start_shell('am start -n com.xingin.xhs/.activity.SplashActivity')

    2. 启动mitmproxy mitmdump -s mitm.py

    3. 模拟操作:

      • 获取当前界面列表页的所有商品,点击进入,mitm会捕获目标链接,在mitm.py处理数据

      • 点击返回有三种方法:

        • 通过页面返回按钮,实测按钮会点击无反应;

        • 通过Airtest的touch图像识别方法,需将图片放入同一路径下;

        • 点击手机返回键,推荐! adb.start_shell('input keyevent 4')

    4. 入库

    5. 退出程序,锁屏

    6. 补充:代码不多,主要是模拟人操作,然后加上容错判断,比如 if poco(name="com.xingin.xhs:id/aon").exists() poco.wait_for_any(poco(name="com.xingin.xhs:id/al0"))

     

                                                               以上 如果有什么不懂的 欢迎通过公众号骚扰

                                                                    

    展开全文
  • 小红书爬虫简单版 文件说明 example_html 存放小红书官网示例html代码的文件夹 sql 存放表结构和示例数据的文件夹 test 存放开发阶段测试文件的文件夹 call_windows.py 远程调用windows文件(暂无用) common.py ...
  • 小红书是个“好地方”,不为别的,只因让我心情愉悦。 一 效果图: 效果图往往才具有说服力 1.自治网页图(PHP+html,将数据放在网页上的,不为别的,就看起舒服!哎!我就是玩儿!): 2.X-sign结果图: 二...

    前言:本人愚钝,辛苦了很久才搞出来,通过B站大佬:“逍遥子”点拨,茅塞顿开!可以说也是我恩师了,传授我知识的都是我恩师。我们为啥子要搞这个,不就是锻炼自己,提高自己嘛!腹有诗书气自华!小红书是个“好地方”,不为别的,只因让我心情愉悦。

    一       效果图:

    效果图往往才具有说服力

    1.自治网页图(PHP+html,将数据放在网页上的,不为别的,就看起舒服!哎!我就是玩儿!):

    2.X-sign结果图:

    二        小红书分析:

    网页端:链接进去就看见水印,每张图片上面都有,肯定是用算法加在上面的,当然我层次不够,搞不出来。

    APP端

    1)app使用Fiddler进行抓包,轻而易举抓到了json数据(动动你的小指头,让你高兴起来

    然而抓到了,并没用(除非你愿意手动ctrl+c)

    2)我们打开请求连接,显示“版本过低”,不要方,这不是你浏览器问题,是你没有携带参数

    3)我们来看看参数

    4)这是啥?这是算法生成的参数,目前我也不知道如何生成,表示没有学过java,这里面的知识设计到了app反编译,java逆向等。打算向它低头了,开始学习如何反编译,java逆向,可这根本就是天方夜谭,对一个java根本没有学习过的人,又要耗费多少精力,去学一门语言。当然你会java另当别论,去看看别人的教程,有大佬写过。app分析就只能到这儿!

    微信小程序:

    1)耶!这是个好东西,我们还是通过Fiddler抓包

    3)可以清楚的看见需要的参数,经过一顿操作猛如虎的分析,主要需要x-sign(用于验证),user-agent,authorization(登录信息),我们最需要的就是x-sign

    结束语:好了今天的分析就到这儿,需要x-sign算法的,或者想学习算法如何生成,到创建网页端显示的过程,可以加我QQ:1921987515,可以评论,私我!

    前提:需要购买!但是价格不贵!绝对童叟无欺!说是辛苦费也不为过吧!(害羞😳)

    来都来了,点的赞咯!“古来圣贤皆寂寞,惟有饮者留其名”!加油!

    展开全文
  • 由于目前小红书网页端返回数据减少,点赞等信息已经不能从网页端获取。而app加密参数过多,因此采用小程序进行爬取。 爬取目标 通过代码返回如下信息: 文章发布时间 点赞数 收藏数 评论数 爬取难点 文章ID获取...

    前言

    由于目前小红书网页端返回数据减少,点赞等信息已经不能从网页端获取。而app加密参数过多,因此采用小程序进行爬取。

    爬取目标

    通过代码返回如下信息:

    1. 文章发布时间
    2. 点赞数
    3. 收藏数
    4. 评论数

    爬取难点

    1. 文章ID获取
    2. x-sign参数获取
    3. authorization参数获取

    文章ID获取

    目前小红书有两种URL形式,长URL和短URL,格式如下。第一种格式的,xxxxx就是文章ID,可以直接引用;第二种格式需要重定向,获取请求Headers里的location,location包含了文章ID

    1. https://www.xiaohongshu.com/discovery/item/xxxxx
    2. http://xhslink.com/xxx
    // 获取location
    res = requests.get(url,headers = headers,allow_redirects=False)
    location = res.headers['location']
    

    x-sign参数获取

    小程序请求数据时,headers中包含加密参数x-sign,根据文章ID的不同而变化,需要破解,该参数获取为整个代码核心,有需要的请看文末联系方式。
    文章请求头

    加密参数破解结果

    authorization参数获取

    该参数为微信授权码,抓包获取即可,目前未观察到过期现象。

    代码运行结果

    代码运行结果

    联系方式

    核心代码获取,请加V:Evan-Pan_

    展开全文
  • PHP小红书文章爬虫

    千次阅读 2019-06-04 22:05:44
    这里的小红书爬虫和上篇的微信公众号文章爬虫差不多,可以互相借鉴一下,但内容源地址的传输的时候注意下,小红书为文章地址第一次进入的时候不是真正的地址,可以将地址复制到别的浏览器解析一下,内容源地址会在...
  • 采集小红书 数据 爬虫

    万次阅读 热门讨论 2018-09-29 16:43:48
    最新版(2018年9月) 小红书(https://www.xiaohongshu.com/),号称拥有超过一亿用户的生活方式分享社区,其用户笔记内容涵盖吃穿玩乐买,涉及时尚、护肤、彩妆、美食、旅行...小红书的数据原本也并不难采集,通过We...
  • 小红书app爬虫

    千次阅读 2021-06-07 10:03:42
    X-Sign签名参数 滑块验证 算法生成缺口坐标及密文 均为算法生成 交流w:Code__Lee
  • 【最新2020.3】小红书数据采集 APP 爬虫 入门

    万次阅读 热门讨论 2020-03-25 18:30:19
    百度直接搜小红书爬虫,出来的文章都是一两年前的了,甚至还有web版本的(小红书web只能显示20条)。花了5天时间研究app爬虫内容,整合到此,以小红书为案例与大家分享中间经过的坑。【最新可...
  • Python+Appium 小红书app 真机 爬虫入门

    千次阅读 2020-06-09 00:10:09
    Python+Appium 小红书app 真机 爬虫基本记录appium爬虫基本过程配置环境前期准备 最近在学习怎么爬手机app,弄了两三天才入了门,其中遇到了很多问题,在这里记录一下。先后用了小红书和闲鱼来测试。 主要参考了两个...
  • Java+Jsoup爬虫小红书

    2020-06-05 17:56:58
    Java+Jsoup爬虫小红书,微博,B站 爬取地址:https://www.xiaohongshu.com/discovery/item/5e92cdf70000000001009b42 目标:抓取文章的点赞量,收藏量,评论量 1.F12分析下页面 点赞量:.operation-block下面的....
  • 今天就跟大家聊聊有关使用Python爬虫怎么爬取小红书,而且最近小红薯的风控真的超级严,我想有小伙伴应该领会到了。 关于小红书的采集,一般的方法肯定是不行的,在我看来要采集小红薯有三个必须要基础策略。1、随机...
  • 爬虫数据:qq1127049307 wx15779590059 爬虫 视频数据链接抓取
  • 爬虫部分资料获取qq1127049307 ; wx15779590059
  • 小红书,各方位进行爬虫

    千次阅读 热门讨论 2019-09-09 21:32:49
    手机链接 上,小红书app下架了,我这里就从微信小红书小程序开始入手。 这是Fidder的程序界面。 这边手机端 打开微信,打开小红书小程序, 然后点击一个视频 播放、 、 我手机...
  • Python爬虫系列之小红书账号授权自动发布笔记视频 小程序爬虫接单、app爬虫接单、网页爬虫接单、接口定制、网站开发、小程序开发> 点击这里联系我们 < 微信请扫描下方二维码 代码仅供学习交流,请勿用于非法...
  • 小红书数据采集教程,使用协程方式爬取小红书 热门页 下的数据 from gevent import monkey # 猴子补丁 monkey.patch_all() from gevent.pool import Pool from queue import Queue ...小红书爬虫"""
  • 源码链接:https://pan.baidu.com/s/1oOAxJqSMCyVJPNv-iAYW7A 提取码:1co9 Java+Jsoup爬虫小红书 Java+Jsoup爬虫微博 Java+Jsoup爬虫B站
  • 今天就跟大家聊聊有关使用Python爬虫怎么爬取小红书,而且最近小红薯的风控真的超级严,我想有小伙伴应该领会到了。 关于小红书的采集,一般的方法肯定是不行的,在我看来要采集小红薯有三个必须要基础策略。1、随机...
  • System.out.println("小红书评论量:" comment.get(0).html().toString()); System.out.println("小红书收藏量:" star.get(0).html().toString()); } @Test void weibo() throws Exception { String tidResponse =...
  • shield是小红书App接口主要的签名,由路径,参数,xy_common_params,xy_platform_info,数据拼接和加密生成。原始加密在libshield.so中,已用python还原。 from urllib import parse from xiaohongshu . shield ...
  • from gevent import monkey # 猴子补丁 monkey.patch_all() from gevent.pool import Pool from queue import Queue import requests import json from lxml import etree ... """小红书爬虫""" ...
  • 用django写的小红书数据采集系统,内涵小红书数据采集爬虫和对应数据库写入写出功能,应该爬虫规则已经发生变更了,代码可以用来学习数据采集和存储以及查询提取作用
  • 小红书数据采集接口

    千次阅读 2020-06-12 11:57:13
    提供封装好的小红书数据采集接口,通过手机自动化实时采集,接口稳定。 接口使用详情请参考接口文档。 已支持接口列表如下: 小红书关键字搜索 小红书用户信息详情 小红书用户笔记列表 小红书单个笔记详细数据...
  • 小红书图片爬取是一款针对小红书的专业下载工具,它的页面简洁,功能强大,能够帮助用户对小红书上的图片进行去水印批量下载,有需要的朋友不要错过了,欢迎大家下载体验。 小红书图片爬取 功能介绍 小红书笔记批量...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 430
精华内容 172
关键字:

小红书爬虫

爬虫 订阅