精华内容
下载资源
问答
  • 因为在Excel里面难以实现自动登录今天介绍一种用PowerQuery爬取生意参谋数据的方法,只作学习用,拓展一下思维,切忌大量爬取生意参谋数据,以免被封!需要用到M语言的几个函数:Json.Document() 用来解析Json代码...

    因为在Excel里面难以实现自动登录

    今天介绍一种用PowerQuery爬取生意参谋数据的方法,只作学习用,拓展一下思维,切忌大量爬取生意参谋数据,以免被封!

    需要用到M语言的几个函数:

    Json.Document() 用来解析Json代码

    Web.Contents(url,[Headers=headers,Query=query]) 用来获取页面数据

    首先找到想要爬取的数据,此文以爬取生意参谋-首页-整体看板的数据为例。

    想要爬取数据,首先要找到数据在哪里。

    鼠标右击网页任意位置,选择“审查元素,或者”按F12健。

    点击”Network”,然后点击”XHR”,数据就藏在左侧的文件中,可以依次点击查看。

    发现数据在getTrend.json这个文件下,在Preview标签中可以看到我们要爬的数据。

    接下来我们需要获取3部分内容,URL,Headers,Query。点击Headers标签。

    标红的部分是我们需要的内容(Headers部分从cookie开始复制,前面部分不需要),为便于编辑,可以把这3部分内容分别复制粘贴到记事本。

    上图对代码的含义做了简单说明。接下来需要将3段内容进行简单的处理,以便PowerQuery能够正确识别。

    先把输入法切换到英文状态。

    url部分用“”引起来。

    Headers部分,冒号左侧的内容用引号引起来,左边加上井号;冒号右侧的内容用引号引起来,冒号替换成等于号;cookie、referer和user-agent这3段之间的换行符删掉,然后用逗号隔开;最后把整体用[ ]括起来。

    这段没看懂没关系,下面再讲一遍。

    冒号两端用引起来

    左边加井号

    冒号换成等于号

    删掉换行符,用逗号隔开。

    整体用方括号括起来

    3部分内容加工完毕,接下来打开Excel。

    点击“数据“选项卡-”新建查询“-”从其他源“-“空白查询”

    此时打开了查询编辑器(PowerQuery),现在需要一个自动生成时间戳的列。点击“高级编辑器”

    打开了高级编辑器,将等号右边的内容替换成以下内容:

    Number.IntegerDivide(Duration.TotalSeconds(DateTime.LocalNow()-

    #datetime(1970,1,1,8,0,0)),1)

    点击“已完成”按钮。

    出现了时间戳的字段,点击“到表”按钮。

    变成了表格形式,将列名重命名成“时间戳”

    单击列名左侧图标,将字段类型设置成文本。

    在url和query代码中,需要把包含时间戳的字段进行替换,以识别成对应的单元格。

    中括号两边用&连接,外面需要被引号引起来。

    接下来最关键的一步,把要爬取的数据解析出来。添加自定义列。

    在自定义列公式中输入

    Json.Document(Web.Contents(url,[Headers=headers,Query=query]))

    先不要着急点确定,需要把url,headers,query这3个单词替换成上文整理好的3段对应代码。

    然后点击“确定”按钮。

    出现警告,不必担心,点击“继续”。

    在弹出的隐私级别窗口中,点击右侧下拉箭头,选择“公共”,点击“保存”。

    解析出了Record字段。点击右边的双向箭头图标,点击“确定”按钮。

    继续点击双向箭头图标,点击“确定”按钮。

    继续点击双向箭头图标,点击“确定”按钮。

    鼠标右击Record这一列的列名,选择“删除其他列”。

    点击双向箭头图标,可以把使用原始列名作为前缀前面的勾去掉,点击“确定”按钮。

    表格变成了这种形式,此时不能直接将数据展开,需要改变一下形式,将List字段变成一列。

    将3列选中(先点击第一列列名,选中第一列,按住Shift健,再选中最后一列),点击“转换”标签中

    的“逆透视列”按钮,进行逆透视。

    变成这种形式,然后点击双向箭头按钮。

    点击“扩展到新行”。

    得到了我们想要的数据。

    文章到此结束。

    本文重点在于解析的过程,提供一种爬虫的思路,后续数据清洗和整理过程不再赘述。

    本文只爬取了支付金额,想同时爬取更多数据,可以在indexCode=payAmt后面添加其他指标代码即可,如indexCode=payAmt,uv即可同时爬取支付金额和访客数。

    最后提醒:切忌大量爬取生意参谋数据,以免被封!切记!切记!

    展开全文
  • 在chrome浏览器打开生意参谋,通过使用fiddler或者charle抓包工具抓包,发现很多数据都是十六进制数据,这很明显是加密过的。 思路 既然数据是加密过的,那可以通过js逆向寻找到对应js文件,再找加密的代码段。 F12...

    前提

    对于爬虫,首先第一步是分析网页,获知需求数据的来源。在chrome浏览器打开生意参谋,通过使用fiddler或者charle抓包工具抓包,发现很多数据都是十六进制数据,这很明显是加密过的。
    在这里插入图片描述

    思路

    既然数据是加密过的,那可以通过js逆向寻找到对应js文件,再找加密的代码段。
    F12打开开发者工具,选择sources,按照下图路径找到vendors.js并打开,然后点击左下角{}进行格式化。
    在这里插入图片描述
    Ctrl+F打开底下的搜索框,输入c.setPublicKey即可定位到目标信息。下图,定位到的是AES加密密码IV偏移量,说明使用了CBC模式的AES加密。再往下看,可以看到解密函数和加密函数。
    通过函数可以看出加密思路:明文-->AES加密-->base64编码-->16进制编码-->16进制密文
    而解密思路则是放过来:16进制密文--> 16进制编码-->base64编码-->AES加密-->明文

    我们可以通过断点调试看看其解密过程:
    找到解密关键代码行,在左侧对于行数点击一下,打个红点。然后在生意参谋页面操作一下,搜索或者点击,请求数据。
    在这里插入图片描述F8进行逐步执行,当执行到断点处,可以在控制台输出一些变量看看。
    输入e,得到十六进制密文:
    在这里插入图片描述
    输入r.enc.Base64.stringify(r.enc.Hex.parase(e))
    密文经过十六进制编码和base64编码,变成base64编码密文:
    在这里插入图片描述把这段密文复制,打开网址:http://tool.chacuo.net/cryptaes
    设置对应参数,即可解密获得明文。
    在这里插入图片描述

    也可以把十六进制的密文放进去解密,只需把base64换成hex就可以了
    在这里插入图片描述至此,解密思路已经清晰了。

    python代码实现

    1.使用某大佬提供的api ,可以不用了解解密原理,直接调用api,缺点是存在一定的网络延迟。
    解密网站:http://app.miiow.com.cn:8181/Sycm/Tools.html
    API:http://app.miiow.com.cn:8181/ajaxApi.ashx/@/dontlogin/sycm/decryptor
    使用方法:

    import requests
    encrypt_data = {"data":"十六进制编码"}  #密文
    url='http://app.miiow.com.cn:8181/ajaxApi.ashx/@/dontlogin/sycm/decryptor' #解密api
    plaintext = requests.post(url=url,data=encrypt_data).json() #post 方法
    print(plaintext)
    

    2.使用python标准密码库进行解密
    标准密码库:Crypto
    ACSII编码库:binascii/ base64编码库: base64
    AES就在Crypto.Cipher 库中,加密后输出的是acsii码,其解密输入的也是acsii码,故需要用到acsii与十六进制的转换库,binascii和base64选择一个就可以了。

    from Crypto.Cipher import AES
    from binascii import b2a_hex,a2b_hex
    from base64 import b16decode,b16encode
    KEY = b"xxxxxxxxxxxxxxxx" # AES密码,长度必须为16的倍数
    IV = b"xxxxxxxxxxxxxxxx"	# IV偏移量,长度必须为16的倍数
    
    # 解密
    aes_obj1 = AES.new(KEY, AES.MODE_CBC, IV) #CBC模式
    decrypt_data = b"yyyyyyyyyyyyyyyyyy" # 十六进制密文,长度必须为16的倍数
    acsii_data = a2b_hex(decrypt_data) # 十六进制转acsii
    # acsii_data = b16decode(decrypt_data) # 跟上面一样
    plaintext = aes_obj1.decrypt(acsii_data) # AES解密,其输出为byte类型
    print(plaintext)
    
    # 加密
    aes_obj2 = AES.new(KEY, AES.MODE_CBC, IV)
    encrypt_data = b"xxxxxxxxxxxxx"# 明文,长度必须为16的倍数,不足则需要补至为16的倍数
    encrypted_data = aes_obj2.encrypt(encrypt_data) # AES加密,输入为byte类型
    hex_data = b2a_hex(encrypted_data) # acsii转十六进制
    # hex_data = b16encode(encrypted_data)
    print(hex_data)
    

    至此,结束!

    展开全文
  • 爬虫--淘宝登录及生意参谋transit-id和data破解

    千次阅读 热门讨论 2019-04-24 17:04:17
    本次为了写一款抓取生意参谋数据的爬虫,真是费了不少很大的劲才破解里面的数据加密. 1. 登录 首先爬虫肯定是自动化抓取,所以登录自然是要自动登录,但是生意参谋的登录跟淘宝的是一模一样的,当你用selenium...

    生意参谋是淘宝商家分析市场行情最常见的工具之一.淘宝为了防爬虫可谓下了不少功夫.
    本次为了写一款抓取生意参谋数据的爬虫,真是费了不少很大的劲才破解里面的数据加密.

    1. 登录

    首先爬虫肯定是自动化抓取,所以登录自然是要自动登录,但是生意参谋的登录跟淘宝的是一模一样的,当你用selenium打开登录的时候就会被淘宝后端验证出来是个机器人。所以登录的话可以采用编译后的chromedriver来驱动chrome,或者使用mitmproxy用中间人的方式拦截服务器发送来的js,修改js里面函数的检测selenium的特征值的方式来登录.

    2. transit-id加密

    获得登录后的cookie后,如果想发送请求获得还必须在请求头里添加一个transit-id才可以获得响应内容.
    如下图:在这里插入图片描述
    不过这个笔者目前少量测试,写死一个也能获得响应内容.
    如果在浏览器进行debug,会发现这个值是每当前端请求数据的时候,对一个固定字符串做了RSA加密来得到的.所以可以在爬虫里写一个同样的方法获得transit-id.

    3. data加密

    原以为经过以上两步可以顺利获得结果了,事实证明还是太天真了.查看结果发现的到的是这样的一堆数据:在这里插入图片描述
    原来生意参谋后台响应的数据由经过AES加密的,前端展示的是解密后的.
    所以,要想获得真正的数据,还需要对数据做AES解密才可以.

    运行结果

    展示运行结果
    在这里插入图片描述


    可关注个人公众号,不定时分享一些爬虫案例和技巧
    在这里插入图片描述

    展开全文
  • 生意参谋data解密JS源码,AES解密,7C04B0CCE6699A80D9A670C7697472A37AAA0C4F147D1CFFED9038A7E5E8AC9DB2D13C58E5096694E899E73E8261F3344F489FE1E05DC81FA6668CABE25FAC19724391C000FBD214933E07B6D6FA3E701ADEF...
  • 近期发现,有部分人员使用爬虫爬取生意参谋平台数据,影响商家的用户体验。到底是如何爬取生意参谋数据呢?官方推荐淘宝、京东、拼多多TOP 10商家都在用的“排名无忧”电商流量服务平台,纯手工流量、多入口进店、...

    生意参谋是阿里巴巴为商家打造的一站式、个性化、可定制的商务决策体验平台。近期发现,有部分人员使用爬虫爬取生意参谋平台数据,影响商家的用户体验。到底是如何爬取生意参谋数据呢?

    官方推荐淘宝、京东、拼多多TOP 10商家都在用的“排名无忧”电商流量服务平台,纯手工流量、多入口进店、直通车流量、店铺宝贝双收藏、直播打榜等独家核心功能,限时免费体验!点击网址:http://zhuce.pmwy.com/?iv_code=7AAEBDAAF2EAA8042E23点击立即注册!

    1、在淘宝选项卡中,打开【生意参谋】工具。

    2、在【生意参谋数据拷贝】中,点击【打开生意参谋】按钮。

    3、在调用的IE浏览器中输入账号和密码。

    4、登陆好后,找到竞品,并点击【查看详情】。

    5、进入到竞品详情后,注意修改日期和宝贝(标题,自定义名字或者ID都可以,自己决定)。

    6、从【Top10流量来源】开始选中。

    选中到【Top10成交关键词】的最后一个数据,然后复制数据(可以右击复制或者按快捷键【Ctrl+c】。

    7、复制好后,点击左上角的【拷贝竞争对手数据】。

    大概1秒后就会弹出完成的提示框。

    8、这时不要关闭生意参谋,可以连续复制7天的数据(记得手动修改日期,本软件没有任何抓取生意参谋的动作),在系统的任务栏激活【生意参谋数据拷贝】,可以观察到数据,然后点击【导出数据】。

    9、导出数据后,会有两张工作表,每张工作表的数据部分,选中,然后如下图所示点击【转换为数字】

    10、完毕后,就可以用数据透视表分析数据了。

    生意参谋在此郑重声明:严禁一切对生意参谋数据的爬取行为(包括但不限于利用第三方或自有工具,自动记录、未经授权违规获取生意参谋数据的行为)。如发现违规用户,我们将跟根据《生意参谋零售电商大数据软件服务协议》相关条款,对违规用户进行处理,限制或终止违规用户对生意参谋的使用;情节严重者,我们将直接追究其法律责任。

    其实对于非法的爬取数据行为,生意参谋是禁止的,如果发现了违规的用户,官方也会去进行相关的处理,取消其使用生意参谋的权限,运营店铺不一定要去爬取数据,利用该工具分析数据也很有帮助。

    相关阅读:查看更多相似文章

    展开全文
  • 所用到主要的库:mitmproxy + pandas+urllib 第一步:网页分析(Fiddler获取) 第二步:篡改Google本地浏览器——网页监控     ...第三步: mitmproxy拦截所需网页(根据第一步分析) ......
  • 生意参谋接口加密请求参数transit-id,接口响应data数据解密,python源码,跟生意参谋后台同步更新
  • 生意参谋-市场大盘,市场排行爬虫脚本,采用pyppeteer+PIL方式处理数值图片问题,人工登录,并将爬取结果保存为csv文件 脚本截取: import asyncio from pyppeteer import launch from PIL import Image import ...
  • 但是最近阿里在打击爬取生意参谋数据的行为,很多人还不了解这种行为,今天小编就为大家做详细介绍。官方推荐平台“排名无忧”助力商家快速提升手淘直播推荐、增粉、打榜、有效提升粉丝活跃度,增加商品曝光权重指数...
  • 晓。数据 - 晓。工具箱 chrome浏览器插件 安装时无需解压 ...指数换算 与 数据导出 功能涵盖生意参谋 “市场”与“竞争”所有有数据片段的页面;终端、平台、时间维度全涵盖。 插件官网:www.xiaotools.com
  • 完全免费, 一键自动还原, 准确率99.99%, 非爬虫很安全, 支持数据导出,
  • 公司数据部每天都需要从生意参谋下载前一天的单品来源信息,然后再合并成一个文件,耗时不说还容易出错,我们用Python 来解决这个问题 需求分析 找到下载的文件连接,直接在超链接上右键复制连接即可 ![image.png...
  • 一、 生意参谋 市场大盘 ???? 生意参谋市场大盘数据解析及转化。。项目地址 const txt ="技术交流" const qq=1825136798 <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF...
  • 生意参谋数据抓取逻辑 selenium模拟登陆生意参谋获取cookie 生成transit-id加入到header 根据抓取板块发送不同的数据请求 获取data进行解密 保存到MongoDB 难点在于第二步和第四步,现已完全破解,有需要的朋友加...
  • 生意参谋指数转化算法(2021最新)

    千次阅读 2021-05-13 22:40:41
    生意参谋指数转化算法 API 生意参谋多个指数转化(市场、竞争、品类、流量等模块), 提供API接口 点击测试地址(交易指数->交易金额) //详细咨询 加Q const qq=1825136798
  • ![图片说明](https://img-ask.csdn.net/upload/201905/17/1558061843_492048.jpg) 这个下拉框的选项没有在element中出现,当点击数字10所在的位置时出现下拉框,同时element中多出一个DIV 如下图, !... 但是用 ...
  • sycm生意参谋需求帮朋友做一个生意参谋的软件,需求如下。首先选中两个竞品再把更新时间选为日,获取每一天的数据再合并竞品入店搜索词 后面选择 无线端需要把 引流关键词 和 成交关键词 的数据导出 Excel分析第 4 ...
  • 数据银行用户画像获取---生意参谋市场竞品数据获取 找我
  • import requestsimport jsonimport pandas as pdimport time# getRtVisitor.jsonsession = requests.Session() # 创建一个session对象headers = {'accept':'*/*','accept-encoding':'gzip, deflate, br','accept-...
  • 国内外电商平台反爬虫机制报告

    千次阅读 2018-07-30 10:04:20
    当然今天的主题是反爬虫机制,电商平台如何能保护好自己的数据,又不影响正常用户体验,所谓当今业界一场持久的攻防博弈。 一阶爬虫(技术篇) 应用场景一:静态结果页,无频率限制,无黑名单。 攻:直接采用...
  • 今天爬淘宝生意参谋又出现这个问题,经百度才知道原来chrome driver的变量有一个特征码,网站可以直接根据特征码判断,经百度发现有4种方法可以解决,记录一下自己做的尝试。 1、mitproxy拦截请求 √ 本质上就是在...
  • 解密sycm data.zip

    2021-08-11 13:47:50
    生意参谋的加密data进行解密
  • 参谋-crx插件

    2021-04-01 16:00:39
    关于星参谋针对生意参谋最近改版,真实数值全部隐藏,变成了指数,基本失去参考价值,进而开发的辅助工具软件。指数即时换算、换算结果数据实时预览与导出功能;辅助功能涵盖生意参谋“市场”与“竞争”栏目中的重要...

空空如也

空空如也

1 2 3 4
收藏数 74
精华内容 29
关键字:

生意参谋爬虫

爬虫 订阅