精华内容
下载资源
问答
  • 想要下载天猫买家秀电商朋友接着往下,小编推荐一个非常实用软件,希望大家有极大帮助。 准备工具: 电脑 天猫商品链接 固乔电商图片助手 操作过程: 电脑下载“固乔电商图片助手”这个工具。打开...

    天猫是专业线上综合购物平台,全球消费者挚爱的品质购物之城,商品涵盖服饰箱包、美妆个护、家电数码、母婴玩具、食品生鲜等各大品类,旨在引领中国消费者第一时间发现和体验全球化、更优质的生活方式,提前开启趋势中的理想生活。想要下载天猫买家秀的电商朋友接着往下看,小编推荐一个非常实用的软件,希望对大家有极大帮助。

    天猫买家秀的评论图片怎么批量下载

    准备工具:

    电脑

    天猫商品的链接

    固乔电商图片助手

    操作过程:

    电脑下载“固乔电商图片助手”这个工具。打开后,如下图箭头所示处,打勾

    天猫买家秀的评论图片怎么批量下载

    打开天猫商品页面,复制链接:

    天猫买家秀的评论图片怎么批量下载

    如果有多个商品要采集,就全部打开,全部复制,链接一行一个,会自动粘贴到工具,效果如图:天猫买家秀的评论图片怎么批量下载

    接下来勾选要下载的内容,如果也要一起下载宝贝主图、细节图等等,那么其他的选项也都一起勾选一下。

    天猫买家秀的评论图片怎么批量下载

    点击【立即下载】等下载完成,就可以打开文件夹查看下载好的评论图及文字啦!

    天猫买家秀的评论图片怎么批量下载天猫买家秀的评论图片怎么批量下载

     

    这样采集的图片文字等就保存好了,是不是很方便呢!在文件中含有商品原链接、商品ID、商品标题、买家昵称、买家秀文字、买家秀图片、买家秀视频以及保存在电脑上的位置,如果需要下载主图、属性图在下载选项中勾选即可。这个专业采集评论图的工具方便快捷,快用起来吧!

    展开全文
  • 在平时工作生活中,对于图片处理这件事一定都不陌生,不管是压缩图片大小,或者修改图片宽高、转换图片格式等等,这些是大家在平时都会遇到问题,这时候就需要用到图片处理软件(https://www.yasuotu.com/)来...

    在平时的工作生活中,对于图片处理这件事一定都不陌生,不管是压缩图片大小,或者修改图片宽高、转换图片格式等等,这些是大家在平时都会遇到的问题,这时候就需要用到图片处理软件https://www.yasuotu.com/)来对图片进行修改了,一般在进行图片处理的时候都是单张编辑图片,那么遇到图片比较多的情况下应该怎么办呢?今天来给大家分享一个简单又快速的方法,没有软件也不用担心,只需要打开网站就能处理图片,并且支持批量处理功能,下面一起来看一下吧。

    一、图片压缩

    1、打开压缩图网站,点击批量云端压缩功能,批量云端压缩一次最多能够60张图片同时处理。
    在这里插入图片描述

    2、点击上传,选择文件或者文件夹批量上传图片。
    在这里插入图片描述

    3、点击新建任务选择图片压缩。
    在这里插入图片描述

    4、任务创建好后,即可设置相应的参数如压缩等级、宽度高度等等(注:压缩等级越小则压缩后图片越小;宽高不设置的话默认按照原比例进行压缩,压缩后图片尺寸不变),点击添加图片后选择需要压缩的图片。
    在这里插入图片描述

    5、点击开始处理后就开始对上传的图片进行压缩,这时请耐心等待,图片处理完成时会显示对号,等到图片压缩在线完成后,点击下载.zip即可打包下载。
    在这里插入图片描述

    二、图片改大小

    1、打开压缩图网站,选择批量云端压缩功能。
    在这里插入图片描述

    2、点击上传,选择文件或者文件夹批量上传图片。
    在这里插入图片描述

    3、点击新建任务选择图片改大小。
    在这里插入图片描述

    4、任务创建好后,可以设置需要的图片宽、高数值、是否压缩图片、是否允许图片变形等参数,其中设置宽高数值时可以只输入一项数值,压缩图会自动按照最佳宽高比来进行图片缩放。
    在这里插入图片描述

    5、点击开始处理后即可自动进行批量图片改大小,图片处理完成后点击下载按钮即可将处理好的图片打包下载。
    在这里插入图片描述

    三、图片转格式

    1、打开压缩图网站,选择批量云端压缩功能。
    在这里插入图片描述

    2、进入后,点击上传按钮上传需要转格式的图片,这里支持单独上传图片文件也支持上传整个文件夹中的所有图片。
    在这里插入图片描述

    3、图片上传后,点击新建任务,选择图片转格式。
    在这里插入图片描述

    4、进入新建任务页面后,点击添加图片按钮即可在刚刚上传的图片中选择需要转格式的图片,选择好后在右侧选择需要转换的格式,压缩图支持jpg、png、webp、bmp等格式之间互相转换,选择好后点击开始转换即可。
    在这里插入图片描述

    5、图片转换完成后点击下载,把图片下载至本地,就批量完成了图像格式转换。
    在这里插入图片描述

    以上就是这款在线ps图片处理软件https://www.yasuotu.com/)的使用方法了,对于图片多并且不会使用ps等软件的小伙伴们来说非常友好,只需要打开网站-上传图片-设置参数-下载保存四步,就能轻松完成批量图片处理,解放双手提高效率,让你不用再因为图片太多需要处理而烦恼,这么好用的在线图片编辑器快来试试吧!

    展开全文
  • 这就是为什么渐变色图片、颜色值变化不大并且颜色单一的图片更容易压缩的原理。 差分编码的目的,就是尽可能的将png图片数据值转换成一组重复的、低的值,这样的值更容易被压缩。 最后还要注意的是ÿ...
  • 个玩笑,这就是一张普通的图片。 毫无疑问,上面的那副图画起来像一幅电脑背景图片。这些都归功于我的妹妹,她能够将一些上去奇怪的东西变得十分吸引眼球。然而,我们生活在数字图片的年代,我们也很少去想...
  • 仍然使用Python编程,爬虫没兴趣可直接跳过下部分,不影响阅读。网址https://maimai.cn/gossip_list,需要先登录才能看到里面内容。 爬取目标: 只爬文字部分,图片不考虑。 在浏览器内按F12打开开发者,向...

    脉脉是一个实名职场社交平台。之前爬了脉脉职言版块,大概爬了4027条评论,本文对爬取过程给出详细说明,对于评论内容仅做可视化分析。

    爬虫

    仍然使用Python编程,对爬虫没兴趣的可直接跳过看下部分,不影响阅读。网址https://maimai.cn/gossip_list,需要先登录才能看到里面的内容。

    爬取目标:

    只爬文字部分,图片不考虑。

    在浏览器内按F12打开开发者,向下滑,会看到很多gossip开头的json文件(不行的话刷新一下)。

    右键open in new tab,里面是一条一条记录,text后面是评论内容。

    我们感兴趣的信息是下面这些:

    看一看每个网站的地址,都是page=数字结尾,所以爬的时候写一个循环,数字从1开始往后取就可以了。

    https://maimai.cn/sdk/web/gossip_list?u=206793936&channel=www&version=4.0.0&_csrf=coAlLvgS-UogpI75vEgHk4O1OQivF2ofLce4&access_token=1.9ff1c9df8547b2b2c62bf58b28e84b97&uid=%22MRlTFjf812rF62rOeDhC6vAirs3A3wL6ApgZu%2Fo1crA%3D%22&token=%22rE8q1xp6fZlxvwygWJn1UFDjrmMXDrSE2tc6uDKNIDZtRErng0FRwvduckWMwYzn8CKuzcDfAvoCmBm7%2BjVysA%3D%3D%22&page=1&jsononly=1

    json的最开头有total和remain两个参数,给出了目前所有可见评论剩余数和总数,可以作为循环的停止条件。

    但比较坑的一点是,脉脉并不能可见所有评论,而且评论是不断刷新的,所有如果爬完一页循环到下一页或者尝试过很多次之后,它会提示你:

    直接看的时候有这样的提示会体验很好,但对于爬虫来说就不是很友好了,需要加个if判断。

    另外爬得太快,也会出错,记得加time.sleep。

    大概把能踩的坑都踩了,所以如果顺利的话,每次只能爬几百条信息,想爬更多的话,需要过一段时间等信息更新的差不多了再爬,代码如下:

    # -*- coding: utf-8 -*-
    """
    Created on Fri Oct 19 18:50:03 2018
    """
    import urllib
    import requests
    from fake_useragent import UserAgent
    import json
    import pandas as pd
    import time
    import datetime
    #comment_api = 'https://maimai.cn/sdk/web/gossip_list?u=206793936&channel=www&version=4.0.0&_csrf=7ZRpwOSi-JHa7JrTECXLA8njznQZVbi7d4Uo&access_token=1.b7e3acc5ef86e51a78f3410f99aa642a&uid=%22MRlTFjf812rF62rOeDhC6vAirs3A3wL6ApgZu%2Fo1crA%3D%22&token=%22xoNo1TZ8k28e0JTNFqyxlxg%2BdL%2BY6jtoUjKZwE3ke2IZ919o%2FAUeOvcX2yA03CAx8CKuzcDfAvoCmBm7%2BjVysA%3D%3D%22&page={}&jsononly=1'
    # 发送get请求
    comment_api = 'https://maimai.cn/sdk/web/gossip_list?u=206793936&channel=www&version=4.0.0&_csrf=FfHZIyBb-H4LEs35NcyhyoAvRM7OkMRB0Jpo&access_token=1.0d4c87c687410a15810ee6304e1cd53b&uid=%22MRlTFjf812rF62rOeDhC6vAirs3A3wL6ApgZu%2Fo1crA%3D%22&token=%22G7rGLEqmm1wY0HP4q%2BxpPFCDj%2BHqGJFm0mSa%2BxpqPg47egJdXL%2FriMlMlHuQj%2BgM8CKuzcDfAvoCmBm7%2BjVysA%3D%3D%22&page={}&jsononly=1'
    """
    author:作者
    text:评论
    cmts :评论数
    circles_views:被查看数
    spread :转发数
    likes :点赞数
    time : 时间
    
    """
    
    headers = { "User-Agent": UserAgent(verify_ssl=False).random}
    j = 0
    k = 0
    response_comment = requests.get(comment_api.format(0),headers = headers)
    json_comment = response_comment.text
    json_comment = json.loads(json_comment)
    num = json_comment['total']
    cols = ['author','text','cmts','likes','circles_views','spreads','time']
    dataall = pd.DataFrame(index = range(num),columns = cols)
    remain = json_comment['remain']
    print(remain)
    while remain!= 0 :
       n = json_comment['count']
       for i in range(n):
           if json_comment['data'][i]['text'] !='下面内容已经看过了,点此刷新':
               dataall.loc[j,'author'] = json_comment['data'][i]['author']
               dataall.loc[j,'text'] = json_comment['data'][i]['text']
               dataall.loc[j,'cmts'] = json_comment['data'][i]['cmts']
               dataall.loc[j,'likes'] = json_comment['data'][i]['likes']
               dataall.loc[j,'circles_views'] = json_comment['data'][i]['circles_views']
               dataall.loc[j,'spreads'] = json_comment['data'][i]['spreads']
               dataall.loc[j,'time'] = json_comment['data'][i]['time']
    
               j+= 1             
           else:
               k = -1    
               break                             
       k+= 1
       comment_api1 = comment_api.format(k)    
       response_comment = requests.get(comment_api1,headers = headers)
       json_comment = response_comment.text
       json_comment = json.loads(json_comment)
       remain = json_comment['remain']
       print('已完成 {}% !'.format(round(j/num*100,2)))
       time.sleep(3) Python资源分享qun 784758214 ,内有安装包,PDF,学习视频,这里是Python学习者的聚集地,零基础,进阶,都欢迎
    dataall = dataall.dropna()
    dataall = dataall.drop_duplicates()
    
    dataall.to_csv('data_20181216_part3.csv',index = False)
    
    

    数据可视化

    就这样断断续续爬了一堆文件去重之后,得到了4027条数据,格式如下:

    接下来对爬到的数据做一些简单的分析。因为并不没有爬到全量评论,只是一个小样本,所以结果肯定是有偏的,但爬的时间很随机,而且前前后后爬了两周多,这样选样也比较随机,还是有一定的代表性。

    脉脉中发言用户有两类,一类是完全匿名的,用系统生成的昵称,一类显示为xx公司员工,我们统计爬到的样本中这两种用户的数量及发帖量。4027条职言中,不同发帖人共计1100名。

    匿名发帖人超过70%,大家都并不愿意用真实身份发言,毕竟被公司/学校人肉风险还是很高的。

    发帖数也毫无意外,匿名发帖人贡献了85%以上的帖子。

    匿名发帖人无法获取更细致的数据,但对于那些不匿名的发帖人,可以获取他们所在公司信息,将发帖数按公司汇总,看各大企业发帖量,可以作为整体的一个估计。统计时已经考虑了公司名称输入不一致的情况,将蚂蚁金服、支付宝等替换成了阿里巴巴,京东金融等替换成京东,今日头条、抖音等替换为字节跳动,取发帖数TOP20。

    可以看到,发帖人大多来自互联网企业,金融、地产等其他企业相对较少。

    文本分析

    对于转发、评论数、点赞数,因为有爬取时间上的差异,所以不好直接比较,给出评论数最多的前5条评论,看看大家最愿意参与的话题是什么。

    1. 用一个字概括一下你的2018年。(1659条评论)

    2. 【再就业求助帖】本人是刚被优化掉的知乎程序员,工作3年。比较想去BAT等大厂,希望贵厂HR们带公司认证来回复一下,发一发真实有hc的岗位,祝愿兄弟们都能找到新工作。(610条评论)

    3. 用两个字概括你现在的工作。(477条评论)

    4. 网易涨今年薪涨了50%…公司是发财了吗?(458条评论)

    5. 用2个字总结你的工作。(415条评论)

    1、4、5都是蛮有意思的问题,我们把1、4、5的评论都爬下来,做成词云,看看大家都在说些什么。

    用一个字概括你的2018年

    爬虫过程跟上面基本是一样的,找到json,不过这个可以爬到全部评论。

    # -*- coding: utf-8 -*-
    """
    Created on Fri Oct 19 18:50:03 2018
    """
    import urllib
    import requests
    from fake_useragent import UserAgent
    import json
    import pandas as pd
    import time
    # 发送get请求
    comment_api = 'https://maimai.cn/sdk/web/gossip/getcmts?gid=18606987&page={}&count=50&hotcmts_limit_count=1&u=206793936&channel=www&version=4.0.0&_csrf=38244DlN-X0iNIk6A4seLXFx6hz3Ds6wfQ0Y&access_token=1.9ff1c9df8547b2b2c62bf58b28e84b97&uid=%22MRlTFjf812rF62rOeDhC6vAirs3A3wL6ApgZu%2Fo1crA%3D%22&token=%22rE8q1xp6fZlxvwygWJn1UFDjrmMXDrSE2tc6uDKNIDZtRErng0FRwvduckWMwYzn8CKuzcDfAvoCmBm7%2BjVysA%3D%3D%22'
    """
    author:作者
    text:评论
    、
    
    """
    
    #headers = { "User-Agent": UserAgent(verify_ssl=False).random,'Cookie':cookie}
    headers = { "User-Agent": UserAgent(verify_ssl=False).random}
    j = 0
    k = 0
    response_comment = requests.get(comment_api.format(0),headers = headers)
    json_comment = response_comment.text
    json_comment = json.loads(json_comment)
    
    num = json_comment['total']
    cols = ['author','text']
    dataall = pd.DataFrame(index = range(num),columns = cols)
    
    while j < num :
       n = json_comment['count']
       for i in range(n):
    
           dataall.loc[j,'author'] = json_comment['comments'][i]['name']
           dataall.loc[j,'text'] = json_comment['comments'][i]['text']
           j+= 1             
       k += 1
       comment_api1 = comment_api.format(k) 
    
       response_comment = requests.get(comment_api1,headers = headers)
       json_comment = response_comment.text
       json_comment = json.loads(json_comment)
       print('已完成 {}% !'.format(round(j/num*100,2)))
       time.sleep(3)
    
    dataall.to_excel('用一个字概括你的2018年.xlsx')
    
    

    爬下来之后,删掉超过一个字的评论,按词频确定大小,做词云图如下:

    用两个字概括你现在的工作/用2个字总结你的工作

    2、5是一样的,爬下来合并到一起后分析。代码不再重复,实际上用上面那段代码,找到json地址后替换,任何一个话题下的评论都可以全爬到,删掉不是2个字的评论后根据词频作图:

    使用SnowNLP对评论进行情感分析,最终4027条中,积极的有2196条,消极的有1831条。学习过程中有不懂的可以加入我们的学习交流秋秋圈784中间758后面214,与你分享Python企业当下人才需求及怎么从零基础学习Python,和学习什么内容。相关学习视频资料、开发工具都有分享

    积极:

    消极:

    模型对大部分评论的情感倾向判断的比较准确,小部分有误。

    最后对所有评论提取关键词做词云收尾:

    万水千山总是情,点个「好看」行不行。

    展开全文
  • 仍然使用Python编程,爬虫没兴趣可直接跳过下部分,不影响阅读。网址https://maimai.cn/gossip_list,需要先登录才能看到里面内容。 爬取目标: 只爬文字部分,图片不考虑。 在浏览器内按F12打开开发者,向...

    脉脉是一个实名职场社交平台。之前爬了脉脉职言版块,大概爬了4027条评论,本文对爬取过程给出详细说明,对于评论内容仅做可视化分析。

    爬虫

    仍然使用Python编程,对爬虫没兴趣的可直接跳过看下部分,不影响阅读。网址https://maimai.cn/gossip_list,需要先登录才能看到里面的内容。

    爬取目标:

    Python 爬取 4027 条脉脉职言,解读程序员真实的互联网生活!

    只爬文字部分,图片不考虑。

    在浏览器内按F12打开开发者,向下滑,会看到很多gossip开头的json文件(不行的话刷新一下)。

    Python 爬取 4027 条脉脉职言,解读程序员真实的互联网生活!

    右键open in new tab,里面是一条一条记录,text后面是评论内容。

    Python 爬取 4027 条脉脉职言,解读程序员真实的互联网生活!

    我们感兴趣的信息是下面这些:

    Python 爬取 4027 条脉脉职言,解读程序员真实的互联网生活!

    看一看每个网站的地址,都是page=数字结尾,所以爬的时候写一个循环,数字从1开始往后取就可以了。

    学习过程中有不懂的可以加入我们的学习交流秋秋圈784中间758后面214,与你分享Python企业当下人才需求及怎么从零基础学习Python,和学习什么内容。相关学习视频资料、开发工具都有分享

    https://maimai.cn/sdk/web/gossip_list?u=206793936&channel=www&version=4.0.0&_csrf=coAlLvgS-UogpI75vEgHk4O1OQivF2ofLce4&access_token=1.9ff1c9df8547b2b2c62bf58b28e84b97&uid=%22MRlTFjf812rF62rOeDhC6vAirs3A3wL6ApgZu%2Fo1crA%3D%22&token=%22rE8q1xp6fZlxvwygWJn1UFDjrmMXDrSE2tc6uDKNIDZtRErng0FRwvduckWMwYzn8CKuzcDfAvoCmBm7%2BjVysA%3D%3D%22&page=1&jsononly=1

    json的最开头有total和remain两个参数,给出了目前所有可见评论剩余数和总数,可以作为循环的停止条件。

    Python 爬取 4027 条脉脉职言,解读程序员真实的互联网生活!

    但比较坑的一点是,脉脉并不能可见所有评论,而且评论是不断刷新的,所有如果爬完一页循环到下一页或者尝试过很多次之后,它会提示你:

    Python 爬取 4027 条脉脉职言,解读程序员真实的互联网生活!

    直接看的时候有这样的提示会体验很好,但对于爬虫来说就不是很友好了,需要加个if判断。

    另外爬得太快,也会出错,记得加time.sleep。

    Python 爬取 4027 条脉脉职言,解读程序员真实的互联网生活!

    大概把能踩的坑都踩了,所以如果顺利的话,每次只能爬几百条信息,想爬更多的话,需要过一段时间等信息更新的差不多了再爬,代码如下:

    # -*- coding: utf-8 -*-
    """
    Created on Fri Oct 19 18:50:03 2018
    """
    import urllib
    import requests
    from fake_useragent import UserAgent
    import json
    import pandas as pd
    import time
    import datetime
    #comment_api = 'https://maimai.cn/sdk/web/gossip_list?u=206793936&channel=www&version=4.0.0&_csrf=7ZRpwOSi-JHa7JrTECXLA8njznQZVbi7d4Uo&access_token=1.b7e3acc5ef86e51a78f3410f99aa642a&uid=%22MRlTFjf812rF62rOeDhC6vAirs3A3wL6ApgZu%2Fo1crA%3D%22&token=%22xoNo1TZ8k28e0JTNFqyxlxg%2BdL%2BY6jtoUjKZwE3ke2IZ919o%2FAUeOvcX2yA03CAx8CKuzcDfAvoCmBm7%2BjVysA%3D%3D%22&page={}&jsononly=1'
    # 发送get请求
    comment_api = 'https://maimai.cn/sdk/web/gossip_list?u=206793936&channel=www&version=4.0.0&_csrf=FfHZIyBb-H4LEs35NcyhyoAvRM7OkMRB0Jpo&access_token=1.0d4c87c687410a15810ee6304e1cd53b&uid=%22MRlTFjf812rF62rOeDhC6vAirs3A3wL6ApgZu%2Fo1crA%3D%22&token=%22G7rGLEqmm1wY0HP4q%2BxpPFCDj%2BHqGJFm0mSa%2BxpqPg47egJdXL%2FriMlMlHuQj%2BgM8CKuzcDfAvoCmBm7%2BjVysA%3D%3D%22&page={}&jsononly=1'
    """
    author:作者
    text:评论
    cmts :评论数
    circles_views:被查看数
    spread :转发数
    likes :点赞数
    time : 时间
    
    """
    
    headers = { "User-Agent": UserAgent(verify_ssl=False).random}
    j = 0
    k = 0
    response_comment = requests.get(comment_api.format(0),headers = headers)
    json_comment = response_comment.text
    json_comment = json.loads(json_comment)
    num = json_comment['total']
    cols = ['author','text','cmts','likes','circles_views','spreads','time']
    dataall = pd.DataFrame(index = range(num),columns = cols)
    remain = json_comment['remain']
    print(remain)
    while remain!= 0 :
       n = json_comment['count']
       for i in range(n):
           if json_comment['data'][i]['text'] !='下面内容已经看过了,点此刷新':
               dataall.loc[j,'author'] = json_comment['data'][i]['author']
               dataall.loc[j,'text'] = json_comment['data'][i]['text']
               dataall.loc[j,'cmts'] = json_comment['data'][i]['cmts']
               dataall.loc[j,'likes'] = json_comment['data'][i]['likes']
               dataall.loc[j,'circles_views'] = json_comment['data'][i]['circles_views']
               dataall.loc[j,'spreads'] = json_comment['data'][i]['spreads']
               dataall.loc[j,'time'] = json_comment['data'][i]['time']
    
               j+= 1             
           else:
               k = -1    
               break                             
       k+= 1
       comment_api1 = comment_api.format(k)    
       response_comment = requests.get(comment_api1,headers = headers)
       json_comment = response_comment.text
       json_comment = json.loads(json_comment)
       remain = json_comment['remain']
       print('已完成 {}% !'.format(round(j/num*100,2)))
       time.sleep(3)          
    dataall = dataall.dropna()
    dataall = dataall.drop_duplicates()
    
    dataall.to_csv('data_20181216_part3.csv',index = False)
    

    Python 爬取 4027 条脉脉职言,解读程序员真实的互联网生活!

    数据可视化

    就这样断断续续爬了一堆文件去重之后,得到了4027条数据,格式如下:

    Python 爬取 4027 条脉脉职言,解读程序员真实的互联网生活!

    接下来对爬到的数据做一些简单的分析。因为并不没有爬到全量评论,只是一个小样本,所以结果肯定是有偏的,但爬的时间很随机,而且前前后后爬了两周多,这样选样也比较随机,还是有一定的代表性。

    脉脉中发言用户有两类,一类是完全匿名的,用系统生成的昵称,一类显示为xx公司员工,我们统计爬到的样本中这两种用户的数量及发帖量。4027条职言中,不同发帖人共计1100名。

    Python 爬取 4027 条脉脉职言,解读程序员真实的互联网生活!

    匿名发帖人超过70%,大家都并不愿意用真实身份发言,毕竟被公司/学校人肉风险还是很高的。

    Python 爬取 4027 条脉脉职言,解读程序员真实的互联网生活!

    发帖数也毫无意外,匿名发帖人贡献了85%以上的帖子。

    匿名发帖人无法获取更细致的数据,但对于那些不匿名的发帖人,可以获取他们所在公司信息,将发帖数按公司汇总,看各大企业发帖量,可以作为整体的一个估计。统计时已经考虑了公司名称输入不一致的情况,将蚂蚁金服、支付宝等替换成了阿里巴巴,京东金融等替换成京东,今日头条、抖音等替换为字节跳动,取发帖数TOP20。

    Python 爬取 4027 条脉脉职言,解读程序员真实的互联网生活!

    可以看到,发帖人大多来自互联网企业,金融、地产等其他企业相对较少。

    文本分析

    对于转发、评论数、点赞数,因为有爬取时间上的差异,所以不好直接比较,给出评论数最多的前5条评论,看看大家最愿意参与的话题是什么。

    1. 用一个字概括一下你的2018年。(1659条评论)

    2. 【再就业求助帖】本人是刚被优化掉的知乎程序员,工作3年。比较想去BAT等大厂,希望贵厂HR们带公司认证来回复一下,发一发真实有hc的岗位,祝愿兄弟们都能找到新工作。(610条评论)

    3. 用两个字概括你现在的工作。(477条评论)

    4. 网易涨今年薪涨了50%.....公司是发财了吗?(458条评论)

    5. 用2个字总结你的工作。(415条评论)

    1、4、5都是蛮有意思的问题,我们把1、4、5的评论都爬下来,做成词云,看看大家都在说些什么。

    用一个字概括你的2018年

    爬虫过程跟上面基本是一样的,找到json,不过这个可以爬到全部评论。

    # -*- coding: utf-8 -*-
    """
    Created on Fri Oct 19 18:50:03 2018
    """
    import urllib
    import requests
    from fake_useragent import UserAgent
    import json
    import pandas as pd
    import time
    # 发送get请求
    comment_api = 'https://maimai.cn/sdk/web/gossip/getcmts?gid=18606987&page={}&count=50&hotcmts_limit_count=1&u=206793936&channel=www&version=4.0.0&_csrf=38244DlN-X0iNIk6A4seLXFx6hz3Ds6wfQ0Y&access_token=1.9ff1c9df8547b2b2c62bf58b28e84b97&uid=%22MRlTFjf812rF62rOeDhC6vAirs3A3wL6ApgZu%2Fo1crA%3D%22&token=%22rE8q1xp6fZlxvwygWJn1UFDjrmMXDrSE2tc6uDKNIDZtRErng0FRwvduckWMwYzn8CKuzcDfAvoCmBm7%2BjVysA%3D%3D%22'
    """
    author:作者
    text:评论
    、
    
    """
    
    #headers = { "User-Agent": UserAgent(verify_ssl=False).random,'Cookie':cookie}
    headers = { "User-Agent": UserAgent(verify_ssl=False).random}
    j = 0
    k = 0
    response_comment = requests.get(comment_api.format(0),headers = headers)
    json_comment = response_comment.text
    json_comment = json.loads(json_comment)
    
    num = json_comment['total']
    cols = ['author','text']
    dataall = pd.DataFrame(index = range(num),columns = cols)
    
    while j < num :
       n = json_comment['count']
       for i in range(n):
    
           dataall.loc[j,'author'] = json_comment['comments'][i]['name']
           dataall.loc[j,'text'] = json_comment['comments'][i]['text']
           j+= 1             
       k += 1
       comment_api1 = comment_api.format(k) 
    
       response_comment = requests.get(comment_api1,headers = headers)
       json_comment = response_comment.text
       json_comment = json.loads(json_comment)
       print('已完成 {}% !'.format(round(j/num*100,2)))
       time.sleep(3)
    
    dataall.to_excel('用一个字概括你的2018年.xlsx')
    

    Python 爬取 4027 条脉脉职言,解读程序员真实的互联网生活!

    爬下来之后,删掉超过一个字的评论,按词频确定大小,做词云图如下:

    Python 爬取 4027 条脉脉职言,解读程序员真实的互联网生活!

    用两个字概括你现在的工作/用2个字总结你的工作

    2、5是一样的,爬下来合并到一起后分析。代码不再重复,实际上用上面那段代码,找到json地址后替换,任何一个话题下的评论都可以全爬到,删掉不是2个字的评论后根据词频作图:

    Python 爬取 4027 条脉脉职言,解读程序员真实的互联网生活!

    使用SnowNLP对评论进行情感分析,最终4027条中,积极的有2196条,消极的有1831条。

    积极:

    Python 爬取 4027 条脉脉职言,解读程序员真实的互联网生活!

    消极:

    Python 爬取 4027 条脉脉职言,解读程序员真实的互联网生活!

    模型对大部分评论的情感倾向判断的比较准确,小部分有误。

    最后对所有评论提取关键词做词云收尾:

    Python 爬取 4027 条脉脉职言,解读程序员真实的互联网生活!

    万水千山总是情,点个「好看」行不行。

    展开全文
  • 仍然使用Python编程,爬虫没兴趣可直接跳过下部分,不影响阅读。网址https://maimai.cn/gossip_list,需要先登录才能看到里面内容。 爬取目标: 只爬文字部分,图片不考虑。 在浏览器内按F12打开开发者...
  • 图片文件在工作中,生活中我们经常接触得到,现在网上资料,都喜欢用图片格式来展示给大家,但是我们如果想其进行图片局部识别话,应该如何去操作呢?  步骤一、小编接下来步骤使用到是迅捷OCR文字...
  • 我们在生活中参加各种各样考试报名,有些考试是可以使用手机进行网上报名,但是在报名时候发现上传照片格式不对,这时就需要照片格式进行修改,接下来给大家推荐一款万能图片格式转换器...
  • 生活就像淋浴:方向转错,水深火热 ——意林 引言 各位玩python,相比“爬虫”这个字眼并不陌生。啥?你不知道?啦,就是需要一个不知道…… 那么,咱们第一件事就是…… 概念 上来一手概念,恐怕这...
  • O2O掌上城市ShopNC本地生活系统是网城创想公司自主研发一款...15、修复点商品详情有不显示图片 16、增加套餐表功能 17、修复详情字体颜色不显示 18、优化其他若干问题。新增朋友圈分享、转微信好友功能!
  • 你可能已经听说过我们所生活的世界,存储容量将不再是一个问题,这个对于你的文本编辑器来说可能是的(不过,打开一个包含大量的图片以及图表的文档,看看你的编辑器会消耗多少内存),对于一个专用服务器软件来说...
  • 尽管如此,黑客们有着蔑视或傲慢面对简单问题坏名声,这有时让我们起来新手、无知者似乎较有敌意,但其实不是那样。 我们不讳言我们那些不愿思考、或者在发问前不做他们该做蔑视。那些人是时间...
  • 说实话初中和高中是有计算机课程,也算学有所成,到高三时就能通过UCDOS打开一张图片,旁边同学见状还连称我厉害厉害。其实当时也只会DIR,CD..等等命令,其他同学也只能老老实实在那打五笔(我不知道那些...
  • 2.大家如果目标检测比赛比较感兴趣话,可以一下我这篇目标检测比赛tricks详细介绍:目标检测比赛中tricks(已更新更多代码解析) 3.目标检测比赛笔记:目标检测比赛笔记 4.如果对换脸技术比较感兴趣...
  • 着枯燥代码,而且还没有一点颜色可言,除了白色还是白色,背景图片也是经典紫色,多乏味,我们敲代码也可以也有自己的生活情趣,不管是一个界面,我们也要设计出自己理想图形,这样才可以更好舒服...
  • 在日常生活中,人们都离不水果,而且它们有一种特殊的喜爱和需要。那么,我们就来观察一下一些水果的图片,了解它们的形状特点和色彩特点。你,它们除了自己的天生丽质 以外,还有一些点缀在它们身上的太阳光...
  • 在日常生活中,人们都离不水果,而且它们有一种特殊的喜爱和需要。那么,我们就来观察一下一些水果的图片,了解它们的形状特点和色彩特点。你,它们除了自己的天生丽质 以外,还有一些点缀在它们身上的太阳光...
  • 所以最终执行时候,选取了一个小号,也就是鞋子主人微博@地空捣蛋在下午5点58分发布这一图片,当时@地空捣蛋大约有接近6000粉丝。两分钟后帖子已经被一些大号主动转发,并迅速扩散。大约5分钟之后,@杜蕾斯官方...
  • Egret 童话 与 现实

    2021-01-03 14:33:25
    只求被冒犯者能够看开点,别把我当回事。 - 如果你觉得 我也是做技术,我是因为『同行相轻』才看别人引擎不顺眼 ———— 那么,请你坚持自我,继续保持这种观点吧。像你这么狭隘人...
  • 所以最终执行时候,选取了一个小号,也就是鞋子主人微博@地空捣蛋在下午5点58分发布这一图片,当时@地空捣蛋大约有接近6000粉丝。两分钟后帖子已经被一些大号主动转发,并迅速扩散。大约5分钟之后,@杜蕾斯官方...
  • VC实现炫眩qq界面模拟(附源码)

    千次下载 热门讨论 2008-03-10 15:24:28
    随着计算机技术发展与普及,计算机逐渐走进了人们日常生活当中。人们通过它来学习,娱乐,信息交互等等.并且对应需而生各种各样软件产品要求也有了一定提高。除了基本功能外,软件易操作性,界面美观...
  • 日常生活中,使用Windows系统自带照片查看器往往存在图片加载缓慢,编辑功能单一缺点,那么选择一款功能强大、体积小巧的看图软件实在是很有必要,香港 Apowersoft 公司旗下 Apowersoft看图助手 就是这样一款...
  • 2020-10-16

    2020-10-16 18:42:52
    生活中,我每天上网都要接触到网页,在没上这门课之前,我还从来没有留意过网页设计,但是经过这段时间学习了解,现在我打开一个网页都会习惯性一下这个网页排版、布局,我网页设计也充满了兴趣。...
  • 我们在日常生活中经常要用到一些照片,有时候要用到蓝底照片,有时候要用到红底照片,有时候还要用到白底照片,怎样才能随心所欲给照片换底呢?现在我们来试试。这个教程学生和工作人士相当有用。 ...
  •  大图时,图片四周可以添加一个框线,这样就可以把黑色的图片和显示背景区分开来  修正了修改单个图片的名称,总是提示“是否也一并修改链接的图片”,而实际上该图片并没有被链接到别的地方的问题  专业版...

空空如也

空空如也

1 2 3 4 5
收藏数 82
精华内容 32
关键字:

对生活看开的图片