精华内容
下载资源
问答
  • python爬虫学习(上)——目标网站分析

    千次阅读 2016-11-11 15:53:09
    等等这些搜索条件都是不支持的,于是就想个爬虫把站上的数据都爬回来,数据有了,我自己想怎么处理,想怎么搜就都可以了 说干就干,使用比较流行的python编写,之前没接触过,借这个机会正好学

    平日没事喜欢了解一下与汽车相关的知识与讯息,经常逛汽车之家,一直觉得汽车之家的车型检索太过“简单”,只能满足一般大部分用户的检索需求,比如6缸车、非承载车身、非双离合、前后独立悬挂、带机械锁的.....等等这些搜索条件都是不支持的,于是就想写个爬虫把站上的数据都爬回来,数据有了,我自己想怎么处理,想怎么搜就都可以了大笑


    说干就干,使用比较流行的python编写,之前没接触过,借这个机会正好学习一下,多掌握一门语言


    边做边学,看了几篇介绍python爬虫的入门博客及一些python基础语法后,便开始了我的爬虫之旅


    爬虫目的:爬下汽车之家网站内所有车型的基本信息,并保存到数据库中,便于日后进行数据搜索


    首先,利用chrome对汽车之家网站请求、返回进行分析:

    要达到我的目标页面,需要经历以下几个请求

    (1)http://www.autohome.com.cn/car/ 直奔车型库页面

    可以看到, 车系都已经按照了首字母进行了归类,随便点击一下N,H,B这些索引字母,可以看到http://www.autohome.com.cn/grade/carhtml/N.html、http://www.autohome.com.cn/grade/carhtml/H.html这类请求,得出规律,每个首字母下的车系列表信息可以通过http://www.autohome.com.cn/grade/carhtml/首字母.html获得



    (2)http://www.autohome.com.cn/grade/carhtml/N.html 首字母下的车系列表信息页




    可以看到,每个车系的具体详情页面的url都被包在了h4标签中,归纳出正则:     <h4.*><a href="(.*)">.*</a></h4>


    (3).进入到每个车系的具体介绍页面

    随便进入几个车系的详情页 http://www.autohome.com.cn/521/#levelsource=000000000_0&pvareaid=101594、http://www.autohome.com.cn/802/#levelsource=000000000_0&pvareaid=101594......

    大概浏览一下 发现我需要的信息都 在参数配置页面 http://car.autohome.com.cn/config/series/521.html、http://car.autohome.com.cn/config/series/802.html.....

    可以发现参数配置的规律:http://car.autohome.com.cn/config/series/车系编号.html

    于是问题就转化为了,我只要能获得所有车系的车系编号,就能拼接出每个车系的最终目标页面(参数配置页面)地址了。


    发现,车系编号都可以从之前的车系的具体详情页面的ur中进行提取


    (4)进入参数配置页面(http://car.autohome.com.cn/config/series/521.html)

    利用chrome,发现具体的参数信息都是以json格式进行封装返回的,这下解析起来就很方便了



    需要的数据都在var config里


    至此,已经可以理出了一个数据获取的完整路径了,下篇进入具体的爬虫编写




    展开全文
  • Android 上百实例源码分析以及开源分析 集合打包4

    千次下载 热门讨论 2012-07-10 21:54:03
    主要负责启动/关闭服务Service 和分析数据然后相关控件显示出来 BatteryGraph 继承了Activity 动态布局 显示相关画面 Log 负责输出显示信息 2、Droid Wall 手机防火墙 Droid Wall - Android Firewall 是一个类似于 ...
  • 大话数据结构

    2018-12-14 16:02:18
    项目经理看完代码后拍着桌子对他说:“你数据结构是怎么学的?” 1.3数据结构起源 4 1.4基本概念和术语 5 正所谓“巧妇难为无米之炊”,再强大的计算机,也要有“米”下锅才可以干活,否则就是一堆破铜烂铁。这个...
  • 如果你的答案是正确的,那就不要拖延了,现在我们就开始,做一个词云分析图,Python是一个当下很流行的编程语言,你不仅可以用它做数据分析和可视化,还能用来做网站、爬取数据、做数学题、脚本替你偷懒……如果你...

    前言

    在大数据时代,你竟然会在网上看到的词云,例如这样的。

    看到之后你是什么感觉?想不想自己做一个?

    如果你的答案是正确的,那就不要拖延了,现在我们就开始,做一个词云分析图,Python是一个当下很流行的编程语言,你不仅可以用它做数据分析和可视化,还能用来做网站、爬取数据、做数学题、写脚本替你偷懒……

    如果你之前没有编程基础,没关系。希望你不要限于浏览,而是亲自动手尝试一番。到完成的那一步,你不仅可以做出第一张词云图,而且这还将是你的第一个有用的编程作品。

    安装wordcloud库

    请确保你的python环境没有问题,我用的开发工具是VsCode,首先你要在Python扩展中安装python开发环境(当然,这不是为你的windows安装python)

    那么你还需要安装所需要的第三方库,那么在VSCode中并没有PyCharm那么专业,这里需要获得你自己的Python脚本位置。

    我们可以发现里面有一个名为pip.exe文件,这个文件就是python官方给我们去安装python第三方库的一个程序,那么我们可以在VsCode的终端中就可以去通过它,这也是我们为什么要获取python安装位置的根本原因。

    例如我们安装WordCloud,我们的操作如下:

    pip install WordCloud

    数据

    这个时候我们就要开始Code了,我们一定需要数据,这里我自己找了一个绕口令,内容如下:

    Betty Botter bought some butter but she said the butter's bitter. If I put it in my batter it will make my batter bitter. So, she bought some better butter, better than the bitter butter and she put it in her batter and her batter was not bitter. So 'twas good that Betty Botter bought some better butter.

    翻译: 贝蒂·波特买牛油, 可她说:“牛油是苦的。 不过加上一点好牛油—— 可以使苦牛油更好点。” 于是她买了一点牛油, 比苦牛油好点的牛油。 掺了之后苦牛油真的变的好多了。 所以这就是贝蒂·波特买的一点比苦牛油好点的牛油。

    我把其中的文字存储成了一个文本,叫做minister.txt。

    Code

    python做词云呢,需要导入的包有wordcloud和PIL,其中PIL(Python Image Library)是python平台图像处理标准库,功能是真的强大。首先需要读取文件 。

    首先我们要读取我们的txt文件,那么代码如下:

    from wordcloud importWordCloudimportPIL .Image as image

    with open("F:\minister.txt") as fp:

    text=fp.read()print(text)

    运行脚本结果如下:

    接下来导包,我们看看如何生成最简单的词云:

    from wordcloud importWordCloudimportPIL .Image as image

    with open("F:\minister.txt") as fp:

    text=fp.read()#print(text)

    #将文本放入WordCoud容器对象中并分析

    WordCloud =WordCloud().generate(text)

    image_produce=WordCloud.to_image()

    image_produce.show()

    如果python引入无误,并代码无误,那么会弹出你生成的图片,该图片会储存在你的系统。详细位置一般为:C:\Users\MACHENIKE\AppData\Local\Temp 中。

    带形状的词云

    一般来说,我们不想要这么方的词云,肯定喜欢一些有形状的,

    接下来是生成那种有轮廓的词云,这里就需要继续导入其他包,这里导入的包为numpy,numpy系统是python的一种开源的数值计算扩展,这种工具可以用来存储和处理大型矩阵。这里在处理的时候将给出形状的图片表示为一个大型矩阵,再有颜色的地方来进行填词(导包 :import numpy as np)。导包之后需添加一个遮罩层,遮罩层就是用来限制生成图片的形状 。

    网上随便找个图片放入到项目当中(这里我找的是一个💗),然后开始code:

    from wordcloud importWordCloudimportPIL .Image as imageimportnumpy as np

    with open("F:\\minister.txt") as fp:

    text=fp.read()#print(text)

    mask = np.array(image.open("F:\\20180612151652413.png"))

    wordcloud=WordCloud(

    mask=mask

    ).generate(text)

    image_produce=wordcloud.to_image()

    image_produce.show()

    结果如下:

    不支持中文的解决方案

    我又从网上摘抄了一段文字,文字内容如下:

    生活星期天早上和朋友一起聊天,朋友说了一个他们听过的故事:“一尊佛像前有一条铺着石板的路,人们每天都踏着这一阶一阶的石板去膜拜佛像。石阶看着人们踏着自己去膜拜佛像,心里很不舒服。石阶心里想,自己和佛本来就来自同一块石头,为什么自己要成为踏脚石,让人们踩着自去去膜拜它呢!它对佛抱怨说这样太不公平!佛像说:这没有什么不公平,你们成为台阶只需挨了四刀,而我是挨了千刀万剐才成了人们膜拜的佛像。

    重新运行,发现雪崩了。

    如果需要生成中文的词云,还需导入jieba分词的包。jieba分词的切分还是蛮准的。

    from wordcloud importWordCloudimportPIL .Image as imageimportnumpy as npimportjiebadeftrans_CN(text):

    word_list=jieba.cut(text)#分词后在单独个体之间加上空格

    result = " ".join(word_list)returnresult;

    with open("F:\\minister.txt") as fp:

    text=fp.read()

    text=trans_CN(text)#print(text)

    mask = np.array(image.open("F:\\20180612151652413.png"))

    wordcloud=WordCloud(

    mask=mask,

    font_path= "C:\\Windows\\Fonts\\msyh.ttc").generate(text)

    image_produce=wordcloud.to_image()

    image_produce.show()

    C盘中有font字体,那么这些呢你可以自己去找,trans_CN方法是分词用的,通过font-path就可以指定里面的生成文本。这大概就是词云的基础了,可以将爬虫和词云生成结合在一起,在爬取信息之后生成这样的词云。

    展开全文
  • 如果你的答案是正确的,那就不要拖延了,现在我们就开始,做一个词云分析图,Python是一个当下很流行的编程语言,你不仅可以用它做数据分析和可视化,还能用来做网站、爬取数据、做数学题、脚本替你偷懒……如果你...

    前言

    在大数据时代,你竟然会在网上看到的词云,例如这样的。

    看到之后你是什么感觉?想不想自己做一个?

    如果你的答案是正确的,那就不要拖延了,现在我们就开始,做一个词云分析图,Python是一个当下很流行的编程语言,你不仅可以用它做数据分析和可视化,还能用来做网站、爬取数据、做数学题、写脚本替你偷懒……

    如果你之前没有编程基础,没关系。希望你不要限于浏览,而是亲自动手尝试一番。到完成的那一步,你不仅可以做出第一张词云图,而且这还将是你的第一个有用的编程作品。

    安装 wordcloud库

    请确保你的python环境没有问题,我用的开发工具是VsCode,首先你要在Python扩展中安装python开发环境(当然,这不是为你的windows安装python)

    那么你还需要安装所需要的第三方库,那么在VSCode中并没有PyCharm那么专业,这里需要获得你自己的Python脚本位置。

    我们可以发现里面有一个名为pip.exe文件,这个文件就是python官方给我们去安装python第三方库的一个程序,那么我们可以在VsCode的终端中就可以去通过它,这也是我们为什么要获取python安装位置的根本原因。

    例如我们安装WordCloud,我们的操作如下:

    pip install WordCloud

    数据

    这个时候我们就要开始Code了,我们一定需要数据,这里我自己找了一个绕口令,内容如下:

    Betty Botter bought some butter but she said the butter's bitter. If I put it in my batter it will make my batter bitter. So, she bought some better butter, better than the bitter butter and she put it in her batter and her batter was not bitter. So 'twas good that Betty Botter bought some better butter.

    翻译: 贝蒂·波特买牛油, 可她说:“牛油是苦的。 不过加上一点好牛油—— 可以使苦牛油更好点。” 于是她买了一点牛油, 比苦牛油好点的牛油。 掺了之后苦牛油真的变的好多了。 所以这就是贝蒂·波特买的一点比苦牛油好点的牛油。

    我把其中的文字存储成了一个文本,叫做minister.txt。

    Code

    python做词云呢,需要导入的包有wordcloud和PIL,其中PIL(Python Image Library)是python平台图像处理标准库,功能是真的强大。首先需要读取文件 。

    首先我们要读取我们的txt文件,那么代码如下:

    from wordcloud import WordCloud

    import PIL .Image as image

    with open("F:minister.txt") as fp:

    text=fp.read()

    print(text)

    运行脚本结果如下:

    接下来导包,我们看看如何生成最简单的词云:

    from wordcloud import WordCloud

    import PIL .Image as image

    with open("F:minister.txt") as fp:

    text=fp.read()

    #print(text)

    #将文本放入WordCoud容器对象中并分析

    WordCloud = WordCloud().generate(text)

    image_produce = WordCloud.to_image()

    image_produce.show()

    如果python引入无误,并代码无误,那么会弹出你生成的图片,该图片会储存在你的系统。详细位置一般为: C:UsersMACHENIKEAppDataLocalTemp 中。

    带形状的词云

    一般来说,我们不想要这么方的词云,肯定喜欢一些有形状的,

    接下来是生成那种有轮廓的词云,这里就需要继续导入其他包,这里导入的包为numpy,numpy系统是python的一种开源的数值计算扩展,这种工具可以用来存储和处理大型矩阵。这里在处理的时候将给出形状的图片表示为一个大型矩阵,再有颜色的地方来进行填词(导包 :import numpy as np)。导包之后需添加一个遮罩层,遮罩层就是用来限制生成图片的形状 。

    网上随便找个图片放入到项目当中(这里我找的是一个:heartpulse:),然后开始code:

    from wordcloud import WordCloud

    import PIL .Image as image

    import numpy as np

    with open("F:\minister.txt") as fp:

    text = fp.read()

    # print(text)

    mask = np.array(image.open("F:\20180612151652413.png"))

    wordcloud = WordCloud(

    mask=mask

    ).generate(text)

    image_produce = wordcloud.to_image()

    image_produce.show()

    结果如下:

    不支持中文的解决方案

    我又从网上摘抄了一段文字,文字内容如下:

    生活星期天早上和朋友一起聊天,朋友说了一个他们听过的故事:“一尊佛像前有一条铺着石板的路,人们每天都踏着这一阶一阶的石板去膜拜佛像。石阶看着人们踏着自己去膜拜佛像,心里很不舒服。石阶心里想,自己和佛本来就来自同一块石头,为什么自己要成为踏脚石,让人们踩着自去去膜拜它呢!它对佛抱怨说这样太不公平!佛像说:这没有什么不公平,你们成为台阶只需挨了四刀,而我是挨了千刀万剐才成了人们膜拜的佛像。

    重新运行,发现雪崩了。

    如果需要生成中文的词云,还需导入jieba分词的包。jieba分词的切分还是蛮准的。

    from wordcloud import WordCloud

    import PIL .Image as image

    import numpy as np

    import jieba

    def trans_CN(text):

    word_list = jieba.cut(text)

    # 分词后在单独个体之间加上空格

    result = " ".join(word_list)

    return result;

    with open("F:\minister.txt") as fp:

    text = fp.read()

    text = trans_CN(text)

    # print(text)

    mask = np.array(image.open("F:\20180612151652413.png"))

    wordcloud = WordCloud(

    mask=mask,

    font_path = "C:\Windows\Fonts\msyh.ttc"

    ).generate(text)

    image_produce = wordcloud.to_image()

    image_produce.show()

    C盘中有font字体,那么这些呢你可以自己去找,trans_CN方法是分词用的,通过font-path就可以指定里面的生成文本。这大概就是词云的基础了,可以将爬虫和词云生成结合在一起,在爬取信息之后生成这样的词云。

    总结

    为了帮助小伙伴们更好的学习Python,小编整理了Python的相关学习视频及学习路线图,添加小编学习裙即可获取

    前面 九四三 中间 七五二 后面 三七一

    展开全文
  •  对象采样分析是CBO(基于成本的优化器)的灵魂和核心,CBO如果没有了对象的分析数据,就好像一个医生不使用病人的病历来确定病人的病一样危险—那是一种没有依据的、盲目的行为。  在这一章里,我们将详细讨论...
  • 之前过的这篇文章,见:Python数据分析学习文章归纳 数据分析如何入门学习How do I learn data analysis with Python? 虽然是英文的,不过看一遍很大收获(可以用百度翻译看一下) Numpy使用 快速入门Numpy ...
  • 互联网常用组件框架源码分析。 4 jvm Java 虚拟机底层原理知识总结。 5 coding-interview 代码面试题集,包括《剑指 Offer》、《编程之美》等。 6 md 一款高度简洁的微信 Markdown 编辑器。 ...
  • asp.net知识库

    2015-06-18 08:45:45
    忽略大小Replace效率瓶颈IndexOf 随机排列算法 理解C#中的委托[翻译] 利用委托机制处理.NET中的异常 与正则表达式相关的几个小工具 你真的了解.NET中的String吗? .NET中的方法及其调用(一) 如何判断ArrayList,...
  • 在ASP.Net课程的一开始,不是直接教学员怎么拖ASP.Net控件进行快速开发,而是通过ashx的模式开发原始的动态网站,让学员明白“请求—处理—响应模型”、“Http协议、Http无状态”、“c#代码渲染生成浏览器端...
  • 简历怎么写? 能不能好好写简历? 简历这样写,技术人都不直男了! 10个简历小技巧,成为面试战神 语言组织 加分项 扬长避短 自我介绍 互联网公司面试流程 注意事项 加分点 防骗指南 互联网公司面试流程&加分点,...
  • 在ASP.Net课程的一开始,不是直接教学员怎么拖ASP.Net控件进行快速开发,而是通过ashx的模式开发原始的动态网站,让学员明白“请求—处理—响应模型”、“Http协议、Http无状态”、“c#代码渲染生成浏览器端...
  • 冰河常逛这些学习网站!! 冰河这一个月都干啥啦? 五一假期偷偷学这些内容,然后惊艳所有人! 听说Seata发布新版本了?不慌,五一假期吃透它!! 很多小伙伴问我如何按分类查看「冰河技术」公号文章,往这儿瞧!! ...
  • 网站地址 组织构建 GitHub Pages(国外): https://ailearning.apachecn.org Gitee Pages(国内): https://apachecn.gitee.io/ailearning 第三方站长 地址A: xxx (欢迎留言,我们完善补充) 下载 Docker ...
  • 网站地址 组织构建 GitHub Pages(国外): https://ailearning.apachecn.org Gitee Pages(国内): https://apachecn.gitee.io/ailearning 第三方站长 地址A: xxx (欢迎留言,我们完善补充) 下载 Docker ...
  • 网站地址 组织构建 GitHub Pages(国外): https://ailearning.apachecn.org Gitee Pages(国内): https://apachecn.gitee.io/ailearning 第三方站长 地址A: xxx (欢迎留言,我们完善补充) 下载 Docker ...
  • ASP.NET精品课程+源代码

    千次下载 热门讨论 2009-01-05 20:15:51
    本课程通过一个ASP.NET网站的构建向学生阐释ASP.NET是什么,怎么来开发。 涵盖了代码规范、运行模型、服务控件、验证控件、数据绑定技术、ADO.NET技术、数据库技术、文件操作等内容。 所列出的内容均是ASP.NET开发...
  • 1.3.5 “怎么能让应用运行得更快?” 41 1.3.6 DBA与开发人员的关系 45 1.4 小结 46 第2章 体系结构概述 47 2.1 定义数据库和实例 48 2.2 SGA和后台进程 53 2.3 连接Oracle 56 2.3.1 专用服务器 56 2.3.2 ...
  • 而此次主要是针对校园用户所设计的网站,对于数据的分类应该更多的考虑校园用户的需求,例如二手书籍、二手数码等的分类应该更加细致。本次设计的主要难度在于数据的详细分类,对于数据的过滤必须要严谨,应当考虑...
  • 依照你的分析,我要做的是,把客户的需求挖掘出来──因为客户自己往往说不清楚,自己的业务流程是怎么样的,软件需要做成什么样,毕竟他们只了解自己的业务。这样要做出一个个性化人性化的管理软件就对双方都提出了...
  • 1.3.5 怎么能让应用运行得更快 42 1.3.6 DBA与开发人员的关系 44 1.4 小结 45 第2章 体系结构概述 46 2.1 定义数据库和实例 47 2.2 SGA和后台进程 52 2.3 连接Oracle 54 2.3.1 专用服务器 54 2.3.2 共享...
  • 实现了RFC 1950中所定义的zlib格式压缩数据的读和 container heap 提供了实现heap.Interface接口的任何类型的堆操作 lsit 实现了一个双链表 ring 实现了对循环链表的操作 crypto aes 实现了AES加密...
  • 分别是XML快速入门,XML的概念,XML的术语,XML的实现,XML的实例分析。最后附录介绍了XML的相关资源。作者站在普通网页设计人员的角度,用平实生动的语言,向您讲述XML的方方面面,帮助你拨开XML的神秘面纱,快速...
  • 0041-蚂蚁课堂(每特学院)-2期-SpringCloud架构知识-服务熔断、服务降级、限策略 第01节、fegin客户端调用工具 第02节、服务雪崩效应产生原因 第03节、模拟服务雪崩效果产生 第04节、雪崩效应解决办法 第05节、使用...
  • 从 RxJS 到 Flink:如何处理数据流? 从0到1开发可视化数据大屏(上) 使用 mask 实现视频弹幕人物遮罩过滤 Create interactive videos in React Announcing TypeScript 4.2 Building a Tabs component The 5 best ...
  • 国内著名网站豆瓣网的Android客户端(eoeDouban)也是由此团队制作。关于此团队的更多信息请访问:[url]http://www.eoemobile.com.[/url]关于图书的进展,可以访问[url]http: //www.eoeandroid.com[/url] 社区。 目录...

空空如也

空空如也

1 2 3
收藏数 48
精华内容 19
关键字:

网站数据流分析怎么写