精华内容
下载资源
问答
  • 一份Python爬虫电子书

    2019-04-13 15:07:45
    所以秉着让更多想转行学习Python爬虫的的同学快速学习、让更多的小伙伴拿到高薪我整理了一份非常完善的Python爬虫电子书。之前在知乎写分享已经有一年多,一直有朋友说我的回答和文章能整理成书籍了...

    Python爬虫现如今已经越来越吃香了,随意打开一个招聘网站从薪资水平来看,入门的爬虫工程师都能拿到15k以上,爬虫架构相关的都能拿到30k以上,我们还有什么理由去拒绝爬虫呢?当然,除非你跟钱过意不去。

    v2-3f5716735908b4045d69fd4d10853654_b.png


    所以秉着让更多想转行学习Python爬虫的的同学快速学习、让更多的小伙伴拿到高薪我整理了一份非常完善的Python爬虫的电子书。

    之前在知乎写分享已经有一年多,一直有朋友说我的回答和文章能整理成书籍了一直偷懒没做,也有出版社的小伙伴找我把这些内容做成书都被我拒绝了。所以也是借着这个机会仔细整理了知乎上的回答和文章另外也添加了一些新的内容,完成了几本小小的电子书,这一本比较小一部分是有关于Python方面的,主要内容还是Python爬虫。

    这本书主要内容是Python入门,以及Python爬虫入门和Python爬虫进阶,以下这是这本电子书的一个主要的目录:

    v2-00f6a6b05079b520c7f7f21013806d05_b.png

    这本书除了一些自己的学习、面试感悟之外,还有很多包括书籍方面的资源、教程方面的学习资源,为了克服选择困难症,我在选择教程或者书籍的时候尽量保证了资源少但是精准,能用最少最精华的教程让大家快速入门Python以及比较熟悉的使用Python爬虫。

    如果你能用心用2-3个月的时间认真研读这本电子书,并且学习这本书上推荐的一些教程和书籍,相信你一定能找到一份不错的Python爬虫工作。

    你可以在微信公众号「路人甲TM」后台回复关键词「1」获取这本电子书!


    另外,我最近有新写了一本书:

    如果你正在学习或者想要学习数据分析,我之前写了一本从零开始学习数据分析的电子书,关注微信公众号“路人甲TM”,回复关键词“2“就可以免费获得这本电子书。

    如果你苦于没有数据集,可以在微信公众号“路人甲TM”后台回复关键词“0”获取一套我整理好的上百万条各个网站的数据集合。

    展开全文
  • 首部讲Python爬虫电子书 Web Scraping with Python

    千次阅读 多人点赞 2015-06-22 22:29:23
    首部python爬虫电子书2015.6pdf《web scraping with python》


    首部python爬虫的电子书2015.6pdf《web scraping with python》
    http://pan.baidu.com/s/1jGL625g
    可直接下载

    展开全文
  • python网络爬虫电子书

    2018-01-29 22:48:51
    python网络爬虫电子书。。。。。。。。。。。。。。。。。。。。。
  • Python爬虫获取电子书资源实战的全部代码,包括爬取->分析、解析->保存至本地及数据库。
  • 通过浏览器的调试工具可以看到目录在id=catagory的div标签下,下面... Python爬虫获取电子书资源实战的全部代码,包括爬取->分析、解析->保存至本地及数据库。 此文转载文,著作权归作者所有,如有侵权联系小编删除!

    通过浏览器的调试工具可以看到目录在id=catagory的div标签下,下面还有ul和li标签,那我们可以迭代li可以获得目录及目录页的地址。

    可以通过soup.find_all( attrs ={ 'id' : 'category' })[ 0 ].ul 获取 到ul标签,然后获取ul的li标签,进行迭代获取。

    代码如下:

    '''

    获取目录

    '''

    defgetcategory():

    req_result=requests.get(main_url, headers =headers)

    ifreq_result.status_code== 200 :

    htmlstr=req_result.content.decode( 'utf-8' )

    soup = BeautifulSoup(htmlstr, 'lxml' )

    categorys=soup.find_all( attrs ={ 'id' : 'category' })[ 0 ].ul

    forli incategorys.find_all( name = 'li' ):

    print ( '开始抓取' +li.a.attrs[ 'href' ]+ "--" +li.string)

    getcategroydetail(main_url+li.a.attrs[ 'href' ],li.string)

    time.sleep( 1 )

    二、获取书籍列表页

    在书籍列表页,我们要获取两个信息,分别是书籍列表的信息及翻页下一页书籍列表的URL地址。

    通过浏览器的调试工具分别对列表的信息及翻页下一页的html进行分析。

    列表中的书籍详情页信息在class="channel-item"的div标签下,通过class="list-title"的h3标签循环迭代

    下一页,我们可以直接通过next_pag=soup.find(name='a',text=re.compile('下一页'))来获取。

    然后我们可以通过递归来不断的调用获取下一页书籍列表页的代码,知道没有下一页为止。就可以把怎个目录都可以爬取完。

    代码如下:

    '''

    获取书籍列表

    '''

    defgetbookslist(bookurlstr,categroy_path):

    book_result=requests.get(bookurlstr, headers =headers)

    bookhtmlstr=book_result.content.decode( 'utf-8' )

    soup = BeautifulSoup(bookhtmlstr, 'lxml' )

    booklists=soup.select( '.channel-item' )

    forbookinfo_div inbooklists:

    booktitle_div=bookinfo_div.select( '.list-title' )[ 0 ]

    bookurl=booktitle_div.a.attrs[ 'href' ]

    getbookdetail(bookurl,categroy_path)

    next_pag=soup.find( name = 'a' , text =re.compile( '下一页' ))

    ifnext_pag is not None :

    next_url=next_pag.attrs[ 'href' ]

    print ( '爬取下一页:' +next_url)

    getbookslist(next_url,categroy_path)

    三、获取书籍详情页

    我们要在书籍详情页需要获得书籍详情信息包括书名、作者等信息

    关于书名和作者可以分别通过提取class="news_title"的h1标签和id="news_details"的div下的ul下的li再通过正则表达式对作者信息进行提取。

    booktitle=bookdetailsoup.select( '.news_title' )[ 0 ].text.strip()

    bookauthor=bookdetailsoup.select( '#news_details' )[ 0 ].ul.li.find( text =re.compile( '作者:(.*?)' )).strip()

    bookauthor=bookauthor.replace( '作者:' , '' )

    booktitleinfo= "《" +booktitle+ '》-' +bookauthor

    四、分析书籍详情页的资源地址

    在书籍详情页,我们还要分析书籍详情页的资源地址

    电子书的资源下载地址可以通过提取a标签的信息来获取。通过正则表达式分别匹配azw3、mobi、epub分别提取不同的电子书资源。

    book_url_item=bookdetailsoup.find( name = 'a' , text =re.compile(booktype,re.I))

    代码如下:

    '''

    根据书籍资源类型下载资源

    '''

    defgetbookfortype(bookurl,categroy_path,bookdetailsoup,booktype):

    booktitle=bookdetailsoup.select( '.news_title' )[ 0 ].text.strip()

    bookauthor=bookdetailsoup.select( '#news_details' )[ 0 ].ul.li.find( text =re.compile( '作者:(.*?)' )).strip()

    bookauthor=bookauthor.replace( '作者:' , '' )

    booktitleinfo= "《" +booktitle+ '》-' +bookauthor

    print ( '书籍详情:---' +booktitleinfo)

    book_url_item=bookdetailsoup.find( name = 'a' , text =re.compile(booktype,re.I))

    ifbook_url_item is not None :

    downloadurl=book_url_item.attrs[ 'href' ]

    print ( '下载地址:' +downloadurl)

    ifcheckIfNoExistBookByUrl(downloadurl):

    r = requests.get(downloadurl)

    ifr.status_code== 200 :

    savepath=createdir(categroy_path,booktitleinfo)

    filename=booktitle+ "." +booktype

    savebook(r.content,savepath,filename)

    p,f=os.path.split(categroy_path)

    bookcategory=f

    book=Book(bookcategory,booktitle,bookauthor,bookurl,downloadurl,savepath, "苦瓜书盘" ,booktype)

    print (book.toString())

    savebooktojson(book)

    else :

    print ( '下载失败:status_code=' + str (r.status_code))

    else :

    print ( '没有' +booktype+ '格式的书' )

    五、下载并保存

    有了资源的下载资源后下载就变得很简单了,主要用python的os库,对文件进行操作,包括建目录及保存资源文件。也可以通过连接数据库将爬取的数据保存到数据库。

    定义书籍类Book用于组织和保存数据。

    classBook( object ):

    def__init__ ( self ,bookcategory,bookname,bookauthor,bookurl,bookdownloadurl,booksavepath,booksource,booktype):

    self .bookcategory=bookcategory

    self .bookname=bookname

    self .bookauthor=bookauthor

    self .bookurl=bookurl

    self .bookdownloadurl=bookdownloadurl

    self .booksavepath=booksavepath

    self .booksource=booksource

    self .booktype=booktype

    deftoString( self ):

    return{ "bookcategory" : self .bookcategory, "bookname" : self .bookname, "bookauthor" : self .bookauthor, "bookurl" : self .bookurl, "bookdownloadurl" : self .bookdownloadurl, "booksavepath" : self .booksavepath, "booksource" : self .booksource, "booktype" : self .booktype}

    '''

    将获取的信息保存至文件

    '''

    defsavebooktojson(book):

    bookdata={

    'booksource' :book.booksource,

    'booktype' :book.booktype,

    'bookcategory' :book.bookcategory,

    'bookname' :book.bookname,

    'bookauthor' :book.bookauthor,

    'bookurl' :book.bookurl,

    'bookdownloadurl' :book.bookdownloadurl,

    'booksavepath' :book.booksavepath

    }

    bookjson=json.dumps(bookdata, ensure_ascii = False ) #ensure_ascii=False 就不会用 ASCII 编码,中文就可以正常显示了

    print (bookjson)

    withopen ( 'data.json' , 'a' , encoding = 'gbk' ) asfile:

    file.write(bookjson+ ' n ' )

    '''

    根据目录创建文件夹

    '''

    defcreatedir(savepath,dir):

    path=os.path.join(savepath,dir)

    isExists=os.path.exists(path)

    ifisExists:

    print ( '已经存在' +dir)

    else :

    print ( '创建目录' +dir)

    os.mkdir(path)

    returnpath

    '''

    下载书籍资源

    '''

    defsavebook(content,savepath,savefilename):

    savefile=os.path.join(savepath,savefilename)

    withopen (savefile, "wb" ) ascode:

    code.write(content)

    ---------------------------------------------------------

    运行效果如下:

    1、爬取过程

    2、爬取记录的json信息

    data.json的信息如下:

    3、爬取获取的资源

    按目录都已经整理好了,够你看的了。

    Python爬虫获取电子书资源实战的全部代码,包括爬取->分析、解析->保存至本地及数据库。

    此文转载文,著作权归作者所有,如有侵权联系小编删除!

    展开全文
  • Python3网络爬虫数据采集第 1 章 初见网络爬虫 .......................................................................................................................21.1 网络连接 ........................

    Python3网络爬虫数据采集

    第 1 章 初见网络爬虫 .......................................................................................................................2

    1.1 网络连接 .....................................................................................................................................2

    1.2 BeautifulSoup 简介 .....................................................................................................................4

    1.2.1 安装 BeautifulSoup ........................................................................................................5

    1.2.2 运行 BeautifulSoup ........................................................................................................7

    1.2.3 可靠的网络连接 ............................................................................................................8

    第 2 章 复杂 HTML 解析 ...............................................................................................................11

    2.1 不是一直都要用锤子 ...............................................................................................................11

    2.2 再端一碗 BeautifulSoup ...........................................................................................................12

    2.2.1 BeautifulSoup 的 find() 和 findAll() ......................................................................13

    2.2.2 其他 BeautifulSoup 对象 .............................................................................................15

    2.2.3 导航树 ..........................................................................................................................16

    2.3 正则表达式 ...............................................................................................................................19

    2.4 正则表达式和 BeautifulSoup ...................................................................................................23

    2.5 获取属性 ...................................................................................................................................24

    2.6 Lambda 表达式 .........................................................................................................................24

    2.7 超越 BeautifulSoup ...................................................................................................................25

    部分文件列表

    文件名

    大小

    Python3网络爬虫数据采集.pdf

    9M

    展开全文
  • 作者简介内容简介前言第1章 爬虫程序的构成和完整链条1.1 一个简单的爬虫程序1.2 爬虫的完整链条1.3 爬取下来的数据被用在什么地方1.4 爬虫工程师常用的库1.4.1 网络请求库1.4.2 网页文本解析1.5 数据存储...
  • 豆瓣评分:4.572人评价作者: 韦玮出版社: 机械工业出版社出版年: ...结合实战,让读者能够从零开始掌握网络爬虫的基本原理,学会编写Python网络爬虫以及Scrapy爬虫项目,从而编写出通用爬虫及聚焦爬虫,并掌握常见...
  • (Photo byAaron BurdenonUnsplash)这两天将半年前写的爬虫代码重构了一下,本来以为要不了多久,结果前前后后花了我将近4个小时的时间。无力吐槽!半年前的代码是一个面向过程的处理,几个函数顺序执行,最终...
  • 资料下载地址: 链接:https://pan.baidu.com/s/10rMahQwdNLSiwl850D9qKw 提取码:gete 封面如下所示: 书籍目录如下所示: 转载于:https://www.cnblogs.com/yxxblog/p/10819220.html...
  • 分析电子书主页面3.分析正文界面4.存储5.全部代码+解析6结果展示7.总结 本文以笔趣阁网站为例,爬取网站上的电子书并存储在本地记事本中。 网站地址:https://www.biqukan.com/ 认为有用的话请点赞,码字不易,谢谢...
  • 近段时间,笔者发现一个神奇的网站:http://www.allitebooks.com/ ,该...[](https://images2018.cnblogs.com/blog/1219272/201806/1219272-20180606210130947-1510322589.png)那么我们是否可以通过Python来制作爬虫...
  • Python 更合适了,Python 社区提供的爬虫工具多得让你眼花缭乱,各种拿来就可以直接用的 library 分分钟就可以写出一个爬虫出来,今天尝试写一个爬虫,将廖雪峰老师的 Python 教程爬下来做成 PDF 电子书方便离线阅读...
  • Python 更合适了,Python 社区提供的爬虫工具多得让你眼花缭乱,各种拿来就可以直接用的 library 分分钟就可以写出一个爬虫出来,今天尝试写一个爬虫,将廖雪峰老师的 Python 教程爬下来做成 PDF 电子书方便离线阅读...
  • 爬虫新手可以学习到一些爬虫知识,内容很基础,方便入门!
  • 小说迷有福了。学会这个,不用再受网页端广告的骚扰,也不用再花钱去...python爬虫学习实践之电子书爬取 1.获取网页信息 import requests #导入requests库 ''' 获取网页信息 ''' if __name__ == '__main__': #主函数入.
  • 本文给大家分享的是使用python爬虫实现把《廖雪峰的 Python 教程》转换成PDF的方法和代码,有需要的小伙伴可以参考下
  • 据说网络上80%的爬虫都是用python写的,不得不说python爬虫真的是so easy。基本上一个不太复杂的网站可以通过python用100多行代码就能实现你所需要的爬取。 现在就以一个电子书的网站为例来实现py
  • python3 2018最新分布式爬虫电子书+视频+源码(催芹彩)下载,如何资源被和谐,可以留言,我继续补发
  • 11.3 mitmdump 爬取 “得到” App 电子书信息“得到” App 是罗辑思维出品的一款碎片时间学习的 App,其官方网站为 https://www.igetget.com,App 内有很多学习资源。不过 “得到” App 没有对应的网页版,所以信息...
  • 这是我第一篇博客在前几天,参加了路飞学城的Python爬虫培训,结束了第一章节的课程,有些想法和心得在这里记录下来。requests模块有常用的get,post,和put方法。requests模块的requeset函数requests.request()- ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,202
精华内容 480
关键字:

python爬虫电子书

python 订阅
爬虫 订阅