精华内容
参与话题
问答
  • python爬虫常用第三方 安装方法 C:\Users\username\AppData\Local\Programs\Python\Python37\Scripts pip.exe pip3.7.exe pip3.exe 这三个命令其实完全一致,只是名字不一样而已,建议添加到环境变量中去,方便...
    
    

    安装方法

    C:\Users\username\AppData\Local\Programs\Python\Python37\Scripts
    
    pip.exe
    pip3.7.exe
    pip3.exe
    

    这三个命令其实完全一致,只是名字不一样而已,建议添加到环境变量中去,方便实用。

    安装第三方库:

    pip install libraryname
    

    1. urllib

    python 自带,不用额外安装

    import urllib
    import urllib.request
    response=urllib.request.urlopen("http://www.baidu.com")
    print(response)
    
    返回如下结果表示请求成功:
    <http.client.HTTPResponse object at 0x0000021B8D6D8CF8>
    

    2. request

    import requests
    response=requests.get("http://www.baidu.com")
    print(response)
    
    返回如下结果表示请求成功:
    <Response [200]>
    

    3. 正则表达式模块

    re, python 自带,不用额外安装, 直接 import 不报错,证明该库正确安装

    4. selenium

    主要是用来做驱动浏览器的一个库,一般用来做自动化测试。我们在做爬虫的时候,会遇到一些 JS 渲染的网页,这时候用 requests 做请求的时候无法获取正确的请求内容。这时候我们用 selenium 就可以直接驱动浏览器,用浏览器直接执行 JS 的渲染,之后得到的结果就是渲染之后的界面,就可以拿到 JS 渲染之后的内容了。

    5. chromedriver

    下载时候注意版本问题。下 32位的,解压之后放到一个已经配置好环境变量的地方。

    import selenium
    from selenium import webdriver
    
    driver = webdriver.Chrome()
    driver.get("http://www.baidu.com")
    print(driver.page_source)
    

    6. plantomjs or headless

    selenium 打开的时有界面的浏览器,plantomjs 打开的就是无界面的浏览器。

    但是貌似废弃掉了, =-=,换成 headless

    import selenium
    from selenium import webdriver
    from selenium.webdriver.chrome.options import Options
    
    options = Options()
    options.add_argument('--headless')
    options.add_argument('--disable-gpu')
    driver = webdriver.Chrome(options=options)
    driver.get("https://cnblogs.com/")
    print(driver.page_source)
    

    7. LXML

    网页解析用

    8. beautifulsoup4

    9. pyquery

    解析DOM树和jQuery选择器

    10. pymysql | pymongo | redis | flask | jango | jupyter

    展开全文
  • 今天小编就为大家分享一篇关于python爬虫常用库的安装及其环境配置的文章,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧
  • Requests库的安装: 1 pip3 install requests Selenium的安装: 1 pip3 install selenium Chrome浏览器的安装: Mac版下载地址链接: https://pan.baidu.com/s/1pvL6t5V_kOwxBJGGxbPfxA 密码: 7q13 ...

    Requests库的安装:

    1 pip3 install requests

     Selenium的安装:

    1 pip3 install selenium

    Chrome浏览器的安装:

    Mac版下载地址
    链接: https://pan.baidu.com/s/1pvL6t5V_kOwxBJGGxbPfxA 密码: 7q13

    ChromeDriver当安装:

    Mac版下载地址

    链接: https://pan.baidu.com/s/1bDVZRv-lPpBk08vSk5_gwQ 密码: amxn

    只有安装ChromeDriver,才能驱动Chrome浏览器完成相应的操作。下面我们来介绍下怎样安装ChromeDriver。

    确保已经正确安装好了Chrome浏览器并可以正常运行,点击Chrome菜单“帮助”→“关于Google Chrome”,即可查看Chrome的版本号。请记住Chrome版本号,因为选择ChromeDriver版本时需要用到。找好对应的版本号后,随后到ChromeDriver镜像站下载对应的安装包即可:https://chromedriver.storage.googleapis.com/index.html

    要仔细看一下,打开LATEST. RELEASE.,里面就是对应最新版本号,这个文件看一下。

    打开对应的包,请打开下面的notes.txt. ,可查看对应版本。

    在Linux和Mac下,需要将可执行文件配置到环境变量或将文件移动到属于环境变量的目录里。

    要移动文件到/usr/bin目录。首先,需要在命令行模式下进入其所在路径,然后将其移动到/usr/bin:

    1 sudo mv chromedriver /bin/chromedriver

    Mac拷贝到usr/bin下,很难成功,我尝试直接粘贴,用命令拷贝等,都不行。最后发现拷贝到:/usr/local/bin/,就可以用了。简单可行。

     用命令行:sudo mv chromedriver /bin/chromedriver

    1 open /usr/local/bin/

    配置完成后,就可以在命令行下直接执行chromedriver命令了:

    1 chromedriver

    如果输入控制台有chromedriver的输出,则证明ChromeDriver的环境变量配置好了。

    随后再在程序中测试,执行如下Python代码:

    1 from selenium import webdriver
    2 browser = webdriver.Chrome()

    运行之后,如果弹出一个空白的Chrome浏览器,则证明所有的配置都没有问题。如果没有弹出,请检查之前的每一步配置。

    如果弹出后闪退,则可能是ChromeDriver版本和Chrome版本不兼容,请更换ChromeDriver版本。

    如果没有问题,接下来就可以利用Chrome来做网页抓取了。

     

     

    转载于:https://www.cnblogs.com/wanglinjie/p/9103116.html

    展开全文
  • python爬虫常用库的安装

    千次阅读 2018-05-30 10:29:26
    启用快速编辑模式(在命令行中,选中文本时右键代表复制,没有选中时右键代表粘贴)request,re是python自带。pip install -i ...

    启用快速编辑模式(在命令行中,选中文本时右键代表复制,没有选中时右键代表粘贴)


    request,re是python自带的。

    pip install -i https://pypi.doubanio.com/simple requests

    pip install -i https://pypi.doubanio.com/simple selenium

    selenium + chrome浏览器,如果浏览器的版本太新的话,可能会使得chromedriver.exe已停止工作的错误,可以下载v49这个谷歌浏览器版本。

    >>> import selenium
    >>> from selenium import webdriver
    >>> driver = webdriver.Chrome() # 需要下载chrome驱动(下载完成后把解压后得到的exe文件放在python安装目录下)
    DevTools listening on ws://127.0.0.1:12332/devtools/browser/799d2590-befa-44cb-a
    703-a0e6c32a2114
    [0530/092619.091:ERROR:gl_surface_egl.cc(840)] eglInitialize D3D11 failed with e
    rror EGL_NOT_INITIALIZED, trying next display type

    >>>

    下载、解压、配置静默浏览器(phantomjs),该浏览器在后台运行,不会跳出来。

    配置用户的环境变量,不知道需要不需要

    C:\Users\Administrator\AppData\Roaming\npm;D:\Python35-32\phantomjs-2.1.1-windows\bin

    测试Phantomjs

    >>> import selenium
    >>> from selenium import webdriver
    >>> driver = webdriver.PhantomJS()
    >>> driver.get('http://www.baidu.com')
    >>> driver.page_source
    '<!DOCTYPE html><html><head><meta http-equiv="content-type" content="text/html;c
    harset=utf-8"><meta http-equiv="X-UA-Compatible" content="IE=Edge"><meta content

    ="never" name="referrer"><title>百度一下,你就知道</title><style>html,body{heigh

    relenium是用来驱动浏览器,进行自动化测试,js渲染的网页,无法使用request获取内容,直接使用浏览器获取网页的渲染。

    lxml 基于xpath对网页进行解析,比较方便。

    安装lxml。

    安装beautifulsoup,它依赖lxml库。pip install beautifulsoup4

    pip install -i https://pypi.doubanio.com/simple beautifulsoup4

    from bs4 import BeautifulSoup

    安装pyquery,也是网页解析库。和jquery语法相似。

    pip install -i https://pypi.doubanio.com/simple pyquery

    C:\Users\Administrator> python
    >>> from pyquery import PyQuery as pq
    >>>

    安装pymysql库。

    安装pymongo库。 

    安装redis库。(操作redis数据库,redis数据库可以维护公共的爬取队列,效率比较高)

    安装flask库。(flask是一个web库,可以做一些代理的维护,设置一个代理服务器,代理的获取,代理的存储等)。依赖一些其他的库。

    安装django。(做分布式爬虫维护的时候用到,做一个管理系统)。

    安装jupyter。(相当于一个notebook,运行在网页上的,可以进行调试和运行)依赖于很多其他的库。

    如果是在linux环境下,则安装更加方便。直接 pip install requests selenium beautifulsoup4 pyquery pymysql pymongo redis flask django jupyter

    展开全文
  • Requests库的安装:1 pip3 install requestsSelenium的安装:1 pip3 install seleniumChrome浏览器的安装:Mac版下载地址链接: https://pan.baidu.com/s/1pvL6t5V_kOwxBJGGxbPfxA 密码: 7q13ChromeDriver当安装:Mac...

    Requests库的安装:

    1 pip3 install requests

    Selenium的安装:

    1 pip3 install selenium

    Chrome浏览器的安装:

    Mac版下载地址

    链接: https://pan.baidu.com/s/1pvL6t5V_kOwxBJGGxbPfxA 密码: 7q13

    ChromeDriver当安装:

    Mac版下载地址

    链接: https://pan.baidu.com/s/1bDVZRv-lPpBk08vSk5_gwQ 密码: amxn

    只有安装ChromeDriver,才能驱动Chrome浏览器完成相应的操作。下面我们来介绍下怎样安装ChromeDriver。

    确保已经正确安装好了Chrome浏览器并可以正常运行,点击Chrome菜单“帮助”→“关于Google Chrome”,即可查看Chrome的版本号。请记住Chrome版本号,因为选择ChromeDriver版本时需要用到。找好对应的版本号后,随后到ChromeDriver镜像站下载对应的安装包即可:https://chromedriver.storage.googleapis.com/index.html。

    要仔细看一下,打开LATEST. RELEASE.,里面就是对应最新版本号,这个文件看一下。

    打开对应的包,请打开下面的notes.txt. ,可查看对应版本。

    在Linux和Mac下,需要将可执行文件配置到环境变量或将文件移动到属于环境变量的目录里。

    要移动文件到/usr/bin目录。首先,需要在命令行模式下进入其所在路径,然后将其移动到/usr/bin:

    1 sudo mv chromedriver /bin/chromedriver

    Mac拷贝到usr/bin下,很难成功,我尝试直接粘贴,用命令拷贝等,都不行。最后发现拷贝到:/usr/local/bin/,就可以用了。简单可行。

    用命令行:sudo mv chromedriver /bin/chromedriver

    1 open /usr/local/bin/

    配置完成后,就可以在命令行下直接执行chromedriver命令了:

    1 chromedriver

    如果输入控制台有chromedriver的输出,则证明ChromeDriver的环境变量配置好了。

    随后再在程序中测试,执行如下Python代码:

    1 from selenium importwebdriver2 browser = webdriver.Chrome()

    运行之后,如果弹出一个空白的Chrome浏览器,则证明所有的配置都没有问题。如果没有弹出,请检查之前的每一步配置。

    如果弹出后闪退,则可能是ChromeDriver版本和Chrome版本不兼容,请更换ChromeDriver版本。

    如果没有问题,接下来就可以利用Chrome来做网页抓取了。

    展开全文
  • Python爬虫常用库的安装 urllib 和 re 这两个包只要你正确安装Python解释器后,都会自动安装好的,让我们在命令行查看一下: 只要命令行不报错,那就没问题 requests 用做请求,使用第三方安装方式进行安装。 ...
  • 参考Link:https://www.cnblogs.com/dadahuan/p/9556706.html #特殊:Jupyter Notebook,可以参考其他博客
  • 缺少Chromedriver路径,下面进行安装 (1)需要谷歌浏览器 由于后续学习大部分是在谷歌浏览器下进行网页爬取,所以没有自己下载一个吧! (2)版本选择 Selenium使用ChromeDriver驱动调用Chrome浏览器进行WE...
  • 前面使用selenium,在得到页面代码同时会有页面弹出,如果需要爬取页面很多,这样一直弹出页面,也会有影响。那么,我需要一个无界面运营模式——phantomjs 01.下载安装包 自行下载所需安装包 下载地址...
  • Python解释器网页解析,相较于beautifulsoup更加方便,与jQuery完全一致,学过网站建设话,应该会很快上手。 1)安装pyquery 直接使用pip命令就可以安装了 2)测试 from pyquery import PyQuery as pq...
  • 请求解析库存储库工具请求urlib re python内置Requests pip3 install requests #pip2,pip-conda都是可以选择selenium pip3 install seleniumchromedriver下载页面:...将解压...
  • python爬虫常用库安装

    2018-10-09 14:11:03
    3. selenium 安装 pip install selenium 主要用于获取js渲染之后内容 4. 安装 chromedriver 1.搜索chromedriver 下载安装包 2.下载 3.下载好压缩包解压到配置了环境变量的python同级目录下 5.命令行测试,...
  • 本文实例讲述了Python爬虫之pandas基本安装与使用方法。分享给大家供大家参考,具体如下:一、简介:Python Data Analysis Library 或 pandas 是基于NumPy 一种工具,该工具是为了解决数据分析任务而创建。...
  • Python爬虫环境常用库安装

    万次阅读 多人点赞 2017-11-20 19:33:15
    1:urllib urllib.request这两个python自带的库,不需要重新安装,在python中输入如下代码:import urllib import urllib.request response=urllib.request.urlopen("http://www.baidu.com") print(response)...
  • requests 这个爬虫常用的一个2. Selenium Selenium 是一个自动化测试工具,利用它我们可以驱动浏览器执行特定动作,如点击、下拉等操作 对于一些用JS做谊染页面来说,这种抓取方式是非常有效。3....
  • # Python 爬虫入门(一)最近由于参加数据挖掘比赛,正好在研究爬虫,希望通过写博客来记录自己和团队一起学习爬虫的点点滴滴。Python 安装 前言Python几乎可以在任何平台下运行,如我们所熟悉:Windows/Unix/...
  • python爬虫常用库

    2019-09-28 18:26:06
    1.requests这个爬虫常用的一个 2.SeleniumSelenium 是一个自动化测试工具,利用它我们可以驱动浏览器执行特定动作,如点击、下拉等操作 对于一些用JS做谊染页面来说,这种抓取方式是非常有效。 3....
  • 爬虫有请求库(request、selenium)、解析库、存储库(MongoDB、Redis)、工具库,此节学习安装常用库的安装 正式步骤 Step1:urllib和re库 这两个库在安装Python中,会默认安装,下面代码示例调用: &...
  • Python3 常用爬虫库的安装 1 简介 Windows下安装Python3常用爬虫库:requests、selenium、beautifulsoup4、pyquery、pymysql、pymongo、redis、flask、django、jupyter和scrapy框架。 进入控制台,用pip3 ...
  • Selenium:1.chromedriver:下载exe放至C:\Users\ASUS\AppData\Local\Programs\Python\Python36\Script。启动:from selenium import webdriver driver = webdriver.Chorme() driver.get("...
  • Python爬虫 安装库

    2019-01-23 16:15:13
    Python爬虫常用库的安装 工具库: 请求库:request seleinum 解析库:beautifulsoup pyquery lxml 存储库:mogodb,mysql,redis   1.urllib / re [内置的] import urllib import re 2.request 第三方...

空空如也

1 2 3 4 5 ... 15
收藏数 292
精华内容 116
关键字:

python爬虫常用库的安装

python 订阅
爬虫 订阅