精华内容
下载资源
问答
  • 第5章检索方法 检索的定义:特定的数据元素集合寻找关键字与给定值相 等的元素并输出寻找结果的过程称为查找,也叫检索 关键字:指的是数据元素中用以标识该数据元素的某个数据项 的值,如学生成绩表,学生可以同名...
  • 举一个最简单的例子,你百度和谷歌中输入‘Python',会有大量和Python相关的网页被检索出来,百度和谷歌是如何从海量的网页中检索 出你想要的资源,他们靠的就是派出大量蜘蛛去网页上爬取,检索关键字,建立索引...

    一、网络爬虫

    网络爬虫又被称为网络蜘蛛,我们可以把互联网想象成一个蜘蛛网,每一个网站都是一个节点,我们可以使用一只蜘蛛去各个网页抓取我们想要 的资源。举一个最简单的例子,你在百度和谷歌中输入‘Python',会有大量和Python相关的网页被检索出来,百度和谷歌是如何从海量的网页中检索 出你想要的资源,他们靠的就是派出大量蜘蛛去网页上爬取,检索关键字,建立索引数据库,经过复杂的排序算法,结果按照搜索关键字相关度的高低展现给你。

    千里之行,始于足下,我们从最基础的开始学习如何写一个网络爬虫,实现语言使用Python。

    二、Python如何访问互联网

    想要写网络爬虫,第一步是访问互联网,Python如何访问互联网呢?

    在Python中,我们使用urllib包访问互联网。 (在Python3中,对这个模块做了比较大的调整,以前有urllib 和urllib2,在3中对这两个模块做了统一合并,称为urllib包。包下面包含了四个模 块,urllib.request,urllib.error,urllib.parse,urllib.robotparser) ,目前主要使用的是urllib.request。

    我们首先举一个最简单的例子,如何获取获取网页的源码:

    importurllib.request

    response= urllib.request.urlopen('https://docs.python.org/3/')

    html=response.read()print(html.decode('utf-8'))

    三、Python网络简单使用

    首先我们用两个小demo练一下手,一个是使用python代码下载一张图片到本地,另一个是调用百度翻译写一个翻译小软件。

    3.1根据图片链接下载图片,代码如下:

    importurllib.request

    response= urllib.request.urlopen('http://www.3lian.com/e/ViewImg/index.html?url=http://img16.3lian.com/gif2016/w1/3/d/61.jpg')

    image=response.read()

    with open('123.jpg','wb') as f:

    f.write(image)

    其中response是一个对象

    输入: response.geturl()

    ->'http://www.3lian.com/e/ViewImg/index.html?url=http://img16.3lian.com/gif2016/w1/3/d/61.jpg'

    输入:

    response.info()

    ->

    输入: print(response.info())

    ->Content-Type: text/html

    Last-Modified: Mon, 27 Sep 2004 01:23:20 GMT

    Accept-Ranges: bytes

    ETag: "0f4b59230a4c41:0"

    Server: Microsoft-IIS/8.0

    Date: Sun, 14 Aug 2016 07:16:01 GMT

    Connection: close

    Content-Length: 2827

    输入: response.getcode()

    ->200

    3.1使用有道词典实现翻译功能

    我们想实现翻译功能,我们需要拿到请求链接。首先我们需要进入有道首页,点击翻译,在翻译界面输入要翻译的内容,点击翻译按钮,就会向服务器发起一个请求,我们需要做的就是拿到请求地址和请求参数。

    我在此使用谷歌浏览器实现拿到请求地址和请求参数。首先点击右键,点击检查 (不同浏览器点击的选项可能不同,同一浏览器的不同版本也可能不同) ,进入图一所示,从中我们可以拿到请求请求地址和请求参数,在Header中的Form Data中我们可以拿到请求参数。

    (图一)

    代码段如下:

    importurllib.requestimporturllib.parse

    url= 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=dict2.index'data={}

    data['type'] = 'AUTO'data['i'] = 'i love you'data['doctype'] = 'json'data['xmlVersion'] = '1.8'data['keyfrom'] = 'fanyi.web'data['ue'] = 'UTF-8'data['action'] = 'FY_BY_CLICKBUTTON'data['typoResult'] = 'true'data= urllib.parse.urlencode(data).encode('utf-8')

    response=urllib.request.urlopen(url,data)

    html= response.read().decode('utf-8')print(html)

    上述代码执行如下:

    {"type":"EN2ZH_CN","errorCode":0,"elapsedTime":0,"translateResult":[[{"src":"i love you","tgt":"我爱你"}]],"smartResult":{"type":1,"entries":["","我爱你。"]}}

    对于上述结果,我们可以看到是一个json串,我们可以对此解析一下,并且对代码进行完善一下:

    importurllib.requestimporturllib.parseimportjson

    url= 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=dict2.index'data={}

    data['type'] = 'AUTO'data['i'] = 'i love you'data['doctype'] = 'json'data['xmlVersion'] = '1.8'data['keyfrom'] = 'fanyi.web'data['ue'] = 'UTF-8'data['action'] = 'FY_BY_CLICKBUTTON'data['typoResult'] = 'true'data= urllib.parse.urlencode(data).encode('utf-8')

    response=urllib.request.urlopen(url,data)

    html= response.read().decode('utf-8')

    target=json.loads(html)print(target['translateResult'][0][0]['tgt'])

    四、规避风险

    服务器检测出请求不是来自浏览器,可能会屏蔽掉请求,服务器判断的依据是使用‘User-Agent',我们可以修改改字段的值,来隐藏自己。代码如下:

    importurllib.requestimporturllib.parseimportjson

    url= 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=dict2.index'data={}

    data['type'] = 'AUTO'data['i'] = 'i love you'data['doctype'] = 'json'data['xmlVersion'] = '1.8'data['keyfrom'] = 'fanyi.web'data['ue'] = 'UTF-8'data['action'] = 'FY_BY_CLICKBUTTON'data['typoResult'] = 'true'data= urllib.parse.urlencode(data).encode('utf-8')

    req=urllib.request.Request(url, data)

    req.add_header('User-Agent','Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36')

    response=urllib.request.urlopen(url, data)

    html= response.read().decode('utf-8')

    target=json.loads(html)print(target['translateResult'][0][0]['tgt'])

    View Code

    上述做法虽然可以隐藏自己,但是还有很大问题,例如一个网络爬虫下载图片软件,在短时间内大量下载图片,服务器可以可以根据IP访问次数判断是否 是正常访问。所有上述做法还有很大的问题。我们可以通过两种做法解决办法,一是使用延迟,例如5秒内访问一次。另一种办法是使用代理。

    延迟访问(休眠5秒,缺点是访问效率低下):

    importurllib.requestimporturllib.parseimportjsonimporttimewhileTrue:

    content= input('please input content(input q exit program):')if content == 'q':break;

    url= 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=dict2.index'data={}

    data['type'] = 'AUTO'data['i'] =content

    data['doctype'] = 'json'data['xmlVersion'] = '1.8'data['keyfrom'] = 'fanyi.web'data['ue'] = 'UTF-8'data['action'] = 'FY_BY_CLICKBUTTON'data['typoResult'] = 'true'data= urllib.parse.urlencode(data).encode('utf-8')

    req=urllib.request.Request(url, data)

    req.add_header('User-Agent','Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36')

    response=urllib.request.urlopen(url, data)

    html= response.read().decode('utf-8')

    target=json.loads(html)print(target['translateResult'][0][0]['tgt'])

    time.sleep(5)

    View Code

    代理访问:让代理访问资源,然后讲访问到的资源返回。服务器看到的是代理的IP地址,不是自己地址,服务器就没有办法对你做限制。

    步骤:

    1,参数是一个字典{'类型' : '代理IP:端口号' } //类型是http,https等

    proxy_support = urllib.request.ProxyHandler({})

    2,定制、创建一个opener

    opener = urllib.request.build_opener(proxy_support)

    3,安装opener(永久安装,一劳永逸)

    urllib.request.install_opener(opener)

    3,调用opener(调用的时候使用)

    opener.open(url)

    五、批量下载网络图片

    图片下载来源为煎蛋网(http://jandan.net)

    图片下载的关键是找到图片的规律,如找到当前页,每一页的图片链接,然后使用循环下载图片。下面是程序代码(待优化):

    importurllib.requestimportosdefurl_open(url):

    req=urllib.request.Request(url)

    req.add_header('User-Agent','Mozilla/5.0')

    response=urllib.request.urlopen(req)

    html=response.read()returnhtmldefget_page(url):

    html= url_open(url).decode('utf-8')

    a= html.find('current-comment-page') + 23b= html.find(']',a)returnhtml[a:b]deffind_image(url):

    html= url_open(url).decode('utf-8')

    image_addrs=[]

    a= html.find('img src=')while a != -1:

    b= html.find('.jpg',a,a + 150)if b != -1:

    image_addrs.append(html[a+9:b+4])else:

    b= a + 9a= html.find('img src=',b)for each inimage_addrs:print(each)returnimage_addrsdefsave_image(folder,image_addrs):for each inimage_addrs:

    filename= each.split('/')[-1]

    with open(filename,'wb') as f:

    img=url_open(each)

    f.write(img)def download_girls(folder = 'girlimage',pages = 20):

    os.mkdir(folder)

    os.chdir(folder)

    url= 'http://jandan.net/ooxx/'page_num=int(get_page(url))for i inrange(pages):

    page_num-=i

    page_url= url + 'page-' + str(page_num) + '#comments'image_addrs=find_image(page_url)

    save_image(folder,image_addrs)if __name__ == '__main__':

    download_girls()

    展开全文
  • 举一个最简单的例子,你百度和谷歌中输入‘Python',会有大量和Python相关的网页被检索出来,百度和谷歌是如何从海量的网页中检索出你想要的资源,他们靠的就是派出大量蜘蛛去网页上爬取,检索关键字,建立索引...

    一、网络爬虫

    网络爬虫又被称为网络蜘蛛(🕷️),我们可以把互联网想象成一个蜘蛛网,每一个网站都是一个节点,我们可以使用一只蜘蛛去各个网页抓取我们想要的资源。举一个最简单的例子,你在百度和谷歌中输入‘Python',会有大量和Python相关的网页被检索出来,百度和谷歌是如何从海量的网页中检索出你想要的资源,他们靠的就是派出大量蜘蛛去网页上爬取,检索关键字,建立索引数据库,经过复杂的排序算法,结果按照搜索关键字相关度的高低展现给你。

    千里之行,始于足下,我们从最基础的开始学习如何写一个网络爬虫,实现语言使用Python。

    二、Python如何访问互联网

    想要写网络爬虫,第一步是访问互联网,Python如何访问互联网呢?

    在Python中,我们使用urllib包访问互联网。(在Python3中,对这个模块做了比较大的调整,以前有urllib和urllib2,在3中对这两个模块做了统一合并,称为urllib包。包下面包含了四个模块,urllib.request,urllib.error,urllib.parse,urllib.robotparser),目前主要使用的是urllib.request。

    我们首先举一个最简单的例子,如何获取获取网页的源码:

    import urllib.request

    response = urllib.request.urlopen('https://docs.python.org/3/')

    html = response.read()

    print(html.decode('utf-8'))

    三、Python网络简单使用

    首先我们用两个小demo练一下手,一个是使用python代码下载一张图片到本地,另一个是调用有道翻译写一个翻译小软件。

    3.1根据图片链接下载图片,代码如下:

    import urllib.request

    response = urllib.request.urlopen('http://www.3lian.com/e/ViewImg/index.html?url=http://img16.3lian.com/gif2016/w1/3/d/61.jpg')

    image = response.read()

    with open('123.jpg','wb') as f:

    f.write(image)

    其中response是一个对象

    输入:response.geturl()

    ->'http://www.3lian.com/e/ViewImg/index.html?url=http://img16.3lian.com/gif2016/w1/3/d/61.jpg'

    输入:response.info()

    ->

    输入:print(response.info())

    ->Content-Type: text/html

    Last-Modified: Mon, 27 Sep 2004 01:23:20 GMT

    Accept-Ranges: bytes

    ETag: "0f4b59230a4c41:0"

    Server: Microsoft-IIS/8.0

    Date: Sun, 14 Aug 2016 07:16:01 GMT

    Connection: close

    Content-Length: 2827

    输入:response.getcode()

    ->200

    3.2使用有道词典实现翻译功能

    我们想实现翻译功能,我们需要拿到请求链接。首先我们需要进入有道首页,点击翻译,在翻译界面输入要翻译的内容,点击翻译按钮,就会向服务器发起一个请求,我们需要做的就是拿到请求地址和请求参数。

    我在此使用谷歌浏览器实现拿到请求地址和请求参数。首先点击右键,点击检查(不同浏览器点击的选项可能不同,同一浏览器的不同版本也可能不同),进入图一所示,从中我们可以拿到请求请求地址和请求参数,在Header中的Form Data中我们可以拿到请求参数。

    (图一)

    代码段如下:

    import urllib.request

    import urllib.parse

    url = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=dict2.index'

    data = {}

    data['type'] = 'AUTO'

    data['i'] = 'i love you'

    data['doctype'] = 'json'

    data['xmlVersion'] = '1.8'

    data['keyfrom'] = 'fanyi.web'

    data['ue'] = 'UTF-8'

    data['action'] = 'FY_BY_CLICKBUTTON'

    data['typoResult'] = 'true'

    data = urllib.parse.urlencode(data).encode('utf-8')

    response = urllib.request.urlopen(url,data)

    html = response.read().decode('utf-8')

    print(html)

    上述代码执行如下:

    {"type":"EN2ZH_CN","errorCode":0,"elapsedTime":0,"translateResult":[[{"src":"i love you","tgt":"我爱你"}]],"smartResult":{"type":1,"entries":["","我爱你。"]}}

    对于上述结果,我们可以看到是一个json串,我们可以对此解析一下,并且对代码进行完善一下:

    import urllib.request

    import urllib.parse

    import json

    url = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=dict2.index'

    data = {}

    data['type'] = 'AUTO'

    data['i'] = 'i love you'

    data['doctype'] = 'json'

    data['xmlVersion'] = '1.8'

    data['keyfrom'] = 'fanyi.web'

    data['ue'] = 'UTF-8'

    data['action'] = 'FY_BY_CLICKBUTTON'

    data['typoResult'] = 'true'

    data = urllib.parse.urlencode(data).encode('utf-8')

    response = urllib.request.urlopen(url,data)

    html = response.read().decode('utf-8')

    target = json.loads(html)

    print(target['translateResult'][0][0]['tgt'])

    四、规避风险

    服务器检测出请求不是来自浏览器,可能会屏蔽掉请求,服务器判断的依据是使用‘User-Agent',我们可以修改改字段的值,来隐藏自己。代码如下:

    import urllib.request

    import urllib.parse

    import json

    url = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=dict2.index'

    data = {}

    data['type'] = 'AUTO'

    data['i'] = 'i love you'

    data['doctype'] = 'json'

    data['xmlVersion'] = '1.8'

    data['keyfrom'] = 'fanyi.web'

    data['ue'] = 'UTF-8'

    data['action'] = 'FY_BY_CLICKBUTTON'

    data['typoResult'] = 'true'

    data = urllib.parse.urlencode(data).encode('utf-8')

    req = urllib.request.Request(url, data)

    req.add_header('User-Agent','Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36')

    response = urllib.request.urlopen(url, data)

    html = response.read().decode('utf-8')

    target = json.loads(html)

    print(target['translateResult'][0][0]['tgt'])

    上述做法虽然可以隐藏自己,但是还有很大问题,例如一个网络爬虫下载图片软件,在短时间内大量下载图片,服务器可以可以根据IP访问次数判断是否是正常访问。所有上述做法还有很大的问题。我们可以通过两种做法解决办法,一是使用延迟,例如5秒内访问一次。另一种办法是使用代理。

    延迟访问(休眠5秒,缺点是访问效率低下):

    import urllib.request

    import urllib.parse

    import json

    import time

    while True:

    content = input('please input content(input q exit program):')

    if content == 'q':

    break;

    url = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=dict2.index'

    data = {}

    data['type'] = 'AUTO'

    data['i'] = content

    data['doctype'] = 'json'

    data['xmlVersion'] = '1.8'

    data['keyfrom'] = 'fanyi.web'

    data['ue'] = 'UTF-8'

    data['action'] = 'FY_BY_CLICKBUTTON'

    data['typoResult'] = 'true'

    data = urllib.parse.urlencode(data).encode('utf-8')

    req = urllib.request.Request(url, data)

    req.add_header('User-Agent','Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36')

    response = urllib.request.urlopen(url, data)

    html = response.read().decode('utf-8')

    target = json.loads(html)

    print(target['translateResult'][0][0]['tgt'])

    time.sleep(5)

    代理访问:让代理访问资源,然后讲访问到的资源返回。服务器看到的是代理的IP地址,不是自己地址,服务器就没有办法对你做限制。

    步骤:

    1,参数是一个字典{'类型' : '代理IP:端口号' } //类型是http,https等

    proxy_support = urllib.request.ProxyHandler({})

    2,定制、创建一个opener

    opener = urllib.request.build_opener(proxy_support)

    3,安装opener(永久安装,一劳永逸)

    urllib.request.install_opener(opener)

    4,调用opener(调用的时候使用)

    opener.open(url)

    五、批量下载网络图片

    图片下载来源为煎蛋网(http://jandan.net)

    图片下载的关键是找到图片的规律,如找到当前页,每一页的图片链接,然后使用循环下载图片。下面是程序代码(待优化,正则表达式匹配,IP代理):

    import urllib.request

    import os

    def url_open(url):

    req = urllib.request.Request(url)

    req.add_header('User-Agent','Mozilla/5.0')

    response = urllib.request.urlopen(req)

    html = response.read()

    return html

    def get_page(url):

    html = url_open(url).decode('utf-8')

    a = html.find('current-comment-page') + 23

    b = html.find(']',a)

    return html[a:b]

    def find_image(url):

    html = url_open(url).decode('utf-8')

    image_addrs = []

    a = html.find('img src=')

    while a != -1:

    b = html.find('.jpg',a,a + 150)

    if b != -1:

    image_addrs.append(html[a+9:b+4])

    else:

    b = a + 9

    a = html.find('img src=',b)

    for each in image_addrs:

    print(each)

    return image_addrs

    def save_image(folder,image_addrs):

    for each in image_addrs:

    filename = each.split('/')[-1]

    with open(filename,'wb') as f:

    img = url_open(each)

    f.write(img)

    def download_girls(folder = 'girlimage',pages = 20):

    os.mkdir(folder)

    os.chdir(folder)

    url = 'http://jandan.net/ooxx/'

    page_num = int(get_page(url))

    for i in range(pages):

    page_num -= i

    page_url = url + 'page-' + str(page_num) + '#comments'

    image_addrs = find_image(page_url)

    save_image(folder,image_addrs)

    if __name__ == '__main__':

    download_girls()

    代码运行效果如下:

    到此这篇关于Python爬虫之Spider类用法简单介绍的文章就介绍到这了,更多相关Python爬虫Spider类内容请搜索python博客以前的文章或继续浏览下面的相关文章希望大家以后多多支持python博客!

    展开全文
  • 举一个最简单的例子,你百度和谷歌中输入‘Python",会有大量和Python相关的网页被检索出来,百度和谷歌是如何从海量的网页中检索出你想要的资源,他们靠的就是派出大量蜘蛛去网页上爬取,检索关键字,建立索引...

    一、网络爬虫

    网络爬虫又被称为网络蜘蛛(🕷️),我们可以把互联网想象成一个蜘蛛网,每一个网站都是一个节点,我们可以使用一只蜘蛛去各个网页抓取我们想要的资源。举一个最简单的例子,你在百度和谷歌中输入‘Python",会有大量和Python相关的网页被检索出来,百度和谷歌是如何从海量的网页中检索出你想要的资源,他们靠的就是派出大量蜘蛛去网页上爬取,检索关键字,建立索引数据库,经过复杂的排序算法,结果按照搜索关键字相关度的高低展现给你。

    千里之行,始于足下,我们从最基础的开始学习如何写一个网络爬虫,实现语言使用Python。

    二、Python如何访问互联网

    想要写网络爬虫,第一步是访问互联网,Python如何访问互联网呢?

    在Python中,我们使用urllib包访问互联网。(在Python3中,对这个模块做了比较大的调整,以前有urllib和urllib2,在3中对这两个模块做了统一合并,称为urllib包。包下面包含了四个模块,urllib.request,urllib.error,urllib.parse,urllib.robotparser),目前主要使用的是urllib.request。

    我们首先举一个最简单的例子,如何获取获取网页的源码:

    import urllib.request

    response = urllib.request.urlopen("https://docs.python.org/3/")

    html = response.read()

    print(html.decode("utf-8"))

    三、Python网络简单使用

    首先我们用两个小demo练一下手,一个是使用python代码下载一张图片到本地,另一个是调用有道翻译写一个翻译小软件。

    3.1根据图片链接下载图片,代码如下:

    import urllib.request

    response = urllib.request.urlopen("http://www.3lian.com/e/ViewImg/index.html?url=http://img16.3lian.com/gif2016/w1/3/d/61.jpg")

    image = response.read()

    with open("123.jpg","wb") as f:

    f.write(image)

    其中response是一个对象

    输入:response.geturl()

    ->"http://www.3lian.com/e/ViewImg/index.html?url=http://img16.3lian.com/gif2016/w1/3/d/61.jpg"

    输入:response.info()

    ->

    输入:print(response.info())

    ->Content-Type: text/html

    Last-Modified: Mon, 27 Sep 2004 01:23:20 GMT

    Accept-Ranges: bytes

    ETag: "0f4b59230a4c41:0"

    Server: Microsoft-IIS/8.0

    Date: Sun, 14 Aug 2016 07:16:01 GMT

    Connection: close

    Content-Length: 2827

    输入:response.getcode()

    ->200

    3.2使用有道词典实现翻译功能

    我们想实现翻译功能,我们需要拿到请求链接。首先我们需要进入有道首页,点击翻译,在翻译界面输入要翻译的内容,点击翻译按钮,就会向服务器发起一个请求,我们需要做的就是拿到请求地址和请求参数。

    我在此使用谷歌浏览器实现拿到请求地址和请求参数。首先点击右键,点击检查(不同浏览器点击的选项可能不同,同一浏览器的不同版本也可能不同),进入图一所示,从中我们可以拿到请求请求地址和请求参数,在Header中的Form Data中我们可以拿到请求参数。

    (图一)

    代码段如下:

    import urllib.request

    import urllib.parse

    url = "http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=dict2.index"

    data = {}

    data["type"] = "AUTO"

    data["i"] = "i love you"

    data["doctype"] = "json"

    data["xmlVersion"] = "1.8"

    data["keyfrom"] = "fanyi.web"

    data["ue"] = "UTF-8"

    data["action"] = "FY_BY_CLICKBUTTON"

    data["typoResult"] = "true"

    data = urllib.parse.urlencode(data).encode("utf-8")

    response = urllib.request.urlopen(url,data)

    html = response.read().decode("utf-8")

    print(html)

    上述代码执行如下:

    {"type":"EN2ZH_CN","errorCode":0,"elapsedTime":0,"translateResult":[[{"src":"i love you","tgt":"我爱你"}]],"smartResult":{"type":1,"entries":["","我爱你。"]}}

    对于上述结果,我们可以看到是一个json串,我们可以对此解析一下,并且对代码进行完善一下:

    import urllib.request

    import urllib.parse

    import json

    url = "http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=dict2.index"

    data = {}

    data["type"] = "AUTO"

    data["i"] = "i love you"

    data["doctype"] = "json"

    data["xmlVersion"] = "1.8"

    data["keyfrom"] = "fanyi.web"

    data["ue"] = "UTF-8"

    data["action"] = "FY_BY_CLICKBUTTON"

    data["typoResult"] = "true"

    data = urllib.parse.urlencode(data).encode("utf-8")

    response = urllib.request.urlopen(url,data)

    html = response.read().decode("utf-8")

    target = json.loads(html)

    print(target["translateResult"][0][0]["tgt"])

    四、规避风险

    服务器检测出请求不是来自浏览器,可能会屏蔽掉请求,服务器判断的依据是使用‘User-Agent",我们可以修改改字段的值,来隐藏自己。代码如下:

    import urllib.request

    import urllib.parse

    import json

    url = "http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=dict2.index"

    data = {}

    data["type"] = "AUTO"

    data["i"] = "i love you"

    data["doctype"] = "json"

    data["xmlVersion"] = "1.8"

    data["keyfrom"] = "fanyi.web"

    data["ue"] = "UTF-8"

    data["action"] = "FY_BY_CLICKBUTTON"

    data["typoResult"] = "true"

    data = urllib.parse.urlencode(data).encode("utf-8")

    req = urllib.request.Request(url, data)

    req.add_header("User-Agent","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36")

    response = urllib.request.urlopen(url, data)

    html = response.read().decode("utf-8")

    target = json.loads(html)

    print(target["translateResult"][0][0]["tgt"])

    上述做法虽然可以隐藏自己,但是还有很大问题,例如一个网络爬虫下载图片软件,在短时间内大量下载图片,服务器可以可以根据IP访问次数判断是否是正常访问。所有上述做法还有很大的问题。我们可以通过两种做法解决办法,一是使用延迟,例如5秒内访问一次。另一种办法是使用代理。

    延迟访问(休眠5秒,缺点是访问效率低下):

    import urllib.request

    import urllib.parse

    import json

    import time

    while True:

    content = input("please input content(input q exit program):")

    if content == "q":

    break;

    url = "http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=dict2.index"

    data = {}

    data["type"] = "AUTO"

    data["i"] = content

    data["doctype"] = "json"

    data["xmlVersion"] = "1.8"

    data["keyfrom"] = "fanyi.web"

    data["ue"] = "UTF-8"

    data["action"] = "FY_BY_CLICKBUTTON"

    data["typoResult"] = "true"

    data = urllib.parse.urlencode(data).encode("utf-8")

    req = urllib.request.Request(url, data)

    req.add_header("User-Agent","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36")

    response = urllib.request.urlopen(url, data)

    html = response.read().decode("utf-8")

    target = json.loads(html)

    print(target["translateResult"][0][0]["tgt"])

    time.sleep(5)

    代理访问:让代理访问资源,然后讲访问到的资源返回。服务器看到的是代理的IP地址,不是自己地址,服务器就没有办法对你做限制。

    步骤:

    1,参数是一个字典{"类型" : "代理IP:端口号" } //类型是http,https等

    proxy_support = urllib.request.ProxyHandler({})

    2,定制、创建一个opener

    opener = urllib.request.build_opener(proxy_support)

    3,安装opener(永久安装,一劳永逸)

    urllib.request.install_opener(opener)

    4,调用opener(调用的时候使用)

    opener.open(url)

    五、批量下载网络图片

    图片下载来源为煎蛋网(http://jandan.net)

    图片下载的关键是找到图片的规律,如找到当前页,每一页的图片链接,然后使用循环下载图片。下面是程序代码(待优化,正则表达式匹配,IP代理):

    import urllib.request

    import os

    def url_open(url):

    req = urllib.request.Request(url)

    req.add_header("User-Agent","Mozilla/5.0")

    response = urllib.request.urlopen(req)

    html = response.read()

    return html

    def get_page(url):

    html = url_open(url).decode("utf-8")

    a = html.find("current-comment-page") + 23

    b = html.find("]",a)

    return html[a:b]

    def find_image(url):

    html = url_open(url).decode("utf-8")

    image_addrs = []

    a = html.find("img src=")

    while a != -1:

    b = html.find(".jpg",a,a + 150)

    if b != -1:

    image_addrs.append(html[a+9:b+4])

    else:

    b = a + 9

    a = html.find("img src=",b)

    for each in image_addrs:

    print(each)

    return image_addrs

    def save_image(folder,image_addrs):

    for each in image_addrs:

    filename = each.split("/")[-1]

    with open(filename,"wb") as f:

    img = url_open(each)

    f.write(img)

    def download_girls(folder = "girlimage",pages = 20):

    os.mkdir(folder)

    os.chdir(folder)

    url = "http://jandan.net/ooxx/"

    page_num = int(get_page(url))

    for i in range(pages):

    page_num -= i

    page_url = url + "page-" + str(page_num) + "#comments"

    image_addrs = find_image(page_url)

    save_image(folder,image_addrs)

    if __name__ == "__main__":

    download_girls()

    代码运行效果如下:

    到此这篇关于Python爬虫之Spider类用法简单介绍的文章就介绍到这了,更多相关Python爬虫Spider类内容请搜索云海天教程以前的文章或继续浏览下面的相关文章希望大家以后多多支持云海天教程!

    原文链接:https://www.cnblogs.com/wangyaoguo/p/5769944.html

    展开全文
  • Python爬虫之Spider类用法简单介绍

    千次阅读 2020-11-10 23:22:20
    举一个最简单的例子,你百度和谷歌中输入‘Python',会有大量和Python相关的网页被检索出来,百度和谷歌是如何从海量的网页中检索出你想要的资源,他们靠的就是派出大量蜘蛛去网页上爬取,检索关键字,建立索引...

    更多编程教程请到:菜鸟教程 https://www.piaodoo.com/

    一、网络爬虫

    网络爬虫又被称为网络蜘蛛(🕷️),我们可以把互联网想象成一个蜘蛛网,每一个网站都是一个节点,我们可以使用一只蜘蛛去各个网页抓取我们想要的资源。举一个最简单的例子,你在百度和谷歌中输入‘Python',会有大量和Python相关的网页被检索出来,百度和谷歌是如何从海量的网页中检索出你想要的资源,他们靠的就是派出大量蜘蛛去网页上爬取,检索关键字,建立索引数据库,经过复杂的排序算法,结果按照搜索关键字相关度的高低展现给你。

    千里之行,始于足下,我们从最基础的开始学习如何写一个网络爬虫,实现语言使用Python。

    二、Python如何访问互联网

    想要写网络爬虫,第一步是访问互联网,Python如何访问互联网呢?

    在Python中,我们使用urllib包访问互联网。(在Python3中,对这个模块做了比较大的调整,以前有urllib和urllib2,在3中对这两个模块做了统一合并,称为urllib包。包下面包含了四个模块,urllib.request,urllib.error,urllib.parse,urllib.robotparser),目前主要使用的是urllib.request。

    我们首先举一个最简单的例子,如何获取获取网页的源码:

    import urllib.request
    response = urllib.request.urlopen('https://docs.python.org/3/')
    html = response.read()
    print(html.decode('utf-8'))

    三、Python网络简单使用

    首先我们用两个小demo练一下手,一个是使用python代码下载一张图片到本地,另一个是调用有道翻译写一个翻译小软件。

    3.1根据图片链接下载图片,代码如下:

    import urllib.request
    

    response = urllib.request.urlopen(‘http://www.3lian.com/e/ViewImg/index.html?url=http://img16.3lian.com/gif2016/w1/3/d/61.jpg’)
    image = response.read()

    with open(‘123.jpg’,‘wb’) as f:
    f.write(image)

    其中response是一个对象

    输入:response.geturl()
    ->'http://www.3lian.com/e/ViewImg/index.html?url=http://img16.3lian.com/gif2016/w1/3/d/61.jpg'

    输入:response.info()
    -><http.client.HTTPMessage object at 0x10591c0b8>

    输入:print(response.info())
    ->Content-Type: text/html
    Last-Modified: Mon, 27 Sep 2004 01:23:20 GMT
    Accept-Ranges: bytes
    ETag: "0f4b59230a4c41:0"
    Server: Microsoft-IIS/8.0
    Date: Sun, 14 Aug 2016 07:16:01 GMT
    Connection: close
    Content-Length: 2827

    输入:response.getcode()
    ->200

    3.2使用有道词典实现翻译功能

    我们想实现翻译功能,我们需要拿到请求链接。首先我们需要进入有道首页,点击翻译,在翻译界面输入要翻译的内容,点击翻译按钮,就会向服务器发起一个请求,我们需要做的就是拿到请求地址和请求参数。

    我在此使用谷歌浏览器实现拿到请求地址和请求参数。首先点击右键,点击检查(不同浏览器点击的选项可能不同,同一浏览器的不同版本也可能不同),进入图一所示,从中我们可以拿到请求请求地址和请求参数,在Header中的Form Data中我们可以拿到请求参数。

    (图一)

    代码段如下:

    import urllib.request
    import urllib.parse
    

    url = ‘http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=dict2.index’
    data = {}
    data[‘type’] = ‘AUTO’
    data[‘i’] = ‘i love you’
    data[‘doctype’] = ‘json’
    data[‘xmlVersion’] = ‘1.8’
    data[‘keyfrom’] = ‘fanyi.web’
    data[‘ue’] = ‘UTF-8’
    data[‘action’] = ‘FY_BY_CLICKBUTTON’
    data[‘typoResult’] = ‘true’
    data = urllib.parse.urlencode(data).encode(‘utf-8’)
    response = urllib.request.urlopen(url,data)
    html = response.read().decode(‘utf-8’)
    print(html)

    上述代码执行如下:

    {"type":"EN2ZH_CN","errorCode":0,"elapsedTime":0,"translateResult":[[{"src":"i love you","tgt":"我爱你"}]],"smartResult":{"type":1,"entries":["","我爱你。"]}}

    对于上述结果,我们可以看到是一个json串,我们可以对此解析一下,并且对代码进行完善一下:

    import urllib.request
    import urllib.parse
    import json
    

    url = ‘http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=dict2.index’
    data = {}
    data[‘type’] = ‘AUTO’
    data[‘i’] = ‘i love you’
    data[‘doctype’] = ‘json’
    data[‘xmlVersion’] = ‘1.8’
    data[‘keyfrom’] = ‘fanyi.web’
    data[‘ue’] = ‘UTF-8’
    data[‘action’] = ‘FY_BY_CLICKBUTTON’
    data[‘typoResult’] = ‘true’
    data = urllib.parse.urlencode(data).encode(‘utf-8’)
    response = urllib.request.urlopen(url,data)
    html = response.read().decode(‘utf-8’)
    target = json.loads(html)
    print(target[‘translateResult’][0][0][‘tgt’])

    四、规避风险

    服务器检测出请求不是来自浏览器,可能会屏蔽掉请求,服务器判断的依据是使用‘User-Agent',我们可以修改改字段的值,来隐藏自己。代码如下:

    import urllib.request
    import urllib.parse
    import json
    

    url = ‘http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=dict2.index’
    data = {}
    data[‘type’] = ‘AUTO’
    data[‘i’] = ‘i love you’
    data[‘doctype’] = ‘json’
    data[‘xmlVersion’] = ‘1.8’
    data[‘keyfrom’] = ‘fanyi.web’
    data[‘ue’] = ‘UTF-8’
    data[‘action’] = ‘FY_BY_CLICKBUTTON’
    data[‘typoResult’] = ‘true’
    data = urllib.parse.urlencode(data).encode(‘utf-8’)
    req = urllib.request.Request(url, data)
    req.add_header(‘User-Agent’,‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36’)
    response = urllib.request.urlopen(url, data)
    html = response.read().decode(‘utf-8’)
    target = json.loads(html)
    print(target[‘translateResult’][0][0][‘tgt’])

    上述做法虽然可以隐藏自己,但是还有很大问题,例如一个网络爬虫下载图片软件,在短时间内大量下载图片,服务器可以可以根据IP访问次数判断是否是正常访问。所有上述做法还有很大的问题。我们可以通过两种做法解决办法,一是使用延迟,例如5秒内访问一次。另一种办法是使用代理。

    延迟访问(休眠5秒,缺点是访问效率低下):

    import urllib.request
    import urllib.parse
    import json
    import time
    

    while True:
    content = input(‘please input content(input q exit program):’)
    if content == ‘q’:
    break;

    url = ‘http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=dict2.index’
    data = {}
    data[‘type’] = ‘AUTO’
    data[‘i’] = content
    data[‘doctype’] = ‘json’
    data[‘xmlVersion’] = ‘1.8’
    data[‘keyfrom’] = ‘fanyi.web’
    data[‘ue’] = ‘UTF-8’
    data[‘action’] = ‘FY_BY_CLICKBUTTON’
    data[‘typoResult’] = ‘true’
    data = urllib.parse.urlencode(data).encode(‘utf-8’)
    req = urllib.request.Request(url, data)
    req.add_header(‘User-Agent’,‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36’)
    response = urllib.request.urlopen(url, data)
    html = response.read().decode(‘utf-8’)
    target = json.loads(html)
    print(target[‘translateResult’][0][0][‘tgt’])
    time.sleep(5)

    代理访问:让代理访问资源,然后讲访问到的资源返回。服务器看到的是代理的IP地址,不是自己地址,服务器就没有办法对你做限制。

    步骤:

    1,参数是一个字典{'类型' : '代理IP:端口号' } //类型是http,https等
    proxy_support = urllib.request.ProxyHandler({})

    2,定制、创建一个opener
    opener = urllib.request.build_opener(proxy_support)

    3,安装opener(永久安装,一劳永逸)
    urllib.request.install_opener(opener)

    4,调用opener(调用的时候使用)
    opener.open(url)

    五、批量下载网络图片

    图片下载来源为煎蛋网(http://jandan.net)

    图片下载的关键是找到图片的规律,如找到当前页,每一页的图片链接,然后使用循环下载图片。下面是程序代码(待优化,正则表达式匹配,IP代理):

    import urllib.request
    import os
    

    def url_open(url):
    req = urllib.request.Request(url)
    req.add_header(‘User-Agent’,‘Mozilla/5.0’)
    response = urllib.request.urlopen(req)
    html = response.read()
    return html

    def get_page(url):
    html = url_open(url).decode(‘utf-8’)
    a = html.find(‘current-comment-page’) + 23
    b = html.find(’]’,a)
    return html[a:b]

    def find_image(url):
    html = url_open(url).decode(‘utf-8’)
    image_addrs = []
    a = html.find(‘img src=’)
    while a != -1:
    b = html.find(’.jpg’,a,a + 150)
    if b != -1:
    image_addrs.append(html[a+9:b+4])
    else:
    b = a + 9
    a = html.find(‘img src=’,b)
    for each in image_addrs:
    print(each)
    return image_addrs

    def save_image(folder,image_addrs):
    for each in image_addrs:
    filename = each.split(’/’)[-1]
    with open(filename,‘wb’) as f:
    img = url_open(each)
    f.write(img)

    def download_girls(folder = ‘girlimage’,pages = 20):
    os.mkdir(folder)
    os.chdir(folder)
    url = ‘http://jandan.net/ooxx/’
    page_num = int(get_page(url))

    for i in range(pages):
    page_num -= i
    page_url = url + ‘page-’ + str(page_num) + ‘#comments’
    image_addrs = find_image(page_url)
    save_image(folder,image_addrs)

    if name == ‘main’:
    download_girls()

    代码运行效果如下:

    到此这篇关于Python爬虫之Spider类用法简单介绍的文章就介绍到这了,更多相关Python爬虫Spider类内容请搜索菜鸟教程www.piaodoo.com以前的文章或继续浏览下面的相关文章希望大家以后多多支持菜鸟教程www.piaodoo.com!

    展开全文
  • Python Spider爬虫

    2021-03-07 10:03:35
    百度和谷歌中输入‘Python',会有大量和Python相关的网页被检索出来,百度和谷歌是如何从海量的网页中检索出你想要的资源,他们靠的就是派出大量蜘蛛去网页上爬取,检索关键字,建立索引数据库,经过复杂的排序...
  • Python Spider

    2021-03-11 17:43:06
    百度和谷歌中输入‘Python',会有大量和Python相关的网页被检索出来,百度和谷歌是如何从海量的网页中检索出你想要的资源,他们靠的就是派出大量蜘蛛去网页上爬取,检索关键字,建立索引数据库,经过复杂的排序...
  • 网络爬虫,又称为网页蜘蛛(WebSpider),非常形象的一个名字。如果你把整个互联网想象成类似于蜘蛛网一样的构造,那么我们这只爬虫,就是要上边爬来爬去,顺便获得我们需要的资源。我们之所以能够通过百度或谷歌...
  • Python——网络爬虫

    2017-11-18 11:46:17
    网络爬虫,又称为网页蜘蛛(WebSpider),非常形象的一个名字。如果你把整个互联网想象成类似于蜘蛛网一样的构造,那么我们这只爬虫,就是要上边爬来爬去,顺便获得我们需要的资源。我们之所以能够通过百度或谷歌...
  • 网络爬虫,又称为网页蜘蛛(WebSpider),非常形象的一个名字。如果你把整个互联网想象成类似于蜘蛛网一样的构造,那么我们这只爬虫,就是要上边爬来爬去,顺便获得我们需要的资源。我们之所以能够通过百度或谷歌...
  • 本章的主题是“联结表”,主要...笛卡尔积又称为Cross Join 警告 要保证所有的联结都有WHERE子句,否则DBMS将返回比想要的数据多得多的数据。 DBMS运行时关联指定的每个表,以处理联结。这种处理可能非常耗费资源,因
  • 查找检索,是从大量的数据找出所需的数据,也可以简单地说是确定一个已给定的数据是否出现某个数据表。表通常是指文件,而文件是记录的集合,每个记录都是由若干个数据项组成的,其间一个或一组能唯一识别...
  • MYSQL索引-覆盖索引

    2020-11-05 21:43:11
    ​ 覆盖索引可以称为索引覆盖,即select的数据列只从索引就能得到,不必读取数据行,也就是只 需扫描索引就可以得到查询结果。 ​ 说明: 使用覆盖索引,只需要从索引就能检索到需要的数据,而不要再扫描...
  • 搜索框键入字符后,搜索结果——或许称为过滤结果更准确——实时呈现。 一个60G的笔记本硬盘,加上外接的160G移动硬盘,几秒钟完成索引。完全不消耗资源。目前我已经设置成常驻任务栏了,你每次检索的时候,...
  • everything

    2010-04-25 17:05:20
    也可以直接在结果中进行复制、删除等常见操作。 2.4 切换为中文界面 中文语言包,并将语言包内的Everything.lng解压到程序目录,就可以通过菜单切换为中文了:Tools→ Options→ General→ Language→ 简体中文。 ...
  • 蚁群算法又称为蚂蚁算法。同GA遗传算法类似,也是运用了大自然规律的算法,用于寻找最优路径的概率型算法。灵感来源于蚂蚁寻找食物时会散播信息素的发现路径行为。详细介绍链接 BayesNetwork 贝叶斯网络...
  • 软件测试规范

    2018-04-23 09:16:12
    软件测试规范 目 录 一.概述 ...............................................................................................................................................................
  • 度量学习也称作距离度量学习、相似度学习,通过学习对象之间的距离,度量学习能够用于分析对象时间的关联、比较关系,实际问题应用较为广泛,可应用于辅助分类、聚类问题,也广泛用于图像检索、人脸识别等领域。...
  • 网络爬虫(称为网页蜘蛛,网络机器人,FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫。...
  • oracle数据库经典题目

    2011-02-17 15:05:20
    3.需要滤除查询结果中重复的行时,必须使用关键字Distinct; 需要返回查询结果中的所有行时,可以使用关键字ALL。 4.当进行模糊查询时,应使用关键字like和通配符问号(?)或百分号"%"。 5.Where子句可以接收...

空空如也

空空如也

1 2 3
收藏数 43
精华内容 17
关键字:

在结果中检索又称为