精华内容
下载资源
问答
  • 免费IP代理

    万次阅读 多人点赞 2019-04-29 10:34:34
    20、http://www.nimadaili.com/泥马IP代理 19、http://lab.crossincode.com/proxy/Crossin编程教室 18、http://www.xsdaili.com/dayProxy/ip/1415.html小舒代理 17、http://www.xiladaili.com/西拉免费代理IP 16...
    展开全文
  • IP代理

    千次阅读 2021-01-20 19:19:33
    IP代理基本简介 常用IP测试网站: http://myip.ipip.net/ http://httpbin.org/get 常用IP代理网站: 西拉免费代理IP 快代理 89免费代理 全网代理IP ip池设置格式 proxies = { '...

    在我们编写爬虫的过程中,有些网站具有反爬措施,这是就需要我们设置代理ip

    IP代理基本简介

    常用IP测试网站:
    http://myip.ipip.net/
    http://httpbin.org/get

    常用IP代理网站:
    西拉免费代理IP
    快代理
    89免费代理
    全网代理IP

    ip池设置格式

    proxies = {
                'http': 'http://113.238.142.208:3128',
                'https': 'https://113.238.142.208:3128',
            }
    

    这里添加了 http 和 https 两个代理,这样写是因为有些网页采用 http 协议,有的则是采用 https 协议,为了在这两类网页上都能顺利使用代理,所以一般都同时写上,当然,如果确定了某网页的请求类型,可以只写一种。

    有无IP代理的区别

    import requests
    url='http://myip.ipip.net/'
    proxies = {
                'http': 'http://113.238.142.208:3128',
                'https': 'https://113.238.142.208:3128',
            }
    try:
        response = requests.get(url) #不使用代理
        # response=requests.get(url,proxies=proxies,timeout=3)# 使用代理
        print(response.status_code)
        if response.status_code == 200:
            print(response.text)
    except requests.ConnectionError as e:
        print(e.args)
    

    不使用ip代理时:
    在这里插入图片描述
    使用IP代理:
    在这里插入图片描述

    使用西拉免费代理IP搭建

    import requests
    import random
    import time
    from lxml import etree
    from fake_useragent import UserAgent
    from multiprocessing.dummy import Pool
    import os
    
    
    class IpPool:
        def __init__(self):
            if os.path.exists("ip_pool.txt"):
                os.remove("ip_pool.txt")
                print('删除文件成功')
            else:
                print("The file does not exist")
            # 测试ip是否可用url
            self.test_url = 'http://httpbin.org/get'
            # 获取IP的 目标url
            self.url = 'http://www.xiladaili.com/gaoni/{}/'
    
            self.headers = {'User-Agent': UserAgent().random}
            # 存储可用ip
            # self.file = open('ip_pool.txt', 'a')
            self.ip_list=[]
        def get_html(self, url):
            '''获取页面'''
            html = requests.get(url=url, headers=self.headers).text
    
            return html
    
        def get_proxy(self, url):
            '''数据处理  获取ip 和端口'''
            html = self.get_html(url=url)
            # print(html)
    
            elemt = etree.HTML(html)
    
            ip_ports_list = elemt.xpath('/html/body/div/div[3]/div[2]/table/tbody/tr/td[1]/text()')
    
            self.ip_list.extend(ip_ports_list)
            pool=Pool()
            pool.map(self.test_proxy,self.ip_list)
    
        def test_proxy(self, proxy):
            '''测试代理IP是否可用'''
            proxies = {
                'http': 'http://{}'.format(proxy),
                'https': 'https://{}'.format(proxy),
            }
            # 参数类型
            # proxies
            # proxies = {'协议': '协议://IP:端口号'}
            # timeout 超时设置 网页响应时间3秒 超过时间会抛出异常
            try:
                resp = requests.get(url=self.test_url, proxies=proxies, headers=self.headers, timeout=3)
                # 获取 状态码为200
                if resp.status_code == 200:
                    print('\n',proxy, '\033[31m可用\033[0m')
                    # 可以的IP 写入文本以便后续使用
                    with open('ip_pool.txt', 'a') as f:
                        f.write(proxy+'\n')
    
                else:
                    print(proxy, '不可用')
            except Exception as e:
                print(proxy, '不可用')
        def crawl(self):
            '''执行函数'''
            # 快代理每页url 的区别
            # https://www.kuaidaili.com/free/inha/1/
            # https://www.kuaidaili.com/free/inha/2/
            # .......
            # 提供的免费ip太多
            # 这里只获取前100页提供的免费代理IP测试
            for i in range(1, 101):
                # 拼接完整的url
                print('正在获取第{}页IP'.format(i))
                page_url = self.url.format(i)
                # 注意抓取控制频率
                # time.sleep(random.randint(1, 4))
                self.get_proxy(url=page_url)
    
            # 执行完毕关闭文本
            # self.file.close()
    
    
    if __name__ == '__main__':
        ip = IpPool()
        ip.crawl()
    

    使用快代理搭建代理IP池

    import requests
    import random
    import time
    from lxml import etree
    from fake_useragent import UserAgent
    from multiprocessing.dummy import Pool
    
    
    class IpPool:
        def __init__(self):
            # 测试ip是否可用url
            self.test_url = 'http://httpbin.org/get'
            # 获取IP的 目标url
            self.url = 'https://www.89ip.cn/index_{}.html'
    
            self.headers = {'User-Agent': UserAgent().random}
            # 存储可用ip
            # self.file = open('ip_pool.txt', 'a')
            self.ip_list=[]
        def get_html(self, url):
            '''获取页面'''
            html = requests.get(url=url, headers=self.headers).text
    
            return html
    
        def get_proxy(self, url):
            '''数据处理  获取ip 和端口'''
            html = self.get_html(url=url)
            # print(html)
    
            elemt = etree.HTML(html)
    
            ips_list = elemt.xpath('//table/tbody/tr/td[1]/text()')
            ports_list = elemt.xpath('//table/tbody/tr/td[2]/text()')
    
            for ip, port in zip(ips_list, ports_list):
                # 拼接ip与port
                proxy = ip.strip() + ":" + port.strip()
                # print(proxy)
    
                # 175.44.109.195:9999
                self.ip_list.append(proxy)
            pool=Pool()
            pool.map(self.test_proxy,self.ip_list)
    
        def test_proxy(self, proxy):
            '''测试代理IP是否可用'''
            proxies = {
                'http': 'http://{}'.format(proxy),
                'https': 'https://{}'.format(proxy),
            }
            # 参数类型
            # proxies
            # proxies = {'协议': '协议://IP:端口号'}
            # timeout 超时设置 网页响应时间3秒 超过时间会抛出异常
            try:
                resp = requests.get(url=self.test_url, proxies=proxies, headers=self.headers, timeout=3)
                # 获取 状态码为200
                if resp.status_code == 200:
                    print('\n',proxy, '\033[31m可用\033[0m')
                    # 可以的IP 写入文本以便后续使用
                    with open('ip_pool.txt', 'a') as f:
                        f.write(proxy+'\n')
    
                else:
                    print(proxy, '不可用')
            except Exception as e:
                print(proxy, '不可用')
        def crawl(self):
            '''执行函数'''
            # 快代理每页url 的区别
            # https://www.kuaidaili.com/free/inha/1/
            # https://www.kuaidaili.com/free/inha/2/
            # .......
            # 提供的免费ip太多
            # 这里只获取前100页提供的免费代理IP测试
            for i in range(1, 101):
                # 拼接完整的url
                print('正在获取第{}页IP'.format(i))
                page_url = self.url.format(i)
                # 注意抓取控制频率
                # time.sleep(random.randint(1, 4))
                self.get_proxy(url=page_url)
    
            # 执行完毕关闭文本
            # self.file.close()
    
    
    if __name__ == '__main__':
        ip = IpPool()
        ip.crawl()
    
    

    项目实战:使用代理IP爬取美团商家评论

    import requests,time,random,csv
    from fake_useragent import UserAgent
    from lxml import etree
    
    starttime = time.time()#记录开始时间
    
    ips = [] #装载有效 IP
    for i in range(1, 2):
        headers = {
        "User-Agent" : UserAgent().chrome #chrome浏览器随机代理
        }
        ip_url = 'http://www.xiladaili.com/gaoni/{}/'.format(i)
        html = requests.get(url=ip_url, headers=headers).text
        seletor=etree.HTML(html)
        ip_list=seletor.xpath('/html/body/div/div[3]/div[2]/table/tbody/tr/td[1]/text()')
        for i in range(len(ip_list)):
            ip = "http://" + ip_list[i]
            # 设置为字典格式
            proxies = {"http": ip}
            #使用上面的IP代理请求百度,成功后状态码200
            baidu = requests.get("https://www.baidu.com/", proxies = proxies)
            if baidu.status_code == 200:
                ips.append(proxies)
        print ("正在准备IP代理,请稍后。。。")
    
    #创建CSV文件,并写入表头信息,并设置编码格式为“utf-8-sig”防止中文乱码
    fp = open('./美团_大学城.csv','a', newline='',encoding='utf-8-sig') #"./"表示当前文件夹,"a"表示添加
    writer = csv.writer(fp) #方式为写入
    writer.writerow(('用户ID','用户名', '平均价','评论','回复')) #表头
    
    for page in range(0, 515, 10):#0~100
        url = "https://www.meituan.com/meishi/api/poi/getMerchantComment?uuid=2ff7056c-9d76-424c-b564-b7084f7e16e4&platform=1&partner=126&originUrl=https%3A%2F%2Fwww.meituan.com%2Fmeishi%2F193383554%2F&riskLevel=1&optimusCode=10&id=193383554&userId=&offset={}&pageSize=10&sortType=1".format(page)
        headers = {
        "User-Agent" : UserAgent().chrome #chrome浏览器随机代理
        }
        proxy=ips[random.randint(0 , len(ips)-1)]
        print(proxy)
        respone = requests.get(url = url, headers = headers,proxies=proxy) #向服务器发出请求,服务器返回结果
        for item in respone.json()['data']['comments']:#遍历,循环
            userId = item['userId']#评论者id
            userName = item['userName']#评论人昵称
            avgPrice = item['avgPrice']
            comment = item['comment']#评论内容
            merchantComment = item['merchantComment']#商家回复
            data = (userId, userName, avgPrice, comment, merchantComment)
            writer.writerow((data))
    fp.close() #关闭文件
    endtime = time.time()#获取结束时间
    sumTime = endtime - starttime #总的时间
    print ("一共用的时间是%s秒"%sumTime)
    

    参考资料:https://blog.csdn.net/ayouleyang/article/details/104453540

    展开全文
  • ip代理

    千次阅读 2020-04-25 23:44:21
    为什么会出现IP被封 网站为了防止被爬取,会有反爬机制,对于同一个IP地址的大量...采用代理IP并轮换 设置访问时间间隔 如何获取代理IP地址 从该网站获取: https://www.xicidaili.com/ inspect -> 鼠标定位:...

    为什么会出现IP被封

    网站为了防止被爬取,会有反爬机制,对于同一个IP地址的大量同类型的访问,会封锁IP,过一段时间后,才能继续访问

    如何应对IP被封的问题

    有几种套路:

    1. 修改请求头,模拟浏览器(而不是代码去直接访问)去访问
    2. 采用代理IP并轮换
    3. 设置访问时间间隔

    如何获取代理IP地址

    • 从该网站获取: https://www.xicidaili.com/
    • inspect -> 鼠标定位:
    • 要获取的代理IP地址,属于class = "odd"标签的内容:代码如下,获取的代理IP保存在proxy_ip_list列表中
    # show your code
    
    # 案例代码
    from bs4 import BeautifulSoup
    import requests
    import time
    
    def open_proxy_url(url):
        user_agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36'
        headers = {'User-Agent': user_agent}
        try:
            r = requests.get(url, headers = headers, timeout = 20)
            r.raise_for_status()
            r.encoding = r.apparent_encoding
            return(r.text)
        except:
            print('无法访问网页' + url)
    
    
    def get_proxy_ip(response):
        proxy_ip_list = []
        soup = BeautifulSoup(response, 'html.parser')
        proxy_ips  = soup.select('.odd')#选择标签
        for proxy_ip in proxy_ips:
            ip = proxy_ip.select('td')[1].text
            port = proxy_ip.select('td')[2].text
            protocol = proxy_ip.select('td')[5].text
            if protocol in ('HTTP','HTTPS'):
                proxy_ip_list.append(f'{protocol}://{ip}:{port}')
        return proxy_ip_list
    
    if __name__ == '__main__':
        proxy_url = 'https://www.xicidaili.com/'
        text = open_proxy_url(proxy_url)
        proxy_ip_filename = 'proxy_ip.txt'
        with open(proxy_ip_filename, 'w') as f:
            f.write(text)
        text = open(proxy_ip_filename, 'r').read()
        proxy_ip_list = get_proxy_ip(text)
        print(proxy_ip_list)
    
    # text
    
    

    获取如下数据:

    获取到代理IP地址后,发现数据缺失很多,再仔细查看elements,发现有些并非class = “odd”,而是…,这些数据没有被获取
    class = "odd"奇数的结果,而没有class = "odd"的是偶数的结果
    在这里插入图片描述

    通过bs4的find_all(‘tr’)来获取所有IP:

    # show your code
    
    def get_proxy_ip(response):
        proxy_ip_list = []
        soup = BeautifulSoup(response, 'html.parser')
        proxy_ips = soup.find(id = 'ip_list').find_all('tr')
        for proxy_ip in proxy_ips:
            if len(proxy_ip.select('td')) >=8:
                ip = proxy_ip.select('td')[1].text
                port = proxy_ip.select('td')[2].text
                protocol = proxy_ip.select('td')[5].text
                if protocol in ('HTTP','HTTPS','http','https'):
                    proxy_ip_list.append(f'{protocol}://{ip}:{port}')
        return proxy_ip_list
    

    使用代理

    • proxies的格式是一个字典:
    • {‘http’: ‘http://IP:port‘,‘https’:'https://IP:port‘}
    • 把它直接传入requests的get方法中即可
    • web_data = requests.get(url, headers=headers, proxies=proxies)
    # show your code
    
    def open_url_using_proxy(url, proxy):
        user_agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36'
        headers = {'User-Agent': user_agent}
        proxies = {}
        if proxy.startswith('HTTPS'):
            proxies['https'] = proxy
        else:
            proxies['http'] = proxy
        try:
            r = requests.get(url, headers = headers, proxies = proxies, timeout = 10)
            r.raise_for_status()
            r.encoding = r.apparent_encoding
            return (r.text, r.status_code)
        except:
            print('无法访问网页' + url)
            return False
    url = 'http://www.baidu.com'
    text = open_url_using_proxy(url, proxy_ip_list[0])
    
    无法访问网页http://www.baidu.com
    

    确认代理IP地址有效性

    • 无论是免费还是收费的代理网站,提供的代理IP都未必有效,我们应该验证一下,有效后,再放入我们的代理IP池中,以下通过几种方式:访问网站,得到的返回码是200真正的访问某些网站,获取title等,验证title与预计的相同访问某些可以提供被访问IP的网站,类似于“查询我的IP”的网站,查看返回的IP地址是什么验证返回码
    # show your code
    
    def check_proxy_avaliability(proxy):
        url = 'http://www.baidu.com'
        result = open_url_using_proxy(url, proxy)
        VALID_PROXY = False
        if result:
            text, status_code = result
            if status_code == 200:
                print('有效代理IP: ' + proxy)
            else:
                print('无效代理IP: ' + proxy)
    

    改进:确认网站title

    # show you code
    
    def check_proxy_avaliability(proxy):
        url = 'http://www.baidu.com'
        text, status_code = open_url_using_proxy(url, proxy)
        VALID = False
        if status_code == 200:
            if r_title:
                if r_title[0] == '<title>百度一下,你就知道</title>':
                    VALID = True
        if VALID:
            print('有效代理IP: ' + proxy)
        else:
            print('无效代理IP: ' + proxy)
    

    完整代码

    from bs4 import BeautifulSoup
    import requests
    import re
    import json
    
    
    def open_proxy_url(url):
        user_agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36'
        headers = {'User-Agent': user_agent}
        try:
            r = requests.get(url, headers = headers, timeout = 10)
            r.raise_for_status()
            r.encoding = r.apparent_encoding
            return r.text
        except:
            print('无法访问网页' + url)
    
    
    def get_proxy_ip(response):
        proxy_ip_list = []
        soup = BeautifulSoup(response, 'html.parser')
        proxy_ips = soup.find(id = 'ip_list').find_all('tr')
        for proxy_ip in proxy_ips:
            if len(proxy_ip.select('td')) >=8:
                ip = proxy_ip.select('td')[1].text
                port = proxy_ip.select('td')[2].text
                protocol = proxy_ip.select('td')[5].text
                if protocol in ('HTTP','HTTPS','http','https'):
                    proxy_ip_list.append(f'{protocol}://{ip}:{port}')
        return proxy_ip_list
    
    
    def open_url_using_proxy(url, proxy):
        user_agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36'
        headers = {'User-Agent': user_agent}
        proxies = {}
        if proxy.startswith(('HTTPS','https')):
            proxies['https'] = proxy
        else:
            proxies['http'] = proxy
    
        try:
            r = requests.get(url, headers = headers, proxies = proxies, timeout = 10)
            r.raise_for_status()
            r.encoding = r.apparent_encoding
            return (r.text, r.status_code)
        except:
            print('无法访问网页' + url)
            print('无效代理IP: ' + proxy)
            return False
    
    
    def check_proxy_avaliability(proxy):
        url = 'http://www.baidu.com'
        result = open_url_using_proxy(url, proxy)
        VALID_PROXY = False
        if result:
            text, status_code = result
            if status_code == 200:
                r_title = re.findall('<title>.*</title>', text)
                if r_title:
                    if r_title[0] == '<title>百度一下,你就知道</title>':
                        VALID_PROXY = True
            if VALID_PROXY:
                check_ip_url = 'https://jsonip.com/'
                try:
                    text, status_code = open_url_using_proxy(check_ip_url, proxy)
                except:
                    return
    
                print('有效代理IP: ' + proxy)
                with open('valid_proxy_ip.txt','a') as f:
                    f.writelines(proxy)
                try:
                    source_ip = json.loads(text).get('ip')
                    print(f'源IP地址为:{source_ip}')
                    print('='*40)
                except:
                    print('返回的非json,无法解析')
                    print(text)
        else:
            print('无效代理IP: ' + proxy)
    
    
    if __name__ == '__main__':
        proxy_url = 'https://www.xicidaili.com/'
        proxy_ip_filename = 'proxy_ip.txt'
        text = open(proxy_ip_filename, 'r').read()
        proxy_ip_list = get_proxy_ip(text)
        for proxy in proxy_ip_list:
            check_proxy_avaliability(proxy)
    
    无法访问网页http://www.baidu.com
    无效代理IP: HTTP://113.194.28.11:9999
    无效代理IP: HTTP://113.194.28.11:9999
    无法访问网页http://www.baidu.com
    无效代理IP: HTTP://113.195.168.115:48888
    无效代理IP: HTTP://113.195.168.115:48888
    无法访问网页http://www.baidu.com
    无效代理IP: HTTP://118.113.247.115:9999
    无效代理IP: HTTP://118.113.247.115:9999
    无法访问网页http://www.baidu.com
    无效代理IP: HTTP://60.167.112.236:1133
    无效代理IP: HTTP://60.167.112.236:1133
    无法访问网页http://www.baidu.com
    无效代理IP: HTTP://101.132.190.101:80
    无效代理IP: HTTP://101.132.190.101:80
    无法访问网页http://www.baidu.com
    无效代理IP: HTTP://111.222.141.127:8118
    无效代理IP: HTTP://111.222.141.127:8118
    无法访问网页http://www.baidu.com
    无效代理IP: HTTPS://117.88.177.101:3000
    无效代理IP: HTTPS://117.88.177.101:3000
    无法访问网页http://www.baidu.com
    无效代理IP: HTTP://183.166.136.144:8888
    无效代理IP: HTTP://183.166.136.144:8888
    无法访问网页http://www.baidu.com
    无效代理IP: HTTP://27.208.231.100:8060
    无效代理IP: HTTP://27.208.231.100:8060
    无法访问网页http://www.baidu.com
    无效代理IP: HTTP://123.169.99.177:9999
    无效代理IP: HTTP://123.169.99.177:9999
    无法访问网页http://www.baidu.com
    无效代理IP: HTTP://119.84.84.185:12345
    无效代理IP: HTTP://119.84.84.185:12345
    无法访问网页http://www.baidu.com
    无效代理IP: HTTPS://114.99.54.65:8118
    无效代理IP: HTTPS://114.99.54.65:8118
    无法访问网页http://www.baidu.com
    无效代理IP: HTTPS://119.4.13.26:1133
    无效代理IP: HTTPS://119.4.13.26:1133
    无法访问网页http://www.baidu.com
    无效代理IP: HTTP://58.253.158.177:9999
    无效代理IP: HTTP://58.253.158.177:9999
    无法访问网页http://www.baidu.com
    无效代理IP: HTTP://114.223.208.165:8118
    无效代理IP: HTTP://114.223.208.165:8118
    无法访问网页http://www.baidu.com
    无效代理IP: HTTP://112.84.73.53:9999
    无效代理IP: HTTP://112.84.73.53:9999
    无法访问网页http://www.baidu.com
    无效代理IP: HTTP://221.237.37.137:8118
    无效代理IP: HTTP://221.237.37.137:8118
    无法访问网页http://www.baidu.com
    无效代理IP: HTTPS://117.45.139.84:9006
    无效代理IP: HTTPS://117.45.139.84:9006
    无法访问网页http://www.baidu.com
    无效代理IP: HTTPS://171.35.86.72:8118
    无效代理IP: HTTPS://171.35.86.72:8118
    无法访问网页http://www.baidu.com
    无效代理IP: HTTP://49.235.246.24:8118
    无效代理IP: HTTP://49.235.246.24:8118
    无法访问网页http://www.baidu.com
    无效代理IP: HTTP://112.95.205.138:8888
    无效代理IP: HTTP://112.95.205.138:8888
    无法访问网页http://www.baidu.com
    无效代理IP: HTTP://14.115.105.104:808
    无效代理IP: HTTP://14.115.105.104:808
    无法访问网页http://www.baidu.com
    无效代理IP: HTTP://60.191.11.249:3128
    无效代理IP: HTTP://60.191.11.249:3128
    无法访问网页http://www.baidu.com
    无效代理IP: HTTP://14.115.104.119:808
    无效代理IP: HTTP://14.115.104.119:808
    无法访问网页http://www.baidu.com
    无效代理IP: HTTPS://121.13.252.60:41564
    无效代理IP: HTTPS://121.13.252.60:41564
    无法访问网页http://www.baidu.com
    无效代理IP: HTTP://112.95.205.135:9000
    无效代理IP: HTTP://112.95.205.135:9000
    无法访问网页http://www.baidu.com
    无效代理IP: HTTPS://125.123.139.19:9000
    无效代理IP: HTTPS://125.123.139.19:9000
    无法访问网页https://jsonip.com/
    无效代理IP: HTTP://218.27.204.240:8000
    无法访问网页http://www.baidu.com
    无效代理IP: HTTPS://116.204.142.62:8080
    无效代理IP: HTTPS://116.204.142.62:8080
    无法访问网页http://www.baidu.com
    无效代理IP: HTTPS://60.191.11.229:3128
    无效代理IP: HTTPS://60.191.11.229:3128
    无法访问网页http://www.baidu.com
    无效代理IP: HTTP://163.125.71.198:9999
    无效代理IP: HTTP://163.125.71.198:9999
    无法访问网页http://www.baidu.com
    无效代理IP: HTTP://14.115.107.232:808
    无效代理IP: HTTP://14.115.107.232:808
    无法访问网页http://www.baidu.com
    无效代理IP: HTTPS://113.78.255.93:9000
    无效代理IP: HTTPS://113.78.255.93:9000
    无法访问网页http://www.baidu.com
    无效代理IP: HTTPS://60.191.11.237:3128
    无效代理IP: HTTPS://60.191.11.237:3128
    无法访问网页http://www.baidu.com
    无效代理IP: HTTPS://58.255.38.156:9000
    无效代理IP: HTTPS://58.255.38.156:9000
    无法访问网页http://www.baidu.com
    无效代理IP: HTTP://163.125.71.195:8888
    无效代理IP: HTTP://163.125.71.195:8888
    无法访问网页http://www.baidu.com
    无效代理IP: HTTP://123.163.24.113:3128
    无效代理IP: HTTP://123.163.24.113:3128
    无法访问网页http://www.baidu.com
    无效代理IP: HTTP://222.240.184.126:8086
    无效代理IP: HTTP://222.240.184.126:8086
    无法访问网页http://www.baidu.com
    无效代理IP: HTTPS://117.141.155.241:53281
    无效代理IP: HTTPS://117.141.155.241:53281
    无法访问网页http://www.baidu.com
    无效代理IP: HTTPS://218.22.7.62:53281
    无效代理IP: HTTPS://218.22.7.62:53281
    无法访问网页http://www.baidu.com
    无效代理IP: HTTPS://121.13.252.60:41564
    无效代理IP: HTTPS://121.13.252.60:41564
    无法访问网页http://www.baidu.com
    无效代理IP: HTTPS://125.123.139.19:9000
    无效代理IP: HTTPS://125.123.139.19:9000
    无法访问网页http://www.baidu.com
    无效代理IP: HTTPS://117.88.177.101:3000
    无效代理IP: HTTPS://117.88.177.101:3000
    无法访问网页http://www.baidu.com
    无效代理IP: HTTPS://116.204.142.62:8080
    无效代理IP: HTTPS://116.204.142.62:8080
    无法访问网页http://www.baidu.com
    无效代理IP: HTTPS://114.99.54.65:8118
    无效代理IP: HTTPS://114.99.54.65:8118
    无法访问网页http://www.baidu.com
    无效代理IP: HTTPS://60.191.11.229:3128
    无效代理IP: HTTPS://60.191.11.229:3128
    无法访问网页http://www.baidu.com
    无效代理IP: HTTPS://119.4.13.26:1133
    无效代理IP: HTTPS://119.4.13.26:1133
    无法访问网页http://www.baidu.com
    无效代理IP: HTTPS://113.78.255.93:9000
    无效代理IP: HTTPS://113.78.255.93:9000
    无法访问网页http://www.baidu.com
    无效代理IP: HTTPS://117.45.139.84:9006
    无效代理IP: HTTPS://117.45.139.84:9006
    无法访问网页http://www.baidu.com
    无效代理IP: HTTPS://60.191.11.237:3128
    无效代理IP: HTTPS://60.191.11.237:3128
    无法访问网页http://www.baidu.com
    无效代理IP: HTTPS://171.35.86.72:8118
    无效代理IP: HTTPS://171.35.86.72:8118
    无法访问网页http://www.baidu.com
    无效代理IP: HTTPS://58.255.38.156:9000
    无效代理IP: HTTPS://58.255.38.156:9000
    无法访问网页http://www.baidu.com
    无效代理IP: HTTPS://114.223.103.47:8118
    无效代理IP: HTTPS://114.223.103.47:8118
    无法访问网页http://www.baidu.com
    无效代理IP: HTTPS://117.141.155.241:53281
    无效代理IP: HTTPS://117.141.155.241:53281
    无法访问网页http://www.baidu.com
    无效代理IP: HTTPS://218.22.7.62:53281
    无效代理IP: HTTPS://218.22.7.62:53281
    无法访问网页http://www.baidu.com
    无效代理IP: HTTPS://14.153.52.10:3128
    无效代理IP: HTTPS://14.153.52.10:3128
    无法访问网页http://www.baidu.com
    无效代理IP: HTTPS://61.164.39.69:53281
    无效代理IP: HTTPS://61.164.39.69:53281
    有效代理IP: HTTPS://113.65.163.199:9797
    源IP地址为:14.145.235.76
    ========================================
    无法访问网页http://www.baidu.com
    无效代理IP: HTTPS://58.251.235.76:9797
    无效代理IP: HTTPS://58.251.235.76:9797
    无法访问网页http://www.baidu.com
    无效代理IP: HTTPS://183.166.103.164:9999
    无效代理IP: HTTPS://183.166.103.164:9999
    无法访问网页http://www.baidu.com
    无效代理IP: HTTP://112.95.205.138:8888
    无效代理IP: HTTP://112.95.205.138:8888
    无法访问网页http://www.baidu.com
    无效代理IP: HTTP://14.115.105.104:808
    无效代理IP: HTTP://14.115.105.104:808
    无法访问网页http://www.baidu.com
    无效代理IP: HTTP://113.194.28.11:9999
    无效代理IP: HTTP://113.194.28.11:9999
    无法访问网页http://www.baidu.com
    无效代理IP: HTTP://60.191.11.249:3128
    无效代理IP: HTTP://60.191.11.249:3128
    

    关于http和https代理

    • 可以看到proxies中有两个键值对:
    • {‘http’: ‘http://IP:port‘,‘https’:'https://IP:port‘}
    • 其中 HTTP 代理,只代理 HTTP 网站,对于 HTTPS 的网站不起作用,也就是说,用的是本机 IP,反之亦然。
    • 我刚才使用的验证的网站是https://jsonip.com, 是HTTPS网站所以探测到的有效代理中,如果是https代理,则返回的是代理地址
    • 如果是http代理,将使用本机IP进行访问,返回的是我的公网IP地址
    
    
    展开全文
  • 在线代理 网页代理 ip代理 在线代理ip 代理ip 网页代理ip ip在线代理 在线代理 网页代理 ip代理 在线代理ip 代理ip 网页代理ip ip在线代理 ...
    展开全文
  • IP代理池检测代理可用性

    万次阅读 2019-05-23 19:01:44
    在《基于Scrapy的IP代理池搭建》一文中,我们将从网页爬取到的免费代理IP按照如下格式保存到了Redis的 proxies:unchecked:list 队列中。 同时,为了避免同一代理IP被重复存储,在将代理保存到 proxies:unch...
  • 国内IP代理哪个比较好一些稳定线路多呢,想必很多朋友都在寻找一款合适自己的IP代理软件。截图给大家推荐的这款软件,用过的肯定不会陌生,那就是领导者IP代理,老牌子了,值得信赖,无论稳定性,还是速度始终如一,...
  • 高匿名IP代理,匿名IP代理和透明代理IP的主要区别就是在于获取服务器的REMOTE_ADDR、HTTP_X_FORWARDED_FOR、HTTP_VIA参数有所不同。 透明代理在是用的时候,对方的“反间谍组织”即对方的服务器完全是知道你用了代理...
  • 腾讯云搭建Socks5多IP代理服务器实现游戏单窗口单IP腾讯云多IP Socks5搭建教程 配合代理工具实现 单窗口单IP1.多IP服务器选择2.服务器购买功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与...
  • IP代理proxy试用

    千次阅读 2019-04-30 09:09:27
    IP代理试用
  • 爬虫ip代理对高匿代理ip的必要性

    千次阅读 2018-10-23 14:23:07
    对于爬虫来说,在听到ip代理的时候,听得最多的莫过于透明代理、匿名代理、高匿代理这几个词了,那么分别是什么意思呢?互相之间有什么样的区别呢? 为什么说爬虫ip代理一定要使用高匿代理呢? 带着这些问题,让...
  • 其中绝大部分上网用户都采用宽带adsl拨号方式上网,通过路由器或光猫设备向宽带运营商进行IP拨号,由宽带服务器分配上网设备IP地址后即可实现网络访问,除了adsl拨号不少用户也采用IP代理PPTP拨号方式来获取网络IP,...
  • Python爬虫——建立IP代理

    千次阅读 多人点赞 2020-04-05 08:35:19
    在request方法中,我们可以通过proxies参数来伪装我们的ip,一些网站上有免费的ip代理网站,可以通过爬取这些ip,经检测后建立ip代理池。 ip代理网站: (https://www.xicidaili.com/nt/) (https...
  • 搭建IP代理池伪装IP地址

    千次阅读 2019-03-23 21:21:08
    1、下载开源IP代理池源代码 https://github.com/Python3WebSpider/ProxyPool 2、安装Redis https://github.com/MicrosoftArchive/redis/releases 3、安装相关所需的 python 模块 Windows PowerShell 版权...
  • Scrapy ip代理无响应

    千次阅读 2020-08-09 15:46:52
    Scrapy ip代理长时间无响应原因分析 在setting.py中添加可用ip代理池: PROXIES=[ 'http://182.149.82.74:9999', 'http://121.237.25.238:3000', 'http://61.183.176.122:57210', 'http://175.43.84.29:9999', ]...
  • 用scrapy设置ip代理

    千次阅读 2018-11-05 11:22:52
    首先要知道什么叫做ip的代理?  当我们去用我们自己的电脑去访问服务器的...就有IP代理来解决这个问题,再没有IP代理的时候,我们会用我们自己的IP直接访问服务器,有了代理IP就是在客户端和服务端再建立一个服...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 28,986
精华内容 11,594
关键字:

ip代理