精华内容
下载资源
问答
  • 代理IP获取

    2019-03-02 23:09:28
    代理IP获取,实现,第一次上传源码,我自已写的,不喜勿喷
  • 获取代理IP的工具,有需要的朋友下载吧 代理IP获取工具代理IP获取工具代理IP获取工具代理IP获取工具
  • 易语言代理IP获取源码,代理IP获取,取指定内容,文本取右边,提示信息
  • 代理IP获取.e

    2020-05-26 12:05:05
    代理IP获取.e
  • 代理ip获取

    2013-09-22 00:04:59
    代理ip获取
  • 代理IP 获取

    2012-07-29 18:16:51
    代理IP 获取器 每天都更新IP 高效率
  • 代理IP获取

    2013-08-17 15:08:24
    代理ip获取器(本软件由易语言开发,报毒纯属误报)
  • 代理IP扫描-代理IP获取器,可以用于网络的个人及相关企业的代理。
  • 代理IP获取器1.1

    2013-06-20 09:26:48
    代理IP获取器1.1可获取大量ip哦
  • 商易代理IP获取器2.1

    2013-08-05 16:24:56
    商易代理IP获取器2.1 最好用的免费IP代理获取工具
  • 动态代理IP获取.rar

    2020-09-16 11:24:29
    免费获取动态ip代理,通过c#语言进行获取动态ip代理Ip,实时有效的一个小工具,输入个数,直接获取
  • 高匿代理ip获取工具v2.0.exe 高匿代理ip获取
  • 企业爬虫可以通过代理ip获取哪些信息?我们都知道,如今互联网经济的飞速发展,数据采集逐渐的流行成为行业发展的趋势,通过大数据采集观察数据的变化,可以知道行业发展的状况,并且根据数据情况做出调整。那么,...

    企业爬虫可以通过代理ip获取哪些信息?我们都知道,如今互联网经济的飞速发展,数据采集逐渐的流行成为行业发展的趋势,通过大数据采集观察数据的变化,可以知道行业发展的状况,并且根据数据情况做出调整。那么,企业利用代理ip让爬虫采集什么数据?企业爬虫可以通过代理ip获取哪些信息?

    毕竟不是所有通过大数据进行采集的数据都会产生价值,也就没有必要发生消费成本去获取没有利用价值的信息,企业需要的是拥有价值的信息,那么我们进行数据采集的时候应该注意什么问题呢?

    1.企业爬虫通过动态代理IP获取到零售业数据状况

    零售业需要监控的内容就是客户的店内走动情况以及与商品的互动。它们将这些数据与交易记录相结合展开来进行分析,通过分析可以了解并调整对商品的供应数量以及摆放位置以及何时调整售价上给出意见,此类方法使某领先零售企业减少了17%的存货,同时在保持市场份额的前提下,增加了高利润率自有品牌商品的比例。

    2.企业爬虫通过动态代理IP获取到制造行业数据状况

    利用工业大数据提升制造水平,通过大数据能够分析出产品的故障诊断与预测、分析工艺流程、改进生产工艺,优化生产过程能耗、工业供应链分析与优化、生产计划与排程。

    3. 企业爬虫通过动态代理IP获取到餐饮业数据状况

    利用餐饮数据状况,改变传统的餐饮经营方式,实现餐饮业O2O模式的进一步发展

    4.企业爬虫通过动态代理IP获取到互联网行业数据状况

    可以说大数据采集最有利的行业就是互联网的行业了,借助于大数据技术分析用户的行为,进行商品推荐和针对性广告投放。

    5. 企业爬虫通过动态代理IP获取到个人生活数据状况

    通过大数据可以分析出个人的生活轨迹,为其个性化服务的实施提供依据。

    6.企业爬虫通过动态代理IP获取到物流行业数据状况

    利用大数据优化物流网络,提高物流效率,降低物流成本。

    7.企业爬虫通过动态代理IP获取到金融业数据状况

    大数据在高频交易、社交情绪分析和信贷风险分析三大金融创新领域发挥重大作用。

    采集商品数据要注意:

    1.高效性

    这里的所说的高效性包括技术执行的高效性,团队内部成员的默契度以及数据分析需求和目标实现的高效性。

    2.多维性

    数据更重要的是能满足分析需求。灵活、快速自定义数据的多种属性和不同类型,从而满足不同的分析目标。

    比如“查看商品详情”这一行为,通过埋点,我们才能知道用户查看的商品是什么、价格、类型、商品id等多个属性。从而知道用户看过哪些商品、什么类型的商品被查看的多、某一个商品被查看了多少次。而不仅仅是知道用户进入了商品详情页。

    3.全面性

    数据量足够具有分析价值、数据面足够支撑分析需求。

    比如对于“查看商品详情”这一行为,需要采集用户触发时的环境信息、会话、以及背后的用户id,最后需要统计这一行为在某一时段触发的人数、次数、人均次数、活跃比等。

    展开全文
  • 在本人用scrapy框架抓取目标网站时由于抓取信息量过大,常常会碰到目标网站封闭本人主机IP,因此学习并找到通过代理IP解决IP限制问题,scrapy里怎么设置可参考:scrapy设置IP池,这里只做代理IP获取并验证部分演示。...

    在本人用scrapy框架抓取目标网站时由于抓取信息量过大,常常会碰到目标网站封闭本人主机IP,因此学习并找到通过代理IP解决IP限制问题,scrapy里怎么设置可参考:scrapy设置IP池,这里只做代理IP获取并验证部分演示。

    #!/usr/bin/env python  
    # encoding: utf-8  
    """ 
    @version: v1.0 
    @author: W_H_J 
    @license: Apache Licence  
    @contact: 415900617@qq.com 
    @site:  
    @software: PyCharm 
    @file: Proxies.py 
    @time: 2018/3/13 14:09 
    @describe: 抓取xici网站代理ip
    http://blog.csdn.net/u011781521/article/details/70194744?locationNum=4&fps=1
    """
    from bs4 import BeautifulSoup
    from multiprocessing import Process, Queue
    import random
    import requests
    
    
    class Proxies(object):
    
        """docstring for Proxies"""
        def __init__(self, page=3):
            self.proxies = []
            self.verify_pro = []
            self.page = page
            self.headers = {
            'Accept': '*/*',
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36',
            'Accept-Encoding': 'gzip, deflate, sdch',
            'Accept-Language': 'zh-CN,zh;q=0.8'
            }
            self.get_proxies()
            self.get_proxies_nn()
    
        def get_proxies(self):
            page = random.randint(1,10)
            page_stop = page + self.page
            while page < page_stop:
                url = 'http://www.xicidaili.com/nt/%d' % page
                html = requests.get(url, headers=self.headers).content
                soup = BeautifulSoup(html, 'lxml')
                ip_list = soup.find(id='ip_list')
                for odd in ip_list.find_all(class_='odd'):
                    protocol = odd.find_all('td')[5].get_text().lower()+'://'
                    self.proxies.append(protocol + ':'.join([x.get_text() for x in odd.find_all('td')[1:3]]))
                page += 1
    
        def get_proxies_nn(self):
            page = random.randint(1,10)
            page_stop = page + self.page
            while page < page_stop:
                url = 'http://www.xicidaili.com/nn/%d' % page
                html = requests.get(url, headers=self.headers).content
                soup = BeautifulSoup(html, 'lxml')
                ip_list = soup.find(id='ip_list')
                for odd in ip_list.find_all(class_='odd'):
                    protocol = odd.find_all('td')[5].get_text().lower() + '://'
                    self.proxies.append(protocol + ':'.join([x.get_text() for x in odd.find_all('td')[1:3]]))
                page += 1
    
        def verify_proxies(self):
            # 没验证的代理
            old_queue = Queue()
            # 验证后的代理
            new_queue = Queue()
            print ('verify proxy........')
            works = []
            for _ in range(15):
                works.append(Process(target=self.verify_one_proxy, args=(old_queue,new_queue)))
            for work in works:
                work.start()
            for proxy in self.proxies:
                old_queue.put(proxy)
            for work in works:
                old_queue.put(0)
            for work in works:
                work.join()
            self.proxies = []
            while 1:
                try:
                    self.proxies.append(new_queue.get(timeout=1))
                except:
                    break
            print ('verify_proxies done!')
    
    
        def verify_one_proxy(self, old_queue, new_queue):
            while 1:
                proxy = old_queue.get()
                if proxy == 0:break
                protocol = 'https' if 'https' in proxy else 'http'
                proxies = {protocol: proxy}
                try:
                    if requests.get('http://www.baidu.com', proxies=proxies, timeout=2).status_code == 200:
                        print ('success %s' % proxy)
                        new_queue.put(proxy)
                except:
                    print ('fail %s' % proxy)
    
    
    if __name__ == '__main__':
        a = Proxies()
        a.verify_proxies()
        print (a.proxies)
        proxie = a.proxies
        with open('proxies.txt', 'a') as f:
           for proxy in proxie:
                 f.write(proxy+'\n')

    这里获取到的IP质量较低,为了提高IP质量,在下面部分再次用于抓取代理IP验证,这里耗时比较多,但是经过再次筛选完的IP质量较高,可用于最终IP池设置。

    #!/usr/bin/env python  
    # encoding: utf-8  
    """ 
    @version: v1.0 
    @author: W_H_J 
    @license: Apache Licence  
    @contact: 415900617@qq.com 
    @site:  
    @software: PyCharm 
    @file: ceshiIp.py 
    @time: 2018/3/13 14:17 
    @describe: 对抓取的代理ip再次验证筛选,通过则保存,否则遗弃。
    验证 cmd命令行输入Telnet 127.0.0.1 3306
    """
    import telnetlib
    
    f = open('proxies.txt')
    g = open('IP-OK.txt', 'w')
    for f in f:
        str_index_1 = f.find('//')
        str_index_2 = f.rfind(":")
        str_id = f[str_index_1+2:str_index_2]
        str_port = f[str_index_2+1:]
        try:
            telnetlib.Telnet(host=str(str_id), port=int(str_port), timeout=20)
        except:
            print('connect failed', str_id+":"+str_port)
        else:
            print('success', str_id+":"+str_port)
            g.write(str_id+":"+str_port)
    g.close()
    
    
    
    
    

    展开全文
  • 最新代理IP获取

    2013-09-30 22:08:36
    免费获取代理的工具
  • 程序结合易语言模块实现获取代理IP
  • 代理IP获取 V2.0

    2013-07-16 08:14:43
    程序可以获取代理ip地址加入了导出功能,并增加测速,收藏,设置代理功能,获取完后右键点击列表项选择相关操作。由于程序由易语言编写,所以在运行时可能会报毒,请大家放心使用,程序内绝对没有木马病毒。刚刚修改...
  • 本软件可一键获取并筛选网络中每日公布的代理IP,根据需要可选择使用获取到的代理IP,也可批量导出所有IP到本地,方便、快捷。 使用中注意事项: 1、请关闭本机防火墙。由于软件获取网络中资源会被部分防护软件阻止...
  • 互联网经济的飞速发展,数据采集逐渐的流行成为行业发展的趋势,通过大数据采集观察数据的变化,可以知道行业发展的状况,并且根据数据情况做出调整。那么,企业利用代理ip...1.企业爬虫通过动态代理IP获取到零售业...

    互联网经济的飞速发展,数据采集逐渐的流行成为行业发展的趋势,通过大数据采集观察数据的变化,可以知道行业发展的状况,并且根据数据情况做出调整。那么,企业利用代理ip让爬虫采集什么数据?

    毕竟不是所有通过大数据进行采集的数据都会产生价值,也就没有必要发生消费成本去获取没有利用价值的信息,企业需要的是拥有价值的信息,那么我们进行数据采集的时候应该注意什么问题呢?

    1.企业爬虫通过动态代理IP获取到零售业数据状况

    零售业需要监控的内容就是客户的店内走动情况以及与商品的互动。它们将这些数据与交易记录相结合展开来进行分析,通过分析可以了解并调整对商品的供应数量以及摆放位置以及何时调整售价上给出意见

    ,此类方法使某领先零售企业减少了17%的存货,同时在保持市场份额的前提下,增加了高利润率自有品牌商品的比例。
    在这里插入图片描述
    企业爬虫通过动态代理IP获取到零售业数据状况

    2.企业爬虫通过动态代理IP获取到互联网行业数据状况

    可以说大数据采集最有利的行业就是互联网的行业了,借助于大数据技术分析用户的行为,进行商品推荐和针对性广告投放。
    在这里插入图片描述
    企业爬虫通过动态代理IP获取到互联网行业数据状况

    3.企业爬虫通过动态代理IP获取到制造行业数据状况

    利用工业大数据提升制造水平,通过大数据能够分析出产品的故障诊断与预测、分析工艺流程、改进生产工艺,优化生产过程能耗、工业供应链分析与优化、生产计划与排程。
    在这里插入图片描述
    企业爬虫通过动态代理IP获取到制造业数据状况

    4.企业爬虫通过动态代理IP获取到餐饮业数据状况
    利用餐饮数据状况,改变传统的餐饮经营方式,实现餐饮业O2O模式的进一步发展
    在这里插入图片描述
    企业爬虫通过动态代理IP获取到餐饮业数据状况

    5.企业爬虫通过动态代理IP获取到金融业数据状况
    大数据在高频交易、社交情绪分析和信贷风险分析三大金融创新领域发挥重大作用。
    在这里插入图片描述
    企业爬虫通过动态代理IP获取到金融业数据状况

    企业爬虫通过动态代理IP获取到个人生活数据状况
    通过大数据可以分析出个人的生活轨迹,为其个性化服务的实施提供依据。

    企业爬虫通过动态代理IP获取到个人生活数据状况

    7.企业爬虫通过动态代理IP获取到物流行业数据状况

    利用大数据优化物流网络,提高物流效率,降低物流成本。

    企业爬虫通过动态代理IP获取到物流行业数据状况

    采集商品数据要注意:

    1.高效性

    这里的所说的高效性包括技术执行的高效性,团队内部成员的默契度以及数据分析需求和目标实现的高效性。

    2.多维性

    数据更重要的是能满足分析需求。灵活、快速自定义数据的多种属性和不同类型,从而满足不同的分析目标。

    比如“查看商品详情”这一行为,通过埋点,我们才能知道用户查看的商品是什么、价格、类型、商品id等多个属性。从而知道用户看过哪些商品、什么类型的商品被查看的多、某一个商品被查看了多少次。而不仅仅是知道用户进入了商品详情页。

    3.全面性

    数据量足够具有分析价值、数据面足够支撑分析需求。

    比如对于“查看商品详情”这一行为,需要采集用户触发时的环境信息、会话、以及背后的用户id,最后需要统计这一行为在某一时段触发的人数、次数、人均次数、活跃比等。

    展开全文
  • 1.可即时获取有效的代理IP 2.可一键设置为IE代理 3.可一键取消IE代理 4.每天可获取数十万有效的http代理IP
  • 代理头部代理ip获取网页内容

    千次阅读 2018-11-28 15:57:05
    import requests from bs4 import BeautifulSoup import chardet import random import time def getHtml(url): #准备一个网址 ...#获取响应网页 response=requests.get(url) #获取编码 code=chardet.detect...

    import requests
    from bs4 import BeautifulSoup
    import chardet
    import random
    import time
    def getHtml(url):
    #准备一个网址

    url=‘http://www.baidu.com

    #获取响应网页
    response=requests.get(url)
    #获取编码
    code=chardet.detect(response.content)['encoding']
    #指定编码
    response.encoding=code
    #获取文本内容
    #print(response.text)
    return response.text
    

    url=‘http://www.baidu.com

    print(getHtml(url))

    #使用浏览器头部 以及代理IP 获取网页内容
    _time_count=1
    def getHtmlWithIP(url):
    #获取浏览器头部
    user_agent = [
    “Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50”,
    “Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50”,
    “Mozilla/5.0 (Windows NT 10.0; WOW64; rv:38.0) Gecko/20100101 Firefox/38.0”,
    “Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; .NET4.0C; .NET4.0E; .NET CLR 2.0.50727; .NET CLR 3.0.30729; .NET CLR 3.5.30729; InfoPath.3; rv:11.0) like Gecko”,
    “Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)”,
    “Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)”,
    “Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)”,
    “Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)”,
    “Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1”,
    “Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1”,
    “Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11”,
    “Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11”,
    “Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11”,
    “Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0)”,
    “Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; TencentTraveler 4.0)”,
    “Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)”,
    “Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; The World)”,
    “Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SE 2.X MetaSr 1.0; SE 2.X MetaSr 1.0; .NET CLR 2.0.50727; SE 2.X MetaSr 1.0)”,
    “Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)”,
    “Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Avant Browser)”,
    “Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)”,
    “Mozilla/5.0 (iPhone; U; CPU iPhone OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5”,
    “Mozilla/5.0 (iPod; U; CPU iPhone OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5”,
    “Mozilla/5.0 (iPad; U; CPU OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5”,
    “Mozilla/5.0 (Linux; U; Android 2.3.7; en-us; Nexus One Build/FRF91) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1”,
    “MQQBrowser/26 Mozilla/5.0 (Linux; U; Android 2.3.7; zh-cn; MB200 Build/GRJ22; CyanogenMod-7) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1”,
    “Opera/9.80 (Android 2.3.4; Linux; Opera Mobi/build-1107180945; U; en-GB) Presto/2.8.149 Version/11.10”,
    “Mozilla/5.0 (Linux; U; Android 3.0; en-us; Xoom Build/HRI39) AppleWebKit/534.13 (KHTML, like Gecko) Version/4.0 Safari/534.13”,
    “Mozilla/5.0 (BlackBerry; U; BlackBerry 9800; en) AppleWebKit/534.1+ (KHTML, like Gecko) Version/6.0.0.337 Mobile Safari/534.1+”,
    “Mozilla/5.0 (hp-tablet; Linux; hpwOS/3.0.0; U; en-US) AppleWebKit/534.6 (KHTML, like Gecko) wOSBrowser/233.70 Safari/534.6 TouchPad/1.0”,
    “Mozilla/5.0 (SymbianOS/9.4; Series60/5.0 NokiaN97-1/20.0.019; Profile/MIDP-2.1 Configuration/CLDC-1.1) AppleWebKit/525 (KHTML, like Gecko) BrowserNG/7.1.18124”,
    “Mozilla/5.0 (compatible; MSIE 9.0; Windows Phone OS 7.5; Trident/5.0; IEMobile/9.0; HTC; Titan)”,
    “UCWEB7.0.2.37/28/999”,
    “NOKIA5700/ UCWEB7.0.2.37/28/999”,
    “Openwave/ UCWEB7.0.2.37/28/999”,
    “Mozilla/4.0 (compatible; MSIE 6.0; ) Opera/UCWEB7.0.2.37/28/999”,
    # iPhone 6:
    “Mozilla/6.0 (iPhone; CPU iPhone OS 8_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko) Version/8.0 Mobile/10A5376e Safari/8536.25”,

    ]
    
    proxies = [
        {'HTTPS': '106.75.226.36:808', 'HTTP': '61.135.217.7:80'},
        {'HTTPS': '106.75.164.15:3128', 'HTTP': '118.190.95.35:9001'},
        {'HTTPS': '101.204.70.51:808', 'HTTP': '124.235.181.175:80'},
        {'HTTPS': '110.73.44.89:8123', 'HTTP': '110.73.6.70:8123'},
        {'HTTPS': '182.88.179.108:8123', 'HTTP': '110.73.0.121:8123'},
        {'HTTPS': '106.75.164.15:3128', 'HTTP': '61.135.217.7:80'},
        {'HTTPS': '106.75.226.36:808', 'HTTP': '222.94.145.158:808'},
        {'HTTPS': '121.31.192.106:8123', 'HTTP': '118.190.95.35:9001'},
        {'HTTPS': '106.75.164.15:3128', 'HTTP': '124.235.181.175:80'},
        {'HTTPS': '116.77.206.56:80', 'HTTP': '116.1.11.19:80'},
        {'HTTPS': '106.75.226.36:808', 'HTTP': '106.75.225.83:808'},
        {'HTTPS': '175.18.215.50:80', 'HTTP': '61.135.217.7:80'},
        {'HTTPS': '175.148.159.199:80', 'HTTP': '118.190.95.35:9001'}
    ]
    
    try:
        # 获取响应网页
        response = requests.get(
            url,
            headers={'User-Agent':random.choice(user_agent)},
            proxies=random.choice(proxies)
        )
    
        # 获取编码
        code = chardet.detect(response.content)['encoding']
        # 指定编码
        response.encoding = code
        # 获取文本内容
        # print(response.text)
        return response.text
    except:
        time.sleep(1)
        global _time_count
        _time_count+=1
        if _time_count>20:
            print("您的IP真的有问题,再找几个好不好")
            return
        print('尝试第',_time_count,'次运行')
    
    展开全文
  • 代理ip的时候有三种方式 买到一批代理ip号后,利用卖者网站给的id访问卖者网站,返回一个ip号 卖家网站发一个TXT文件,放一批ip号 下载卖家的软件,会更改本地的ip 我使用的是第二种,黑洞ip的 import requests ...
  • 代码来源于CSDN,但是那个代码有很多错误都被我修改了,软件使用快代理的VIP功能获取代理IP,并获取指定地区IP,并多线程测试是否可用(项目完整并可运行)且使用多线程做校验
  • 处理爬虫资源最常见的方式是使用代理IP,一种是免费资源,一种是购买专业代理IP。免费成本低,但不稳定。大部分本地代理IP基本用不上,质量很差。对于爬虫工作者来说,任务繁重,分布式爬虫也是提高工作效率的好办法...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 6,196
精华内容 2,478
关键字:

代理ip获取