精华内容
下载资源
问答
  • 网络代理的基本原理

    千次阅读 2018-12-10 18:55:41
    这样我们同样可以正常访问网页,但这个过程中Web服务器识别出的真实IP就不再是我们本机的IP了,就成功实现了IP伪装,这就是代理的基本原理。 2. 代理的作用 那么,代理有什么作用呢?我们可以简单列举如下。 ...

    我们在做爬虫的过程中经常会遇到这样的情况,最初爬虫正常运行,正常抓取数据,一切看起来都是那么美好,然而一杯茶的功夫可能就会出现错误,比如403 Forbidden,这时候打开网页一看,可能会看到“您的IP访问频率太高”这样的提示。出现这种现象的原因是网站采取了一些反爬虫措施。比如,服务器会检测某个IP在单位时间内的请求次数,如果超过了这个阈值,就会直接拒绝服务,返回一些错误信息,这种情况可以称为封IP。

    既然服务器检测的是某个IP单位时间的请求次数,那么借助某种方式来伪装我们的IP,让服务器识别不出是由我们本机发起的请求,不就可以成功防止封IP了吗?

    一种有效的方式就是使用代理,后面会详细说明代理的用法。在这之前,需要先了解下代理的基本原理,它是怎样实现IP伪装的呢?

    1. 基本原理

    代理实际上指的就是代理服务器,英文叫作proxy server,它的功能是代理网络用户去取得网络信息。形象地说,它是网络信息的中转站。在我们正常请求一个网站时,是发送了请求给Web服务器,Web服务器把响应传回给我们。如果设置了代理服务器,实际上就是在本机和服务器之间搭建了一个桥,此时本机不是直接向Web服务器发起请求,而是向代理服务器发出请求,请求会发送给代理服务器,然后由代理服务器再发送给Web服务器,接着由代理服务器再把Web服务器返回的响应转发给本机。这样我们同样可以正常访问网页,但这个过程中Web服务器识别出的真实IP就不再是我们本机的IP了,就成功实现了IP伪装,这就是代理的基本原理。

    2. 代理的作用

    那么,代理有什么作用呢?我们可以简单列举如下。

    • 突破自身IP访问限制,访问一些平时不能访问的站点。
    • 访问一些单位或团体内部资源:比如使用教育网内地址段免费代理服务器,就可以用于对教育网开放的各类FTP下载上传,以及各类资料查询共享等服务。
    • 提高访问速度:通常代理服务器都设置一个较大的硬盘缓冲区,当有外界的信息通过时,同时也将其保存到缓冲区中,当其他用户再访问相同的信息时,则直接由缓冲区中取出信息,传给用户,以提高访问速度。
    • 隐藏真实IP:上网者也可以通过这种方法隐藏自己的IP,免受攻击。对于爬虫来说,我们用代理就是为了隐藏自身IP,防止自身的IP被封锁。

    3. 爬虫代理

    对于爬虫来说,由于爬虫爬取速度过快,在爬取过程中可能遇到同一个IP访问过于频繁的问题,此时网站就会让我们输入验证码登录或者直接封锁IP,这样会给爬取带来极大的不便。

    使用代理隐藏真实的IP,让服务器误以为是代理服务器在请求自己。这样在爬取过程中通过不断更换代理,就不会被封锁,可以达到很好的爬取效果。

    4. 代理分类

    代理分类时,既可以根据协议区分,也可以根据其匿名程度区分。

    (1) 根据协议区分

    根据代理的协议,代理可以分为如下类别。

    • FTP代理服务器:主要用于访问FTP服务器,一般有上传、下载以及缓存功能,端口一般为21、2121等。
    • HTTP代理服务器:主要用于访问网页,一般有内容过滤和缓存功能,端口一般为80、8080、3128等。
    • SSL/TLS代理:主要用于访问加密网站,一般有SSL或TLS加密功能(最高支持128位加密强度),端口一般为443。
    • RTSP代理:主要用于访问Real流媒体服务器,一般有缓存功能,端口一般为554。
    • Telnet代理:主要用于telnet远程控制(黑客入侵计算机时常用于隐藏身份),端口一般为23。
    • POP3/SMTP代理:主要用于POP3/SMTP方式收发邮件,一般有缓存功能,端口一般为110/25。
    • SOCKS代理:只是单纯传递数据包,不关心具体协议和用法,所以速度快很多,一般有缓存功能,端口一般为1080。SOCKS代理协议又分为SOCKS4和SOCKS5,前者只支持TCP,而后者支持TCP和UDP,还支持各种身份验证机制、服务器端域名解析等。简单来说,SOCK4能做到的SOCKS5都可以做到,但SOCKS5能做到的SOCK4不一定能做到。

    (2) 根据匿名程度区分

    根据代理的匿名程度,代理可以分为如下类别。

    • 高度匿名代理:会将数据包原封不动地转发,在服务端看来就好像真的是一个普通客户端在访问,而记录的IP是代理服务器的IP。
    • 普通匿名代理:会在数据包上做一些改动,服务端上有可能发现这是个代理服务器,也有一定几率追查到客户端的真实IP。代理服务器通常会加入的HTTP头有HTTP_VIAHTTP_X_FORWARDED_FOR
    • 透明代理:不但改动了数据包,还会告诉服务器客户端的真实IP。这种代理除了能用缓存技术提高浏览速度,能用内容过滤提高安全性之外,并无其他显著作用,最常见的例子是内网中的硬件防火墙。
    • 间谍代理:指组织或个人创建的用于记录用户传输的数据,然后进行研究、监控等目的的代理服务器。

    5. 常见代理设置

    • 使用网上的免费代理:最好使用高匿代理,另外可用的代理不多,需要在使用前筛选一下可用代理,也可以进一步维护一个代理池。
    • 使用付费代理服务:互联网上存在许多代理商,可以付费使用,质量比免费代理好很多。
    • ADSL拨号:拨一次号换一次IP,稳定性高,也是一种比较有效的解决方案。

    在后文我们会详细介绍这几种代理的使用方式。

    6. 参考来源

    由于涉及一些专业名词知识,本节的部分内容参考来源如下。

    转载自静觅 » [Python3网络爬虫开发实战] 2.5-代理的基本原理

    https://cuiqingcai.com/5491.html

    展开全文
  • Linux配置http代理原理

    千次阅读 2020-07-05 17:58:00
    全局代理 如果要全局用户使用应用于所有的Shell,就需要修改 /etc/profile 文件 代理服务开启 设置全局代理,需要编辑profile文件 vi /etc/profile 文末添加以下代理配置,参考代理是否需要用户名密码 #无用户名...

    我们可以在很多地方设置Proxy,生产环境中最常见的还是在应用中直接调用一些库来为应用设置Proxy,但在测试Proxy的时候,就需要用到系统全局的Proxy设置以及部分应用的Proxy

    常见的Proxy一般就两种,SocksHTTP,HTTP是一种七层代理,而Socks则是封装过后的四层代理

    顾名思义,HTTP只能代理HTTP协议的流量,Socks则只接受Socks封装过的流量,对于大部分Web应用,我们会部署HTTP代理,因为如果经过了Socks封装,前置在应用和代理服务器之间的防火墙就无法看到URL了(你可能会奇怪防火墙为什么不是在最外面,事实上这里的防火墙专用于URL过滤,放在代理服务器外侧也可以,但如此一来,防火墙将看不到真正的源主机的地址,而只能看到代理服务器的地址了)

    而对于无法通过HTTP代理的协议,比如SSH和SFTP,就需要用到Socks代理了

    使用Socks代理,和使用的Socks Server有一定的相关性,日常大家用的最多的Socks代理是**************************,不过我们在一些环境中不会使用这么麻烦的,Dante Socks就是一个比较好的选择

    Windows以及部分浏览器(例如Firefox)可以设置Socks代理,Linux全局下似乎无法设置,但是一些其他方法可以在不安装Socks客户端的情况下使用Socks代理

    全局代理

    在/etc/profile下增加下列配置即可设置HTTP/HTTPS/FTP代理

    如果要全局用户使用应用于所有的Shell,就需要修改 /etc/profile 文件

    代理服务开启

    设置全局代理,需要编辑profile文件

    vi /etc/profile
    

    文末添加以下代理配置,参考代理是否需要用户名密码

    #无用户名密码
    export http_proxy=http://proxy_ip:prot
    export https_proxy=https://proxy_ip:prot
     
    #有用户名密码
    export http_proxy=http://username:password@proxy_ip:prot
    export https_proxy=https://username:password@proxy_ip:port
    export ftp_proxy=http://username:password@proxyserver:port
    

    export http_proxy=http://192.168.64.1:1080
    export https_proxy=http://192.168.64.1:1080
    
    # 或者建议这样配置
    http_proxy=proxy.abc.com:8080  
    https_proxy=$http_proxy  
    ftp_proxy=user:password@proxy.abc.com:8080  
    no_proxy=*.abc.com,10.*.*.*,192.168.*.*,*.local,localhost,127.0.0.1  
    export http_proxy https_proxy ftp_proxy no_proxy  
    

    其中:

    • http_proxy:http协议使用代理服务器地址;
    • https_proxy:https协议使用安全代理地址;
    • ftp_proxy:ftp协议使用代理服务器地址;
    • user:代理使用的用户名;
    • password:代理使用用户名的密码;
    • proxy.abc.com:代理地址,可以是IP,也可以是域名;
    • 8080:使用的端口;
    • no_proxy:不使用代理的主机或IP。

    备注:

    环境变量描述值示例
    http_proxy为http变量设置代理;默认不填开头以http协议传输10.0.0.51:8080
    user:pass@10.0.0.10:8080
    socks4://10.0.0.51:1080
    socks5://192.168.1.1:1080
    https_proxy为https变量设置代理;同上
    ftp_proxy为ftp变量设置代理;同上
    all_proxy全部变量设置代理,设置了这个时候上面的不用设置同上
    no_proxy无需代理的主机或域名;
    可以使用通配符;
    多个时使用“,”号分隔;
    *.aiezu.com,10.*.*.*,
    192.168.*.*,*.local,localhost,127.0.0.1

    1、在/etc/profile文件
    2、在~/.bashrc
    3、在~/.zshrc
    4、在/etc/profile.d/文件夹下新建一个文件xxx.sh

    写入如下配置:

    export proxy="http://192.168.5.14:8118"
    export http_proxy=$proxy
    export https_proxy=$proxy
    export ftp_proxy=$proxy
    export no_proxy="localhost, 127.0.0.1, ::1"
    

    而对于要取消设置可以使用如下命令,其实也就是取消环境变量的设置:

    unset http_proxy
    unset https_proxy
    unset ftp_proxy
    unset no_proxy
    

    此方法只适合配置http代理,使用socket代理上网的另有其他配置方法。

    生效配置文件

    source /etc/profile
    . /etc/profile
    

    查看当前已设置代理

    echo $http_proxy
    echo $https_proxy
    

    测试

    因为

    subversion的代理服务器配置

    要配置subversion的代理服务器,需要修改$HOME/.subversion/servers文件,在此文件的[global]段加上:

    http-proxy-host = 192.168.1.1
    http-proxy-port = 8080 
    http-proxy-username = easwy
    http-proxy-password = 123456 
    

    现在svn就可以使用代理服务器访问版本库了。

    yum的代理服务器配置

    针对yum配置走代理:
    经过测试其实只要设置上面的变量之后已经可以走代理了,但如果要单独设置,可以设置如下文件的变量:

    echo "proxy=http://127.0.0.1:8080/" >> /etc/yum.conf
    

    如果想让CentOS中的yum可以通过代理服务器更新程序,则需要修改文件/etc/yum.conf,在此文件中加上:

    proxy=http://easwy:123456@192.168.1.1:8080
    

    https://blog.csdn.net/weixin_34378969/article/details/94684696

    展开全文
  • 网络代理原理理解

    2020-09-18 19:46:32
    网络代理的基本原理 代理实际上指的就是代理服务器,英文叫作proxy server,它的功能是代理网络用户去取得网络信息。形象地说,它是网络信息的中转站。在我们正常请求一个网站时,是发送了请求给Web服务器,Web...

    网络代理的基本原理

    代理实际上指的就是代理服务器,英文叫作proxy server,它的功能是代理网络用户去取得网络信息。形象地说,它是网络信息的中转站。在我们正常请求一个网站时,是发送了请求给Web服务器,Web服务器把响应传回给我们。如果设置了代理服务器,实际上就是在本机和服务器之间搭建了一个桥,此时本机不是直接向Web服务器发起请求,而是向代理服务器发出请求,请求会发送给代理服务器,然后由代理服务器再发送给Web服务器,接着由代理服务器再把Web服务器返回的响应转发给本机。这样我们同样可以正常访问网页,但这个过程中Web服务器识别出的真实IP就不再是我们本机的IP了,就成功实现了IP伪装。

    网络代理原理图

    在这里插入图片描述

    展开全文
  • 一、代理服务器原理【Proxy Serve】: 代理服务器就类似代理商,如图,假设你的机器为A机,你想获得的数据由B机提供,代理服务器为C机,那么具体的连接过程是这样的: 首先,A机需要B机的数据,它与C机建立连接,C...

    解决公司限制上网时间问题

    一、代理服务器原理【Proxy Serve】:

    代理服务器就类似代理商,如图,假设你的机器为A机,你想获得的数据由B机提供,代理服务器为C机,那么具体的连接过程是这样的:

    在这里插入图片描述

    首先,A机需要B机的数据,它与C机建立连接,C机接收到A机的数据请求后,与B机建立连接,下载A机所请求的B机上的数据到本地,再将此数据发送至A机,完成代理访问服务。

    二、代理服务器的优点:

    1. 突破自身IP访问限制,访问国外站点或者其他之前不能访问的站点。
    2. 提高访问速度:通常代理服务器都设置了一个较大的硬盘缓冲区,当有外界的信息通过的时候,同时也将其保存在缓冲区中,当其他用户在访问相同的信息时,则直接有缓冲区取出信息,传给用户,以提高访问速度
    3. 链接内网与Internet,充当防火墙:因为所有的内部网用户通过代理服务器访问外界时,只映射一个IP地址,所以外界不能直接访问到内部网;同时可以设置IP地址过滤,限制内部网对外部的访问权限
    4. 隐藏真实IP:上网者可以通过这种方式隐藏自己的IP,以免受到攻击;
    5. 设置用户验证和记账功能,没有登记的用户无权通过代理服务器访问Internet网。并对用户的访问时间、访问地点、信息流量进行统计。

    三、HTTP代理:

    www对于每一个上网的人都很熟悉,www连接请求就是采用的http协议,所以我们在浏览网页,下载数据时就是用http代理。它通常绑定在代理服务器的80、3128、8080等端口上。

    四、代理服务器用法:

    1、进入IE浏览器–>工具–>Internet选项–>连接–>局域网设置
    在这里插入图片描述

    2、局域网代理设置如下:
    在这里插入图片描述

    3、然后点击确定,到这里代理服务器就设置成功了,就可以自由上网啦。

    展开全文
  • 上网原理

    千次阅读 2016-02-25 09:04:18
    宽带路由器作为一种网络共享设备开始越来越多的出现在我们的生活、工作、学习...今天,我们就为大家详细介绍宽带路由器的共享上网原理和选择宽带路由器还是代理服务器软件这两个问题。    宽带路由器工作原理  
  • 许多公司和学校都是用http代理上网,所以不能玩网游,这并不是不能解决的,可以通过软件来玩突破!
  • 目前路由器接入的方式有很多种,同时路由技术也在逐步的完善和升级,这里我们主要介绍路由器接入Internet与代理服务器原理,对于小型用户群体或家庭用户接入Internet,采用代理服务器通过拨号或者ADSL上网,不失为...
  • Apache 反向代理原理介绍

    千次阅读 2015-12-14 17:21:10
     http://www.apachetutor.org/admin/reverseproxies
  • 私有IP通过网关代理上网原理

    千次阅读 2014-03-09 16:06:13
    1.网关计算机的ip地址只能是内网的ip不能是Internet的ip,因为内网的其他计算机必须找到这个网关计算机,如果网关计算机设置为外网的ip,那么其他计算机找不到他  2.192.168.0.1-------166.111.111.10 ...
  • 代理服务器原理

    2017-06-26 01:37:20
    代理服务器(Proxy Server):代理服务器,顾名思义就是局域上不能直接上网的机器将上网请求(比如说,浏览某个主页)发给能够直接上网代理服务器,然后代理服务器代理完成这个上网请求,将它所要浏览的主页调入...
  • CCProxy代理上网设置方法

    万次阅读 2018-11-10 00:51:35
    CCProxy代理上网设置方法
  • 关于代理服务器的原理及用法

    千次阅读 2021-11-12 16:44:54
    关于代理服务器的原理及用法 一,什么是代理服务器(Proxy)? 答:以类似代理人的身份去取的用户需要的数据。由于它的【代理】能力,使得我们可以透过代理服务器来达成防火墙与用户数据的分析。除此之外我们还可以...
  • 高匿名代理IP是代理中最常用的一种,也是首选,这是因为高匿名代理IP可以完全隐藏用户的IP及信息,让目标网站不会有丝毫的察觉,无论是用来做什么工作都可以放心使用。如果被访问端无法识别出来访者是否使用了代理IP...
  • Android模拟器代理上网原理

    千次阅读 2011-07-30 12:25:30
    浏览器可以上网的主要过程是: 1.用户输入的网址(URL)被传送到域名服务器进行解析获得IP地址, 2.向这个IP地址对应的服务器发送http请求 ... 4.浏览器解析获得的代码,呈现出可读的内容 Android模拟器代理上网
  • 本文介绍了代理服务器的概念、作用、产生的原因以及工作原理。使用Linux下的Squid代理上网的原因。 Squid 安装、配置、一个Squid配置实例以及客户端的设置。
  • 代理服务器的工作原理

    千次阅读 2017-04-20 09:29:11
    一、代理服务器的概念及工作原理 (一)代理服务器的概念  随着Internet技术的迅速发展,越来越多的计算机连入了Internet。很多公司也将自己公司的局域网接入了Internet。如何快速地访问Internet站点,提高网络的...
  • 爬虫基础之代理的基本原理

    千次阅读 2018-08-17 17:01:09
    1. 基本原理 代理实际上指的就是代理服务器,英文叫作proxy server,它的功能是代理网络用户去取得网络信息。形象地说,它是网络信息的中转站。在我们正常请求一个网站时,是发送了请求给Web服务器,Web服务器把...
  • 这样我们同样可以正常访问网页,但这个过程中Web服务器识别出的真实IP就不再是我们本机的IP了,就成功实现了IP伪装,这就是代理的基本原理。 2. 代理的作用 那么,代理有什么作用呢?我们可以简单列举如下。 ...
  • 一、DNS代理原理 1、DNS代理介绍: DNS代理主要应用于实现DNS流量的负载,同时可以针对指定域名返回指定结果,或者指定域名指向特定DNS服务器解析等。 代理过程:(1)终端发起DNS请求; (2)AD设备根据...
  • 反向代理原理

    千次阅读 2012-03-15 16:18:46
    局域网主机联入互联网的一种方式,使用代理上网可以节约紧缺的IP地址资源,而且可以阻断外部主机对内部主机的访问,使内部网主机免受外部网主机的攻击。但是,如果想让互联网上的主机访问内部网的主机资源(例如:...
  • 一、代理服务器的概念及工作原理 (一)代理服务器的概念  随着Internet技术的迅速发展,越来越多的计算机连入了Internet。很多公司也将自己公司的局域网接入了Internet。如何快速地访问Internet站点,提高网络的...
  • 数据采集爬虫ip代理基本原理

    千次阅读 2019-04-26 11:44:42
    我们在做爬虫的过程中经常会遇到这样的情况,最初爬虫正常运行,正常抓取数据,一切看...出现这种情况有效的解决方式就是使用代理IP 比如,服务器会检测某个IP在单位时间内的请求次数,如果超过了这个阈值,就会直...
  • 1、前言 最近工作中用到反向代理,发现网络代理的玩法还真不少,网络背后有很多需要去学习。而在此之前仅仅使用了过代理软件,曾经为了访问google,使用了代理软件,需要在浏览器中配置代理的地址。我只知道有代理...
  • linux下代理上网设置

    万次阅读 2013-09-10 15:56:10
    第一种情况是ISA服务器...浏览器上网就不用说了,直接打开火狐浏览器的首选项,设置代理上网就可以了,当想用终端install个软件时就痛苦了,此时可以用ntlmaps代理 1.到网站下一个ntlmaps的包:  这里是一个下载ntlma
  • ubuntu18.04设置代理上网

    千次阅读 2018-05-27 15:12:00
    ... 注意:在系统设置中设置代理原理就是设置代理变量,所以系统设置会覆盖掉此变量,重新启动终端生效。 转载于:https://my.oschina.net/terwergreen/blog/1819445
  • nginx代理原理和基本使用

    千次阅读 2019-01-31 17:02:37
    文章目录nginx代理原理和基本使用前言1、Nginx功能概述1.1、HTTP基础功能1.2、IMAP/POP3 代理服务功能1.3、支持的操作系统1.4、结构与扩展1.5、其他HTTP功能2、Nginx优点3、Nginx的使用场景3.1、关于代理3.2、正向...
  • 通俗的讲,动态ip是指网民上网的时候动态分配的IP,每次上网时候使用的IP是不同的,与之相对应的是静态IP,这是上网前就已经确定好的,每次上网的时候都使用这个IP。 那么动态ip代理的效果也是让客户每次连接到网络...
  • HTTP代理原理以及HTTP隧道技术(经典)

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 20,416
精华内容 8,166
关键字:

代理上网原理