精华内容
下载资源
问答
  • 网站访问量过大问题的策略

    千次阅读 2010-11-11 00:17:00
    <br />个人网站由于访问量过大而引起服务器性能问题,这是很多人的烦恼,... 前台实现完全的静态化当然最好,可以完全不用访问数据库,不过对于频繁更新的网站,静态化往往不能满足某些功能。 缓存技术


    个人网站由于访问量过大而引起服务器性能问题,这是很多人的烦恼,那么对于网站大流量带来的问题,正确的解决方法应该是什么呢?
    首先,确认服务器硬件是否足够支持当前的流量。
    普通的P4服务器一般最多能支持每天10万独立IP,如果访问量比这个还要大,那么必须首先配置一台更高性能的专用服务器才能解决问题。
    其次,优化数据库访问。
    前台实现完全的静态化当然最好,可以完全不用访问数据库,不过对于频繁更新的网站,静态化往往不能满足某些功能。
    缓存技术就是另一个解决方案,就是将动态数据存储到缓存文件中,动态网页直接调用这些文件,而不必再访问数据库,WordPress和Z-Blog都大量使用这种缓存技术。
    如果确实无法避免对数据库的访问,那么可以尝试优化数据库的查询SQL.每次查询只返回自己需要的结果,避免短时间内的大量SQL查询。
    第三,禁止外部的盗链。
    外部网站的图片或者文件盗链往往会带来大量的负载压力,因此应该严格限制外部对于自身的图片或者文件盗链,好在目前可以简单地通过refer来控制盗链,Apache自己就可以通过配置来禁止盗链,IIS也有一些第三方的ISAPI可以实现同样的功能。当然,伪造refer也可以通过代码来实现盗链,不过目前蓄意伪造refer盗链的还不多,可以先不去考虑,或者使用非技术手段来解决,比如在图片上增加水印。
    第四,控制大文件的下载。
    大文件的下载会占用很大的流量,并且对于非SCSI硬盘来说,大量文件下载会消耗CPU,使得网站响应能力下降。因此,尽量不要提供超过2M的大文件下载,如果需要提供,将大文件放在另外一台服务器上。
    第五,使用不同主机分流主要流量
    将文件放在不同的主机上,提供不同的镜像供用户下载。比如如果觉得RSS文件占用流量大,那么使用FeedBurner或者FeedSky等服务将RSS输出放在其他主机上,这样别人访问的流量压力就大多集中在FeedBurner的主机上,RSS就不占用太多资源了。
    第六,使用流量分析统计软件。
    在网站上安装一个流量分析统计软件,可以即时知道哪些地方耗费了大量流量,哪些页面需要再进行优化,因此,解决流量问题还需要进行精确的统计分析才可以。流量分析统计软件Google Analytics(Google分析)效果非常不错。

    本文来源于时光漂流瓶 http://www.9usb.net , 原文地址: http://www.9usb.net/200902/wangzhan-liuliang-2.html

    展开全文
  • 今日在提交表单时遇到问题 后来经过多次测试,发现是因为提交内容中有关键词eval()。 在Python中一些函数存在着任意代码执行的隐患,错误的使用这些方法将会导致漏洞的产生,攻击者可能会利用这些安全隐患进行攻击...

    今日在提交表单时遇到问题
    在这里插入图片描述
    后来经过多次测试,发现是因为提交内容中有关键词eval()。
    在Python中一些函数存在着任意代码执行的隐患,错误的使用这些方法将会导致漏洞的产生,攻击者可能会利用这些安全隐患进行攻击,eval()就是隐患较大的函数,因此在提交内容时,服务器直接拦截了。
    所以产生此错误很有可能因为写入了某些危险性词汇代码。

    展开全文
  • 高并发网站之解决策略

    万次阅读 2015-07-26 11:53:35
    系统在正式上线后必将会面对大量用户访问,面对各种层级的高并发请求,因此我们会采用高性能的服务器、高性能的数据库... 负载均衡将是大型网站解决高负荷访问和大量并发请求采用的终极解决办法。  (1)单个重负

    系统在正式上线后必将会面对大量用户访问,面对各种层级的高并发请求,因此我们会采用高性能的服务器、高性能的数据库、高效率的编程语言、高性能的Web容器等。但是这几个方面,还无法从根本解决大型网站面临的高负载和高并发问题。因此我们必须对此做出相应的策略和技术解决方案。

    1. 负载均衡

        负载均衡将是大型网站解决高负荷访问和大量并发请求采用的终极解决办法。

        (1)单个重负载的运算分担到多台节点设备上做并行处理,每个节点设备处理结束后,将结果汇总,返回给用户,系统处理能力得到大幅度提高.

        (2)大量的并发访问或数据流量分担到多台节点设备上分别处理,减少用户等待响应的时间,这主要针对Web服务器、FTP服务器、企业关键应用服务器等网络应用。

    2. 数据库集群

        就是利用至少两台或者多台数据库服务器,构成一个虚拟单一数据库逻辑映像,像单数据库系统那样,向客户端提供透明的数据服务。

    3. 库表散列

        采用Hash算法把数据分散到各个分表中, 这样IO更加均衡。

        上面提到的数据库集群由于在架构、成本、扩张性方面都会受到所采用DB类型的限制,于是我们需要从应用程序的角度来考虑改善系统架构,库表散列是常用并且最有效的解决方案。我们在应用程序中安装业务和应用或者功能模块将数据库进行分离,不同的模块对应不同的数据库或者表,再按照一定的策略对某个页面或者功能进行更小的数据库散列,比如用户表,按照用户ID进行表散列,这样就能够低成本的提升系统的性能并且有很好的扩展性。sohu的论坛就是采用了这样的架构,将论坛的用户、设置、帖子等信息进行数据库分离,然后对帖子、用户按照板块和ID进行散列数据库和表,最终可以在配置文件中进行简单的配置便能让系统随时增加一台低成本的数据库进来补充系统性能。

    4. 图片服务器分离

        大家知道,对于Web服务器来说,不管是Apache、IIS还是其他容器,图片是最消耗资源的,于是我们有必要将图片与页面进行分离,这是基本上大型网站都会采用的策略,他们都有独立的图片服务器,甚至很多台图片服务器。这样的架构可以降低提供页面访问请求的服务器系统压力,并且可以保证系统不会因为图片问题而崩溃,在应用服务器和图片服务器上,可以进行不同的配置优化,比如apache在配置ContentType的时候可以尽量少支持,尽可能少的LoadModule,保证更高的系统消耗和执行效率。

    5. 镜像

        镜像是大型网站常采用的提高性能和数据安全性的方式,镜像的技术可以解决不同网络接入商和地域带来的用户访问速度差异,比如ChinaNet和EduNet之间的差异就促使了很多网站在教育网内搭建镜像站点,数据进行定时更新或者实时更新。

        自动把整个数据库或其中的关键数据复制到另一个磁盘上,每当主数据库更新时,DBMS会自动把更新后的数据复制过去,即DBMS自动保证镜像数据与主数据的一致性。

        出现介质故障时,可由镜像磁盘继续提供数据库的可用性,同时DBMS自动利用镜像磁盘进行数据库的修复,不需要关闭系统和重装数据库副本。

        数据库镜像还可以用于并发操作。即当一个用户对数据库加排他锁修改数据时,其他用户可以读镜像数据库,而不必等待该用户释放锁。

        数据库镜像是通过复制数据实现的,频繁地复制自然会降低系统运行效率,因此在实际应用中用户往往只选择对关键数据镜像,如对日志文件镜像,而不是对整个数据库进行镜像。

    6. 缓存

        Apache提供了自己的缓存模块,也可以使用外加的Squid模块进行缓存,这两种方式均可以有效的提高Apache的访问响应能力。在使用web语言开发的时候,各种语言基本都有自己的缓存模块和方法。

    7. HTML静态化

        静态化的html页面效率最高、消耗最小,所以我们可以尽可能使我们的网站上的页面采用静态页面。但是对于大量内容并且频繁更新的网站,我们无法全部手动去挨个实现,于是出现了我们常见的信息发布系统CMS,像我们常访问的各个门户站点的新闻频道,甚至他们的其他频道,都是通过信息发布系统来管理和实现的,信息发布系统可以实现最简单的信息录入自动生成静态页面,还能具备频道管理、权限管理、自动抓取等功能。

        除了门户和信息发布类型的网站,对于交互性要求很高的社区类型网站来说,尽可能的静态化也是提高性能的必要手段,将社区内的帖子、文章进行实时的静态化,有更新的时候再重新静态化也是大量使用的策略,像Mop的大杂烩就是使用了这样的策略,网易社区等也是如此。 

        同时,html静态化也是某些缓存策略使用的手段,对于系统中频繁使用数据库查询但是内容更新很小的应用,可以考虑使用html静态化来实现,比如论坛中论坛的公用设置信息,这些信息目前的主流论坛都可以进行后台管理并且存储再数据库中,这些信息其实大量被前台程序调用,但是更新频率很小,可以考虑将这部分内容进行后台更新的时候进行静态化,这样避免了大量的数据库访问请求。

    8. CDN加速技术

        CDN的全称是内容分发网络。其是通过在现有的Internet中增加一层新的网络架构,将网站的内容发布到最接近用户的网络“边缘”,使用户可以就近取得所需的内容,提高用户访问网站的响应速度。

        CDN网络是在用户和服务器之间增加Cache层,主要是通过接管DNS实现,将用户的请求引导到Cache上获得源服务器的数据。缓存服务器从实际IP地址得得到内容以后,一方面在本地进行保存,以备以后使用,另一方面把获取的数据返回给客户端,完成数据服务过程。

    本文出自 “java我的最爱” 博客,请务必保留此出处http://lindianli.blog.51cto.com/7129432/1549044

    展开全文
  • IP地址访问网站被封禁如何处理?

    千次阅读 2021-02-19 15:16:25
    同IP地址高频率访问网站会被封,因此若是想要频繁访问网站,首先要解决单IP地址的问题,简单的说,需要使用代理ip来解决身份问题,代理就是换个身份,网络中的身份之一就是IP。 这是为什么呢?因为在爬虫中,有些...

    在这里插入图片描述

    同IP地址高频率访问网站会被封,因此若是想要频繁访问网站,首先要解决单IP地址的问题,简单的说,需要使用代理ip来解决身份问题,代理就是换个身份,网络中的身份之一就是IP。

    这是为什么呢?因为在爬虫中,有些网站可能为了防止爬虫或者DDOS等,会记录每个IP的访问次数,比如,有些网站允许一个IP在1s(或者别的)只能访问10次等,那么我们就需要访问一次换一个IP(具体什么策略,自己决定)。

    那么问题来了,这些代理从哪得到?对于公司来讲,买代理IP。但是对于个人的话,可能会有浪费。那么怎么办呢?网上有很多免费的动态VPN网站,但是手动更改的话,很浪费时间,并且免费的IP有很多不可用。因此这个使用免费代理IP的方法是不适用的。

    推荐使用动态ip,尤其是专业的http代理商家,可以为用户进行专业的定制服务,上千万的IP池,并且定期更新,可以满足大部分的项目使用了。

    展开全文
  • 网站访问统计术语和度量方法

    千次阅读 2012-01-10 12:56:38
    我们希望以此文档作为网站访问统计的指导方针,帮助网站的建设者、网站访问者、网站的广告客户更全面更准确地获得他们想要了解的信息,为他们精确地计划、执行、实现他们的网上商业项目提供依据。  ...
  • 值得注意的是,很多网站只需要userAgent信息就可以通过,但是有的网站还需要验证一些其他的信息,比如知乎,有一些页面还需要 authorization 的信息。所以需要加哪些Headers,还需要尝试,可能还需要Referer、A
  • 解决网站大流量问题的策略

    千次阅读 2007-09-28 16:26:00
    个人博客由于访问量过大而引起服务器性能问题,这是很多人的烦恼,有人使用取消RSS的方法来解决问题,显然是下错药,那么对于网站大流量带来的问题,正确的解决方法应该是什么呢?下面是我个人总结的一些经验,供...
  • 以用户为导向的新网站建设概念,细分了网站功能和用户群,不仅成功的造就了一大批新生的网站,也极大的方便了上网的人们。但Web2.0以用户为导向的理念,使得新生的网站有了新的特点——高并发,高流量,数据量大,...
  • 原先公众号的登录注册由于session的频繁失效,导致需要用户频繁登录,这样用户体验极差。我试过增大session的失效时间,但是随着用户的增多,过长生命周期的session对服务器来说也是一笔大开支;我接着以openId为key...
  • 程序员应该访问的最佳网站中文版

    千次阅读 2017-08-14 12:28:57
    程序员应该访问的最佳网站中文版原版 原文链接 :https://github.com/tuteng/Best-websites-a-programmer-should-visit-zh 一些对程序员有用的网站 在学习CS的时候有一些你必须知道的有用的站点来获取通知为了你的...
  • 简单的爬虫在抓取网站数据的时候,因为对网站访问过于频繁,给服务器造成过大的压力,容易使网站崩溃,因此网站维护者会通过一些手段避免爬虫的访问,以下是几种常见的反爬虫和反反爬虫策略:    爬虫 网站...
  • 网站高数据量访问解决方案

    千次阅读 2010-10-05 16:45:00
    数据库一向是网站架构中最具挑战性的,瓶颈通常出现在这里。又拍网的照片数据量很大,数据库也几度出现严重的压力问题。 因此,这里我主要介绍一下又拍网在分库设计这方面的一些尝试。 又拍网是一个照片分享社区...
  • 总体来说设计模式分为三大类... 行为型模式,共十一种:策略模式、模板方法模式、观察者模式、迭代子模式、责任链模式、命令模式、备忘录模式、状态模式、访问者模式、中介者模式、解释器模式。  其实还有两类:并发
  • ————————目录————————-1、硬件升级 2、服务器集群、负载均衡、分布式 3、CDN 4、页面静态化 5、缓存技术(Memcache、Redis) 以上为架构层面 以下为网站本地项目层面 6、数据库优化 1、数据库分表技术...
  • 如何加快网站访问速度(http://www.qnsky.com/dispbbs.asp?BoardID=6&id=634)很多朋友都用虚拟主机来做网站,将网页文件存放在虚拟空间上,但是页面内容一多,网站打开的速度就显得特别慢,如果您碰到这种情况,与其...
  • 网站数据分析指标体系

    千次阅读 2017-08-27 12:26:17
    【编者注】网站流量统计,是指对网站访问的相关指标进行统计。本文整理自网友分享的一份 Word 文档,主要介绍了网站分析的 KPI 指标、数据分析方法、网站分析工具介绍和对比等。 一、总论 1. 概念  网站...
  • 爬虫反爬机制及反爬策略

    千次阅读 2020-10-19 15:49:35
    简单的爬虫在抓取网站数据的时候,因为对网站访问过于频繁,给服务器造成过大的压力,容易使网站崩溃,因此网站维护者会通过一些手段避免爬虫的访问,以下是几种常见的反爬虫和反反爬虫策略: 关于网站动态加载的...
  • 'status': False, 'msg': '您操作太频繁,请稍后再访问', 'clientIp': '117.136.41.41', 'state': 2402} 当时使用headers传递头部信息: headers = { 'Referer': 'https://www.lagou.com/jobs/list_Py...
  • 如何优化网站的响应时间

    千次阅读 2016-09-20 23:10:03
    尽管频繁访问数据库会降低应用性能,但是,有时大量的数据库访问依然在所难免,原因在于: 虽然使用缓存(如Memcached缓存服务器)可以降低访问数据库的次数,但是缓存过期后或缓存未命中时,仍然需要访问...
  • 如果你爬取的网站没有反爬机制,爬虫们可以非常简单粗暴地快速抓取大量数据,但是这样往往就导致一个问题,因为请求过多,很容易造成服务器过载,不能正常工作。于是许多网站为了保护自己的服务器,往往会采用反爬虫...
  • 通常防止爬虫被反主要有以下几个策略:动态设置User-Agent(随机切换User-Agent,模拟不同用户的浏览器信息)禁用Cookies(也就是不启用cookies middleware,不向Server发送cookies,有些网站通过cookie的使用发现...
  • 大型分布式网站架构技术总结

    万次阅读 2018-03-08 18:09:35
    本文是学习大型分布式网站架构的技术总结。对架构一个高性能,高可用,可伸缩,可扩展的分布式网站进行了概要性描述,并给出一个架构参考。一部分为读书笔记,一部分是个人经验总结。对大型分布式网站架构有很好的...
  • python爬虫采集反爬策略

    千次阅读 2020-05-19 09:31:24
    一、爬虫与反爬简介 ...爬虫想要绕过被反的策略就是尽可能的让服务器人你不是机器程序,所以在程序中就要把自己伪装成浏览器访问网站,这可以极大程度降低被反的概率,那如何做到伪装浏览器呢? ##### 1....
  • Windows组策略应用全攻略

    千次阅读 2006-08-17 13:24:00
    一、什么是组策略 (一)组策略有什么用? 说到组策略,就不得不提注册表。注册表是Windows系统中保存系统、应用软件配置的数据库,随着Windows功能的越来越丰富,注册表里的配置项目也越来越多。很多配置都是 可以...
  • 爬虫策略: 1、动态User-Agent(随机切换User-Agent,模拟不同用户的浏览器信息),使用中间件 class RandomUserAgentMiddleware(object): def process_request(self, request, spider): request.headers.set...
  • Java_JVM- Full GC 频繁解决

    千次阅读 2019-02-20 18:24:50
    相关文章: 一次线上JVM调优实践,FullGC40次/天到10天一次的优化过程 ... JVM频繁Full GC的情况及应对策略 https://blog.csdn.net/wangshuminjava/article/details/80907129 原文...
  • 1 引言 这是16年写的一篇小调查,现在贴到博客中。 因为当时时间有限、水平有限,所以内容较浅,而且还有很多不当之处。 还有就是当时参考的那些文章现在也记不得了,深感抱歉!...跨域访问有两个方向的解决策略
  • 未授权访问漏洞总结

    千次阅读 2019-07-29 19:45:09
    未授权访问漏洞可以理解为需要安全配置或权限认证的地址、授权页面存在缺陷导致其他用户可以直接访问从而引发重要权限可被操作、数据库或网站目录等敏感信息泄露。 常见的未授权访问漏洞 1.MongoDB 未授权访问漏洞 2...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 39,976
精华内容 15,990
关键字:

网站频繁访问策略