精华内容
下载资源
问答
  • apache的基本配置和动态页面配置

    万次阅读 2020-01-16 01:20:45
    文章目录Apache了解Apache的基本配置配置文件的功能介绍配置并使用域名访问配置动态页面:CGI,WSGI,SSICGIWSGISSI Apache 了解Apache的基本配置 安装Apache :yum groupinstall web* -y 启动服务并设置开机自启:...

    Apache

    下面是常规方法,另外一种简介方法搭建网站看这:linux搭建web服务器(网站)(不同场景中最简单的搭建方法),windows和linux域名解析方式说明

    了解Apache的基本配置

    • 安装Apache :yum groupinstall web* -y

    • 启动服务并设置开机自启:systemctl restart httpd , systemctl enablehttpd

    • 防火墙中开放httpd(防火墙没开忽略):firewall-cmd --add-service=http , firewall-cmd --add-service=http –permanent

    • 查看apache版本:httpd -v

    配置文件的功能介绍

    编辑http的配置文件:vi /etc/httpd/conf/httpd.conf

    查看监听的默认端口:netstat –ntulp | grep http

    在这里插入图片描述
    监听端口默认为80,如果想要开放其他端口,添加一个Listen即可:如 添加808
    在这里插入图片描述
    修改端口上下文(添新端口后不做这个http服务起不来):semanage port -a -t http_port_t -p tcp 808(如果不知道这个,可以vi /etc/ssh/ssh.conf,里面15行是样本)
    在这里插入图片描述
    防火墙中开放808端口:firewall-cmd --add-port=808/tcp , firewall-cmd –add-port=808/tcp --permanent
    重启服务:systemctl restart httpd

    http根目录

    在这里插入图片描述

    user apache

    进程为apache的作用是为了提高安全性,当web服务被黑客入侵了,黑客拿到的并不是root权限,而是apache的权限,查看进程:ps aux | grep httpd
    在这里插入图片描述

    通知

    在这里插入图片描述

    ServerName解析

    如果只配置了一个域名,这个可以不开启,如果有多个域名,就需要分别指定域名(hostname -f查看长主机名(域名)),
    在这里插入图片描述
    关系如下图:
    在这里插入图片描述

    文件/路径权限设置

    在这里插入图片描述
    上图中这种格式是设置目录权限的,格式为:

    	<Directory  /path(路径)>
    		AllowOverride none
    		Require all denied
    	</Directory>
    

    设置文件属性

    	<Files /path1 /file>
    		Xxxxx
    		Yyyyy
    	</File>
    

    记住:当我们新添加一个目录的时候,要记得为这个目录配置相关的属性否则可能会无法访问。
    如:现在在 /etc/www/html中创建一个目录xx,然后在里面创建若干*.html
    在这里插入图片描述
    然后在配置文件文件中设置权限:vi /etc/httpd/conf/httpd.conf,添加以下内容
    在这里插入图片描述

    参数详细说明(上图)

    在这里插入图片描述

    <Directory "/var/www/html/xx">(路径)

    Options Indexes FollowSymLinks

    (Indexes是主页 必须存在 否则报错 ,FollowSymLinks是允许软连接访问,就是在/etc/www/html中允许存在软连接 直接再该目录中创建软连接,即可正常在网页看到软连接中的内容,如果没有FollowSymLinks也可以,只是软连接如法使用)创建并使如下图:
    在这里插入图片描述

    AllowOverride None (网页加密)

    这里allowOverride是否允许这个目录里隐藏文件 .htaccess 里的设置生效(None不允许,Authconfig允许)如果允许的情况下,举个例子:
    设置访问xx这个目录的时候需要输入用户名和密码(可以自定义更多功能,详细参见:.htaccess详解及.htaccess参数说明)。

    /var/www/html/xx/Vi .htacces ,编辑一下内容
    在这里插入图片描述

    AuthName "xxxx"
    AuthType Basic
    Require user ccx
    AuthUserFile "/etc/httpd/conf/.htpasswd"
    

    密码文件是不存在的,所以需要需要号创建密码文件 touch /etc/httpd/conf/.htpasswdhtpasswd –mc /etc/httpd/conf/.httpasswd ccx
    在这里插入图片描述
    重启服务:systemctl restart httpd, 再次到网页访问ip/xx
    再次访问,便需要输入用户名和密码:
    在这里插入图片描述
    输入密码以后才能看到/var/www/html/xx目录中的内容
    在这里插入图片描述

    Require all granted

    设置谁可以访问我,谁不可以访问我,granted是全部允许,具体使用如下图(这是2.4及以上的版本使用,2.4以下自行百度规则):
    在这里插入图片描述
    重启服务:systemctl restart httpd ,在网页上输入ip/目录,这便是没有主页的展示
    在这里插入图片描述
    现在在/etc/www/html/xx中创建一个主页,echo this is my html > index.html
    在这里插入图片描述
    在网页中看到的内容便是主页,看不到其他html了,如果想看到,则在index中配置超链接
    在这里插入图片描述

    主页存放路径

    在这里插入图片描述
    上图中是web的存放路径,写的代码就可以放到该路径中。 其中index.html是主页,不可或缺 否则就无法正常访问。

    默认主页名

    在这里插入图片描述

    权限设置

    在这里插入图片描述
    上图中,意思是.ht*的所有文件,权限是不允许任何人访问的。

    错误日志存放目录

    在这里插入图片描述

    Alias说明

    Alias别名和功能一样的意思,比如,我现在定义一个/zz,但实际指定的是/11/22/33/44
    在这里插入图片描述
    然后创建该文件:mkdir –p /11/22/33/44 , 并创建一个主页文件并任意写入内容:
    echo this my Alias html > /11/22/33/44/index.html
    修改上下文:chcon –R –-reference=/var/www/html /11/
    配置完毕后依然无法使用,因为要给/11/权限,vi /etc/httpd/conf/httpd.conf找到别名处添加一下内容(和上面说的赋予文件权限一样的,只是多了个Alias定义的目录而已):
    在这里插入图片描述
    重启服务:systemctl restart httpd,再次到网页访问ip/zz 成功
    在这里插入图片描述
    两者比较:虽然实现的功能都相同,但Alias多用于 安全性考虑,比如写网页的时候或者配置zabbix的时候,可以通过Alias设置一下别名,这样别人就不轻易看到源文件;
    在这里插入图片描述

    配置并使用域名访问(win和linux均需解析)

    我们知道 只要httpd服务是开启的,就可以用ip访问,所以ip访问并没有什么可说的。(如果http服务正常 ip无法访问,可能是防火墙的原因)
    上面配置步骤都做完以后,下面说说如何利用域名访问(用ip能正常访问在进行下面步骤)

    • vi /etc/httpd/conf/httpd.conf找到ServerName 后面是你的主机名(hostname查看),当然如果只有一个域名的话,这一步不是那么重要,可以做可以不做
      在这里插入图片描述

    • vi /etc/hosts ,添加解析,格式为: ip 域名(没设置域名就用主机名)
      在这里插入图片描述
      Linux就解析配置完后基本就完成了,测试linux解析是否正常:curl 域名(如果都能获取到内容便是正常的) ,如果失败,关闭selinux:setenforce 0
      在这里插入图片描述

    • 然后在windows上打开命令版 ping 服务器ip是否能ping通
      在这里插入图片描述

    • 能ping通以后,打开我的电脑,依次打开C:\Windows\System32\drivers\etc里面有一个hosts
      在这里插入图片描述

    • 双击打开hosts,添加解析 格式:服务器IP 域名 (因为自己配置的apache没有一个服务器把解析自动发送到每一台客户端,所以需要手动指定,否则网页无法使用域名访问)
      在这里插入图片描述
      然后打开浏览器(建议使用火狐,其他浏览器可能无法正常打开),网址栏中输入 windos中添加的解析域名,能正常访问即正常
      在这里插入图片描述

    • 注意:linux中的解析 和 windows中的解析 不互通 !!!!!! 也就是说 windows中的解析 不能在 linux服务端中使用 curl 获取, linux中的解析不能通过windows浏览器中访问。

    配置动态页面:CGI,WSGI,SSI

    在这里插入图片描述
    注意:动态和静态并非是眼睛看到的网页中内容是静止不动就是静态,有图片飘来飘去就是动态!!!! 所谓的静态,动态指的是,内容会不会根据不同人,不同的时间。。。自动显示不同的内容
    在这里插入图片描述

    CGI

    公共网关接口,实际上就用某种语言写的脚本
    ScriptAlias /cgi-bin/ “/var/www/cgi-bin/”
    当在地址栏里出现cgi-bin的时候,其实这个脚本是放在/var/www/cgi-bin这个目录里的。
    编辑配置文件vi /etc/httpd/conf/httpd.conf

    重定向

    就是说当遇到/cgi-bin/ 实际上访问的目录是` /var/www/cgi-bin/`
    

    在这里插入图片描述

    测试(使用pl脚本)

    cd /var/www/cgi-bin/
    编辑任意一个以pl结尾的脚本,在里面写入任意代码,写入之前,需要定义Content-Type,查看Content-Type的方法:curl --head 当前ip,复制整行,然后vi aa.pl ,这里作为测试只写一个时间的代码
    在这里插入图片描述
    在这里插入图片描述
    然后给该脚本赋予权限并执行
    在这里插入图片描述
    然后打开浏览器网址栏输入:ip/cgi-bin/aa.pl即可看到脚本内容
    在这里插入图片描述

    测试(使用bash脚本)

    使用详细参见pl脚本,这里只说bash脚本使用
    在这里插入图片描述
    在浏览器网址打开:ip/cgi-bin/aa.bash
    在这里插入图片描述

    WSGI

    全称:web server gateway interface
    python 实现动态页面的一种功能,比如:openstack dashboard

    • 先安装一个模版:yum install –y mod_wsgi
    • vi /etc/httpd/conf/httpd.conf
      添加一个 wsgi的重定向:WSGIScriptAlias 自定义名称 /var/www/自定义脚本名称
      如:WSGIScriptAlias /webapp /var/www/webapp.wsgi(意思就是 当我们Ip/webapp的时候,实际上访问的内容就是/var/www/webapp.wsgi
      在这里插入图片描述
      重启服务:systemctl restart httpd (如果启动报错,检查是不是mon_wsgi服务没有安装)
    • cd /var/www/vi webapp.wsgi(webapp是自定义名称以.wsgi结尾的脚本(python编写后上传到该目录即可))
    #!/usr/bin/env python
    import time 
    
    def application (environ, start_response):
    	response_body = ‘UNIX EPOCH time is now: %S\n’ % time.time()
    	status = ‘200 OK’
    	response_headers = [(‘Content-Type’ , ‘text/plain’),
    					  (‘Content-Length’ , ‘1’),
    					  (‘Content-Length’ , str(len(response_body)))]
    	start_response(status, response_headers)
    	return [response_body]
    
    • 网页上输入 ip/webapp即可
      在这里插入图片描述

    SSI

    推荐一个快速写网页的软件:Macronmedia Dreamweaver MX 2004
    参考:php配置discuz和动态页面SSI配置——apache

    php配置discuz

    参考:php配置discuz和动态页面SSI配置——apache

    展开全文
  • 爬虫之动态页面爬取

    万次阅读 多人点赞 2018-04-27 20:38:08
    动态页面爬取

    动态页面爬取

      好久没有写爬虫了,今天敲了一份爬虫出来——爬取百度百科的历史记录,结果在时隔四个月之后再次遇到的对手居然是一个动态页面(一开始把百度想的太简单了),不过在一番努力之后还是达到了我的目标,然后就当复习似的写了篇博客。

    一、概念

      动态页面其实是相对于静态页面而言的。在面对静态页面的时候直接查看response一般就是网页的全部代码了,但是动态页面不然,一般动态页面的response再打开的时候和你在网页看的不一样了。

    二、实践及实践之前

      因为本人超喜欢实践,所以二话不说进行上实践,实践出真知,多实践就懂了。

    目标网页:万科百度百科历史版本
    实现环境:win32
    version : python 3.6.2
    实践目标:获取万科百度百科历史版本的历史修改时间,做成图表或者csv文件

    三、流程阐述

      和所有的爬虫一样,我们第一步会进行网页的分析,因为我们目标选取了一个动态网页,所以我们还需要对json文件等进行追踪。
      流程:

    1、网页分析
    2、查询、追踪json等文件或者xhr
    3、进行文本匹配
    4、画图或者制作csv

    四、工具准备

      我们所需要的库有(都是最新版):

    1.requests
    2.re
    (以下的库不是爬虫必须的,但是是我这次所需要)
    3.matplotlib(进行可视化)
    4.datetime(对时间进行操作)
    5.Pandas(python强大的数据处理库)
    6.os(对系统进行操作)
    (本人更偏爱原始的re库,当然这里使用正则表达式已经能够解决所有问题了)

      所需了解的知识:

    1.python语法基础
    2.正则表达式的匹配规则
    (以下非爬虫必要)
    3.datetime一些基本功能
    4.matplotlib可视化的操纵(虽然此项为非爬虫必要,但是很多时候数据可视化出来会让数据更为直观,让人更容易做出判断)
    5.pandas库的基本使用(此项为非爬虫必要,但是为数据分析必学)

    五、网页分析

      首先我们打开我们的目标网页→万科百度百科历史版本
    这里写图片描述
      看上去一切正常,然后我们查看url,也有之前所讲的规律,但是真的一切正常了吗?
    这里写图片描述
    这里写图片描述
      如果你把这个网页当作静态页面来做那肯定完蛋了,因为我一开始就是这么做的,当你查询第一页的代码时候你会发现一切正常,然而在你查询第二页的代码的时候,你会发现一个事实就是——你所看到的第二页甚至直到最后一页的最后代码都是相同的,有没有觉得违背了常识?

    六、追踪

      其实不然,这是很正常的事情,很多页面都会做成动态的,使用json或其他等文件来传输数据(不尽准确,也可能是用java、JavaScript等代码调用端口等等),这样子更安全些。
      到了这一步很多人都会选择使用fiddle等第三方软件来抓包这样子方便点,但是这里笔者比较难,直接在控制者平台上看就好了。
      在一番查找之后我们锁定了我们需要的几个文件和xhr文件。

    这里写图片描述
      很多网页的数据会藏在json里面,莫非这个也是?当然,查看之后就失败了,那么我们看到xhr里面,发现这个很熟悉的字段(当然可能是我比较熟悉)

    这里写图片描述
      明显的答案在此了,简单解读一下这条

    get historylist , 获得历史数据
    tk 这个东西我猜是万科的quantio语句(不知道这个单词有没有拼错,实在是自己用的少,搞前后端的朋友可能认识)
    lemmald 这不就是万科在百度里面的号码嘛
    from 一眼就看出是第七页
    size 显示25条消息

      这个发现非常的棒,解决了许多问题。

    七、伪装

      作为玩爬虫的人,了解反爬虫的套路是非常必要的,在这里如果你对xhr进行正常的爬虫你会发现,返回给你的是{error:xxxxx},这个时候就要警觉了,这证明你机器人的身份被百度识破了,它拒绝把数据给你,那么我们就需要进行一些简单伪装。之前讲过更改headers头,这次讲多一些。

    1.headers伪装,服务器使用这个判断你使用的浏览器,当有这个的时候,服务器会认为是浏览器正常的请求。
    2.Referer:浏览器通过此来判断你从哪一个网页跳转过来。
    3.ip伪装,这个只要构建好ip池就没有问题了,推荐去西刺代理查看一些所需
    4.Cookie伪装,cookie是服务器用来辨别你此时的状态的,比如你已经登录啊,什么的,每一次向服务器请求cookie都会随之更新。

      最常用的就是上面几个了,上面从上到下越来越难整,在此面对百度,仅仅只是改变headers显然是不行的,于是我添加了Referer和cookie码(关键是两个月前建立的IP池已经废掉了,懒得整)。
      好,做到这里我们发现我们可以正常的获得数据了。

    八、文本匹配

      不得不说,解决上面的问题之后,文本匹配成为了最为简单的事情了。
    这里写图片描述

      其实这是一个类似词典的格式了,但是懒得思考的笔者,决定使用简单粗暴的正则表达式。

    九、转化时间戳

      这个时候我们会发现,再creattime那里给的时间是个什么鬼?
      但是仔细一思考你会发现这是一个时间戳

    python的时间戳:从1970年1月1日上午12:00到现在的秒数

      是不是很崩溃?
      不过还好决解这个问题只需要几段简短的代码
    这里写图片描述
      输入时间戳,好了,问题解决了。

    十、画图、做csv

      图

    这里写图片描述

      csv

    这里写图片描述

    十一、总结和代码

      感觉这次爬虫还行,时隔两个多月我还能想起来实属不易,写这次博客纯属复习了,至于上面没有写写出如何作图和如何做csv的原因,我可以说博主忽然不想写了吗?

    以下是代码:https://github.com/Don98/Spier_project/blob/master/wanke.py
    (注:博主懒得写注释了,不懂可以评论询问,谢谢)

    展开全文
  • webmagic爬取动态页面

    2017-04-02 03:16:40
    webmagic-selenium爬取动态页面的同时可以添加cookie来实现模拟登录吗?添加cookie的同时还需要添加hearder吗?
  • 静态页面和动态页面的区别

    千次阅读 2018-12-09 21:01:38
    静态页面的表现形式:网页的内容是固定的,不会更新的。...动态页面的表现形式:网页的内容是可以通过程序动态改变的,是可以更新的。 需要的技术:HTML,CSS,至少一门高级语言,JavaScript,PHP等。 ...

    静态页面的表现形式:网页的内容是固定的,不会更新的。
    需要的技术:HTML和CSS。
    动态页面的表现形式:网页的内容是可以通过程序动态改变的,是可以更新的。
    需要的技术:HTML,CSS,至少一门高级语言,JavaScript,PHP等。

    展开全文
  • 什么叫动态页面和静态页面?

    千次阅读 2018-12-23 23:05:24
    静态页面不能自主管理发布更新的页面,如果想更新网页内容,要通过FTP软件把文件DOWN下来用网页制作软件修改(通过fso等技术例外) ... 注意:静态页面并非网站上没有动画的就是静态页面。...动态页面是通过执行a...

    静态页面是网页的代码都在页面中,不需要执行asp,php,jsp,.net等程序生成客户端网页代码的网页。静态页面不能自主管理发布更新的页面,如果想更新网页内容,要通过FTP软件把文件DOWN下来用网页制作软件修改(通过fso等技术例外)

    常见的静态页面举例:.html扩展名的、.htm扩展名的。

    注意:静态页面并非网站上没有动画的就是静态页面。

    相关介绍:

    什么是动态页面?
    动态页面是通过执行asp,php,jsp,.net等程序生成客户端网页代码的网页。

    动态页面通常可以通过网站后台管理系统对网站的内容进行更新管理。发布新闻,发布公司产品,交流互动,博客,网上调查等,这都是动态网站的一些功能。也是我们常见的。

    动态页面常见的扩展名有:.asp .php .jsp .cgi 等。

    注意:动态页面的“动态”是网站与客户端用户互动的意思,而非网页上有动画的就是动态页面。

    展开全文
  • Selenium:动态页面模拟点击

    万次阅读 多人点赞 2018-11-06 19:53:41
    Selenium:动态页面模拟点击   Selenium Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium 可以直接运行在...
  • 如何判断一个页面是否是动态页面

    千次阅读 2019-11-30 17:01:05
    如果href = IP地址,这个子页面就是一个静态网页,如果href = 属性,这个子页面是一个动态网页(href = 属性,这个属性需要通过js加载,js可以动态的修改页面数据,所以通过js加载的页面就是动态页面) 2.通过本...
  • 今天讨论一个话题,这是在考研的专业课考试中的一个问题:静态页面和动态页面的联系和区别 ,这考的我就很猝不及防 ,这个方面虽然以前有了解 ,但是理解得并不深刻,网安方向涉及到的东西太多了,慢慢学习吧~首先来...
  • python爬取动态页面

    千次阅读 2016-11-29 21:08:43
    今天学习了用re爬取动态页面的方式,发现爬取动态页面的时候需要注意的一些东西,总结下来,以免以后碰见了再忘记。  主要是注意以下的几点吧。  对于所有的页面都用搞成浏览器的形式访问,这个之前的代码中也提到...
  • 使用webmagic_selenium爬取动态页面,添加cookie报错,说是cookie域不一致,然后我给每个cookie加了一个domain没有报错但是没有爬取到所需页面
  • 网站当中动态页面和静态页面有何区别 为什么说静态页面seo比较友好
  • 如何将静态页面转化为动态页面

    千次阅读 2016-08-29 16:10:00
    如何将静态页面转化为动态页面 copy静态页面代码到jsp页面 添加page指令 page enconding和contentType 修改页面内容与目标页面一致 将需要动态生成的内容删除,替换为java代码 转载于:...
  • ”,这样的链接一般是动态链接,其所对应的页面就是动态页面。 在技术上,动态页面具有这些特征: 1,动态页面是以ASP、PHP、JSP、ASP.net、Perl、或CGI等编程语言制作的; 2,动态页面实际上并不是独立存在于...
  • Python爬虫爬取动态页面思路+实例(一)

    万次阅读 多人点赞 2016-12-21 17:48:06
    简介有时候,我们天真无邪的使用urllib库或Scrapy下载HTML网页时会发现,我们要提取的网页元素并不在我们下载到的HTML之中,尽管它们在浏览器里看起来唾手可得。...爬取动态页面目前来说有两种方法 分析页面请求(这篇
  • Web开发 -- 静态页面与动态页面

    千次阅读 2017-09-24 13:15:56
    在网页开发过程中,有静态页面和动态页面之分。虽然之前有过一定的了解,但是实际上并不系统。因此,本篇博客将对静态页面以及动态页面的本质进行分析。静态页面静态页面(Static Web Page)是一种当用户发出请求访问...
  • 静态页面 网页代码都在页面中,不用执行asp , php , jsp , .net等程序生成客户端代码不能自主管理发布更新的页面,如想更新内容,要通过FTP软件把文件...   ...动态页面 通过执行asp , php ,jsp , .net等程序
  • 关于静态页面和动态页面的解释

    千次阅读 2016-11-04 19:24:42
    由于小伙伴经常搞不清楚动态页面和静态页面的区别 这里讲一下 一、静态web页面: 1、在静态Web程序中,客户端使用Web浏览器(IE、FireFox等)经过网络(Network)连接到服务器上,使用HTTP协议发起一个请求...
  • Python爬虫之爬取动态页面数据

    万次阅读 多人点赞 2017-11-01 12:39:00
    对于动态网站信息的爬取需要使用另外的一些方法。 先看看如何分辨网站时静态的还是动态的,正常而言含有“查看更多”字样或者打开网站时下拉才会加载内容出来的进本都是动态的,简便的...对于动态页面信息的爬取,一
  • 静态页面在IE7兼容性没问题,动态页面在IE7中的兼容性却有问题,不知道这是为什么?
  • Scrapy利用Splash抓取动态页面

    千次阅读 2018-01-22 09:56:06
    但是目前大多数网站都是动态的,动态页面中的部分内容是浏览器运行页面中的JavaScript脚本动态生成的,爬取相对困难。 动态网页一般两种思路 ,一是找到api接口伪装请求直接请求数据,另一种是没有办法模拟的时候...
  • 动态页面静态化

    千次阅读 2011-04-13 17:48:00
    原文地址: http://baike.baidu.com/view/2510440.htm#sub2510440<br />   动态页面静态化 目录1 什么是静态页面2 什么是动态页面3为什么要动态页面静态化4动态页面如何静态化编辑本段1 什么...
  • 1. 导入HTML页面  参考代码 :  第一种: div+$(“#page1”).load(“b.html”)   body> div id="page1">div> div id="page2">div> script> $("#page1").load("page/Page_1.html"); $("#page2").load...
  • scrapy抓取动态页面方法

    千次阅读 2016-07-19 16:24:45
    1 pip install -U selenium 需要调用本地浏览器 (会打开浏览器) javascript 动态页面 目前许多网站大量运用js脚本进行一些页面的处理,这些页面的抓取对爬虫是个挑战。这

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 66,768
精华内容 26,707
关键字:

动态页面