精华内容
下载资源
问答
  • 简单爬虫实现----爬取URL

    千次阅读 2018-12-10 15:39:03
    实验室任务详细:写一个python脚本,脚本后面跟上一个url的网址页面。 要求:正则匹配爬虫的方式,匹配该url网页中的html的href标签中的url,显示这些url,一行一个。 首先明确什么是 href: 定义和用法 &amp...

    实验室任务详细:写一个python脚本,脚本后面跟上一个url的网址页面。
    要求:正则匹配爬虫的方式,匹配该url网页中的html的href标签中的url,显示这些url,一行一个。

    首先明确什么是 href:
    定义和用法

    <a> 标签的 href 属性用于指定超链接目标的 URL。
    href 属性的值可以是任何有效文档的相对或绝对 URL,包括片段标识符。如果用户选择了 <a> 标签中的内容,那么浏览器会尝试检索并显示 href 属性指定的 URL 所表示的文档
    提示和注释
    注意:<a> 标签中必须提供 href 属性或 name 属性。
    

    语法

    <a href="value">
    属性值
    值 描述
    URL 超链接的 URL。可能的值:绝对 URL - 指向另一个站点(比如 href="http://www.example.com/index.htm")相对 URL - 指向站点内的某个文件(href="index.htm")锚 URL - 指向页面中的锚(href="#top")
    

    获取超链接之间内容

    通常在使用正则表达式时,需要分析网页链接,获取URL或网页内容。核心代码如下:
            res = r'<a .*?>(.*?)</a>'
            urls=re.findall(r"<a.*?href=.*?<\/a>", content, re.I|re.S|re.M)
            re.I 忽略大小写
    

    re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境
    re.M 多行模式
    re.S 即为 . 并且包括换行符在内的任意字符
    re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库
    re.X 为了增加可读性,忽略空格和 # 后面的注释

    例子:

    # coding=utf-8
    import re
     
    content = '''
    <td>
    <a href="https://www.baidu.com/articles/zj.html" title="浙江省">浙江省主题介绍</a>
    <a href="https://www.baidu.com//articles/gz.html" title="贵州省">贵州省主题介绍</a>
    </td>
    '''
     
    #获取<a href></a>之间的内容
    print u'获取链接文本内容:'
    res = r'<a .*?>(.*?)</a>'
    mm =  re.findall(res, content, re.S|re.M)
    for value in mm:
        print value
     
    #获取所有<a href></a>链接所有内容
    print u'\n获取完整链接内容:'
    urls=re.findall(r"<a.*?href=.*?<\/a>", content, re.I|re.S|re.M)
    for i in urls:
        print i
     
    #获取<a href></a>中的URL
    print u'\n获取链接中URL:'
    res_url = r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')"
    link = re.findall(res_url ,  content, re.I|re.S|re.M)
    for url in link:
        print url
    

    输出如下图所示:

    >>> 
    获取链接文本内容:
    浙江省主题介绍
    贵州省主题介绍
     
    获取完整链接内容:
    <a href="https://www.baidu.com/articles/zj.html" title="浙江省">浙江省主题介绍</a>
    <a href="https://www.baidu.com//articles/gz.html" title="贵州省">贵州省主题介绍</a>
     
    获取链接中URL:
    https://www.baidu.com/articles/zj.html
    https://www.baidu.com//articles/gz.html
    >>> 
    

    python正则表达式(菜鸟教程)
    http://www.runoob.com/python/python-reg-expressions.html

    Python 自1.5版本起增加了re 模块,它提供 Perl 风格的正则表达式模式。
    re 模块使 Python 语言拥有全部的正则表达式功能。

    爬虫讲解
    https://blog.csdn.net/Eastmount/article/details/78275983

    爬虫进阶(知乎)
    https://www.zhihu.com/question/35461941

    最终成果:

    # coding=utf-8
    import re
    #导入正则模块
    import urllib
    #导入URL模块
    url = "http://www.baidu.com/"
    #可变更URL
    content = urllib.urlopen(url).read()
    #打开,并读入链接内容
    
    print u'\n获取链接中URL:'
    # 获取<a href></a>中的URL
    res_url = r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')"
    #正则匹配URL
    links = re.findall(res_url, content, re.I | re.S | re.M)
    #用数组盛放爬取的链接,findall函数返回的总是正则表达式在字符串中所有匹配结果的列表
    #re.I(re.IGNORECASE): 忽略大小写(括号内是完整写法)
    #re.M(re.MULTILINE): 多行模式,改变'^'和'$'的行为
    #re.S(re.DOTALL): 点任意匹配模式,改变'.'的行为
    
    for url in links:
        print url
    #打印links数组中的每一个URL
    
    展开全文
  • 访问URL时传入另一个URL作为参数

    千次阅读 2018-10-31 15:21:12
    原文:...   访问地址: ...amp;b=2&...url=/device.html?c=3&amp;d=4 这种情况下,d=4 这个参数会被当做是访问 login.html 时的参数,而不是 device...

    原文:https://blog.csdn.net/say751223303/article/details/78547740 

     

    访问地址:

    http://192.168.1.1/login.html?a=1&b=2&url=/device.html?c=3&d=4

    这种情况下,d=4 这个参数会被当做是访问 login.html 时的参数,而不是 device.html 的参数。

    解决办法:

    对url 参数内容进行加码,如下:

     http://192.168.1.1/login.html?a=1&b=2&url=escape(/device.html?c=3&d=4)

    后端获取的时候再使用 unescape() 进行解码,就能拿到完整的路径及参数了

    But,对于已经发布版本的项目来说,不能修改后端代码,咋整?

    简单看了一下 escape() 的实现,发现它仅仅只是对部分特殊字符进行转义

    <script type="text/javascript">
        document.write(escape("Visit W3School!") + "<br />")
        document.write(escape("?!=()#%&"))
    </script>


    输出:

    Visit%20W3School%21
    %3F%21%3D%28%29%23%25%26

    既然这样,那为啥不直接输入转义字符呢?

    比如:

    http://192.168.1.1/login.html?a=1&b=2&url=/device.html?c=3%26d=4

    是的,确实可以,而且可以增加参数。

    http://192.168.1.1/login.html?a=1&b=2&url=/device.html?c=3%26d=4%26e=5

    在浏览器中直接输入,或者在前端代码中访问,都是可以的

    收工!

    展开全文
  • 将某个url作为另一个URL的参数

    千次阅读 2018-11-01 16:57:19
    在某些用于跳转的情况下,我们会将某个url作为参数进行携带,但由于该url中本身可能都需要携带参数,因此就出现了一个URL中存在多个“?”的情况,这会影响对该URL中参数的解析, 比如这种情况: ...

    在某些用于跳转的情况下,我们会将某个url作为参数进行携带,但由于该url中本身可能都需要携带参数,因此就出现了一个URL中存在多个“?”的情况,这会影响对该URL中参数的解析,

    比如这种情况:

    http://www.jumifinance.com/common/jumpPage.html?ref=‘http://www.jumifinance.com/invest/investItem.html?a=c&a=b’

    此时可以使用encodeURIComponent对携带的url进行编码处理,如下所示:

    "http://www.jumifinance.com/common/jumpPage.html?ref="+encodeURIComponent(‘http://www.jumifinance.com/invest/investItem.html?a=c&a=b’)

    然后你可以通过decodeURIComponent()进行解码

    仅进行记录

    展开全文
  • REST风格,url不用显示?参数

    千次阅读 2018-10-30 21:34:02
    第一步:在controller层添加注解 @RequestMapping("/hello/{id}") public String view(@PathVariable String id, Model model){ return "hello"; ...第二步:jsp页面用 /hello 访问 ...

    第一步:在controller层添加注解
    在这里插入图片描述

    @RequestMapping("/hello/{id}")
        public String view(@PathVariable String id, Model model){
            return "hello";
        }
    

    第二步:jsp页面用 /hello 访问

    展开全文
  • web开发中,有时候给超链接写点击事件时候喜欢这样写: 操作</a> 有次用jquery提交ajax请求后,当前页的url参数末尾就会自动给加个#号。开始百思不得其解,纠结了半天原来是这种写法的问题,换成 href=”[removed]...
  • 是变量就字符串拼接‘+变量+’是中文就用encodeURL()
  • 在学习graphQL时,有了上述请求地址,开始以为 FetchUsers是个指令,后发现只是为了可读,实际参数解析时只对占位符{}和()负责!!! 其中在上述调用时,users 会被解析为grapql对应的query...= URL 中指定参数的值 %3D
  • 使用indexOf取得?之后的参数,以&使split进行分割成数组,下面展示了一个从url上获取名为MenuCode参数的过程
  • 1 function GetRequest() { 2 var url = location.search; 3 var theRequest = new Object(); 4 if (url.indexOf("?") != -1) { 5 var str = url.substr(1); 6 ...
  • 致其依然,防患未然!
  • 所有的空格符、标点符号、特殊字符以及其他非ASCII字符都将被转化成%xx格式的字符编码(xx等于该字符在字符集表里面的编码的16进制数字)。比如,空格符对应的编码是 。 不会被此方法编码的字符: @ * /
  • 今天小编就为大家分享一篇layui type2 通过url给iframe子页面传值的例子,具有的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
  • 使用服务器端的urlEncode函数编码的URL,与使用客户端javascript的 encodeURI函数编码的URL,结果就不一样。 javaScript中的编码方法: escape() 方法: 采用ISO Latin字符集对指定的字符串进行编码。所有的空格符、...
  • url和querystring的使用

    千次阅读 2018-12-15 18:34:37
    url模块和querystring模块 url模块:能够解析req.url的模块 url.parse语法: ​ url.parse(‘解析的URL字符串’,‘query属性是否解析为对象’); 第一个参数:表示要解析的URL的字符串 第二个参数:表示是否要将这个...
  • 作为一个前端菜鸟,对浏览器要足够重视,今天就被问了一个问题,如何获取当前页面的url以及如何分析它的每一部分,下面记录一下我的心得。 解析URL window对象的location属性引用的是location对象,它表示该窗口中...
  • URL中字符的含义

    千次阅读 2019-05-20 09:17:18
    URL中的特殊字符 #号的作用 URL中的特殊字符 我们经常会看到URL中有一些特殊的字符,比如 #,?,& ,/ ,+ 等。那么,它们的含义是什么呢? 特殊含义 十六进制 + 表示空格(在URL中不能使用空格) ...
  • 1、读取URL中的参数值 /* *获取URL参数 */ function GetQueryString(name) {  var reg = new RegExp("(^|&)" + name + "=([^&]*)(&|$)");  var r = window.location.search.substr(1).match(reg);  
  • 通过url获取文件名称

    千次阅读 2019-11-27 16:48:10
    如何通过一个文件的下载链接(url)获取到需要下载的文件名称是我们经常要遇到的一个问题。本文提供两种解决办法,基本上这两种解决办法结合可以处理大部分情况。 一、获取header字段Content-Disposition ...
  • vue定义全局Url

    千次阅读 2019-01-22 09:34:32
    首先创建一个vue文件 然后在main引用在挂载到实例上就可以 使用的时候直接this.Api就等于https://blog.csdn.net/weixin_41916005,在更改测试url和发布url很方便...
  • 小马手机丢了于是在淘宝二手搜了一下,发现有个貌似很真实但价格低的不大真实的商品···于是加了qq,人家说1600 64g的5s包邮··· 而且煞有其事的发了图片过来: 第二天就发了淘宝链接,由于他之前在淘宝二手...
  • url通配符

    千次阅读 2017-05-08 16:13:43
    本篇我们来学习如何来配置一个action的url映射规则。 在系列(2)中我们在HelloWorldController上配置了一个@RequestMapping(value = "/helloworld")这表示对该controller的所有action请求必须是以"/helloworld”...
  • IIS安装和使用URL重写工具-URL Rewrite

    万次阅读 2018-04-27 09:50:17
    下载和安装URL RewriteIIS8默认是没有安装URL重写工具的,必须要自己下载安装。如果IIS上默认有安装Web平台安装程序,我们可以使用平台自动安装URL Rewrite重写工具,打开IIS(Internet 信息服务管理器),在管理器...
  • 为什么要进行URL编码

    千次阅读 2017-09-19 13:26:17
    ,实际上就等于在google中搜索abc。又如@符号在ASCII字符集中对应的字节为0x40,经过URL编码之后得到的就是%40. 对于非ASCII字符,需要使用ASCII字符集的超集进行编码得到相应的字节,然后对每个字节执行百分号...
  • URL重写及Session

    千次阅读 热门讨论 2017-03-23 22:37:36
    先粘=一段: Session对象:是用来分别保存每一个用户信息的对象,以便于跟踪用户的操作状态; Session的信息保存在服务端 ...但是如果不支持或废除了Cookies的话就自动转化为URL-rewriting , Session自动为每
  • 通过翻阅官方手册,我们发现可以借助 url-loader 或是 file-loader完成对 webpack 编译图片的配置。 下面我先分别介绍两种 loader 的配置方法(大家按需求选择其一),然后再简单介绍下两者的区别。 url-loader 配置...
  • 开发检测URL脚本(详解)

    千次阅读 2018-02-20 17:45:30
    大家好,今天给大家带来的是一些小实例,编写检测网站的脚本,在这里我用了两种思路来实现。 1.第一种实现的效果图如下: ...# URL:http://blog.csdn.net/qq_39591494 # Email:www.ywyankai.cn # infor...
  • http的url参数讲解

    万次阅读 2017-06-06 16:47:02
    url 地址如: http://localhost/1.html?id=1&page=2#section=3js代码window.location.href 获取到: http://localhost/1.html?id=1&page=2#section=3location.search ?id=1&page=2location.hash #section=3共同...
  • webpack中url-loader的使用

    千次阅读 2019-06-15 11:27:27
    1、使用url-loader引入图片,可以说它是file-loader的增强版 (1)、第一步:安装url-loader (cnpm i url-loader file-loader -D) (2)、配置: main.js导入css import 'CSS路径' module:{ rules:[ { test:/\...
  • URL地址中的中文乱码问题的解决

    万次阅读 2015-02-12 20:15:03
    引言: 在Restful类的服务设计中,经常会碰到需要在URL地址中使用中文作为的参数的情况,这种情况下,一般都需要正确的设置和编码中文字符信息。乱码问题就此产生了,该如何解决呢?且听本文详细道来。
  • 海康威视RTSP URL

    万次阅读 2019-02-16 19:16:48
    URL规定: rtsp://username:password@&lt;ipaddress&gt;/&lt;videotype&gt;/ch&lt;number&gt;/&lt;streamtype&gt; 路径后面不能有空格、回车等符号,否则会连接失败。 举例说明...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 183,389
精华内容 73,355
关键字:

url等于