精华内容
下载资源
问答
  • 应用在本地能正常跑起来,发布到web上之后就获取不到正确的信息值,图片中的window7是通过System.getProperty("os.name")得到的,其他信息是通过获取CMD命令来得到信息,可是获取到的值 不正确,目前也不知道原因出在...
  • 怎么在WEB页面读取身份证信息

    千次阅读 2020-02-21 15:44:00
    怎么在WEB页面读取身份证信息 支持设备 精伦 新中新 神思 普天 良田高拍仪二代证模块 HttpPrinter下载地址(含html demo): https://www.lanzous.com/b743805 特点:1、无插件,主要一句js即可;2、拖拽即可...

     

    HttpPrinter下载地址(含html demo):

    http://www.HttpPrinter.com/

     

    特点:
    1、无插件,主要一句js即可;
    2、拖拽即可完成设计,支持 fastreport, reportmachine, gridreport(锐浪报表)
    3、强大的报表功能,管它什么报表, 交叉的,嵌套的,还是二维码,图片等等,都支持.
    4、打印机:只要是能用的打印机,都支持,针式打印机、激光打印机、小票打印机,证卡打印机等等,都不在话下,而且当有多个打印机时可以指定打印机;
    5、支持各种语言,java php js delphi python ios andriod firemonkey unigui C# 等等,提供Http通讯的语言都支持.

    6二代证 精伦 新中新 神思 普天  良田高拍仪二代证模块

    web身份证,web二代证,js身份证,js二代证

    展开全文
  • 例: 在浏览器中输入地址之后 , 查询出所有用户信息 ! 1.准备工作. 1.web - > WEB-INF - > lib包下导入jia包. 2.创建数据库和表 , 初始化表中数据 . 3.将c3p0工具类 , 放在src下 , 修改表名. 4.编写...

    例: 在浏览器中输入地址之后 , 查询出所有的用户信息 !ubmV0L3FxXzQyOTg2MTA3/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)
    1.准备工作.

    1.web - > WEB-INF - > lib包下导入jia包.
    2.创建数据库和表 , 初始化表中数据 .
    3.将c3p0工具类 , 放在src下 , 修改表名.
    4.编写用于展示的jsp页面 .
    5.创建好三层架构 .
    在这里插入图片描述

    Web层 -> UserServlet.java

    @WebServlet("/findAll")
    public class UserServlet extends HttpServlet {
       
        protected void doPost(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException {
            doGet(request, response);
        }
    
        protected void doGet(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException {
            // 创建UserService对象 , 使用其方法.
            UserService us = new UserService();
            // 返回一个List集合 , 把user对象放到集合中.
            List<User> list = us.findAll();
    
            // 将返回的list集合 , 添加到域对象中.
            request.setAttribute("user",list);
    
            // 成功之后 , 请求转发到jsp页面 , 给用户展示.
            request.getRequestDispatcher("/list.jsp").forward(request,response);
        }
    }
    

    Service层 -> UserService.java

    public class UserService {
        // 创建UserDao对象 , 调用其方法 , 并返回 .
        UserDao dao = new UserDao();
        public List<User> findAll() {
            return dao.findAll();
        }
    }
    

    Dao层 -> UserDao.java

    public class UserDao {
        // 查询数据库中所有的用户信息.
        public List<User> findAll() {
            // 1.创建QueryRunner对象.
            QueryRunner qr = new QueryRunner(DataSourceUtil.getDataSource());
            // 2.创建sql语句.
            String sql = "select * from user ";
            // 3.使用query方法执行sql语句.
            try {
                return qr.query(sql, new BeanListHandler<>(User.class));
            } catch (SQLException e) {
                e.printStackTrace();
                throw new RuntimeException(e);
            }
        }
    }
    

    javaBean -> User.java

    属性名  ==========  字段名
    创建getter/setter方法 !
    

    jsp页面 -> list.jsp

    <%@ taglib prefix="c" uri="http://java.sun.com/jsp/jstl/core" %>
    <%@ page contentType="text/html;charset=UTF-8" language="java" %>
    <!DOCTYPE html>
    <!-- 网页使用的语言 -->
    <html lang="zh-CN">
    <head>
        <meta charset="utf-8">
        <meta http-equiv="X-UA-Compatible" content="IE=edge">
        <meta name="viewport" content="width=device-width, initial-scale=1">
    
        <title>用户信息管理系统</title>
    
        <!-- 1. 导入CSS的全局样式 -->
        <link href="resource/css/bootstrap.min.css" rel="stylesheet">
        <!-- 2. jQuery导入,建议使用1.9以上的版本 -->
        <script src="resource/js/jquery-2.1.0.min.js"></script>
        <!-- 3. 导入bootstrap的js文件 -->
        <script src="resource/js/bootstrap.min.js"></script>
        <style type="text/css">
            td, th {
                text-align: center;
            }
        </style>
    </head>
    <body>
    <div class="container">
        <h3 style="text-align: center">用户信息列表</h3>
        <table border="1" class="table table-bordered table-hover">
            <tr class="success">
                <th>编号</th>
                <th>姓名</th>
                <th>性别</th>
                <th>年龄</th>
                <th>籍贯</th>
                <th>QQ</th>
                <th>邮箱</th>
                <th>操作</th>
            </tr>
            <c:forEach items="${user}" var="user">
                <tr>
                    <td>${user.id}</td>
                    <td>${user.name}</td>
                    <td>${user.sex}</td>
                    <td>${user.age}</td>
                    <td>${user.address}</td>
                    <td>${user.qq}</td>
                    <td>${user.email}</td>
                    <td><a class="btn btn-default btn-sm" href="update.jsp">修改</a>&nbsp;<a class="btn btn-default btn-sm" href="">删除</a></td>
                </tr>
            </c:forEach>
            <tr>
                <td colspan="8" align="center"><a class="btn btn-primary" href="add.jsp">添加联系人</a></td>
            </tr>
        </table>
    </div>
    </body>
    </html>
    
    
    展开全文
  • 主机访问虚拟机上的web服务

    千次阅读 2018-07-03 16:47:44
    需求在虚拟机跑分布式应用是往往需要用WebUI查看namenode和datanode相关信息,或者在服务器跑分布式程序。直接在虚拟机通过webui看不是很方便,现将其映射在主机,通过主机浏览器访问虚拟机的web服务器...

    需求

    在虚拟机上跑分布式应用是往往需要用WebUI查看namenode和datanode的相关信息,或者在服务器上跑分布式程序。直接在虚拟机上通过webui看不是很方便,现将其映射在主机上,通过主机的浏览器访问虚拟机的web服务器

    虚拟机上开启httpd

    虚拟机内部安装httpd,没安的话yum install httpd

    启动 sudo /etc/init.d/httpd start

    关掉防火墙 /etc/init.d/iptables stop

    在虚拟机内部用127.0.0.1测试,在主机用192.168.126.141测试,均能正常访问

    设置虚拟机为NAT连接

    1.点击虚拟机–>设置,如图

    确保为:NAT模式(N):用于共享主机的IP地址


    这里写图片描述


    2.点击编辑–>虚拟网络编辑器,如图:

    这里写图片描述


    首先点击左一NAT设置,然后点击添加,最后设置主机端口等信息,笔者设置为988,确保未被占用,然后填写虚拟机IP地址和虚拟机端口80,点击确定,应用,ok!

    访问虚拟机Web服务器

    1.查看主机ip地址

    cmd--ipconfig
    
    • 1
    • 2

    2.在主机浏览器中输入:

    主机ip:988
    
    • 1
    • 2

    ok!

    笔者的界面如下:


    这里写图片描述


    这里写图片描述

    展开全文
  • 基于Web开发模式的信息抽取

    千次阅读 2016-06-17 18:22:36
    基于Web 开发模式的信息抽取 信息抽取是一个互联网自然语言处理的一个首要环节,信息抽取的准确度会直接影响到后续的处理。信息抽取的目标是去除噪音,获取网页有价值的信息如网页的标题、时间、正文、链接等...

    基于Web 开发模式的信息抽取


    信息抽取是一个互联网自然语言处理的一个首要环节,信息抽取的准确度会直接影响到后续的处理。信息抽取的目标是去除噪音,获取网页有价值的信息如网页的标题、时间、正文、链接等信息。

     

    主流算法介绍

    网页信息抽取的方法有很多,比如从算法上分:基于模板的,基于信息量、基于视觉的、基于语义挖掘的、基于统计的。从HTML 处理上分为:基于行块、基于DOM 树。下面我逐一介绍。

    1.     基于模板,一般由人工维护一个URL 和HTML 的模板。当URL 匹配到某个URL 模板时,利用对应的HTML 的模板来抽取其中的信息。这种方法见效快、准确度高,抓取少量站可以使用,可以做一些模板设置工具来减少工作量,大量站需要较多人力维护模板列表。

    2.     基于信息量(信息量的解释我下面会说),见基于行块分布函数的正文抽取 ,计算正文在源码哪些行上分布较多,取正文较多的行;另外,也有算法是根据行的正文密度来计算的,简单点说就是正文长度/ 标签数量。基于信息量也有另一种方法,就是建立Dom 树,把行函数变为Dom 树上某个节点的评估函数。对于资讯类网站,这个方法会工作得很好,但是需要考虑到抽取网页信息并不代表文字多就好,比如正文下有一段版权信息或者网站说明,如何去除这些信息?另外,游戏下载网站分为游戏的结构化信息、描述信息、游戏操作说明等部分,信息是分散的,而不是集中的,这类信息如何处理?

    3.     基于基于视觉的页面分割算法 ,是基于分块的算法的一种具体实现方式,这是微软亚洲研究院的一个算法,用于微软搜索引擎Bing 上。我比较喜欢这个算法,因为提出了两个好的想法:一是根据视觉来分块,二是根据视觉来进行块合并。基于视觉处理较复杂,需要用到CSS 、Javascript等引擎,需要用浏览器内核库来处理HTML ,性能可能不高。另外,这个算法的结果只是告诉大家网页大概可以分为多少块,每一块的位置、大小是什么,而哪块和哪块是正文还需要进一步计算。

    4.     基于语义的正文抽取,根据锚文本和页面标题等不容易出错的信息去发现正文块,这类算法有效,但是仍有局限性。

    5.     基于统计的,基于分块和统计相结合的新闻正文抽取 和 基于同层网页相似性去除网页噪音 。前者利用统计是找到同一网页里面的正文块,后者是链接同一路径下的不同网页的相似度去除噪音,两者是有区别的。基于统计,可以减少个别网页的差异带来的误差,提高准确度。

     

    站在Web 开发者角度考虑

          以上的这些方法,都是从网页中的规律考虑,能解决一部分问题,而问题的根源是Web 页面是Web 工程师开发出来的,研究他们的Web 开发习惯和模式对于信息抽取是最根本的,而本人则做过Web 开发,所以总结出来几个对信息抽取有用的几个模式:

    模式1 :同类页面用一套模板。互联网的网站,大体上分为CMS 系统(如帝国CMS )、博客系统(如Wordpress )、论坛系统(如Discuzz ),不管是什么系统,同一类的网页都是根据相同的模板和后台数据生成的静态或动态页面,结构上是一样的,而内容是不一样的。如果有改版,也是统一修改,纯手工制作的页面已经很少了。

    模式2 :不同功能的信息用块标签。凡是分块的都用块标签(组标签),HTML 的标签中具有块属性的有DIV 、TABLE 、FORM 、CENTER 、UL 、LI 等。

    模式3 :重复结构用循环。 列表数据、论坛、博客评论,一般都是获取数据行,然后根据行进行循环输出。

    模式4 :按照信息来组织块。一是样式上有区分,导航、正文、相关文章、评论、左侧导航、右侧广告样式都有区别;而回帖、回复的样式都是一样的。二是块之间越相关,块就挨的越近,正文、相关文章、评论就挨的很近,而正文离右侧广告就很远。

    模式5 :不管是Web 开发者水平不高,还是网站比较流氓,很多正文并不干净,恨不得广告中夹点正文。

    根据以上的分析,结合上面的一些参考算法,提出了基于Web 开发模式的信息抽取算法,这个算法可以很通用的解决信息抽取中的准确度和干净度的问题。注:准确度 指正文完整;干净度 指正文中不包含噪音。

     

    基于Web 开发模式的信息抽取的算法描述

    1.     根据“模式1 “收集同一域名或者路径下的n 个(n>=1 )网页,同一域名或者路径下的网页具有同一模板的可能性较高。如果n=1 ,则退化为单个网页的信息抽取,单个网页抽取,对于快讯、短博客抽取难度大,如果有一组网页合并后抽取则可以较好的解决这个问题。

    2.     根据“模式2 “分别按照HTML 的块标签建立n 个Dom 树。这棵树不是所有的HTML 标签都是一个节点,只有块标签的可视节点 才能建立一个节点,既能满足信息抽取需要,又能提高效率。下图是建立的5 个Dom 树。

     

    图1

    3.     判断这n 个Dom 是否相似,主要是选取Dom 树的上各分支较高层数的节点来判断其结构是否相似,取相似的Dom 树合并其节点特征,可能n 个Dom 属于多个模板,则可以合并多个Dom树,逐一计算即可。特征为:正文长度、链接数量、链接中文本长度、图片大小、标签数量。假设合并后的Dom 树为D 。如果某个路径的节点在不同的Dom 树中,其特征完全一样,则此节点可被忽略(去掉版权、网站说明等重复噪音信息)。

    4.     根据“模式4 “,对D 进行相似正文块的合并,比如图2 中,节点7 下面有10 、11 、12 都是正文块(可以根据节点特征来计算),具有相同的父节点,则可以合并到节点7 。这一步主要是有某些博客或者网站,其正文分布在几个块中,如果不进行合并,则抽取的正文会不全。

     

    图2

    5.     根据“模式3 “,对D 中循环连续的块进行合并,这一类主要是针对评论、论坛的信息,如图3,节点2 、3 、4 、5 、6 是相同结构的节点,合并为节点2 。如果不合并,则会抽取到其中的一小块,导致信息不全。同时,对于循环连续块,需要有一个降权的处理,某些博文和评论,评论的权重会比博文大,不降权,会抽取到评论而不是博文。

     

    图3

    6.     找到信息量最大的块。这里解释一下信息量的概念,信息量是由文字、链接、图片、视频、动画以及他们的样式传达给使用者的信息的量化标准 。说白了,就是网页想给用户什么信息,内容页给用户的是内容,而导航页给用户的是链接,信息量的计算公式是不一样的。图4 是一个网页的结构,根节点1 下面有3 个节点:2 、3 、4 ;根据信息量计算公式,节点3 信息量最大,取节点3 ;节点3 下有7 、8 两个节点,7 最大;7 下面是11 ,所以取节点11 为正文节点。为什么不取节点15 呢,有两种可能,一种是节点15 在第4 步中已经被合并到节点11 上了,另外一种是节点15 信息量占节点11 的信息量比太少,不会被选择。

    信息量公式 = 正文信息 + 链接信息 + 图片信息 + 视频(包括Flash )信息 + 标签信息

     

    图4

    7.     根据“模式5 “,找到了正文节点只是说明正文是包含在正文节点中,找到的正文节点中依然包含噪音,比如正文块中夹杂广告信息,比如正文块中包含太多相关链接信息等等。这时候,需要对于正文块进行进一步的清洗,剔除噪音信息。对于论坛,如果只需要帖子本身的信息,而不要用户信息,可以根据论坛回帖重复的特点,计算每个回复块中各个块的信息量方差,方差大的为帖子块(因为帖子的长度差别很大),方差小的是用户信息块(用户信息块差异较小)。


    算法优势分析

    1.     用组标签以及标签中css进行分块,代替VIPS中的颜色、大小、位置等信息,简化了计算过程,效率较高,这么计算,在实际应用中效果也较好。如果能把颜色、位置、大小因素考虑进去,会更进一步提高准确率。是否需要处理css,看实际需要。

    2.  利用同一个模板下不同页面的结构相似性,和页面内循环块的相似性,来进行信息提取,比单一的页面,单一的块进行信息提取,其准确率的提升在3%以上(估计值)。比如快讯(只有一句话)较难处理,比如只提取论坛中的帖子内容(左侧个人信息、签名档都不要),比如提取博文而不要评论等...,通过观察一组相似结构来处理信息 ,这个思路可以延伸到其他类型的页面信息提取。

    3.  算法较通用,只需要根据不同的算法把类似的块进行合并以及设计合理的信息量公式,可以为不同的应用场景提供各类提取后的信息,比如提取文本、图片和视频,链接和结构化的内容。

    4.  更进一步的优化,在结构相似性的基础上,可以把网页结构的特征和网页信息模板 保留下来,以备无法提取信息的网页使用,特别是对于论坛和博客等回帖数不固定的页面更是重要。


    实际应用效果

          实际应用中,正文抽取部分,对于上万个站点(包括资讯、博客、论坛站点)的数据抽样进行检测,准确率能达到96% 以上。

          此算法用于HUB 的链接分析部分,分析HUB 页中的需要爬取的网页链接,不包含左右两侧的热门、导航等链接,几万个Hub 页测试,其准确率也达到了92% 。-- 如果把块的位置考虑进去,效果会更好。


    信息提取时的其他一些问题

          标签容错性: 本算法不识别Attribute的内容,不识别CSS和Script的内容,只需要处理标签匹配即可,即便是标签匹配错误也无所谓,只要能提取信息即可。
          编码识别:可以提取header中的charset,如果没有则可以用mozilla的charset探测组件来自动识别。编码建议都转为utf-8。

          语言识别:可以利用utf-8的中日韩的编码区间来计算字符的分布在哪个语言区间的概率来判别。

          标题提取和净化:锚文本和title相结合,根据规则截断标题,把“_新闻中心_新浪网”等无意义的去掉,也可以根据相似网页的标题共同部分去掉来截取。

          日期时间识别:正文区域上下不远的地方,用正则来匹配即可。如果有多个时间,可以取大于某个时间(2000年以后?)离现在最近的但不超过当前时间的时间。

          图片提取:提取正文区域的大图片链接,图片的介绍文字可以提取图片下方的文字或者图片周围的文字以及标题的文字。

          链接提取:提取链接最多的块,如果链接+简介+缩略图的HUB页,可以把文字和图片作为权重计算进去。HUB页也是形式多样,难度不比正文提取小。

     

    其他:以后想到再补充      

     

    附录:下面是文档部分,一并共享之,供参考。

    基于Web开发模式的信息抽取

    Web Page Information Extractor 

    展开全文
  • 使用工具:Python3;...实现在goodreads爬所有Stephen Kingquotes#可以根据需要在其他网站爬其他信息 代码片如下import requests from bs4 import BeautifulSoup#requests can be installed by pip through
  • Hadoop web端打开hdfs上的文件问题

    千次阅读 2018-11-29 18:14:39
    Hadoop打开hdfs上的文件问题 报错信息:Failed to retrieve data from /webhdfs/v1/user/hive/warehouse/test/...Hadoop web端上一直不能open hdfs上的文件,去Cloudera Community仍没有找到确切的答案。 在和...
  • 概述 Web应用出错时通常抛出403,404,500等异常...页头显示JBossWeb的版本信息页面中显示JBossWeb相关版本信息 在实际生产中会造成安全隐患,比如黑客知道服务器是JBoss,从而搜寻JBoss相关安全漏洞来攻击服务。本
  • java web上下文理解

    千次阅读 2018-03-01 17:34:55
    web上下文可以看成web应用运行环境,一般用context名字来修饰,里面保存了web应用相关一些设置和全局变量2.ServletContext,是一个全局储存信息的空间,服务器开始,其就存在,服务器关闭,其才释放。...
  • Tomacat错误信息(服务器版本号)泄露(低危险)  HTTP头信息泄露-隐藏web服务器banner信息 ...这个时候,黑客们,根据服务器的版本信息,可以了解到该版本服务器的已知漏洞,发起攻击,造成javaWeb应用的信息安全...
  • WEB 与 服务器 之间简单关系

    千次阅读 2018-03-08 09:13:14
    1、WEB :表示用户可以浏览的网页(HTML,CSS,JS) 2、服务器 1、硬件 与 软件 硬件范畴:一台主机 软件范畴:一个能够接收请求并给出响应的程序 2、作用 1、存储WEB上的信息(网页,图片,音频,视频) 2、能够...
  • Android 使用富文本显示web上的内容

    千次阅读 2017-07-10 18:57:10
     我是在TextView显示网页上的内容的。  一般显示网址上的内容,都是类似于&lt;fron ...... /&gt;的Html内容。  如果仅仅是显示的文字类型的html信息,那么直接使用Android提供的html转换方法就可以了...
  • web信息泄露注意事项

    2017-09-13 14:38:07
    2. 确保服务器打开的端口运行的所有服务都不会显示有关其构建和版本的信息。 3. 确保所有目录的访问权限正确,保证不会让攻击者访问到你的所有文件。 4. 不要在代码中将账户密码硬编码进去。也不要在注释中写入...
  • linux 发布了一个web项目,如何获取查看后台打印信息
  • 文框架下出现:服务器应用程序不可用 您试图在此 Web 服务器访问 Web 应用程序当前不可用。请点击 Web 浏览器中“刷新”按钮重试您请求。 管理员注意事项: 详述此特定请求失败原因错误信息可在 Web 服务器...
  • 本文推荐一篇文章,关于新闻调查公司ProPublica怎样DIY网站信息采集方案。这篇文章是Scraping for Journalism: A Guide for Collecting ...这个案例采集目标:从美国7家制药公司网站采集受赞助医生
  • 您尝试在此 Web 服务器访问 Web 应用程序当前不可用。请点击 Web 浏览器中“刷新”按钮重试您请求。 管理员注意事项: 详述此特定请求失败原因错误消息可在 Web 服务器系统事件日志中找到。请检查此日志...
  • 基于WEB分布式信息系统设计

    千次阅读 2007-02-20 11:55:00
    摘 要:通过对基于主机和客户机/服务器应用程序分析,结合企业实际情况,采用新设计技术,提出新设计思想,重新设计基于WEB的企业分布式共享信息系统,该系统可在Internet、Intranet稳定运行和通讯,它...
  • 基于SSM学生信息管理系统java学生信息管理系统java系统mysql数据库课设毕设 1.包含源程序,数据库脚本。代码和数据库脚本都有详细注释。 2.课题设计仅供参考学习使用,可以在此基础进行扩展完善 开发环境: ...
  • 有状态的WEB应用

    千次阅读 2020-10-24 09:33:36
    换句话说,在你各次请求之间,服务器是不会保留你 “状态” 信息。 每一次请求都被认为是一次全新请求,不同请求之间并不知道对方存在.这种” 无状态性 “使得 HTTP 和互联网都是 “去中心化” ,...
  • 您试图在此 Web 服务器访问 Web 应用程序当前不可用。请点击 Web 浏览器中“刷新”按钮重试您请求。管理员注意事项: 详述此特定请求失败原因错误信息可在 Web 服务器系统事件日志中找到。请检查此日志项...
  • 我发现很多兄弟姐妹们,在自己的项目中,引用自己创建的Web Service, 有时会遇到如何错误:这台计算机上的代理设置没有针对 Web 发现进行正确配置。有关详细信息,请按 F1。有的人解释,要创建虚拟目录,其实这些都...
  • Web是大家所熟知的,百度上的解释为:web(World Wide Web)即全球广域网,也称为万维网,它是一种基于超文本和HTTP的、全球性的、动态交互的、跨平台的分布式图形信息系统。 计算机专业的学习者对Web这个概念并...
  • 您试图在此 Web 服务器访问 Web 应用程序当前不可用。请点击 Web 浏览器中“刷新”按钮重试您请求。管理员注意事项: 详述此特定请求失败原因错误信息可在 Web 服务器系统事件日志中找到。请检查此日志项...
  • Web是大家所熟知的,百度上的解释为:web(World Wide Web)即全球广域网,也称为万维网,它是一种基于超文本和HTTP的、全球性的、动态交互的、跨平台的分布式图形信息系统。 计算机专业的学习者对Web这个概念并不...
  • WEB系统 在局域网内有很多电脑,电脑上面用过网线连接了扫描设备(扫描标签),当电脑访问服务器的时候,服务器获取扫描到的信息
  • Java Web应用在ARM Linux平台上的实现

    千次阅读 2014-09-01 00:16:21
    Java Web应用在ARM Linux平台上的实现 1引言 随着网络信息技术的飞速发展,Web技术越来越多的用在控制领域,客户端只需连接以太网,取得访问权限,就可以访问服务 器,查阅现场有关信息,并可以对服务器的...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 27,507
精华内容 11,002
关键字:

web上的信息