精华内容
下载资源
问答
  • 为帮助保护您的安全,Internet Explorer 已经限制此文件显示可能访问您计算机的活动内容  博客分类:  Javascript 活动JavaScript脚本  调试脚本的时候,老是出现“为帮助保护您的安全,Internet ...

    为帮助保护您的安全,Internet Explorer 已经限制此文件显示可能访问您计算机的活动内容

        博客分类:
        Javascript

    活动JavaScript脚本
        调试脚本的时候,老是出现“为帮助保护您的安全,Internet Explorer 已经限制此文件显示可能访问您计算机的活动内容。单击此处查看选项…””这样的信息栏提示,试了几次,终于把这个选项去掉了。

    方法:
        “工具”->“internet 选项”->“高级”->“安全”->"允许活动内容的文件在我的计算机中运行"
    展开全文
  • 为帮助保护您的安全,internet explorer已经限制此文件显示可能访问您的计算机的活动内容2009-04-08 20:20以下是我在蓝色发的贴子:“大家好,讨论个问题:大家应该都遇到过这样的一种问题,打开一张带有js代码的网页...
    为帮助保护您的安全,internet explorer已经限制此文件显示可能访问您的计算机的活动内容
    2009-04-08 20:20

    以下是我在蓝色发的贴子:
    “大家好,讨论个问题:
    大家应该都遇到过这样的一种问题,打开一张带有js代码的网页,IE下址址栏下面有这样的提示:“为帮助保护您的安全,internet explorer已经限制此文件显示可能访问您的计算机的活动内容”。除非你右键-"允许阻止的内容(A)"那么你才能看到JS的效果。感觉对网页的访问性来说,这是个不小的折扣。
    1、在硬盘目录下,到IE的高级选项-“允许活动内容在我的计算机上的文件中运行”,网页中的JS可以正常执行,也没有提示的。
    2、放到IIS目录下面,即便“允许活动内容在我的计算机上的文件中运行”选项没有打勾,网页中的JS也是可以正常运行的。这里就有了问题,JS不是在客户端浏览器中解释执行么?为什么放到iis下后,ie下的JS就可以正常执行了呢?
    网络上,有的朋友说是迅雷的插件问题,我试了下,没有解决,应该不是插件冲突的问题。
    当然,让浏览我们网站的人去设置IE的选项,是可以解决问题的,但是,不能指望所有浏览我们网站的人会设置相应的选项来解决这种技术问题。
    今天看了下“江民”的站,主页上也应用了tab选项栏js技术,我随手当下来,发现它的可以在硬盘目录下运行,我就把代码重构了下,因为个人感觉,无论是css命名,还是xhtml,还是js(还有js sniffering),“江民”的站用的并不好(也许是兼容性的需要),当然做出来的效果还是不错的。重构后的代码运行的时候,又出现在IE下提示“为帮助保护您的安全,internet explorer已经限制此文件显示可能访问您的计算机的活动内容”!我晕,js我是直接拷贝的,仔细看了会也没发现问题所在。
    大家也看看,望牛人回复!”

    现将这两天学习的关于这个问题的知识做个总结:
    首先,说说症结所在:上传到空间的文档,IE下js运行是正常的,所以不讨论上传到空间的文档。说说本地硬盘目录下的文档,查看源码,如果在doctype声明下面一行有“<!-- saved from url=(00xx)http://***.***-->"(xx是"url="后面的url地址长度,比如说这样:<!-- saved from url=(0014)http://m4er.cn -->),那么IE下本地运行的JS就没有“为了帮助保护您的安全,internet explorer已经限制此文件显示可能访问您的计算机的活动内容”这样的提示了。大家都知道网页的浏览模式,我们看到的网页都是我们所使用的电脑从网络上下载到本地然后再显示给我们看的,可以从IE浏览器的“工具”-“internet选项”-“常规”-“internet临时文件”-“设置”-“查看文件”看到浏览器下载到本地的临时网页文档。
    以下是蓝色的cnmao99的我的这个问题的回复:
    “注意:您可以向本地 HTML 文件中添加一条“saved from URL”注释,以指示 Internet Explorer 对本地计算机上的 HTML 内容应用其他区域的设置。例如,您可以向一个本地 HTML 文件中添加一条“saved from URL”注释,以便可以将该 HTML 文件分配到 Internet 区域而不是本地计算机区域。如果您在 Internet 区域中允许脚本、签名的ActiveX 控件和 Java 小程序,那么该本地 HTML 文件将使用这些缩减的安全权限运行。要指示 Internet Explorer 对名为 Test.htm 的本地 HTML 文件使用 Internet 区域,请向 Test.htm 中添加以下注释。请在 <HTML> 标记前面单独使用一行来添加该注释。”
    我想他解释的很清楚。
    以下是我给他的回复:
    “兄弟,感觉这里还是有个问题的,不知道你有没意识到,“saved from URL”执行的问题。加了这条语句的文档运行的时候,权限怎么设置,怎么赋值?是每次文档运行的时候,浏览器通过internet访问“saved from URL”的url取得该文档所在空间的运行权限?还是有其他的运行模式?如果我不能上网呢?然后运行加了“saved from URL”注释的含有js的html文档会怎么样表现呢?如果我没有操作问题的话,结果是令我满意的,没有网络连接的情况下,文档在IE下可以正常运行,没有访问性的问题。我想是不是这样:加了这条“saved from URL”的文档是不是在本地就更改了它的运行权限。IE就标识它为internet区域文档。”
    这篇文章没什么实用的价值,仅仅作为技术讨论之用。

     

    __PS__ 解决办法:(BY:xqh800)__来源于遨游论坛的启发__

    Windows Registry Editor Version 5.00

    [HKEY_CURRENT_USER/Software/Microsoft/Internet Explorer/Main/FeatureControl/FEATURE_LOCALMACHINE_LOCKDOWN]
    "iexplore.exe"=dword:00000000

    将上述代码粘贴到文本编辑工具(譬如记事本)里,另存为 .reg后缀的注册表文件,双击导入即可解决

     

    如果是遨游浏览器,只需将遨游安装文件根目录下的sp2enable.reg导入注册表就能在maxthon中生效

    或者粘贴以下注册表代码:

    Windows Registry Editor Version 5.00

    [HKEY_CURRENT_USER/Software/Microsoft/Internet Explorer/Main/FeatureControl/FEATURE_LOCALMACHINE_LOCKDOWN
    ]
    "maxthon.exe"=dword:00000000

    参考:http://forum.maxthon.com/viewthread.php?tid=23924

    展开全文
  • 利用 Heritrix 构建特定站点爬虫

    千次阅读 2012-03-14 11:02:53
    简介: Heritrix 是一个由 java ...本文详细介绍了 Heritrix 在 Eclipse 中的配置、运行,最后以抓取北京林业大学网站为例,介绍如何对其进行扩展,实现只抓取特定网站的页面。 <!-- --> 标记本文!

    简介: Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑。本文详细介绍了 Heritrix 在 Eclipse 中的配置、运行,最后以抓取北京林业大学网站为例,介绍如何对其进行扩展,实现只抓取特定网站的页面。

    <!--

    -->

    发布日期: 2010 年 11 月 29 日
    级别: 初级
    访问情况 : 18332 次浏览
    评论: 


    本文由浅入深,详细介绍了 Heritrix 在 Eclipse 中的配置、运行。最后对其进行扩展,介绍如何实现只抓取特定网站的页面。

    通过本文,读者可以了解 Heritrix 的相关特点以及在 Eclipse 中的配置运行,能够从零开始构建特定站点的专有爬虫,从而为网站增加全文检索服务。

    背景

    随着网站内容的增加,为其添加搜索功能是一个常见的需求,搜索引擎也已成为互联网最重要的应用之一。你是否觉得普通的数据库检索已经不能满足你的查询需求了呢?是否希望花最小的代价为你的网站建立一个像 Google、百度那样的全文搜索引擎?是否希望创建自己专有的搜索引擎而不是想尽办法 SEO(Search Engine Optimization,搜索引擎优化)来等着 Google、百度收录你的网站?借助于开源工具的力量,你将很容易实现上述目标。

    搜索引擎的实现过程,可以看作三步:1. 从互联网上抓取网页 2. 对网页进行处理,建立索引数据库 3. 进行查询。因此无论什么样的搜索引擎,都必须要有一个设计良好的爬虫来支持。Heritrix 是 SourceForge 上基于 Java 的开源爬虫,它可以通过 Web 用户界面来启动、设置爬行参数并监控爬行,同时开发者可以随意地扩展它的各个组件,来实现自己的抓取逻辑,因其方便的可扩展性而深受广大搜索引擎爱好者的喜爱。

    虽然 Heritrix 功能强大,但其配置复杂,而且官方只在 Linux 系统上测试通过,用户难以上手。本文由浅入深,详细介绍 Heritrix 在 windows 下 Eclipse 中的配置运行,并对其进行简单扩展,使其只针对某一特定网站进行抓取,为构建相应站点的全文搜索引擎打好基础。


    Heritrix 下载

    目前 Heritrix 的最新版本是 1.14.4(2010-5-10 发布),您可以从 SourceForge(http://sourceforge.net/projects/archive-crawler/files/)上下载。每个版本都有四个压缩包,两个 .tar.gz 包用于 Linux 下,.zip 用于 windows 下。其中 heritrix-1.14.4.zip 是源代码经过编译打包后的文件,而 heritrix-1.14.4-src.zip 中包含原始的源代码,方便进行二次开发。本文需要用到 heritrix-1.14.4-src.zip,将其下载并解压至 heritrix-1.14.4-src 文件夹。


    在 Eclipse 中的配置

    首先在 Eclipse 中新建 Java 工程 MyHeritrix。然后利用下载的源代码包根据以下步骤来配置这个工程。

    1. 导入类库

    Heritrix 所用到的工具类库都在 heritrix-1.14.4-src\lib 目录下,需要将其导入 MyHeritrix 工程。

    1)将 heritrix-1.14.4-src 下的 lib 文件夹拷贝到 MyHeritrix 项目根目录;

    2)在 MyHeritrix 工程上右键单击选择“Build PathConfigure Build Path …”,然后选择 Library 选项卡,单击“Add JARs …”,如图 1 所示。


    图 1. 导入类库 - 导入前
    图 1. 导入类库 - 导入前

    3)在弹出的“JAR Selection”对话框中选择 MyHeritrix 工程 lib 文件夹下所有的 jar 文件,然后点击 OK 按钮。如图 2 所示。


    图 2. 选择类库
    图 2. 选择类库

    设置完成后如图 3 所示:


    图 3. 导入类库 - 导入后
    图 3. 导入类库 - 导入后

    2. 拷贝源代码

    1)将 heritrix-1.14.4-src\src\java 下的 com、org 和 st 三个文件夹拷贝进 MyHeritrix 工程的 src 下。这三个文件夹包含了运行 Heritrix 所必须的核心源代码;

    2)将 heritrix-1.14.4-src\src\resources\org\archive\util 下的文件 tlds-alpha-by-domain.txt 拷贝到 MyHeritrix\src\org\archive\util 中。该文件是一个顶级域名列表,在 Heritrix 启动时会被读取;

    3)将 heritrix-1.14.4-src\src 下 conf 文件夹拷贝至 Heritrix 工程根目录。它包含了 Heritrix 运行所需的配置文件;

    4)将 heritrix-1.14.4-src\src 中的 webapps 文件夹拷贝至 Heritrix 工程根目录。该文件夹是用来提供 servlet 引擎的,包含了 Heritrix 的 web UI 文件。需要注意的是它不包含帮助文档,如果想使用帮助,可以将 heritrix-1.14.4.zip\docs 中的 articles 文件夹拷贝到 MyHeritrix\webapps\admin\docs(需新建 docs 文件夹)下。或直接用 heritrix-1.14.4.zip 的 webapps 文件夹替换 heritrix-1.14.4-src\src 中的 webapps 文件夹,缺点是这个是打包好的 .war 文件,无法修改源代码。

    拷贝完毕后的 MyHeritrix 工程目录层次如图 4 所示。这里运行 Heritrix 所需的源代码等已经准备完备,下面需要修改配置文件并添加运行参数。


    图 4. MyHeritrix 工程的目录层次
    图 4. MyHeritrix 工程的目录层次

    3. 修改配置文件

    conf 文件夹是用来提供配置文件的,里面包含了一个很重要的文件:heritrix.properties。heritrix.properties 中配置了大量与 Heritrix 运行息息相关的参数,这些参数的配置决定了 Heritrix 运行时的一些默认工具类、Web UI 的启动参数,以及 Heritrix 的日志格式等。当第一次运行 Heritrix 时,只需要修改该文件,为其加入 Web UI 的用户名和密码。如图 5 所示,设置 heritrix.cmdline.admin = admin:admin,“admin:admin”分别为用户名和密码。然后设置版本参数为 1.14.4。


    图 5. 设置登陆用户名和密码
    图 5. 设置登陆用户名和密码

    4. 配置运行文件

    在 MyHeritrix 工程上右键单击选择“Run AsRun Configurations”,确保 Main 选项卡中的 Project 和 Main class 选项内容正确,如图 6 所示。其中的 Name 参数可以设置为任何方便识别的名字。


    图 6. 配置运行文件—设置工程和类
    图 6. 配置运行文件—设置工程和类

    然后在 Classpath 页选择 UserEntries 选项,此时右边的 Advanced 按钮处于激活状态,点击它,在弹出的对话框中选择“Add Folders”,然后选择 MyHeritrix 工程下的 conf 文件夹。如图 7 所示。


    图 7. 添加配置文件
    图 7. 添加配置文件

    至此我们的 MyHeritrix 工程已经可以运行起来了。下面我们来看看如何启动 Heritrix 并设置一个具体的抓取任务。


    创建网页抓取任务

    找到 org.archive.crawler 包中的 Heritrix.java 文件,它是 Heritrix 爬虫启动的入口,右键单击选择“Run AsJava Application”,如果配置正确,会在控制台输出如图 8 所示的启动信息。


    图 8. 运行成功时控制台输出
    图 8. 运行成功时控制台输出

    在浏览器中输入 http://localhost:8080,会打开如图 9 所示的 Web UI 登录界面。


    图 9. Heritrix 登录界面
    图 9. Heritrix 登录界面

    输入之前设置的用户名 / 密码:admin/admin,进入到 Heritrix 的管理界面,如图 10 所示。因为我们还没有创建抓取任务,所以 Jobs 显示为 0。


    图 10. Heritrix 控制台
    图 10. Heritrix 控制台

    Heritrix 使用 Web 用户界面来启动、设置爬行参数并监控爬行,简单直观,易于管理。下面我们以北京林业大学首页 (http://www.bjfu.edu.cn/) 为种子站点来创建一个抓取实例。

    在 Jobs 页面创建一个新的抓取任务,如图 11 所示,可以创建四种任务类型。


    图 11. 创建抓取任务
    图 11. 创建抓取任务
    • Based on existing job:以一个已经有的抓取任务为模板生成新的抓取任务。
    • Based on a recovery:在以前的某个任务中,可能设置过一些状态点,新的任务将从这个设置的状态点开始。
    • Based on a profile:专门为不同的任务设置了一些模板,新建的任务将按照模板来生成。
    • With defaults:这个最简单,表示按默认的配置来生成一个任务。

    这里我们选择“With defaults”,然后输入任务相关信息,如图 12 所示。


    图 12. 创建抓取任务“BJFU”
    图 12. 创建抓取任务“BJFU”

    注意图 11 中下方的按钮,通过这些按钮可以对抓取工作进行详细的设置,这里我们只做一些必须的设置。

    首先点击“Modules”按钮,在相应的页面为此次任务设置各个处理模块,一共有七项可配置的内容,这里我们只设置 Crawl Scope 和 Writers 两项,下面简要介绍各项的意义。

    1)Select Crawl Scope:Crawl Scope 用于配置当前应该在什么范围内抓取网页链接。例如选择 BroadScope 则表示当前的抓取范围不受限制,选择 HostScope 则表示抓取的范围在当前的 Host 范围内。在这里我们选择 org.archive.crawler.scope.BroadScope,并单击右边的 Change 按钮保存设置状态。

    2)Select URI Frontier:Frontier 是一个 URL 的处理器,它决定下一个被处理的 URL 是什么。同时,它还会将经由处理器链解析出来的 URL 加入到等待处理的队列中去。这里我们使用默认值。

    3)Select Pre Processors:这个队列的处理器是用来对抓取时的一些先决条件进行判断。比如判断 robot.txt 信息等,它是整个处理器链的入口。这里我们使用默认值。

    4)Select Fetchers:这个参数用于解析网络传输协议,比如解析 DNS、HTTP 或 FTP 等。这里我们使用默认值。

    5)Select Extractors:主要是用于解析当前服务器返回的内容,取出页面中的 URL,等待下次继续抓取。这里我们使用默认值。

    6)Select Writers:它主要用于设定将所抓取到的信息以何种形式写入磁盘。一种是采用压缩的方式(Arc),还有一种是镜像方式(Mirror)。这里我们选择简单直观的镜像方式:org.archive.crawler.writer.MirrorWriterProcessor。

    7)Select Post Processors:这个参数主要用于抓取解析过程结束后的扫尾工作,比如将 Extrator 解析出来的 URL 有条件地加入到待处理的队列中去。这里我们使用默认值。

    设置完毕后的效果如图 13:


    图 13. 设置 Modules
    图 13. 设置 Modules

    设置完“Modules”后,点击“Settings”按钮,这里只需要设置 user-agent 和 from,其中:

    • “@VERSION@”字符串需要被替换成 Heritrix 的版本信息。
    • “PROJECT_URL_HERE”可以被替换成任何一个完整的 URL 地址。
    • “from”属性中不需要设置真实的 E-mail 地址,只要是格式正确的邮件地址就可以了。

    对于各项参数的解释,可以点击参数前的问号查看。本次任务设置如图 14 所示。


    图 14. 设置 Settings
    图 14. 设置 Settings

    完成上述设置后点击“Submit job”链接,然后回到 console 控制台,可以看到我们刚刚创建的任务处于 pending 状态,如图 15 所示。


    图 15. 启动任务
    图 15. 启动任务

    点击“Start”启动任务,刷新一下即可看到抓取进度以及相关参数。同时可以暂停或终止抓取过程,如图 16 所示。需要注意的是,进度条的百分比数量并不是准确的,这个百分比是实际上已经处理的链接数和总共分析出的链接数的比值。随着抓取工作不断进行,这个百分比的数字也在不断变化。


    图 16. 开始抓取
    图 16. 开始抓取

    同时,在 MyHeritrix 工程目录下自动生成“jobs”文件夹,包含本次抓取任务。抓取下来网页以镜像方式存放,也就是将 URL 地址按“/”进行切分,进而按切分出来的层次存储。如图 17 所示。


    图 17. 抓取到的网页
    图 17. 抓取到的网页

    从图 17 也可以看出,因为我们选择了 BroadScope 的抓取范围,爬虫会抓取所有遇到的 URL,这样会造成 URL 队列无限制膨胀,无法终止,只能强行终止任务。尽管 Heritrix 也提供了一些抓取范围控制的类,但是根据实际测试经验,如果想要完全实现自己的抓取逻辑,仅仅靠 Heritrix 提供的抓取控制是不够的,只能修改扩展源代码。

    下面本文以实现抓取北京林业大学(www.bjfu.edu.cn)下相关页面为例说明如何扩展 Heritrix 实现自己的抓取逻辑。


    扩展 Heritrix

    我们先来分析一下 Heritrix 的总体结构和 URI 的处理链。

    Heritrix 的总体结构

    Heritrix 采用了模块化的设计,用户可以在运行时选择要用的模块。它由核心类(core classes)和插件模块(pluggable modules)构成。核心类可以配置,但不能被覆盖,插件模块可以由第三方模块取代。所以我们就可以用实现了特定抓取逻辑的第三方模块来取代默认的插件模块,从而满足自己的抓取需要。

    Heritrix 的整体结构如图 18 所示。其中 CrawlController(下载控制器)整个下载过程的总控制者,整个抓取工作的起点,决定整个抓取任务的开始和结束。每个 URI 都有一个独立的线程,它从边界控制器(Frontier)获取新的 URI,然后传递给 Processor chains(处理链)经过一系列 Processor(处理器)处理。


    图 18. Heritrix 整体结构
    图 18. Heritrix 整体结构

    URI 处理流程

    处理链由多个处理器组成,共同完成对 URI 的处理,如图 19 所示。


    图 19. URI 处理链
    图 19. URI 处理链

    1)Pre-fetch processing chain( 预处理链 ),用来判断抓取时的一些先决条件,如 robot 协议、DNS 等。

    2)Fetch processing chain(抓取处理链),解析网络传输协议,从远程服务器获取数据。

    3)Extractor processing chain(抽取处理链),从网页中抽取新的 URL。

    4)Write/index processing chain(写处理链),负责把数据写入本地磁盘。

    5)Post-processing chain(后置处理链),在整个抓取解析过程结束后,进行一些扫尾工作,比如将前面 Extractor 解析出来的 URL 有条件的加入到待处理队列中去。这里我们只需要控制加入到待处理队列中的 URL,就可以控制抓取的范围。

    扩展 FrontierScheduler 来抓取特定网站内容

    FrontierScheduler 是 org.archive.crawler.postprocessor 包中的一个类,它的作用是将在 Extractor 中所分析得出的链接加入到 Frontier 中,以待继续处理。在该类的 innerProcess(CrawlURI) 函数中,首先检查当前链接队列中是否有一些属于高优先级的链接。如果有,则立刻转走进行处理;如果没有,则对所有的链接进行遍历,然后调用 Frontier 中的 schedule() 方法加入队列进行处理。其代码如图 20 所示。


    图 20. FrontierScheduler 类中的 innerProcess() 和 schedule() 函数
    图 20. FrontierScheduler 类中的 innerProcess() 和 schedule() 函数

    从上面的代码可以看出 innerProcess() 函数并未直接调用 Frontier 的 schedule() 方法,而是调用自己内部的 schedule() 方法,进而在这个方法中再调用 Frontier 的 schedule() 方法。而 FrontierScheduler 的 schedule() 方法实际上直接将当前的候选链接不加任何判断地直接加入到抓取队列当中了。这种方式为 FrontierScheduler 的扩展留出了很好的接口。

    这里我们需要构造一个 FrontierScheduler 的派生类 FrontierSchedulerForBjfu,这个类重载了 schedule(CandidateURI caUri) 这个方法,限制抓取的 URI 必须包含“bjfu”,以保证抓取的链接都是北林内部的地址。派生类 FrontierSchedulerForBjfu 具体代码如图 21 所示。


    图 21. 派生类 FrontierSchedulerForBjfu
    图 21. 派生类 FrontierSchedulerForBjfu

    然后,在 modules 文件夹中的 Processor.options 中添加一行“org.archive.crawler.postprocessor.FrontierSchedulerForBjfu|FrontierSchedulerForBjfu”,这样在爬虫的 WebUI 中就可以选择我们扩展的 org.archive.crawler.postprocessor.FrontierSchedulerForBjfu 选项。如图 22 所示。


    图 22. 用 FrontierSchedulerForBjfu 代替 FrontierScheduler
    图 22. 用 FrontierSchedulerForBjfu 代替 FrontierScheduler

    最终抓取的页面如图 23 所示,全部都是 http://www.bjfu.edu.cn下的页面。是不是很简单呢?当然,如果只是想实现这个抓取目标,不用修改源代码,通过在 Web UI 中设置抓取规则也可以满足要求。本文只是以此为例说明 Heritrix 如何扩展 Heritrix。


    图 23. 扩展后的抓取效果
    图 23. 扩展后的抓取效果

    常见问题

    1. Access restriction 错误

    错误信息:

    Access restriction: The type FileURLConnection is not accessible due to restriction on required library C:\Program Files\Java\jdk1.6.0_20\jre\lib\rt.jar,如图 24 所示。


    图 24. Access restriction 错误
    图 24. Access restriction 错误

    解决方案:

    这是 JRE 的访问限制导致报错,在 MyHeritrix 工程上右键单击选择“Build PathConfigure Build Path …”,然后选择 Library 选项卡,将“JRE System Library”删除然后重新导入一下即可修复。或者选择“WindowsPreferencesJavaCompilerErrors/Warnings”找到“Deprecated and restricted API”下的“Forbidden reference (access rules)”,将默认设置“Error”改为“Warning”或“Ignore”。

    2. NullPointerException 的错误

    错误信息如图 25 所示:


    图 25. NullPointerException 错误
    图 25. NullPointerException 错误

    解决方案:

    这个错误的原因是缺少了“tlds-alpha-by-domain.txt”文件,在 heritrix-1.14.4-src\src\resources\org\archive\util 下可以找到该文件,将其拷贝到 MyHeritrix\src\org\archive\util 中即可。

    3. Modules 界面无法改变选择项

    错误信息如图 26 所示。


    图 26. Modules 界面无法改变选择项
    图 26. Modules 界面无法改变选择项

    解决方案:

    这是因为没有添加运行时所需的配置文件,参照本文“4. 配置运行方式”为 Classpath 添加参数即可。


    注意事项

    Heritrix 属于多线程下载爬虫,在公司内网使用有抓取限制。


    总结

    在搜索引擎的开发过程中,使用一个优秀的爬虫来获得所需要的网页信息是第一步,也是整个系统成功的关键。Heritrix 是一个功能强大而且高效的爬虫,具有良好的可扩展性。本文介绍了它在 windows 下 Eclipse 中的配置运行以及扩展,使您可以以最快的速度上手使用 Heritrix,享受您的爬虫之旅。


    参考资料

    学习

    讨论

    展开全文
  • 执行IE浏览器中 工具菜单—> Internet选项—> 高级—> 安全—> 找到“允许活动内容在我的计算机上的文件中运行” ,将其选中确定,下次就不再提示了。 如果提示“WINDOWS已经阻止软件因为无法验证发行者”...
    执行IE浏览器中 工具菜单—> Internet选项—> 高级—> 安全—> 找到“允许活动内容在我的计算机上的文件中运行” ,将其选中确定,下次就不再提示了。

    如果提示“WINDOWS已经阻止此软件因为无法验证发行者”。


    按照以下步骤操作: 
    打开IE浏览器:工具菜单—> Internet选项—> 安全—> 自定义级别—> 安全设置—> “ActiveX控件和插件下”的第5个“下载未签名的ActiveX控件”选择提示确定。

    展开全文
  • 各位装了SP2的同志,在你们做本地网页时,是怎么解决IE信息栏的干扰的?要怎么设置才能避免IE信息...可以如下处理:首选设置IE菜单:工具 -> Internet 选项 -> 高级 >> 安全 >> 允许活动内容在我的计算机上的文件中运行
  • 在ASP.NET 2.0中建立站点导航层次

    千次阅读 2007-03-21 20:33:00
    站点导航提供程序--ASP.NET 2.0中的站点导航提供程序暴露了应用程序中的页面的导航信息,它允许你单独地定义站点的结构,而不用考虑页面的实际物理布局。默认的站点导航提供程序是基于XML的,但是你也可以通过编写...
  • 让你上网不受限制

    万次阅读 2011-06-08 11:37:00
    讲的挺详细的:局域网用户的限制和反限制技巧分类:LAN and WAN可能现在对局域网上网用户限制比较多,比如不能上一些网站,不能玩某些游戏,不能上MSN,端口限制等等,一般就是通过代理服务器上的软件进行限制,如...
  • 上篇:Django项目实践3 - Django模型 Introduction ... 这是以网页和有限的可信任管理者为基础的界面,它可以让你添加,编辑和删除网站内容。 常见的例子: 你可以用这个界面发布博客,后台的网
  • 什么是XML站点地图?为什么要有网站地图? 一个好的XML站点地图可以作为您网站的路线图,引导Baidu访问您的所有重要页面。XML站点地图可以很好地用于搜索引擎优化,因为它们允许百度快速找到您的基本网站页面,即使...
  • [转]大型Web2.0站点构建技术初探

    万次阅读 2007-11-18 02:36:00
    大型Web2.0站点构建技术初探一、 web2.0网站常用可用性功能模块分析 二、 Flickr的幕后故事 三、 YouTube 的架构扩展 四、 mixi.jp:使用开源软件搭建的可扩展SNS网站 五、 Technorati的后台数据库架构 六、 通过...
  • 快速搭建Web站点

    千次阅读 2019-05-17 12:59:58
    1. 快速搭建Web站点  问题 根据公司信息化建设要求,需构建一台独立配置的网站服务器。考虑到站点的运行效率及稳定性、可扩展性等因素,要求使用RHEL 6服务器系统。为了尽快掌握httpd服务的相关配置,管理员先...
  • chm文件不能显示内容的解决办法

    千次阅读 2011-03-18 10:06:00
    当然,这些恶意的程序无法靠自身传播,仍然需要用户在特定的位置,通过IE和“ms-its”协议访问恶意的CHM文件。 这种情况一旦发生,如果受影响的用户当前登录身份是管理员,远程代码执行的漏洞可以允许恶意用户或者...
  • nginx设置站点访问密码详解

    千次阅读 2019-07-22 19:55:24
    在nginx使用过程中,搭建了很多个站点,但是其中,有些站点不想被其他人访问,因此我们可以在nginx中为全部站点或某个站点设置访问权限认证,只有输入自己设置的正确的用户名与密码才可正常访问; 在 nginx 下,...
  • 服务器选择压缩哪些文件是基于文件类型的,但通常对此都有太多的限制。大部分的web站点都gzip它们的html文档。当然你的脚步以及样式文件也是值得压缩的,但许多web站点错失了这么做的机会。事实上,任何文本形式的...
  • IIS的站点属性

    千次阅读 2009-06-12 15:00:00
    附:IIS的站点属性(详细内容,请查阅IIS帮助) Read only properties of W3SVC/1/Root: // 只读属性 AppIsolated = 2 属性指出应用程序是在进程内、进程外还是在进程池中运行。值 0 表示应用程序在进程内运行,值...
  • 用wget做站点镜像

    千次阅读 2016-06-21 15:14:30
    -r 表示递归下载,会下载所有的链接,不过要注意的是,不要单独使用这个参数,因为如果你要下载的网站也有别的网站的链接,wget也会把别的网站的东西下载下来,所以要加上-np这个参数,表示不下载别的站点的链接. ...
  • XSS跨站点脚本漏洞修复参考

    千次阅读 2016-10-23 10:46:14
    在以下情况下会发生跨站点脚本编制 (XSS) 脆弱性: [1] 不可信数据进入 Web 应用程序,通常来自 Web 请求。 [2] Web 应用程序动态生成了包含不可信数据的 Web 页面。 [3] 页面生成期间,应用程序不会禁止数据包含...
  • 总结了一些很实用值得收藏的站点

    千次阅读 2020-07-19 14:18:51
    个人站点 人工智能 优秀网站 创意十足 图标库 在线工具 在线简历 官方网站 数据分析工具 炫酷特效 社区 素材下载 视频学习 配色方案 静态资源库 音效素材库 Hove特效 Wordpress 值得收藏 电子书 网站导航 资源下载 ...
  • 常见的Web攻击有SQL注入、XSS跨站脚本攻击、跨站点请求伪造共三类,下面分别简单介绍。 1 SQL注入 1.1 原理        SQL注入就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符...
  • 站点脚本(XSS)

    千次阅读 2018-01-23 11:51:11
    站点脚本(XSS)是当前web应用中最危险和最普遍的漏洞之一。安全研究人员在大部分最受欢迎的网站,包括Google, Facebook, Amazon, PayPal等网站都发现这个漏洞。如果你密切关注bug赏金计划,会发现报道最多的问题属于...
  • 如何防止跨站点脚本攻击

    万次阅读 2017-10-31 01:00:50
    站点脚本(XSS)是当前web应用中最危险和最普遍的漏洞之一。安全研究人员在大部分最受欢迎的网站,包括Google, Facebook, Amazon, PayPal等网站都发现这个漏洞。如果你密切关注bug赏金计划,会发现报道最多的问题属于...
  • 如何用wget克隆站点镜像

    万次阅读 2014-10-27 10:23:15
    -r 表示递归下载,会下载所有的链接,不过要注意的是,不要单独使用这个参数,因为如果你要下载的网站也有别的网站的链接,wget也会把别的网站的东西下载下来,所以要加上-np这个参数,表示不下载别的站点的链接....
  • 使用不允许弱点出现的经过审核的库或框架,或提供更容易避免弱点的构造。 可用于更轻松生成正确编码的输出的库和框架示例包括 Microsoft 的 Anti-XSS 库、OWASP ESAPI 编码模块和 Apache Wicket。 [2] 了解将...
  • 解决方式:1.Cloudfalre来实现禁止特定国家的ip访问,比较简单,但是需要money!!!2.nginx,直接使用geoip模块,现在我们使用最新的ngx_http_geoip2,该模块可以精确到国家、省、市 要求:对网站
  • wget下载整个网站或特定目录

    万次阅读 2018-07-06 11:57:24
    -Q, –quota=NUMBER 设置下载的容量限制 –limit-rate=RATE 限定下载输率 * 目录 -nd –no-directories 不创建目录 -x, –force-directories 强制创建目录 -nH, –no-host-directories 不创建主机目录 -P, –...
  • 我的个人站点托管在GitHub上,想要多个域名都能够正常访问站点,比如,yunhao.space可以访问站点,blog.yunhao.space也可以访问站点。记录一次折腾。因为设置过程中,会有缓存,所以吧有的时候,不一定能够是真的能...
  • 模块特定设置 译者:老葛 当你自己创建一个模块时,你常常想让站点管理员能够通过选择不同的模块设置属性来改变模块的行为。本章将详细讲述如何将一个模块呈现在Drupal的管理页面,如何为用户呈现一个关于设置的...
  • 通过IIS自带工具Iisapp.vbs查询哪个站点占用资源IISAPP.vbs介绍:报告服务于某个特定应用程序池当前正在运行W3pwp.exe进程的进程标识符(PID)。情况:由于服务器上架设了IIS几十个虚拟主机,某天发现IIS中某虚拟主机...
  • 在ASP.NET 2.0中建立站点导航层次

    千次阅读 2007-01-22 18:17:00
    站点导航提供程序--ASP.NET 2.0中的站点导航提供程序暴露了应用程序中的页面的导航信息,它允许你单独地定义站点的结构,而不用考虑页面的实际物理布局。默认的站点导航提供程序是基于XML的,但是你也可以通过编写...
  • wget 下载整个网站,或者特定目录

    万次阅读 2013-09-16 23:44:12
    -Q, –quota=NUMBER 设置下载的容量限制 –limit-rate=RATE 限定下载输率 * 目录 -nd –no-directories 不创建目录 -x, –force-directories 强制创建目录 -nH, –no-host-directories 不创建主机目录 ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 52,366
精华内容 20,946
关键字:

已限制此站点显示特定内容