精华内容
下载资源
问答
  • Internet及其信息资源服务

    千次阅读 2010-11-19 07:45:00
    Internet正在快速的改变人们生产生活的各个方面,现代...其次,本章还重点介绍了Internet所提供的各种信息资源服务类型,并对每种方法的特点使用方法做必要说明。 1.1 Internet简介 1.1.1 国际Internet的发展历史

    Internet正在快速的改变人们生产和生活的各个方面,现代用户利用Internet可以有效的完成很多传统方法所难以实现的工作,如实时通信、异地文件传输和海量信息检索等。本章首先主要对Internet的基本内容做一介绍,以使读者理解现代Internet网络的特点,及其这些特点对目前Internet信息查询活动和方法的影响;其次,本章还重点介绍了Internet所提供的各种信息资源服务类型,并对每种方法的特点和使用方法做必要说明。

    1.1 Internet简介

    1.1.1 国际Internet的发展历史

    到今天,Internet的发展规模已经达到相当巨大的规模。据国外的研究站点报道,利用每6个月收集而来的Internet站点数量统计信息,现代Internet网络可以每隔5.32年增大一倍,几乎呈现指数增长的态势,如图2. 1所示:

    clip_image002

    2. 1 1995年8月到2008年1月间Internet中主机的数量增长曲线[1]

    但是,早期的Internet并没有这么大的规模,甚至人们都意识不到未来的发展会是今天这个样子。

    1)试验研究网络(ARPANET)

    据资料表明,现代的Internet最早是由一个名叫ARPANET的试验研究网络发展而来。在二十世纪六十年代,美苏冷战的格局并未改变,美国对核弹攻击可能带来的巨大破坏有着明确的认识,所以在1969年,美国国防部的国防高级研究计划署(Advanced Research Project Agency,ARPA)就试图建立一种结构灵活、安全稳健的计算机网络以适应这种要求。这项为了验证远程分组交换网的可行性而进行的试验工程,可以防止核战爆发引起大量电话业务中断导致军事通信瘫痪的局面出现,甚至可以在局部节点遭到彻底破坏以后,仍然可以凭借着其他的连接节点继续保持网络的正常通信。这个网络就是ARPANET,刚开始时仅有4个节点,分别建在加州大学洛杉矶分校(UCLA)、斯坦福研究所(SRI)、加州大学圣大巴比分校(UCSB)以及犹他大学(UTAH)。

    该网络就是现代Internet的前身。但是今天ARPANET网络早已不复存在,它留存给现代Internet的最大贡献就是研发了大量的先进技术,而恰恰是这些技术使得它的后继者才有可能建立起这么大的一个网络。如在1974年ARPANET创造出了一种更有效的通信协议IP协议(Internet Protocol)和TCP协议(Transmission Control Protocol)。进入80年代以后,此协议被加利福尼亚伯克利分校集成到了BSD UNIX操作系统中,此后UNIX被许多院校采用,使得TCP/IP快速发展起来。1983年,ARPANET的全部计算机完成了向TCP/IP的转换,并以ARPANET为主干网建立了跨越全美的早期网络。另外,一些诸如异种计算机的联网技术、分组交换和路由选择技术等都极大的增强了网络的灵活性。今天的Internet仍然广泛的在使用这些技术。

    2)学术性网络(NSFNET)

    此时,美国国家科学基金会(National Science Foundation,NSF)开始介入。该基金会大力倡导网络用户发扬奉献精神,反对以盈利为目的而使用网络,所以它从1986年开始,建立了一个以既有ARPANET网络为基础的学术性网络,即NSFNET。美国国家科学基金投入大量经费支持NSFNET的发展,如支付了大约10%的线路租用费,为了最终实现信息资源共享,NSFNET还把全美的主要研究中心和5个科研、教育用的计算中心近8万台计算机联成一体,并与ARPANET相连。

    到了1990年,ARPANET的大部分网络已被NSFNET所取代。NSFNET的形成和发展,也使它成为了美国计算机网络的最重要组成部分。与此同时,许多国家也相继建立了本国的主干计算机网络,并和美国的NSFNET网络连接了起来,形成了一种跨越全球的大型网络系统。同时,计算机网络的普及和影响程度得到了进一步的加强。

    3)商业化网络(ANSNET)

    NSFNET最初的宗旨是用于支持教育和科研活动,而不是用于商业性的盈利活动。然而,如果没有商业活动的介入,很难想象网络的发展会深入到千家万户。很多企业都注意到了利用这种大型跨地区的网络,使用它完全可以进行一些非常有价值的信息传输活动,而且在内容传输上,这种网络显然要比传统的电话电视网络更为方便。到了1991年,美国国家科学基金会似乎也意识到了这一点,逐渐放松了有关NSFNET使用的限制,开始允许企业进行部分商业活动。

    1992年,美国高级网络服务公司(Advanced Network & Service,ANS)推出了ANSNET,作为后起之秀,它进一步取代了NSFNET成为了主干网,此时全球的计算机网络系统已经基本形成,而且相互连接了起来。同时,其他各个大型商业公司也纷纷加入了这个行列,还出现了很多专门从事计算机网络商业服务的企业。1994年,美国国家科学基金会宣布不再给NSFNET在运行、维护上的经费支持,而改由MCI和Sprint等商业公司来进行相关的运行维护工作。1995年,NSFNET正式结束了它作为学术性主干网的历史使命,正式转化为商业性网络。

    4)现代Internet

    有必要解释一下Internet这个词语的含义。事实上,全球的互联网络都是由各个国家各个计算机网络通过相互连接组成的,何来Internet网络?仔细观察,Internet单词原由两部分组成:一是Inter,指物体之间;二是Net,指网络。因此,Internet即是指网络之间的网络,形象些说,即为“众网之网”或者“网际网”。这说明其实并无Internet网络,真实存在的网络都是各个子网络,这些子网络在整体上构成了一个完整的、大型的Internet网络。理解这一点非常重要,有助于我们对很多问题的认识。所以,早期的ARPANET和NSFNET等网络,既可以看成是现代Internet的前身,也可以看成是现代Internet的组成部分,当然今天的Internet网络不仅在规模上而且在技术上都有了质的变化。

    但是,现代Internet虽然很大,却是一个“无政府”的网络。由于Internet管理上的开放性,没有人实际拥有Internet,但它又是可以被每个用户所共同拥有和使用。这也是Internet的最大特点。由于Internet没有物理上的集中管理机构,所以为了促进Internet的持续发展,保证运行所需的标准兼容性,国际社会先后成立了一些机构来自愿承担相应的管理职责,这些组织机构一般都是非赢利组织,遵循着自下而上的结构原则[2]

    下面介绍几个重要的组织机构:

    ■Internet协会(Internet Society,ISOC):网址为http://www.isoc.org,一个相当于Internet最高管理机构的组织。它成立于1992年,总部设在美国的雷斯顿(Reston)。ISOC是作为一个“全球Internet协调与合作的国际组织”而建立的,其任务是确保全球Internet发展的有利性和开放性,并通过领导标准、议题和培训工作来发展互联网络的相关技术。

    ■Internet网络信息中心(Internet Network Information Center,InterNIC):网址为http://www.internic.net。它成立于1993年1月,该机构的主要任务是负责所有以.com、.org、.net和.edu结尾的顶级国际域名的注册与管理。而.mil和.gov等顶级国际域名仍然由美国政府管理,各个国家的顶级域名则由各国自己来管理。目前的InterNIC由ICANN[3]负责维护,提供互联网域名登记服务的公开信息。

    ■WWW协会(World Wide Web Consortium,W3C):网址为http://www.w3c.org,它的主要任务在于确定和颁布有关WWW应用的标准,它的服务包括为World Wide Web开发者和用户开发的一个信息库,体现和推动标准的参考代码实施,以及各类展示新技术的源应用程序范例等。

    除此以外,还有很多国际和地区的Internet组织机构,如表2. 1所示:

    2. 1 著名的Internet国际管理组织和机构

    简称

    组织名称

    ICANN

    国际互联网名字与编号分配机构

    IETF

    国际互联网工程任务组

    APNG

    亚太地区互联网社群组织

    ITU

    国际电信联盟

    APNIC

    亚太互联网信息中心

    APTLD

    亚太顶级域名协调论坛组织

    APIA

    亚太地区互联网协会

    APAN

    亚太地区先进网络联合会

    IAB

    互联网架构委员会

    WWTLD

    World Wide Alliance of Top Level Domains

    1.1.2 中国Internet的发展

    相对于国外Internet的发展,中国的Internet起步较晚,但是发展速度却相当快。截至 2008 年底,中国的网站数,即域名注册者在中国境内的网站数(包括在境内接入和境外接入)达到287.8 万个,较2007 年增长91.4%,是2000 年以来增长最快的一年[4]

    如果说使用Internet就是Internet发展的第一步,那么可以说是钱天白教授揭开了中国人使用Internet的序幕。1987年9月20日,中科院计算机网络信息中心钱天白[5]教授通过意大利公用分组网ITAPAC设在北京的PAD机,经由意大利ITAPAC和德国DATEX―P分组网,发出我国第一封电子邮件“Across the Great Wall we can reach every corner in the world(越过长城,走向世界)”,实现了和德国卡尔斯鲁厄大学的连接,通讯速率最初为300bps[6]

    当然,这个极具象征意味的事件并不能表示中国在二十世纪八十年代就已经建立了Internet网络。进入90年代后,全球的各个主要国家都逐渐提出了自己的Internet建设计划。如1992年美国副总统阿尔·戈尔就率先提出美国信息高速公路法案,所谓信息高速公路就是一种以Internet为基础、使人们方便地共享海量信息资源的高速计算机网络系统。相应的,中国在1994年建成了第一个跨园区的光纤互联计算机网络——北京中关村地区教育与科研示范网络,也被称为“中国国家计算机与网络设施(The National Computing and Networking Facility of China,NCFC)”,在国内该网络把清华大学、北京大学的校园网,以及中科院在中关村地区的众多研究所通过光纤连成一体。1994年4月20日,该网络到美国加州Stocken的64Kbps卫星专线开通,首次实现了我国与国际Internet的直接连接,使得我国成为了国际Internet网络的一个成员。因此,国际Internet组织就把中国NCFC国际线路开通的时间,即1994年定义为中国加入Internet的起始年份。

    从那以后,随着中国计算机网络的快速发展,一大批著名的网络应运而生,它们都先后构成了我国Internet网络的重要组成部分,如表2. 2所示:

    2. 2中国大陆带有独立国际出入口的互联网络[7]

    互联网络名称

    互联单位

    运营性质

    建立时间

    中国公用计算机互联网(CHINANET)

    中国电信集团公司

    商业

    1995.5

    中国金桥信息网(GBNET)

    吉通通信有限责任公司(已并入中国联通)

    商业

    1996.9

    中国联通公用计算机互联网(UNINET)

    中国联合通信有限公司

    商业

    1999.4

    中国网通公用互联网(CNCNET)

    中国网络通信有限公司(已并入中国联通)

    商业

    1999.7

    中国移动互联网(CMNET)

    中国移动通信集团公司

    商业

    2000.1

    中国卫星集团互联网(CSNET)

    中国卫星通信集团公司(电信业务并入中国电信)

    商业

    2000.10

    中国科技网(CSTNET)

    中国科学院

    商业

    1994.4

    中国教育和科研计算机网(CERNET)

    教育部

    公益

    1995.11

    中国长城互联网(CGWNET)

    中国长城互联网络中心

    公益

    2000.1

    中国国际经济贸易互联网(CIETNET)

    中国国际电子商务中心(对外经济贸易合作部)

    商业

    2000.1

    值得注意的是,这些不同的网络彼此相互连接在一起,并和国际Internet连接起来,整体上构成了全球Internet的一个重要组成部分。通常,我们把这些网络服务公司称之为Internet服务提供商(Internet Service Provider,ISP),即向单位和个人提供计算机网络接入服务的公司,他们通常都建立了各自的主干计算机网络。相应的,我们把那些主要以提供网络信息服务的公司称之为Internet信息提供商(Information Content Provider,ICP),如Google搜索引擎站点等。虽然ISP在Internet中的地位非常重要,但是我们要注意到,人们使用Internet的主要目的还是在于获取Internet信息提供商(ICP)所提供的各种信息服务,如我们所要谈到的信息资源查询服务等。

    正如国际Internet有相应的管理机构一样,中国的Internet也有自己的国家管理中心。1997年6月,中国科学院计算机网络信息中心组建了中国互联网络信息中心(China Internet Network Information Center,CNNIC),行使中国国家互联网络信息中心的职责。该管理中心的网址为:http://www.cnnic.net,读者可以从中了解很多中国Internet网络管理的相关新闻和政策等信息,其中CNNIC互联网研究中心还提供了大量研究报告和数据资源,网址为:http://research.cnnic.cn,界面如图2. 2所示:

    clip_image004

    2. 2 CNNIC互联网研究中心的页面(截取于2010-7)

    1.1.3 使用Internet的基本方法

    在了解Internet的基本情况以后,我们来了解一下Internet的具体使用方法。虽然我们可能每天都在使用Internet,但是所谓的“上网”究竟是如何进行的呢?其实,理解这个过程对于了解Internet信息检索的实现和原理大有裨益。

    我们设想一下,假设在南京财经大学信息工程学院信息管理系实验室,一名信息管理专业的学生打开了面前的一台联网电脑,在浏览器上键入Google的网址,于是打开了Google搜索引擎的主页。即便是这样的一个简单过程,其实包含着许多复杂的处理步骤。

    首先,用户在电脑上使用一种被称为浏览器的软件访问Internet,著名浏览器有IE、火狐(FireFox)和傲游浏览器等,甚至Google在2009年也推出了Chrome浏览器[8]。这些浏览器功能虽有差异,但是基本功能都一样。用户只需在浏览器的地址栏上输入需要打开的网站网址,如访问Google可以键入http://www.google.com。通常,我们也把这个网址称之为统一资源定位符(Uniform Resource Locator,URL)。注意三个特点:一是域名不分大小写,通常后续的目录和文件名也不分;二是在输入时可以省略前面的“http://”,但是浏览器最终还会自动加上。值得注意的是,如果把“http://”写成错误的“http://”,多数情况下会自动解析成正确的“http://”;三是URL最后的“/”可以省略,但是浏览器最终也会自动加上,如输入“http://www.baidu.com”,最终显示为“http://www.baidu.com/”。

    浏览器收到用户键入的网址后,自己并不能直接理解这个信息,所以首先将此请求网址发送到学校实验室中心的服务器进行解析,同样实验室中心服务器依然解析不了,它会继续将此网址信息转发,到达能够解析此网址的域名服务器。域名服务器可能是位于教育网的其他服务器,它将此网址转换成IP地址。IP地址是真正在Internet上标记一个网站服务器的符号,如南京财经大学的网址为http://www.njue.edu.cn,对应的IP地址为:http://210.28.80.2。显然,IP地址并不好记,而且有时还会变化,倒是网址更便于记忆,但是两者通常一一对应,所以请求的效果一样,用户可以使用上述网址和IP地址来获取同一个南京财经大学的网站主页。

    等解析完网址后,此时的用户请求信息才会被真正转发到IP地址对应的目标服务器上,如该学生访问的Google服务器将收到用户的请求信息。这台服务器可能会位于美国计算机网络中,两国通过海底光缆进行Internet网络信息的通信传输。同样,用户自己的IP地址也会被浏览器自动发向Google目标服务器,因此,Google服务器将主页信息按照用户的IP地址,返送给南京财经大学那位同学的计算机浏览器上。浏览器对网页信息进行解析,最终在用户电脑上显示了Google的主页画面。

    从Internet的结构来看,上述过程跨越了多个计算机网络,这些网络有些是互相包含的,如中国教育科研网包含了南京财经大学的校园网,而有些网络是彼此独立的,但是互相连接,如中美两国各自的计算机网络通过海底光缆进行连接。

    1.2 Internet的信息资源服务

    所谓Internet信息资源服务,是指Internet提供的各种信息资源及其访问方法。我们都知道,Internet为我们提供了信息资源的获取平台。而且在通常意义上,我们认为使用搜索引擎和浏览各种网站就是在使用Internet的信息资源服务。然而,我们可能并不知道Internet所提供的信息资源获取方法和服务远非这些方式,事实上,整个Internet始终围绕着能够为用户提供更好更多的信息资源获取方法这个目标而发展,Internet一直都存在着很多其他类型的信息资源服务。

    1.2.1 远程登录服务(Telnet)

    今天的Internet是个五彩缤纷的世界,而在二十多年前,早期的Internet却是一个黑底白字的字符世界,那时没有鼠标,用户只能通过键盘输入各种指令来完成对网络的访问。Telnet就是一种以字符界面为基础的早期网络访问方式,它也是相应操作程序的名称。通过该程序的运行,用户可以使得本地计算机在网络通讯协议Telnet的支持下暂时成为访问远程计算机的一个终端。通过这些Telnet站点,我们一样可以获取网络信息资源,不过它们的访问方式主要基于字符菜单选择界面,操作不是非常方便。虽然现在已经难以在Internet上看到这种Internet服务,但是有些高校仍然还在使用这种Internet访问方式,毕竟它的速度快,对网络带宽的消耗小,同时也能够提供丰富的文字信息内容,如南京大学小百合telnet网站,网址为telnet://bbs.nju.edu.cn,如图2. 3所示:

    clip_image006

    2. 3 南京大学小百合telnet网站的主页(截取于2010-3)

    注意,读者可以直接在浏览器地址栏上键入上述网址,也可以在“开始”——“运行”中键入上述网址,都可以打开一个字符界面的网络访问程序。

    利用这种服务方式,我们可以快速的获取各种发帖中的文字信息,这种系统也被称为电子公告牌系统(Bulletin Board System,BBS),即让用户留言发帖的网络公告系统,如图2. 4所示:

    clip_image008

    2. 4 南京大学小百合telnet网站的用户发帖显示页面(截取于2010-3)

    1.2.2 文件传输服务(FTP)

    Telnet只能提供文字信息的浏览和获取方法,对于那些诸如歌曲和图片等文件,如何在Internet上进行传输和共享呢?FTP就是一种有效的方式,它的字面意思是文件传输协议(File Transfer Protocol,FTP),其实它定义了不同计算机之间通过网络传送文件的方法,因此我们把这种Internet信息服务称之为FTP服务。类似于Telnet,FTP也是一种实时的联机服务。使用FTP服务时,用户首先要登录到对方的计算机上,但是此时用户只能进行与文件搜索和文件传送等有关的操作。

    早期的FTP服务界面仍然基于字符界面,操作方法也是通过各种指令来进行的。但是,FTP服务并没有象Telnet服务那样,逐渐退出了人们的视野,相反在今天的Internet上仍然发挥着重要的作用。通过浏览器看到的界面非常类似于“我的电脑”,不过里面所显示的文件都是对方服务器上的文件,此时用户可以右击文件选择“复制到文件夹”来获取文件,如图2. 5所示:

    clip_image010

    2. 5 某FTP站点的显示界面(截取于2007-9)

    通常利用FTP服务,人们可以非常方便的获取软件、歌曲和图片等电子文档资源,因此FTP服务是一种重要的Internet文件资源获取方式。不过,由于电子文档版权的原因,不是每个FTP站点都允许用户匿名访问,很多FTP站点都要求用户首先登录,如图2. 6所示:

    clip_image012

    2. 6 FTP站点的登录界面(截取于2007-9)

    而且,也不是所有的FTP站点都具有允许用户上传文件的功能,大部分FTP站点都只允许用户浏览和下载。

    最后,强调两个问题。一是由于浏览器的局限性,利用浏览器访问FTP站点通常都会存在各种各样的困难,所以建议读者使用一些专门的FTP访问软件来访问相关FTP站点,如CuteFTP、FlashFTP等。这些软件不仅可以具有更快更稳定的访问效果,而且还能具有诸如断点续传和多线程访问等特点,从而方便用户访问各种文件资源。如CuteFTP的显示界面如图2. 7所示:

    clip_image014

    2. 7 CuteFTP程序的界面

    二是虽然FTP站点具有大量的文件资源,但是用户只能通过目录来层层定位所需文件,因此缺乏一种快速有效的搜索方式。我们非常希望可以直接根据用户输入的查询词语来找到含有相关文件的所有FTP站点及其文件所在目录。因此,FTP搜索引擎应运而生,如早期的Archie,现在国外的FileWatcher(网址为:http://www.filewatcher.com)和北京大学的北大天网(网址为:http://e.pku.edu.cn)和天网资源(网址为:http://bingle.pku.edu.cn)等。

    我们通常把用户输入的查询词语也称为“关键词(Key Word)”、“查询词(Query Term)”或者“搜索词(Search Word)”等。它们的含义基本相同。

    1.2.3 电子邮件服务(E-mail)

    收发电子邮件已经成为现代人访问Internet最为常见的行为之一。电子邮件(Electronic Mail)亦称E-mail,从字面理解它是指用户或用户组之间通过计算机网络收发邮件信息的服务。值得注意的是,它也是一种重要的信息资源获取方式。事实上,在早期网络环境中,用户访问网络的机时费相当高,多以上网的时间长短来计费。因此,当时的用户不太可能象今天的用户那样,随意的在网络上搜索自己所需的内容。因此,有些科研资源服务器系统就采用这种以电子邮件为载体的信息资源获取方式,允许用户编写固定格式的电子邮件,并指定用户将其发送到指定信箱。系统收到邮件后,会由程序自动解析出其中的检索要求,并将检索结果再以邮件的方式返回给用户。利用这种方式,不论是用户编写邮件还是阅读邮件,都不会产生网络访问,只有在收发邮件的那一刻才需要访问网络。显然,这是一种非常经济有效的信息资源获取方式。直到今天,还有很多网络查询系统仍在使用这种方式,一般这种服务也被称为“信息推送(Information Pushing)”,如南京图书馆就允许将书目查询信息以电子邮件的方式发送到用户手中,如图2. 8所示:

    clip_image017

    2. 8 南京图书馆提供的使用电子邮件接收书目查询信息的操作界面(截取于2010-6)

    当然,随着网络技术的普及,今天的人们已经很少再使用电子邮件作为信息获取的途径。不过,一个新的发展动向值得关注,那就是邮件查询服务。传统的电子邮件系统往往采用标准的“收件箱”和“发件箱”之类的目录来层次化的管理用户邮件信息,用户在查询自己所需的邮件时,往往需要大量的浏览和阅读才能定位所需内容。借助搜索引擎的全文检索方法,今天的邮件系统也开始广泛的使用基于关键词的全文邮件查询功能,如Google搜索引擎的电子邮件系统Gmail在2004年就率先提供了类似的服务,并将邮件查询和网页查询很好的结合在一起,如图2. 9所示:

    clip_image019

    2. 9 Gmail中的全文邮件查询功能(截取于2010-3)

    1.2.4 网络新闻服务(Usenet)

    一般意义上的网络新闻服务(Network News)是指网络站点提供各种新闻信息资源的行为,然而这里所指的网络新闻服务(Usenet)是一种特指,它借助一种特殊的网络新闻阅读程序来实现,这种程序并非今天的Web浏览器,它被称为网络新闻阅读器(Network News Reader),它按不同的专题来组织网络新闻信息,并将具有共同爱好的Internet用户连接起来,用户之间可以相互交换意见共享新闻信息,因此该系统相当于一个采用特定格式交换新闻信息的全球电子公告牌系统。在这种网络环境中,每个用户都可以给其他用户提供新闻资源,同时每个用户也可以使用其他用户的资源,我们称这种网络技术为点对点(Peer to Peer,PtoP)技术。

    在早期的Unix系统中,有四种比较流行的网络新闻阅读器是rn(在这些新闻阅读器中是最早的一个)、nn、tin和trn。后来的浏览器也开始支持这些网络新闻服务,如IE浏览器工具栏上的“讨论”功能就可以支持这种网络新闻阅读和讨论,如图2. 10所示:

    clip_image022

    2. 10 IE浏览器工具栏上的“讨论”功能(截取于2010-3)

    虽然我们还能看到类似的服务,但是往往很难使用起来,因为相关的网络新闻服务器多半都已停止服务。现代Internet所提供的Web新闻服务功能更为强大,基于Web网页的网络论坛、门户网站和新闻站点都能够很好的提供图文并茂的新闻服务,而且还允许用户自由发表评论,同时还会提供较为强大的信息查询途径。不过,Usenet所采用的PtoP网络技术,却在以后的网络技术发展中发挥着越来越大的效果,如今天诸如BT等PtoP下载软件,甚至还有基于PtoP的搜索引擎等。

    1.2.5 名址服务

    名址服务又被称为名录服务,是指利用人们在Internet上已经注册的个人或者机构信息,提供诸如名称和地址等相关信息的一种查询服务。具体的查询内容包括很多,如公司或者个人的邮箱、电话和名称等信息。通常我们把电话号码查询称之为“黄页查询(Yellow Pages Query)”[9],把电子邮箱查询称之为“白页查询(White Pages Query)”。

    显然这是一种极为重要的信息资源。早期的Internet提供了大量相关的名址信息查询软件,如Finger、Whois、X.500和NetFind等。其中Finger是一个专门用来查询在Internet主机上已注册用户详细信息的程序,Whois则是另一种类型的白页目录,从中可以获取诸如单位名称和用户电子邮箱等信息。X.500是国标化标准组织ISO曾经制定的目录服务标准,可以给网络用户提供分布式的名录服务。NetFind是一基于动态查询的Internet白页目录服务,它可以查找到含有当前所找人相关信息的计算机。同时,Netfind不仅会查找一个名称和邮件地址,还会找出有关这个人的Finger信息。

    然而随着技术的发展,很多早期的名址服务都逐渐退出了人们的视野。但是在某些系统中,我们依然能够看到相关的名址服务仍然沿用这些过去的名称,如图2. 11所示:

    clip_image024clip_image025

    2. 11 InterNIC站点提供的Whois名址服务(截取于2007-9)

    不过,虽然这些传统技术已不复存在,现代Internet上的名址服务并没有消失,相反,基于名址查询的网络服务大行其道,在各种社交类站点中扮演着愈来愈重要的角色,如以查询校友信息为主要特点的国内社交站点“校内网”等,甚至一些诸如QQ、MSN等实时通讯类软件也往往提供非常良好的名址查询功能来吸引用户的使用。

    1.2.6 文件索引服务

    说到文件索引服务,不得不提到前文所说的FTP服务。虽然FTP服务器可以给用户提供大量的文件下载服务,用户可以直接在FTP服务器上浏览并下载所需文件,但是用户要想知道哪个FTP服务器上有自己所需的文件,却是一件非常不容易的事情。为了实现这一目标,人们必须要首先对文件建立索引,再以这个索引来提供相关FTP文件查询服务。所谓文件索引,其实就是一个列表,可以根据文件名称来反查文件所在FTP服务器的位置。

    早期的Archie和WAIS就是一些著名的文件索引服务。

    如Archie包括两个部分,一个是Archie服务器,它可以跟踪收集世界各地各个主要FTP服务器上的文件信息,另一个是Archie查询软件,用户使用它可以根据文件名称来查找所在的FTP服务器。所以Archie也被称为最早的FTP搜索引擎,当然Archie主要基于字符界面,没有今天的FTP搜索引擎这么强大和方便。

    再如WAIS,它是指广域信息服务(Wide Area Information Service),是由三个商业公司Apple、Thinking Machines和Dow Jones共同开发的,其中Apple公司制造了具有图形用户接口的个人计算机,Thinking Machines公司制造了适合快速查询的多处理器服务器,而Dow Jones公司则经营着信息服务业。三者的结合创造了WAIS服务。WAIS服务可以查找文件所在的FTP服务器,和Archie不一样的地方在于,Archie只能根据文件名称来查找,而WAIS还可以根据文件内容来查找,由此我们可以把WAIS看成最早的全文FTP搜索引擎。在Unix系统上最为常见的WAIS程序有swais和waissearch等。

    然而,随着FTP在网络上影响力逐渐衰退,这些文件索引服务也逐渐消失了。取而代之的是今天基于Web环境的现代FTP搜索引擎。当然,人们依然能够在某些站点上看到这些传统的服务,如图2. 12所示:

    clip_image027clip_image028clip_image030clip_image028[1]

    2. 12 波兰ICM大学提供的Archie查询入口(截取于2007-9)

    1.2.7 信息浏览服务

    到了20世纪90年代以后,随着网络技术的普及,越来越多的网络信息浏览技术逐渐出现。通过这些技术,用户可以更加方便的获取和使用网络信息资源。同时,这些不同的技术虽然在使用方法上各不一样,但是都努力在易用性方面达到用户的满意。比较著名的有Gopher和WWW。

    1)Gopher

    Gopher是由美国明尼苏达大学(University of Minnesota)的马克·麦卡希尔(Mark McCahill)于1991年开发的程序,最早的Gopher程序可以运行在Unix系统上,程序的名字就叫Gopher。不像Archie,Gopher只存储普通的文本文件,所以可以提供基于文本内容的查询服务。同时它还具有一种基于菜单驱动的网络信息获取方式。在Gopher程序中,每个菜单项可以是一个文件或者一个目录,沿着目录访问可以继续访问到下级目录或者下级文件。用户在层次性菜单目录的指引下,可以非常方便的获取到自己所需的文件信息资源。和诸如Telnet等其他技术相比,Gopher无需用户掌握太多的指令,因此用户易于上手使用。同时,Gopher内部也集成了FTP等工具,因此可以提供诸如文件获取、信息查询等各种常见信息服务。

    不过,随着WWW的出现,Gopher逐渐退出了历史舞台。然而在今天的Internet上,我们仍然可以使用一些尚未关闭的Gopher服务,如“The World”协会提供的Gopher服务,通过网页形式的超链菜单目录,用户仍可以定位到所需的信息内容上,如图2. 13所示:

    clip_image032clip_image033 clip_image035clip_image036

    clip_image038clip_image036[1] clip_image040clip_image036[2]

    2. 13 利用“The World”协会所提供的Gopher服务获取出版社名录信息(截取于2007-9)

    2)WWW

    说到WWW,可能读者会觉得它非常难以理解。其实,我们现在每天上网访问的网页基本上都是WWW网页。也就是说,现代Internet主要采用了WWW服务方式。那么什么是WWW?从字面上说,WWW是指环球信息网(World Wide Web),也称万维网,有时也被简称为Web。从含义上说,WWW是一种技术,采用该技术的网络文档可以通过一种被称为超文本(Hypertext)的方式来相互链接起来,用户可以通过点击超链的方式来对这些链接起来的文档进行浏览。

    我们在阅读书本的时候,通常会发现有时可以不按照章节的先后顺序来阅读,比如通过脚注或者“请参见”之类的提示,便可以直接跳转到所要的内容上。为什么用户在浏览网页时不可以这样呢?这就是超文本。所谓超文本,它是指一种用计算机实现的链接相关文档的结构,通常该链接是一个具有下划线的文本,用户将鼠标移动过去将发现鼠标光标变成一个手的形状,此时点击该文本,便可以跳转到该超文本所链接的新文档中去。当然,用户还可以在被链接的文档中继续访问其他被链接的文档。通常我们也把这种超文本链接简称为“超链”。超链不仅可以链接文字信息,还可以链接诸如图片、音频和视频等多媒体信息资源,所以现代Internet上的网页内容丰富多彩。这种超文本技术和多媒体技术的结合,也被称为超媒体(Hypermedia)技术。

    早在1963年,泰德·纳尔逊(Ted Nelson)就发明了“Hypertext”这个词语,并创建了具有简单用户访问界面的网络项目Xanadu。有趣的是,他却非常反感诸如HTML语言之类的复杂网页书写语言。1984年,日内瓦的欧洲核子物理研究中心(CERN)[10]的研究员蒂姆·伯纳斯·李(Tim Berners Lee)实现了超文本技术,他还发明了用于查看WWW网页的Web浏览器和存储WWW网页的Web服务器。他和他发明的世界上第一个Web浏览器如图2. 14所示:

    clip_image042clip_image044

    2. 14 Tim Berners Lee和他在1993年发明的世界上第一个Web浏览器界面

    著名的WWW协会也是他于1994年在美国麻省理工学院(MIT)成立的。1991年8月6日,世界上第一个基于超文本访问方式的网站终于建成,网址为:http://info.cern.ch,网站中的网页使用蒂姆•伯纳斯•李发明的超文本标记语言(Hyper Text Markup Language,HTML)来书写。这也是今天人们仍在使用的WWW网页制作方法。所以,人们经常把Internet也称为WWW网络、3W网络和Web网络等,此时的用户也可以被称为Web用户和WWW用户等,这些都说明WWW已经成为现代Internet的信息服务的主要形式。

    蒂姆·伯纳斯·李后来还写出一本专门说明WWW网络发展历程的书《编织Web(Weaving the Web)》。读者也可以从WWW协会的站点来了解蒂姆·伯纳斯·李,网址为:http://www.w3.org/People/Berners-Lee。

    WWW技术利用超本文将Internet上大量的信息资源相互链接起来,用户只需通过浏览器就可以轻松的访问。而且,超文本网页的编写相当容易,又使得用户数量和他们创建的网页数量都得到了快速的增长。值得注意的一点是,WWW网页与平台无关,无论用户使用什么操作系统,都可以通过浏览器来访问。

    最后,我们强调一个问题,那就是WWW具有高度的集成性,它能够把Internet上许多传统服务集成到一起,使用带有不同服务协议前缀的统一资源定位符来分别标识它们,如表2. 3所示:

    2. 3 各种WWW支持的常见服务协议

    前缀

    服务含义

    示例URL

    http://

    HTTP服务器,主要用于提供超文本信息服务的Web服务器

    http://www.njmars.net

    telnet://

    Telnet服务器,供用户远程登录使用的计算机

    telnet://bbs.nju.edu.cn

    ftp://

    FTP服务器,用于提供各种普通文件和二进制文件的服务器

    ftp://ftp.njue.edu.cn

    mailto://

    电子邮件服务器

    mailto://leeshuqing@163.com

    gopher://

    Gopher服务器

    gopher://obi.std.com

    news://

    网络新闻USENET服务器

     

    wais://

    WAIS服务器

     

    大家可以尝试一下在浏览器的地址栏上直接键入表中的示例URL,你会发现浏览器会打开不同的Internet服务。同时,我们还可以将这些不同类型的URL嵌入到WWW网页中,使得WWW服务和这些传统信息服务很好的集成在一起。

    1.2.8 其它信息服务

    随着网络技术的快速发展,Internet上提供的信息资源服务种类也越来越多。实时通讯服务就是一种广受用户欢迎的服务,用户借助这个软件平台可以实时的与其他用户进行文本、图像和音频视频的交流和通信,如腾讯的QQ、微软的MSN和Google的Talk等。通过这个平台,用户可以获取的信息资源将会更多,而且及时性更强,事实上,这些服务也一直在努力把信息资源的易用性体现在自己的产品中,很多都提供了强大的信息查询方法和信息推荐服务。再如虚拟现实技术,它通过三维立体视频和音频效果,可以制造出一个由计算机设计的幻想世界,我们可以想象这种技术会在不长的时间后成熟,它们可以完全颠覆性的改变我们认识和使用Internet信息资源的习惯。

    我们能够设想一下,再过十年、二十年,我们该如何获取Internet上的信息资源吗?


    [1] The Size of Internet to Double Every 5 Years. http://www.labnol.org/internet/internet-size-to-double-every-5-years/6569/. 2009-12.

    [2] 所谓自下而上的结构原则,是指如果下级机构有能力解决所面临的问题,任何中央管理机构都不需要去插手下级机构。即使该下级机构无法有效地解决问题,也应该由其上一级机构协助解决。只有各级机构和组织确定无法有效地解决问题,中央管理机构才需要介入。

    [3] ICANN是互联网名称与数字地址分配机构(Internet Corporation for Assigned Names and Numbers)的简称,网址为:http://www.icann.org。

    [4] 中国互联网络发展状况统计报告. http://www.cnnic.net.cn/uploadfiles/pdf/2009/1/13/92458.pdf. 2009-12.

    [5] 钱天白被誉为“中国上网第一人”,他对Internet在中国的起步和发展做出了卓越贡献,如他代表中国正式在国际互联网络信息中心(InterNIC)的前身DDN-NIC注册登记了中国的顶级域名CN等。

    [6] bps是指每秒传输数位数(Bits Per Second),300bps的数值相对比较低,因为今天人们使用的网络宽带可以达到100Mbps左右(1M约等于1000000)。

    [7] 张洪斌.融合来了广电怎么办?[N].计算机世界,2010,(5).

    [8] Google搜索引擎的Chrome浏览器下载地址为:http://chrome.google.com。

    [9] “黄页”是按企业性质和产品类别编排的工商电话号码薄,起源于北美洲,按照惯例用黄色纸张印制,故称黄页。

    [10] 欧洲核子物理研究中心(The European Organization for Nuclear Research)之所以简称为CERN,是因为这个简称来源于它的法语单词首字母缩写,即“Conseil Européen pour la Recherche Nucléaire”。

    展开全文
  • 第4章 网络信息资源检索

    千次阅读 2008-06-27 16:42:00
    11第4章 网络信息资源检索4.1 概述4.2 网络检索工具—搜索引擎4.3 综合性搜索引擎4.4 专业性搜索引擎4.5 特色搜索引擎24.1.1 网络信息资源的定义、特点定义:• 从字面上理解,网络信息资源是指“通过计算机网络...
    1
    1
    4章 网络信息资源检索
    4.1 概述
    4.2 网络检索工具搜索引擎
    4.3 综合性搜索引擎
    4.4 专业性搜索引擎
    4.5 特色搜索引擎
    2
    4.1.1 网络信息资源的定义、特点
    定义:
    从字面上理解,网络信息资源是指通过计算机
    网络可以利用的各种信息资源的总和。具体的
    说是指所有以电子数据的形式把文字、图像、
    声音、动画等多种形式的信息存贮在光、磁等
    非纸介质的载体中,并通过网络通信、计算机
    或终端等方式再现出来的资源。
    3
    网络信息资源的的特点:
    1)数量庞大,增长迅速。最大的搜索引擎Google已收录200亿网页,
    且每年以级数的速度在增长。据预测,到2008Google收录网页将
    超过1000亿。
    2)内容丰富,形式多样。通过因特网可以获取学习、娱乐、工作、生
    活、购物等各方面的信息。另外,资源有有文本、视频、音频、动画
    多种表现形式。
    3)变化频繁,价值不一。比较大的网站的一般信息一般每天更新一
    次,特别是新闻信息实时更新,大网站的内容更新快且真实可靠,小
    网站或个人网站虽不乏优秀和可参考的信息,但质量良莠不齐。
    4)结构复杂,分布广泛。网络信息主要采取万维网WWW---网页形
    超链接结构,但网上还有大量的FTP文件,论坛信息,新闻组信
    息,不同的信息结构需要不同的检索工具。
    5)信息分散、无序。互联网是一个基于TCP/IP协议的联结各国、各
    机构数以万计的计算机网络的通信网,对网络信息资源本身的组织管
    理无统一标准和规范,网络信息分散于不同国家、不同地区服务器
    上,采用不同的操作系统及数据结构,字符界面、图形界面、菜单方
    式、超文本方式等,缺乏集中统一的管理机制。
    4
    4.1.2 网络信息资源的类型
    按人类信息交流的方式分类:
    非正式出版信息。如电子邮件、电子会议、专题组和论坛、电子
    公告板新闻等。
    正式出版物。即用户可以查询到的各种数据库、联机杂志、电子
    版工具书、报纸、专利信息等。
    从网络信息检索角度,按信息查询方式对网络信息进行分
    类:
    1) 互联网(WWW)信息。
    2FTP信息。
    3Telnet信息。
    4USENET/Newsgroup信息资源。
    5USTSERV/Mailing List 信息。
    6Gopher信息。
    5
    若按组织形式分,可将网络信息资源分为以下
    三种类型:文件型、数据库型、超媒体型。
    按时效性分,可将网络信息资源分为动态信息、
    电子报纸、电子期刊、电子图书、联机馆藏目
    录、联机数据库等。
    按信息的媒体形式分为:文本信息、超文本信
    息、多媒体信息。
    按网络信息服务方式分为:网站信息、新闻组
    信息、论坛信息、文件服务信息。
    按信息格式分为:HTMLTXTDOC PDF
    RMMP3……
    6
    4.1.3 网络信息检索的一般方法
    1.网上浏览
    1)偶然发现。
    2)顺而行。
    2.网络资源指南(目录型检索工具)
    3.搜索引擎
    4.图书馆网站的网络导航
    2
    7
    4.2 网络检索工具搜索引擎
    4.2.1 搜索引擎概念
    4.2.2 搜索引擎基本原理
    搜索引擎的原理,可以看作三步:
    从互联网上抓取网页
    建立索引数据库
    在索引数据库中搜索排序。
    8
    4.2.3 搜索引擎类型
    按照信息搜集方法和服务提供方式的不
    同,搜索引擎系统可以分为三大类:
    1)目录式搜索引擎:
    2)全文搜索引擎:
    3)元搜索引擎:
    超搜索---www.bbmao.com:网页数据库来源于
    五大搜索引擎Google、雅虎、百度、iAsk以及搜狗。
    9
    4.3 综合性搜索引擎
    4.3.1 Google的使用
    4.3.2 百度的使用
    4.3.3 新浪爱问的使用
    4.3.4 搜狐搜狗的使用
    10
    4.3.1 Google的使用
    两位斯坦福大学的博士生 Larry Page
    Sergey Brin 1998 年创立了 Google
    Google是目前因特网上最大的搜索引擎
    2006412Google公司宣布Google
    的全球中文名称正式取名为谷歌
    www.google.com
    www.google.cn (屏蔽了一些网站)
    11
    网页搜索:支持以下几个高级命令检索
    1site表示搜索结果局限于某个具体网站或
    者网站频道。
    2filetype:搜索特定类型的文件。格式:
    键词文件的扩展名
    1:搜索包含电子商务关键词的word文件。输入:
    电子商务 filetype:doc
    2:搜索包含网络安全方面的powerpointer文件。
    输入:网络安全filetype:ppt
    3:搜索包含搜索引擎方面的pdf文件。输入:搜索
    引擎filetype:pdf
    12
    3intitile:限制你搜索的关键词出现在
    网页标题中。
    例:搜索网页标题中含有信息检索的网页,
    输入:intitile:信息检索
    4inurl:限制你搜索的关键词出现在网
    页的url中。
    例:搜索网页url中含有mp3的网页,输入:
    inurl:mp3
    5link:可以得到一个所有包含了某个指
    定URL的页面列表.
    例如:link:www.google.com 就可以得到所
    有连接到Google的页面。
    3
    13
    单击中文主页,单击Google.com in
    English链接进入英文界面。英文界面还有
    更多功能:
    Blog Search:博客搜索,已支持中文检索。
    Book Search:Google的图书搜索。
    Froogle:Google的商品购物搜索引擎。
    Google Finance:财经搜索。
    Google Maps:Google的图书搜索。
    Google Video:Google的视频搜索。
    14
    Google的免费软件:
    桌面搜索:只有1.7MB。
    Google 工具栏
    Picasa 图片管理软件
    Google talk:即时通讯软件。
    Google Earth:基于卫星图片的地图软件。
    Google SketchUp:3D作图软件。
    Google Pack:Google发布的免费软件包。
    15
    4.3.2 百度的使用
    百度是全球最大的中文搜索引擎,2000年
    1月由李彦宏、徐勇两人创立于北京中关
    村,致力于向人们提供简单,可依赖的信
    息获取方式。 百度二字源于中国宋朝词
    人辛弃疾的《青玉案》诗句:众里寻他千
    百度,象征着百度对中文信息检索技术的
    执著追求。
    16
    目前主要有以下功能:
    新闻搜索
    网页搜索
    贴吧
    MP3搜索
    图片搜索
    百度地图
    百度知道
    百度百科
    百度空间
    17
    4.3.3 新浪爱问的使用
    爱问iAsk是新浪完全自主研发的搜索产
    品,采用了目前最为领先的智慧型互动搜
    索技术,充分体现人性化应用的产品理
    念,为广大网民提供全新搜索服务。
    网址:www.iask.com
    18
    目前爱问主要有以下功能:
    网页搜索
    博客搜索
    本地搜索
    知识人搜索
    视频搜索
    共享资料
    开放词典
    大百科
    专业搜索
    4
    19
    4.3.4 搜狐搜狗的使用
    搜狗是搜狐公司于2004年8月3日推出的完
    全自主技术开发的全球首个第三代互动式
    中文搜索引擎,是一个具有独立域名的专
    业搜索网站--搜狗(www.sogou.com)。
    最进推出了最智能的搜狗拼音输入法,下载
    地址:www.sogou.com/pinyin
    20
    目前主要有以下功能:
    网页搜索:
    网页搜索特色:智能分类、智能纠错、拼音查
    询、相关搜索、网页快照、英文词典、便捷计
    算、股票查询、邮编查询、天气速查、IP查询、
    手机号码地区查询、楼盘查询、区号查询、生
    字快认、成语查询、软件查询、游戏查询、热
    书荐读、搜狗十点。
    音乐搜索
    新闻搜索
    说吧:类似百度贴吧。
    21
    地图搜索
    人物搜索:在茫茫人海中找到你想的人,
    也能搜到你自己。数据来源于校友录
    ChinaRen数据库。
    购物搜索:搜索 300 万种商品,覆盖
    1000 多家商城。
    商机搜索:搜索您所需商业信息,掌握比
    竞争对手更多的销售机会。
    22
    其他的比较好的中文综合性搜索引擎还有:
    雅虎:www.yahoo.cn
    中搜:www.zhongsou.com
    天网:www.tianwang.com
    23
    4.4 专业性搜索引擎
    专业性搜索引擎又称为垂直搜索,是针对
    某一个行业的专业搜索引擎,是搜索引擎
    的细分和延伸,是对网页库中的某类专门
    的信息进行一次整合,定向分字段抽取出
    需要的数据进行处理后再以某种形式返回
    给用户。
    24
    4.4.1 工作搜索引擎
    在网络没有兴起之前,求职或者招聘,只能通过纸媒、电
    视和广播这三条途径实现。不过,网络改变了这一切,随
    着ChinaHR(中华英才网)、51job(前程无忧)和智联招
    聘等专业招聘网站的诞生,通过网站找工作成了流行的求
    职方法。在此之后,搜索引擎的大红大紫,又催生了搜职
    网等工作搜索引擎网站的出现。
    职友集---www.jobui.com
    搜职网---www.globehr.com
    牛耳搜职网---www.newerjob.com
    职业大百科---www.jobsoso.com
    5
    25
    4.4.2 论坛搜索引擎
    www.qihoo.com: qihoo(奇虎)论坛搜
    索,目前最好的论坛搜索引擎。
    www.teein.com: Teein论坛搜索有高级搜
    索选项,功能强大。页面布局合理,有不少贴
    心的小功能。
    www.daqi.com:大旗网
    26
    4.4.3 读书搜索引擎
    www.duxiu.com :读秀图书搜索
    www.wensou.com:文搜网,中国第一家
    专业文学搜索引擎。
    http://book.httpcn.com/search:电子
    书搜索引擎,中国最大的电子图书搜索引
    擎。
    27
    4.4.4 法律搜索引擎
    www.qseek.net: Qseek是国内首家专
    业的法律搜索引擎。
    www.findalawyer.cn :律师搜索网,数据
    库包括160多个国家的100多万律师和律所
    的详细信息。
    28
    4.4.5 软件搜索引擎
    根据《中国互联网络发展状况统计报告》统计,55.1%
    的搜索引擎用户经常搜索网上软件资源。这一比例超过
    了MP3(47.9%)和图片(30.2%),成为第一大专业
    搜索门类。
    www.soft8.net:搜索软件吧,中国首家专
    业软件搜索引擎。
    www.digdig.com.cn:海量软件搜索
    www.chaoji.com:超级软件搜索
    29
    4.5 特色搜索引擎
    4.5.1 中文视频搜索:
    www.cblinkx.tv:专业中文视频搜索引擎
    www.tvix.cn:影立驰视频搜索
    www.tvmao.com:电视猫,中国最全的电视
    节目预告网站,最准确的电视节目搜索引擎。
    30
    4.5.2游戏搜索引擎
    www.souyo.cn:搜游,是首个专门致力于游
    戏领域的中文搜索引擎。
    http://search.17173.com/: 17173游戏
    搜索引擎,网络游戏第一门户网站的搜索引擎。
    www.yousou.com:网络游戏搜索,只提供
    网络游戏软件下载、游戏攻略秘籍、游戏图像
    音乐搜索功能。
    6
    31
    4.5.3 购物搜索引擎
    www.danawa.com.cn:大拿网
    www.8848.net: 8848购物搜索引擎,我国
    第一个专用中文购物搜索引擎。
    www.bibiba.com:比比吧
    www.pkbao.com :PK宝
    32
    4.5.4 web 2.0搜索引擎
    博客搜索:
    中文博客搜索引擎---www.souyo.com
    奇虎博客搜索:blog.qihoo.com
    Google博客搜索:blogsearch.google.com
    33
    生活信息搜索:
    www.120ask.com:有问必答,全国最大的
    健康生活在线问答平台。
    http://search.soufun.com/:搜房购屋搜索
    引擎
    www.world163.com:全球旅游搜索引擎
    www.edushi.com: E都市,全球首个三维
    仿真城市。
    ……__
    展开全文
  • 请点击此处下载此文的word版: http://dl2.csdn.net/down4/20070730/30074040306.doc请点击此处下载此文的pdf版:http://dl2.csdn.net/down4/20070730/30191703664.pdf 摘 要 本文通过对国内外有关的文献评价...

     注:本文发表于《图书情报工作》2006年第12期,若要引用,请使用原文。

    请点击此处下载此文的word版: http://dl2.csdn.net/down4/20070730/30074040306.doc

    请点击此处下载此文的pdf版:http://dl2.csdn.net/down4/20070730/30191703664.pdf

     
      本文通过对国内外有关的文献和评价工具进行全面深入的调查,从定性评价、定量评价、综合评价和自动评价四个方面总结和分析了当今网络信息资源评价的主要方法,指出了其中存在的主要问题。在此基础上,从网站的内部特征和外部特征出发,探讨科学的网站评价指标体系,提出基于可用性工程的自动网站评价方案。
    关键词 网络信息资源评价 定性评价 定量评价 自动网站评价系统 可用性工程
    分类号 G250.76
     
    The analysis of the status and countermeasure for the web information resource evaluation 
     
    AbstractThe paper summarizes the main methods of web resource evaluation nowadays through a comprehensive research on articles and evaluation tools related to web resource evaluation. It summarizes and analyzes these methods from four aspects: qualitative analysis, quantitative analysis, synthetically analysis and automatic analysis .It also points out problems within them. Based on these, it discusses the guide line system of web sites evaluation from two aspectsThe inner characters and the outer characters. At last, it raises a scheme of automatic web sites evaluation based on the usability engineering theory.
    Keywords:Web resource evaluation   Quantity analysis Analysis of non-quantity   System of automatic web sites evaluation  
             Usability engineering  
    Class NumberG250.76
     
    1引言
     
    因特网(Internet)从诞生到现在仅仅几十年,其信息资源登载量已经远远超过了任何一种传统的信息传播媒介。根据中国互联网中心2006年1月发布的第17次《中国互联网发展状况统计报告》[1],截止到2005年12月31日,我国的上网计算机总数为4,950万台,与去年同期相比增长19.0%;WWW站点数为694,200个,与去年同期相比增长3.8%。
    因特网的快速发展,一方面使得信息飞速增长与积累;另一方面,大量垃圾信息和对用户无用的信息也快速增长,使得信息过载(Information Overload)现象严重。大量的研究表明:对个人而言,获取信息是人们上网最主要的目的,但是人们使用网络时,约有60%的时间因为找不到信息而浪费。对组织而言,约有50%的潜在用户因为找不到所需信息而流失。个人和组织的共同需求,使得对数字信息资源的管理[2]、有效检索[3]和评价势在必行。网站作为网络空间中信息的主要载体,在整个网络链路空间中处于信息节点的关键地位。因此,网络信息资源网站评价与方法选择,在信息高速增长的时代显得尤为重要。目前,国外对网站评价进行了大量的研究,国内也开始着手这方面的研究工作,大量的网络信息资源评价方法,并不意味着该领域的成熟。造成这种现象的原因,来自网站本身的复杂性。网站运行平台、网站实现技术、网站定位、网站内容和网站规模等的不同,使得现实网络环境中,网站分析难于进行。大量的网站分析方法暴露出网站分析缺乏统一的理论指导和严谨的实现框架。面对复杂的网络环境,没有统一的理论指导和科学的方法支持,很难将零散的细节问题统一起来,很难发现问题的关键症结所在,找到进一步改进的方向,保证分析评价结果的准确性和可靠性。
    因此,对网络信息资源评价现状进行深入的分析,并探讨恰当的解决方案,具有重大意义。
     
    2 网络信息资源评价现状分析
     
    网络信息资源评价(网站评价)研究的对象是网站中所包含的信息内容及其载体,即包含网站的信息内容和网站的架构设计。从评价的类型上划分,网络信息资源评价可以分为定性、定量、综合评价和自动分析评价四种方式。
    2.1 定性评价方法及其分析
         定性评价方法主要有指标体系法和调查表法两种:指标体系法通过设置一系列反映网站质量的指标,由领域专家根据指标体系对网站进行分析评价。出于不同的目的和角度,以及针对不同类型的网站,可以设置不同的指标体系。国外学者Betsy Richamand 提出的10C原则[4], Harris Robert制定的网络信息资源评价的四条标准[5],David Stoker和Alision Cooke则建立了与Robert Harris完全不同的8条标准[6],Gemer L.Wilkinson等人则在论文《评价标准和质量指示列表》中将诸多学者提出的评价标准进行比较综合和汇总,在全面分析网络信息资源的特点和属性的基础上,提出了网络信息资源评价标准的11个大类125个质量指标[7]。国内学者也纷纷针对不同类型的网站提出相应的指标体系,如图书馆网站评价指标体系[8],文献[9]则从网站设计、内容和技术三个方面探讨了综合评价的指标体系;调查表法充分利用用户对网站的认知、感知和态度,来度量网站对于用户所产生的效用。这种方法通常是由评价机构或个人为了解网站服务能力和经营效果,面向用户设计一套调查问卷,并开展调查,然后对结果进行分析处理,评测网站质量。
        定性评价方法能比较全面的分析网络信息资源的质量,能充分利用人对网站的感性认识,得出的结果具有直接性和可理解性。但是,目前的定性评价方法仍存在如下几个主要问题:
    ● 指标体系不完整 
    网络信息资源是一个非常复杂、庞大的体系,评价的指标也非常复杂。至今,评价机构或学者提出的指标体系有很大差别,尚未达成共识也说明了这一点。事实上,很少有人对网站进行综合全面的考察,对网站内、外部属性进行充分客观的揭示。
    ● 指标设计不合理 
    网站有许多属性,属性之间存在一定的因果关系,某些评价方法中,未对网站的这些指标做科学的界定,如网络信息内容的质量与网站流量、访问量和被连接量间的关系等,往往将其分开界定。指标之间有较多重复的地方,如有些指标,字面表达虽然不同,但实质内容相同或相近,如可信度(Credibility)与准确性(Accuracy)等。有的指标让人难以理解,如批判性思考(Critical Thinking)。也有的指标看似合理,但其具体测度和运用,则有相当大的难度,不具备实用性,如公正性、世界观的指标概念,人们无法根据这个标准对网络信息资源的质量进行评价。
    ● 部分指标对象模糊 
    网站的组成既包含其结构框架,也包含其信息内容。网页的结构的评价和信息内容进行评价的指标没有做恰当的区分。有些指标适合于评价网站网页,而有的则适合于评价信息内容。二者混为一谈的对象界定的模糊性,使得所提出的指标体系缺乏必要的科学性。   
    ● 调查问卷法存在问题 
    在实施调查问卷的过程中,由于误差难以控制,特别是无法控制用户填写问卷的有效性和客观性,使得调查结果不能准确反应网站的质量。
    除此之外,由于定性评价方法存在较强的主观性,其评价结果容易受网络环境、评价标准、参评人员的素质和心情的制约,使得这种评价方法的操作性较差,评价结果可靠性也较低。在实施评价工作时需要花费较大的时间、人力、物力和财力,成本太高,特别是难以适应大量网站评价的需要。
    2.2 定量评价方法及其分析
        定量分析方法提供了一套科学、规范、客观的评价方法,用可靠的数字来说明和分析问题。最初从分析链接数、访问次数、登录等一些基本元素的考察分析开始,后来发展为系统的定量评价方法,国内外比较典型的定量评价方法有网络信息计量法、层次分析法和对应分析法等三种。
        网络信息计量法(链接分析方法),借用传统引文分析原理,运用于网络信息资源评价的一项有效的方法。一般认为,一个网站被其他网站的链接越多,就说明这个网站的质量越好。同时研究还发现,网页链接的关系与对发表文章的引文研究相似,但又不相同,它也符合洛特卡效应[10]。人们在利用链接分析法进行研究时,通常使用一些著名的搜索引擎,如Google,AltaVista等,这些搜索引擎通常都提供特定的软接口和数据检索方法,用户很容易从网站中挖据需要的数据。
        层次分析法利用人们的常规思维来处理问题,将一个复杂问题分解成若干个小问题,并充分利用人们分析、判断和综合问题的能力,对复杂问题进行量化。该方法对网络信息资源的属性进行概念划分,利用专家调查法来取得数据和确定权重,通过评分确定网络信息资源的级别或排名,如文献[11]探讨了层次分析法应用在高校图书馆网站评价中的思路和方法。
        关联分析法(对应分析方法),最初由法国科学家提出用于企业决策定位。英国的Berthon教授在2001年运用对应分析法对世界范围内的十五家电信公司网站进行评价[12],取得了新的突破。他指出对应分析法能够较好地评估网站的定位问题,能够较准确的评价出网站之间的区分度。这种方法不仅仅适用于电信类网站评价,也适合其它各领域的网站评价。文献[13]也利用了关联分析方法对我国的网络媒体网站进行实验性评价,通过确定网站的几个基本属性,建立关联分析的数学模型,从Alexa数据仓库中获取相应的数据,然后生成关联定位图,从而可进行决策分析定位,具有较大的参考价值。
        定量评价方法在一定程度上克服了定性分析法的主观性和可控性的问题。但是,这些定量评价方法也存在较为突出的问题:
    ● 链接分析法的局限性 
    随着研究的深入,人们越来越发现文献之间的引用与网络信息之间的链接存在着显著的差异,链接分析法仍然存在很多问题。譬如,Stephen P. Harter和Charlotte E. Ford的研究发现,在指向电子期刊的网络链接中,有近半数是结构性自我链接,对于评价文献的学术价值和研究学术交流行为没有意义;具有指向电子期刊的链接的网页,只有不到8%的网页是学术性的;Thelwall通过对英国大学网站中被链接次数最多的100个网页进行分析,其结果也表明网页被链接次数并不能反映其学术价值。目前已经达成的共识是网络链接与引文在本质上完全不同,虽然引文分析对我们开展网络链接研究具有一定的启发作用,但在借鉴时应当充分考虑到两者之间所存在的差异,对运用该方法取得的结果应进行相应的处理。
    ● 层次分析法的局限性
    将层次分析法用于网站评价,主要有两个方面缺陷,一是层次分析法本身存在的局限性;二是层次分析法对于网站评价的适应性问题。层次分析法中系统的划分和权重的取得都是人为进行的,而且评分也需要人工实施,虽然经过了误差控制,但仍不能避免人的主观性,从而使得分析的结果与实际状况存在一定偏差。组成网站各要素之间也存在着相互影响和相互作用的关系,用层次分析法直接对其进行笼统、简单的层次划分,即改变了网站要素之间的特定关系,也使得其结果与实际情况不符。
    ● 关联分析法的局限性  
    由于关联分析法只是单纯地针对网站定位、区分度等信息评价,并没有从网站整体因素出发,不能全面系统的反映网站的综合水平。另外,数据仓库的数据本身也存在一定的问题,容易被人为的篡改或者检测不准的情况,这对网站评价的实际工作也形成了一定的障碍。
     迄今为止,网站的定量评价方法均采用传统的原理和方法,这些方法对实施网站评价提供了一个很好的思路和参考,也导致忽略了对网站本身的特点和面向的用户进行深入的研究,缺乏对评价目标的科学准确的界定,没有取得实质性评价进展,仅在学术研究上极具参考价。
    2.3 综合评价方法及其分析
         用于网站评价的综合评价法有用户调查和定量测试综合的方法、基于IA理论的网站评价和网站框架评价法三种:
    ● 用户调查和定量测试综合的方法
    该方法基于定性方法和定量方法的各种组合,通常是从用户的角度出发,获取用户对网站的评价意见,如问卷调查法、专家调查法等,同时也考虑获取网站的有关数据信息进行定量的分析,如WEB挖掘、服务器日志分析法,然后综合这二者的结果得出网站质量好坏的测度。
    ● 基于IA理论的网站评价法
    该方法从信息构建的分类、导航、搜索和标引系统的四个方面对网站进行考察分析[14],这种分析方法通常是从用户体验的角度进行,通过用户确定使用目标、检验用户实践的效果来对网站进行评价。这种方法较之上述的定性方法而言更加系统和科学,属于实证性的分析方法。
    ● 网站框架评价法
    该方法根据网站的不同侧面,制定出一系列可以度量的标准,并且将各项标准性指标放在一种非常结构化的框架和表格中,然后将此标准作为评价依据的一种网站评价方法。该方法既可以客观描述,又可以用定量标准来量化,评价结果比较全面。是一个折衷的方法。
    由于综合利用了定性评价法和定量评价法的优点,综合评价法可以得到较好的效果,但必须考虑处理好以下两个问题:定性方法和定量方法比例如何选择;随比例灵活选择,将会评价系统带来一些误差。事实上,实施这种方法所花的代价和精力远比单纯的定性和定量方法还要多。
    2.4 自动工具评价方法及其分析
    自动评价法从网站本身的属性和特点入手,利用数字化、自动化、智能化的手段来解决问题,通过开发相关的自动测试软件或网站,使其能够对各类网站进行测试,自动采集测评数据,并根据建立的网站评价模型,对采集评价数据自动地进行统计、分析和计算,给出评价结果。自动网站评价法指利用计数器(Counters)、Cookies、缓存(Caching)以及IP地址(IP addressing)作为网站的分析基础数据,通过对用户访问记录分析、基于Web的站点分析服务,以及服务器日志分析等自动分析法,分析网站的使用负载和信息质量的客观评价法,具有客观性和可靠性等优点[15]
    尽管自动评价工具方法能够检测出更多的相关联的错误、能够提高分析特征的覆盖范围、减少专家分析意见和时间开销、融合UI(Usability Interface)设计和分析,但是自动分析只能作为标准分析方法,不同的技术揭示不同的问题,用户的满意度的主观的评价,不能用自动测试方法。而且该领域也还很不成熟,造成这种现象的原因,来自网站本身的复杂性。用户想了解、观测这些数据,也是非常繁琐,目前不具备实用性,只能作为网站评价活动中的参考因素。
     
    3网络信息资源评价对策分析
     
    3.1设置科学的评价指标体系 
     网络信息资源评价(网站评价)必须根据网站自身的特点,利用自身领域的理论来指导实践的进行。已有的研究和实践,并没有将网站的属性进行适当的区分,导致了指标体系设置的混乱。笔者认为,对于一个网站而言,它具有内部和外部特征,从不同的角度反映了网站的质量,网站评价应当根据这两方面展开:
    ● 网站的内部特征是由网站实体的各构成要素决定的,它反映了网站目标的技术实现。Newman和Landay的研究表明[16],网站是一个包括内容、导航和外观的多维复合体,可见网站内部特征的评价对象应包含内容、导航和外观三个方面[17]。如图1所示。这样划分可以避免网站要素间相互作用的影响,所以,可以利用层次分析法对其进行科学的指标设置。其中,内容评价主要是信息构建的评价,具体包括分类系统、检索系统、标识系统、信息保障系统四个方面[18] [19]。导航评价则需要对全局导航、局部导航、补充导航、语义导航进行评价。外观评价针对网站的展现和布局,比如网站色彩的搭配、多媒体素材的选用等。充分研究网站内容、导航和外观的客观属性,利用层次分析法确定其权值,形成网站内部特征评价的指标体系。
     
    图1 网站内部评价对象
     
    ● 网站的外部特征则包括流量(Traffic)、访问量(Visit)、被链接数(Connectivity)、速度(Speed)、用户平均浏览页面数(Page Views)和更新时间(Freshness),还包括注册用户的数量以及注册用户的使用频率。网站最终目的是面向用户,用户的满意度、用户体验有关的指标也是网站外部特征的核心内容。获取这样的数据,利用关联分析法对其进行聚类分析,清晰的反映各个网站在网络上的区分度[20],是对网站评价的一个有益的补充。如图2所示。
     
    图2 关联分析法的聚类分析图
     
    通过对网站特征分析,找出以往指标体系法中指标界定不清、指标不能切实反映网站质量、层次分析法的适应性、关联分析法的片面性等问题,形成一套基于可用性工程的定量评价为主、定性评价为辅的指标体系。
    3.2 构建自动网站评价系统
    本系统采用软件工程的快速原型法,并结合面向组件(对象)的开发方法,开发构建基于B/S模式的自动网站评价工具模型系统。系统开发过程中将用到Java或 .NET技术,UML建模、XML、Web Services、Intelligent Agent和Portal技术,采用基于J2EE或 .NET Framework等多层开放式软件体系结构,以期实现该软件平台的可扩展性和可维护性。如图3所示。
    ● 终端用户
    终端用户使用台式电脑访问所有Web Server,以获得不同类型网站的评价(主要信息)以及网站基准

    图3 自动网站评价系统结构
     
    开发模式(辅助信息)信息。
    ● Web服务器
    Web服务器提供Web浏览服务,通过分布式应用程序接口和组件接口调用后台服务器应用模块。
    ● 后台服务器
    后台服务器是系统开发的重点和难点部分,采用基于J2EE或 .NET Framework等开放式软件体系结构进行开发,以实现自动网站分析工具动态增加和调整。其主要组成部分包括Profile 开发工具(Profile Development Tool)、矩阵计算工具(Metrics Computation Tools)和分析算法工具(Analysis Tools)等。重点是建立网站标准特征库和开发智能分析比较算法。根据不同类型的网站,设计网站参数标准特征库,如网站的信息构建标准、色调标准、导航标准等,用以提供比较分析的参照。在参数标准特征库中,还应当包括有专家分析得出的各参数的权值,且这些权值因不同类型的网站而有所差异。智能分析工具按其功能可将其分为关联分析、比较分析、间接测量三大系统。关联分析系统用于对网站进行定位和区分,以去除相关干扰因素。比较分析系统用于将网站的特征值与参数标准库中的特征值进行比较,结合算法和相应分析矩阵,对网站内部的各个组成部分进行全面的分析。间接测量系统,用来测量用户的满意度和网站体验感受这两个相对较主观指标,并对间接反映这两个指标特征参数(如平均访问量等)的分析,来客观的评价用户的满意度和体验感受。
    ● 抓获提取器
    内容抓获提取器是网站客观数据收集的重要部分,利用开发成形的搜索引擎,结合本系统的具体特点,开发适合本系统的抓获提取器,根据已经设置好的指标体系,为自动网站评价提供客观数据。提取器按照既定要求,抓获网站内部和外部的特征数据,进行格式化转换,提取出需要的网站客观数据。
        ● DB服务器
    该系统的所有数据采用数据库存放。这些数据包括基准网站的数据,目标网站的评价的数据,计算中间产生、分析矩阵和用户浏览数据等。在实际系统中将采用分布式数据库,以实现系统负载平衡。
    目前,实用性网站评价很少,现有的方法也不能全面评价一个网站的各样指标,因此,我们将以可用性工程基本原理为基础,综合运用图书馆学、信息管理学、数理统计、计算机科学、认知理论等多门学科的理论与方法,在系统总结和研究国内外的网站评价研究成果的基础上,进一步探讨基于可用性工程原理的自动网站评价模型和方法。它将有利于数字信息资源网站评价指标体系、评价模型、评价机制完善,提高信息资源网站的优化配置,推动政府转变职能,更好地履行市场监督和公共管理。
     
    参考文献
    [1] 中国互联网络信息中心(CNNIC).第十七次中国互联网络发展状况报告,2006.1
    [2] 吴慰慈.网络信息资源管理的标准化体系研究[J].情报科学,2001(01):42-45
    Wu Wuici,Zhang Jiuzhcn.Study of Network Information Standardize System[J].Information Science,2001,19(1):42-45  作者.题目[J].出版单位,年,卷号(期号):页码
    [3] 苏新宁.超文本技术在全文检索系统中的实现[J].情报学报,2000(06):582-585
    Su Xinning.Realizing Hypertext Retrieval in Full-text Retrieval System[J].Journal of 他he China society
    for Scientific and Technical Information,2000,19(6):582-585
    [4] 孙 瑾.网络信息资源评价研究综述[J].大学图书馆学报,2005(01):7-13
    Sun Jin.Research Summary on the Network Information Resources Evaluation[J].大学图书馆学报,2005(01):7-13
    [5] 陈文静,陈耀盛.网络信息资源评价研究述评[J].四川图书馆学报,2004(01):25-31
    [5] 沈 洁,朱庆华.国内外网络信息资源评价指标研究述评[J].情报科学,2005(07):1104-1109
    [7] 赵俊玲,陈兰杰.国外网络信息资源评价研究综述[J].图书工作与研究,2004(03):24-26
    [8] 张会田.图书馆网站评价指标体系研究[J].图书情报知识,2005(02):96-99
    [9] 李东旻.网站综合评价指标初探[J].情报理论与实践,2005(03):303-306
    [10] R. Rousseau.Sitations: An exploratory Study.Cybernetics,1997
    [11] 魏红梅.层次分析法在高校图书馆网站评价中的应用[J].现代图书情报技术,2005(10):74-83
    [12] Pierre Berthon.Positioning in Cyberspace: Evaluating Telecom Websites Using Correspondence Analysis[J].Information Resources Management Journal,2001(01):13-21
    [13] 沈祥兴,李东旻.关于对应分析法对中国媒体网站评价的研究[J].中国软科学,2005(01):126-133
    [14] 甘利人.电子商务网站信息构建考察分析[J].情报理论与实践,2005(3):605-608
    [15]李东旻.网站信息自动评价研究[J].图书情报知识2005(02):104-107
    [16] Newman, M. W. and Landay, J. A. Sitemaps, storyboards, and specifications: A sketch of web site design
    practice.In Proceedings of Designing Interactive Systems: DIS 2000, New York, 2000.8: 263-274.
    [17] 郝金星,沈祥兴.基于可用性工程的网站分析框架研究J图书情报知识,2006(02)51-56
    [18] 荣毅虹,梁战平. 信息构建(Information Architecture, IA)探析[J].情报学报, 2003(2):231.
    [19] Shel Kimen. 10 questions about information architecture,September 29, 2003. http://builder.com.com/5100-31-5074224.html
    [20] 6Xiangxing Shen etcEvaluating China’s University Library Web sites Using Correspondence Analysis
    JJournal of the American Society for Information Science and Technology, 20064):493-500, U.S.A.
     
     
     
     
     
     
    展开全文
  • 第二章 信息资源信息源 文章目录 2.1 信息资源的构成 2.1.1 按文献的载体形式划分 1.印刷型文献 ...缺点是存储的信息密度低,收藏管理需要较大的空间人力。 2.缩微型文献 缩微型文献是以感...

    第二章 信息资源与信息源

    文章目录
    在这里插入图片描述在这里插入图片描述

    2.1 信息资源的构成

    2.1.1 按文献的载体形式划分

    1.印刷型文献

    印刷型文献又称纸质文献、印本文献,是以手写、打印、印刷等为记录手段,将信息记载在纸张上形成的文献。它是传统的文献形式,也是现代文献信息资源的主要形式之一。其优点是便于阅读与流传,符合人们的阅读习惯。缺点是存储的信息密度低,收藏和管理需要较大的空间和人力。

    2.缩微型文献

    缩微型文献是以感光材料为载体,采用光学缩微技术将文字或图像记录、存储在感光材料上而形成的文献,如胶卷、缩微胶片。

    3.声像型文献

    声像型文献是采用磁录技术和光录技术(如录音、录像、摄像、摄影等)手段,将声音、图像等多媒体信息记录在光学材料、磁性材料上形成的文献,主要包括唱片、录音带、录像带、电影胶片、幻灯片及激光视盘等。其主要特点是:存储信息密度高,用有声语言和图像传递信息,内容直观,表达力强,易于接受和理解,尤其适用于难以用文字、符号描述的复杂信息和自然现象。但也需要专门设备对其进行制作和阅读。

    4.机读型文献

    机读型文献又称电子型文献、数字信息资源。它是一种通过编码和程序设计,把文字、资料转化成数字语言和机器语言,并以磁性材料为存储介质,采用计算机等高新技术为记录手段,将信息存储在磁盘、磁带或光盘等载体中而形成的多种类型的电子出版物。其优点是存储密度高,存取速度快,查找方便,寿命长。不足之处是必须配备计算机等设备才能使用,相应设备的投入较大,短期内难以更新。机读型文献按其载体材料、存储技术和传递方式本同又可分为联机型文献、光盘型文献和网络型文献。网络信息资源是机读型文献中非常重要的一种文献类型。

    2.1.2 按文献的加工程度划分

    1.零次文献

    零次文献也称灰色文献,是指非正式出版物或非正式渠道交流的文献,未公开于社会,只为个人或某一团体使用。如文章草稿、私人笔记、会议记录、未经发表的名人手迹,甚至包括口头言论和思想教育。

    2.一次文献

    一次文献也称原始文献。凡是以著者本人的经验、研究或研制成果为依据而撰写的原始文献,经公开发表或交流后,称为一次文献。一次文献是文献的主体,是最基本的信息源,是文献检索的对象。它一般包括期刊论文、专著、研究报告、会议文献、学位论文、专利说明书、技术标准、技术档案、科技报告等。

    3.二次文献

    二次文献也称检索文献,是信息部门将那些分散的、无组织的一次文献,用一定的方法经过加工整理、归纳、简化,把文献的外表特征和内容特征著录下来,使之成为有组织、有系统的检索工具,如书目、题录、文摘、索引等。

    4.三次文献

    三次文献也称参考性文献,是在二次文献的基础上选用一次文献的内容进行分析、概括、综合研究和评价而编写出来的文献。它可以分为综述研究和参考工具两种类型。前者如动态综述、学科总结、专题述评、进展报告等;后者如年鉴、手册、大全、词典、百科全书等。

    2.1.3 按文献的出版形式划分

    1.图书
    (1)定义

    联合国教科文组织对图书的定义是:凡由出版社(商)出版的、不包括封面和封底在内49页以上的印刷品,具有特定的书名和著者名,编有国际标准书号,有定价并取得版权保护的出版物,均称为图书。包括专著、汇编本、多卷本、从书等

    (2)分类

    <1>阅读性图书
    教科书(Textbook)、专著(Monograph)、文集(Anthology)等。

    <2>工具书(Reference book)
    词典(Dictionary)、百科全书(Encyclopedia)、手册(Handbook)、年鉴(Yearbook)等

    <3>检索用书
    如以图书形式刊行的书目、题录、文摘等。

    (3)国际标准书号(ISBN)

    ISBN由13位数字分成4段组成,各段依次是:地区或语种号-出版商代号-书名号-校验号。其中地区或语种号:英、美、加、南非等英语区为0,其它英语区为1,法语区为2,德语区为3,日本是4,俄语区为5,中国大陆为7,印度等为8,东南亚地区为9。书号通常有978的前缀,978叫EAN.UCC前缀,由国际物品编码协会分配的产品标识编码

    2.期刊
    (1)定义

    也称杂志(Journals或Magazine),是有固定名称、统一开本、有编号或年月标志、定期或不定期连续出版、每期内容不重复并由多名责任者撰写不同文章的出版物

    (2)分类

    <1>学术性与技术性期刊(Journals)
    由学术团体编辑出版,报道生产、科研方面的学术论文及研究成果,信息量大、价值高,如各种学报(Acta)、通报(Bulletin)、汇刊(Transactions)、评论(Reviews)、进展(Progress)等。

    <2> 杂志(Magazine)
    是连续出版物的一种,但是它的内容一般是通俗性的,或者娱乐、新闻等。

    <3>检索性期刊
    专门报道二次文献信息。

    <4>快报性期刊
    刊载最新技术和研究成果的短文,报道新产品、新工艺以及学术动态等信息,内容简洁、报道速度快,如各种通讯(Letters)、短讯(News)等。

    (3)国际标准刊号(ISSN)

    ISSN(国际标准连续出版物编号,International Standard Serial Number)是根据国际标准ISO3297制定的连续出版物国际标准编码,其目的是使世界上每一种不同题名、不同版本的连续出版物都有一个国际性的唯一代码标识。ISSN由8位数字分两段组成,如1000-0135,前7位是期刊代号,末位是校验号。

    3.报纸

    报纸在国外被称为新闻报纸(Newspaper),是专门刊载新闻报道和时事评论为主的定期出版物,但有些报纸同时也刊载学术论文和其它信息。

    4.学位论文

    学位论文,是高等院校和科研院所的本科生、研究生为获得学位资格(博士、硕士和学士)而撰写的学术性较强的研究论文。其中硕、博士学位论文具有较高的学术价值。一般来说,收藏与检索的学位论文不包括学士论文。

    5.会议文献

    会议文献指在学术会议上宣读或书面交流的报告、论文、会议记录、会议纪要等有关资料。各种学术会议,是科学交流的一条重要渠道,也是科学工作者了解学科发展动态,获取学科最新信息的窗口。

    6.专利文献

    专利文献是实行专利的国家、地区及国际专利组织在审批专利过程中产生的官方文件及出版物,包括专利说明书、专利权利要求书、专利公报、专利分类表、专利检索工具等。

    7.标准文献

    标准文献是技术标准、技术规格和技术规则等文献的总称。它们是记录人们在从事科学试验、工程设计、生产建设、商品流通、技术转让和组织管理时共同遵守的技术文件。

    8.科技报告

    又称研究报告和技术报告,是科学技术工作者围绕某个课题研究所取得的成果的正式报告,或对某个课题研究过程中各阶段进展情况的实际记录。科技报告自20世纪20年代产生以来,发展迅速,已成为继期刊之后的第二大报道科技最新成果的文献类型。目前国际上较著名的科技报告是美国政府的四大报告,即商务报告(PB)、国防报告(AD)、航空航天报告(NASA)、能源报告(DOE)。

    9.政府出版物

    政府出版物是指各国政府部门及其设立的专门机构发表、出版的行政性文件(如法令、方针政策、统计资料等)和科技文献(包括政府所属各部门的科技研究报告、科技成果公布、科普资料及技术政策文件等),其中科技文献约占30%~40%。

    10.产品资料

    公司产品资料,是指各国厂商为推销产品而出版发行的各种商业性宣传资料。如公司介绍,产品目录、样本、说明书等。产品目录包含产品生产制造商、供应商、出口商名录,并含有丰富的产品行业信息;样本是由商家策划、专人设计,随产品投放市场一起提供给消费者的宣传广告册,是目前为生产厂家广泛采用的一种商业促销手段;产品说明书是对一种产品的性能、规格、构造、用途及其使用方法等所作的说明。

    11.档案文献
    (1)定义

    指各级政府机构、企事业单位和某些个人在实践工作中形成立卷归档、集中保管、有历史价值的文字、图表、声像等形态的原始文献资料,它是科技、政治、经济、历史的真实记录,是科技工作者进行科研的重要参考资料。

    (2)分类

    从档案形成领域的公、私属性角度,可分为公务档案和私人档案;从档案形成时间的早晚以及档案作用角度,可分为历史档案和现行档案;从档案内容属性角度,可分为文书档案、科技档案、人事档案、专门档案等。

    12.其他文献

    2.2 信息资源的特征

    2.2.1 传统信息资源的特征

    1.文献数量大,增长速度快
    2.文献分布集中又分散
    3.文献时效性增强
    4.文献内容交叉重复
    5.文献载体及语种增多

    2.2.2 网络信息资源的特征

    1.数量巨大,来源广泛
    2.分散无序,缺乏组织
    3.更新加快,信息污染严重
    4.内容丰富,信息质量参差不齐
    5.类型齐全,形式多样

    2.3 信息源

    2.3.1 个人信息源

    1.含义

    人是信息的创造者,是最富活力的信息源。人类具有功能独特的信息感知、传递、处理与存储器官,并且在长期的社会实践活动中形成了独有的信息交流方式,借助符号、语言等表示方式,能不断地创造与传播各种最新信息。参与社会信息交流活动的每个人都是一个独立的信息源,因为个人信息源的信息获取方式主要是口头交流,故亦称口头信息源。个人信息源在社会信息交流系统中具有重要的地位和作用。

    2.特点

    及时性
    新颖性
    强化感知性
    主观随意性
    瞬时性

    2.3.2 实物信息源

    1.含义

    一切物质实体都蕴含着丰富的信息,一切事物的发展变化都与其存在的场所密切相关。无论是自然物质还是人工制品,抑或事物发生的现场,均可视为实物信息源,实物信息源给人们提供了充分认识事物的物质条件。

    2.特点

    直观性
    真实性
    隐蔽性
    零散性

    2.3.3文献信息源

    1.含义

    是指用一定的记录手段将系统化的信息内容存储在某种物质载体上而形成的一类信息源。
    文献的基本功能:一是存储信息,二是传播信息。
    如果把存储看做沿时间轴上的传播,那么,文献就是在人类生产和社会生活的实践活动中产生的一种信息传播工具。
    文献是社会信息交流系统中最重要的成分之一,它是社会文明发展历史的客观记录,是人类思想成果的存在形式,也是科学与文化传播的主要手段。
    正是借助于文献,科学研究才能得以继承和发展,社会文明才能得以发扬和光大,个人知识才能变成社会知识。

    2.特点

    系统性
    稳定性
    易用性
    可控性
    时滞性

    2.3.4 图书馆

    图书馆是搜集、整理、收藏图书资料供人阅览、参考的机构,有保存人类文化遗产、开发信息资源、参与社会教育等职能,其核心任务就是把文献资源提供给读者。

    1. 图书馆的资源与服务

    在这里插入图片描述

    2.我国图书馆的类型

    我国的图书馆依其建立单位、功能、服务对象的不同图书馆可分为以下三种国家图书馆及地方公共图书馆;大学图书馆;专业(行业)图书馆(如国家科学图书馆、国家工程图书馆、国家农业图书馆)等。图书馆是大学生在校学习及投身社会的重要信息源。

    3. 图书馆目录及其检索

     馆藏目录是反映一个图书馆文献收藏情况的目录。联机目录(online catalogs)是一种以机读形式存贮图书馆馆藏书目信息的电子目录,它能反映文献资料的在馆情况,提供馆藏位置等信息,能够揭示到刊名、书名、会议录名称级别。查寻时,可以用文献的责任者、题名、主题、国际标准书号(ISBN)、国际标准连续出版物号(ISSN)、分类号等进行检索。

     联机公共检索目录(Online Public Access Catalog,简称OPAC),是一种通过网络查询馆藏信息资源的联机检索系统。用户可以在任何地方查询各图书馆的OPAC资源。它是网络时代图书馆查找文献资源最重要的工具。

     目前,OPAC已广泛用于图书馆的书目检索。

     所谓联合目录,是指包含两个或以上图书馆馆藏目录的数据库,并且跨越单一图书馆馆藏的数据库。因此,使用者可以在较短时间内一次性检索多所图书馆的馆藏,包括电子期刊、印本期刊、图书和会议录等。

    2.3.5网络信息源

     网络资源,是利用计算机系统通过通信设备传播和网络软件管理的信息资源,包括电子图书、商业信息、新闻 、软件、数据库,到生活、娱乐信息等内容。它已经成为全球范围内传播科研、教育、商业和社会信息的主要渠道。

    1.网络的基本知识
    (1)IP地址

    IP地址是识别主机的身份证,具有唯一性,分为数字型和字符型两种。

    ①数字型1P地址
    形式:用四组小于256的十进制表示。如:202.115.72.11,是西南交通大学图书馆的一部主机,是信息检索国家精品课程的服务器。

    ②字符型的IP地址
    即域名(Domain Name),是由一串用点分隔的名字组成的Internet上某一台计算机或计算机组的名称
    www.swjtu.edu.cn

    (2).网络资源文件

    因特网是一个信息资源的大宝库。一般来说,信息资源都是以文件的形式存放的。这些文件包括了视频、音频、图片、文本等。文件名由文件主名和扩展名组成,中间用“.”联结。文件主名可以由使用者自行确定,扩展名则用来标明文件的类型,一般来说它是固定的,随意地改变扩展名就会改变文件的类型,会造成文件打开失败。

    2.网站(Website)

    网络资源是通过网站这个平台来展示的。网站(Website)是指在因特网上,根据一定的规则,基于HTML制作的用于展示特定内容的相关网页的集合。简单地说,人们一方面可以通过网站提供相关的网络服务;另一方面也可以访问网站,获取自己需要的资讯或者享受网络服务。

    在使用网站时,通过以下途径可以快速从网站中找到所需信息。
    (1)要了解网站的背景可以通过“关于我们”或“xx简介”;
    (2)要了解网站的全貌可以通过“站点地图(Sitemap)”或“网站导航”;
    (3)要了解网站的内容可以通过栏目浏览或网站提供的站内搜索引擎
    (4)要了解网站某一具体的内容,按Ctrl+F键,出现查找搜索框,键入所要查找的关键词,可在当前网页中查找。
    (5)要了解该网站的相关网站,可利用网站提供的“友情链接”或者“网站链接”

    3.网络资源的分类与特点

    (1)政府信息源(以gov为一级或二级域名注册)
    (2)企业信息源(以com为一级或二级域名注册)
    (2)高校信息源(一般以edu或ac为一级或二级域名注册)
    (3)个人信息源
    (4)机构信息源
    (一般以net、com、或行政区域为一域名注册)
    (5)专题信息源

    4.开放存取

    开放存取(Open Access)是网络上提供免费资源最常见方式之一,它是指某文献可以在Internet公共领域里被免费获取,允许任何用户阅读、下载、拷贝、传递、打印、检索、超级链接,并为之建立索引,用作软件的输入数据或其它任何合法用途。

    (1)开放存取的特征与类型

    <1> OA期刊(Open Access Journal,OAJ),即基于OA出版模式的期刊。
    <2> 开放存档(Open repositories and archives)
    <3> 电子预印本(E-print)指自愿提前在学术会议上或通过互联网发布的科研论文、科技报告等文章。
    <4> 开放获取搜索引擎(OA Search Engine)。

    (2)国内开放存取数据库及系统

    <1> Socolar平台(http://www.socolar.com)
    <2> 预印本服务系统(http://prep.istic.ac.cn)
    <3> 科技论文在线(http://www.paper.edu.cn/)
    (3)国外开放存取数据库及系统
    <1> OpenDOAR(http://www.opendoar.org)
    <2> DOAJ(http://www.doaj.org/)
    <3> HighWire Press

    展开全文
  • 信息资源管理 笔记整理

    千次阅读 2020-06-24 16:18:34
    信息资源管理 ╭第一章 信息资源管理基础 |第二章 信息化规则与组织 |第三章 信息系统资源管理 内容大纲< 第四章 信息资源内容管理 |第五章 信息资源管理的标准与法规 |第六章 信息资源安全管理 ╰第七章...
  • 信息查询与信息资源

    千次阅读 2010-11-19 07:48:00
    本章主要介绍信息查询和信息资源的一些基本概念。 1.1 信息查询 我们先对信息查询这个概念做个解释。所谓信息查询,有时也被称为信息获取、信息检索等。它们的意思相差无几,都表示用户利用现代信息查询系统来获取所...
  • 而服务器作为存储支持企业数据的载体,在维护攻击防范中变得越来越重要。 绝大部分大型互联网企业都有过被攻击的经历,一旦被不法HK攻击或入侵,如果没有有效的防护措施,后果不堪设想。数据被盗
  • 也应加上目前社会现有已成熟普及的信息载体,如短信SMS服务。 SNS的另一种常用解释:全称Social Network Site,即“社交网站”或“社交网”。 严格讲,国内SNS并非Social Networking Services(社会性网络服务
  • 使用iSCSI服务部署网络存储 5/17/2018 1:08:40 PM - 简介 - 1. iSCSI简述 - 2. 部署ISCSI服务(服务端) - 3. linux下使用iscsi网络存储(客户端) - 4. windows 下使用iscsi网络存储(客户端) - 5. ...
  • 网络信息安全的重要性

    万次阅读 2018-08-15 11:39:01
    一、信息安全技术概论 1.网络安全的重要作用 在互联网普及的初期,人们更关注单纯的连接性...网络出现前:主要面向数据的安全,对信息的机密性、完整性可用性的保护,即CIA三元组;网络出现后,还涵盖了面向用...
  • 神经网络信息隐藏的结合

    千次阅读 2020-03-25 09:52:16
    神经网络信息隐藏的结合 Contents 1 引言... 1 2 切入点介绍... 1 2.1 SGAN & SSGAN.. 1 2.2 使用神经网络生成隐写失真代价... 1 2.3 使用神经网络做隐写分析... 1 2.4 生成含秘载体... 2 3 面临的...
  • 农业资源环境信息技术研究

    千次阅读 2012-07-29 17:05:00
    1、农业信息化概述 ... 狭义上说农业信息化是以计算机技术为基础,通过计算机网络吧科技成果、生产技术、农产品供需关系、三农政策等知识和信息传递给农业生产者、经营者以及消费者。 1.2 农业信息化软件  农业
  • 《Docker网络和服务发现》(下)

    千次阅读 2016-12-28 17:10:55
    技术该小节介绍了各种技术它们的优缺点,并提供了网上的更多资源(如果你想获得这些技术的实践经验,你可以看看Adrian Mouat的书Using Docker)。 ZooKeeper Apache ZooKeeper是ASF的顶级项目,基于JVM的集中式...
  • 信息资源管理总结

    千次阅读 热门讨论 2017-04-20 12:04:17
    4.8数据挖掘:是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 4.9知识管理:是指一个组织整体上对知识的获取、存储、...
  • Java Language——网络编程

    千次阅读 多人点赞 2016-05-21 15:26:00
    计算机网络主要功能包括资源共享、信息传输集中处理、负载均衡分布式处理、综合信息服务等。实际上 Java 的网络编程就是服务器通过 ServerSocket 建立监听,客户端通过 Socket 连接到指定服务器后,通信双方就...
  • 网络信息安全综述

    万次阅读 2017-11-14 21:23:30
    网络出现前:主要面向数据的安全,对信息的机密性、完整性可用性的保护,即CIA三元组 网络出现后,还涵盖了面向用户的安全,即鉴别,授权,访问控制,抗否认性和可服务性,以及对于内容的个人隐私、知识产权等的...
  • 网络信息系统技术安全与防范

    千次阅读 2014-01-18 17:51:48
    网络信息系统技术安全与防范 作者 ××× 摘要:随着信息产业的高速发展,众多企业、单位都利用互联网建立了自己的信息系统,以充分利用各类信息资源。但是我们在享受信息产业发展带给我们便利的同时,也面临着...
  • 新一代信息技术不单是芯片技术、通信网络技术、数据挖掘、人工智能、虚拟现实等单一信息技术自身的...上世纪80年代中期到本世纪初,随着个人计算机通过网络连接的分散式服务器的普及,标志着第二代信息技术服务...
  • 【计算机网络】谢希仁笔记 网络

    千次阅读 多人点赞 2019-05-03 09:58:53
    一,网络层提供的两种服务 网络层提供的两种服务 二,网际协议 IP 虚拟互连网络 分类的 IP 地址 IP 地址与硬件地址 地址解析协议 ARP IP 数据报的格式 IP 层转发分组的流程 三,划分子网构造超网 划分...
  • 当一个新的业务系统开发完成后,需要在一个区域乃至全国推广此应用软件,如何根据业务规模来选择服务器配置、内外置磁盘大小、以及网络带宽,是一件复杂的事情。 一个最真实的评估,是建立一个接近真实业务应用的...
  • 计算机网络 网络层(五)VPNMPLS

    千次阅读 多人点赞 2020-04-13 09:01:57
    学习计算机网络过程中的心得体会以及知识点的整理,方便我自己查找,也希望可以大家一起交流。 —— 网络层 —— 文章目录计算机网络(十一)—— 网络层 ——上接《计算机网络 网络层(四)》8. 虚拟专用网 VPN ...
  • 网络信息安全课程笔记整理(一)

    万次阅读 多人点赞 2018-09-04 17:59:42
    网络信息安全 第一章 1.1 网络安全的概念 1.2 主要的网络安全威胁 1.3 TCP/IP协议簇的安全问题 1.4 OSI安全体系结构 1.5 网络安全服务及其实现层次 1.6 TCP/IP协议簇的安全架构 1.7 PPDR...
  • 解答:面向连接的虚电路服务和无连接的数据报服务。 对比的方面 虚电路服务 数据报服务 思路 可靠通信应当由网络来保证 可靠通信应当由用户主机来保证 ...
  • 一,关于Volley 其实最初对于网络数据的访问,我是没想到要用框架的,使用HttpURLConnection或者HttpGet or HttpPost都可以... volley来源: Volley 是 Google 推出的 Android 异步网络请求框架图片加载框架。在
  • 网络计算

    千次阅读 2003-01-20 09:48:00
    Internet蔓延到世界各地,成为人们沟通信息和协同工作的有效工具,更为重要的是,Internet上汇集的成千上万的计算资源、数据资源、软件资源、各种数字化设备和控制系统共同构成了生产、传播和使用知识的重要载体。...
  • 网络安全

    千次阅读 2004-10-23 13:10:00
     网络安全即在分布网络环境中,对信息载体(处理载体、存储载体、传输载体和信息的处理、传输、存储、访问提供安全保护,以防止数据、信息内容或能力被非授权使用、篡改拒绝服务网络安全具有类似信息安全的...
  • 它是一个安全通信通道,它基于HTTP开发,用于在客户计算机服务器之间交换信息。...它是由Netscape开发并内置于其浏览器中,用于对数据进行压缩解压操作,并返回网络上传送回的结果。HTTPS实际上应用了Netsca
  • 1,前言网络技术的发展促进了网络教育的发展,随着网上教学资源和网络用户的成倍增长,如何让用户、特别是接受远程教育的学生在巨量的教学资源中快速搜索、浏览所需信息,如何为教师提供一个方便快捷的课件发布渠道,...
  • 使用iSCSI服务部署网络存储

    千次阅读 2018-02-25 20:58:46
    第6章、第7章讲解的硬盘存储结构、RAID磁盘阵列技术以及LVM技术等都是用于存储设备的技术,尽管这些技术有软件层面硬件层面之分,但是它们都旨在解决硬盘存储设备的读写速度问题,或者竭力保障存储数据的安全。...
  • 网络编程学习总结

    千次阅读 2016-03-19 12:05:21
    网络编程 1、网络编程基本概念 2、网络编程TCP协议 3、TCP实现ECHO程序 4、服务器与多客户端通信 5、多客户端之间的通信 6、URL 7、HttpURLConnection接口 8、UDP

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 28,284
精华内容 11,313
关键字:

信息资源和网络服务的载体