精华内容
下载资源
问答
  • 心理辅导平台设计

    千次阅读 2017-12-04 10:22:57
    |工具风险 |软件项目开发和实施过程,所必须用到的管理工具、开发工具、测试工具未能及时到位 |在项目的启动阶段就落实好各项工具的来源或可能的替代工具,在这些工具需要使用之前跟踪并落实工具的到位事宜。...

    声明:作者对本文档保留所有权利。

    原题目:
    软件工程课程设计
       ——心理学指导软件
    学生学院   机电工程学院       
    专业班级   ******      
    团队名称   “何弃疗”         
    队员姓名   *** *** *** ***
    2014年12月16日    
    

    文章目录

    一、团队介绍	
    二、软件介绍	
    三、可行性分析	
        1.引言	
        2.可行性研究的前提
        3.所建议技术可行性分析	
        4.所建议系统经济可行性分析	
        5.社会因素可行性分析	
        6.项目风险管理:	
        7.结论意见	
    四、需求分析	
        1.功能需求	
        2.性能需求	
        3.界面要求	
        4.出错处理需求	
        5.接口需求	
        6.其他需求	
    五、 总体设计	
        1.设想供选择的方案	
        2.选取合理地方案	
        3.最佳方案	
        4.程序流程图	
        5.层次图	
        6.数据流图	
    六、详细设计	
        1.各个模块功能描述	
    七、测试验收方案	
        1.测试目的
        2.测试的步骤
        3.用户测试
        4.第三方程序员测试
    八、参考文献
    

    ##一、团队介绍
    队名:何弃疗
    成员*** *** *** ***
    作品名:心窝APP
    作品icon

    心窝APP

    姓名分工
    ***总体构思、文档汇总、详细设计
    ***PPT设计、可行性分析、UI界面设计、图标设计
    ***需求分析、测试验收方案、总体设计
    ***程序介绍、总体设计

    ##二、软件介绍
    软件结构简介:改程序分为5个版块,以智能聊天版块为主,其他版块都是辅助和延伸。

    软件开发的意义:开发该软件是为了增加中国人对心理咨询和心理治疗的了解,改善心理学在中国发展缓慢、不成熟的现状,让中国的心理咨询市场透明化,让心理咨询从业人员拥有更多的发展空间,消除不良从业人员对心理咨询市场的影响,改善心理咨询市场两极分化、发展好的从业人员工资很高、发展不好的收入很低的缺点,也让心理疾病患者能及时治疗,不要因为不了解心理咨询和心理治疗和讳疾忌医的心态而影响正常生活。

    功能定位:基于Android端的以心理指导智能聊天系统为主心理学的交流平台。

    用户定位:需要心理指导的普通用户、心理学专业用户、企业、学校心理指导中心等。

    ##三、可行性分析
    ####1 引言
    1.1 编写目的:
    心理咨询是以维护人的心理健康状态为目标和内容的一项工作,这项工作要求借助于一种特殊的人际关系,运用心理学的理论知识和方法,通过言语、文字及其他信息传递方式,就咨询对象的心理方面存在的问题,提供帮助、启发和指导的过程。我国目前正处在社会转型期,当一些人面临前所未有的就业、婚姻、子女、养老等生存压力时,他们的无助和挫折,往往都可能成为一触即发的“引子”。由于应激事件增多,相关的抑郁和焦虑等情绪反应可能形成长期的适应不良或诱发精神障碍:受流行文化影响的不当节食减肥,导致神经性厌食和贪食后也会诱发多种心理疾病。

    与美国相比,我国心理咨询业起步晚得多。早在20世纪30年代,我国曾出现心理诊所,但由于历史原因,心理学及心理咨询在相当长的时间内在我国未得到发展。80年代中期以后,心理咨询在我国一些大城市的高等院校率先进行,受到了广大青年学生和部分教职工的欢迎。面向社会各阶层的正视心理咨询和心理治疗机构也开始设立。随着社会发展、生活节奏加快、矛盾冲突增加,人们对增进心理健康产生了越来越强烈的需求,心理咨询在我国形成需求市场,心理咨询业有了相当程度的发展。

    中商情报网发布的《2010-2015年中国心理咨询业调研及发展前景预测报告》主要依据国家统计局、卫生部、大中城市心理咨询行业协会以及心理咨询相关组织发布的权威数据、资料,分析了国内外心理咨询业发展现状,重点分析了中国心理咨询发展历程及心理咨询市场需求和心理咨询群体特征,然后报告针对目前国内心理咨询业存在的问题提出了发展对策,并重点分析了国内知名度较高的心理咨询机构及网站,最后针对未来几年我国心理咨询业发展潜力及趋势进行了预测。它是业内企业、相关投资公司及政府部门准确把握行业发展趋势,洞悉心理咨询行业竞争格局,规避经营和投资风险的重要依据,对制定正确竞争和投资战略决策具有重要的参考价值。

    因此,本app主要让用户通过这个平台来指导用户通过自我调适解决心理困惑,并建议有心理疾病的用户进行专业的心理咨询。同时通过推送心理有关方面的知识内容让用户了解心理学,在这个平台能实现普通用户与心理学专业用户或企业之间互相的的交流。

    1.2 项目背景:
    (1) 项目的任务提出者和开发者:*** *** *** ***
    (2) 用户:普通用户、心理学专业用户和企业用户。
    (3) 实现单位:校园或者私人心理中心、各企业。

    ####2 可行性研究的前提
    2.1 要求
    (1)软件要求功能:

    用户功能
    普通用户心理疏导、释放压力、心理测试、心理咨询中介
    心理学专业用户和企业用户收集心理学数据、调研、学校心理中心针对学生心理状态监控、辅助咨询、企业了解员工的心理状态、人力资源管理

    (2)性能:
    方便快捷地解决用户的心理问题,便于心理学专业用户和企业用户与用户之间的相互交流。
    (3)系统的输入
    用户者的注册账号(手机,qq邮箱等)和密码
    (4)系统的输出
    用户者得到身份验证,进入app
    (5)安全和保密要求
    系统对于用户的验证方式为他的账号和密码,用户可使用手机号或者qq邮箱等方式注册自己的私人账号。
    (6)开发目标
    系统的开发目标应考虑如下因素:
    a)人力与设备费用的相对减少;
    b)处理速度的提高;
    c)控制精度的提高;
    d)资源利用率的改进
    (7)具备条件
    项目开发中所具备的条件、假定和所受到的限制,如:
    a所建议系统运行寿命的最小值,系统运行寿命的最小值应达三年;
    b进行系统方案选择比较的时间,系统方案选择比较的时间为一个月;
    c可利用的资源和信息:可参考已有的社交软件系统。

    (8)开发基本计划:

    工作集内容时间
    准备工作社会调查,进行学生,社会人士,心理机构中心和企业有关这款app的建议调查,收集数据并总结。1个月
    开发系统源代码及源码测试找计算机人才或者自我培训,并进行内测阶段1个月
    第一阶段完成基本功能:针对焦虑情绪的智能聊天系统、心理状态量表3个月
    第二阶段针对普通用户的功能扩充:界面优化、数据库联网、注册账号、发动态、官方账号发布心理学活动或讲座信息、心理学文章和视频3个月
    第三阶段心理学专业人群和企业用户功能扩充:心理量表、心理测试、调研数据收集、辅助咨询过程(推广)3个月
    第四阶段拓展数据库、增加情绪种类,根据用户反馈改进。3个月

    **2.2、可行性研究方法:** 可行性研究采用的方法如下: (1)客户调查: (2)专家咨询:与学校心理机构中心协商,并申请赞助。 (3)市场相关产品、同类产品调查:

    2.3、评价尺度:
    系统进行评价时所使用的主要尺度为各项功能的优先次序、开发时间的长短及使用的难易程度和用户的交互性。

    2.4、对现有系统的分析
    当我们心情不好或者有心理问题时候,我们一般自己苦闷在心中或者去找身边的朋友聊天,但是这样做并不能有针对性并且有效地解决我们的心理问题,有一些隐私因为在其他人面前无法说出来,然而这款app却能实现这样的隐私保护功能,另外还可以解决自己心理上的疾病或问题,以及对自己进行调查检测,通过专业心理用户与普通用户的线上交流,简易方便地解决了自己的问题。

    ####3、所用技术可行性分析
    参考现有的心理学智能聊天网页——ASP
    实时数据库搜索功能
    参考大型电商网站的智能客服
    查找中文的分词技术论文
    查找心理学情绪关键词和中文词汇的对应的论文
    采用专业的心理学量表
    采用现有的数据库结构设计

    ####4、所建议系统经济可行性分析
    4.1成本支出:
    数据库(阿里云)的使用费用
    人力资本
    硬件成本
    场地费用
    宣传、推广成本
    后期维护成本

    各开发阶段需要使用的人力费用表

    任务人力(%)费用(元)
    可行性研究5200
    需求分析设计10400
    设计251000
    编码和单元测试20800
    综合测试401600
    总计1004000

    **4.2效益** (1)一次性收益:学校及企业软件的使用费用、学校创新培训项目申请资金、加入创业孵化基地。 (2)经常性收益:心理中介收费、调研数据收费、辅助咨询过程收费、定制企业数据库。 (3)不可定量收益:广告,赞助,活动等。

    4.3投资回收周期
    该设备是一次性投资,当产品卖出的时候,已经实现盈利,而且在往后的硬件维护过程中能持续收益。

    ####5、社会因素可行性分析
    法律可行性:该新系统自主研制开发,拥有自主知识产权。该系统的开发将不会侵犯任何个人、集体、国家的利益,也不会违反国家的政策与法律。

    社会推广可行性:心理咨询服务的普及与高速发展,使得相关配套服务系统的完善变得十分必要。而本系统将大大解决用户的心理咨询问题,使得用户的身心健康,符合发展的需求,在中大型城市中将得到推广。

    使用可行性:该系统仅仅需要一个手机就可以间接地了解到心理方面内容,极大的方便用户与心理平台交流,而移动通信端的普及将极大的增加该系统的使用可行性。

    ####6、项目风险管理:
    本次开发过程中存在的风险及规避方法如下表:

    风险类型存在风险规避方法
    进度风险由于时间紧张导致项目最后无法按期完成。充分考虑各种潜在因素,适当留有余地;任务分解要详细,便于考核;在执行过程中,应该强调项目按照进度执行的重要项,再考虑任何问题时,都要经保持进度作为先决条件;同时,合理利用赶工期及快速跟进等方法,充分利用资源。如果出现必须延期的情况,组长需及时同银行相关负责人沟通,并申请延期时间。
    ||系统没有足够的测试时间|	持续地监控,项目进度控制随着项目的进行而不断进行的,保证每个环节都有足够的时间。|
    

    |技术风险 |开发软件结构体系存在问题,使完成的软件产品未能实现项目预定目标 |选用正版软件开发|
    ||对开发软件的掌握不够深入,造成开发出的产品性能以及质量低劣。 |提前制定好两周的学习计划,各组员要对开发工具C++,css,photoshop及flash进行快速的学习。尽快掌握其中的要点。同时在软件的设计上尽可能降低难度使项目最后能成功完成。|
    |质量风险 |质量不符合用户要求| 经常和用户交流工作成果、品牌管理采用符合要求的开发流程、认真组织对产出物的检查和评审、计划和组织严格的独立测试等。|
    |工具风险 |软件项目开发和实施过程,所必须用到的管理工具、开发工具、测试工具未能及时到位 |在项目的启动阶段就落实好各项工具的来源或可能的替代工具,在这些工具需要使用之前跟踪并落实工具的到位事宜。在进行项目开发之前先设计和搭建出系统的基础架构并进行性能测试,确保架构符合性能指标后再进行后续工作。|
    |人力资源风险| 组员成员因意外无法参加设计| 事先同用户商量解决办法|


    ####7、结论意见
    本款App需要运营部,开发部,和行政部门,需要大量的数据调查和调研,尤其需要技术人员和推广人员,以及外联部进行与商家,心理咨询中心和企业的宣传。

    ##四、需求分析
    ####1.功能需求
    该软件首先面向大多数普通用户,普通用户可以通过该软件的量表大概了解自己当时的情绪。当用户有情绪问题时,可以通过软件中的智能心理指导窗口模块与可爱的玩偶“小熊”进行聊天,同时“小熊”会根据对话做出一系列相应的动作来愉悦用户,在一定程度达到用户减少压力、疏导心情的目的。用户还可以通过软件中的心理鸡汤模块搜索到有关心理学的书籍、电影、视频以及最新的心理知识更新,满足对心理学感兴趣的用户学习心理学的目的。用户通过注册账号后,拥有匿名或者不匿名发布动态到动态圈、交友、建群群聊、关注公众号,查看到自己所想要搜查的问题的建议并可将其收藏。如若用户感觉到自己真的有心理上的“疾病”,可以在软件的专家预约模块中预约心理学专家医生,查看其预约时间和个人简介。

    该软件同时面向学校,企业等机构,这些机构可以运用该软件为学生或员工做心理测试,达到辅助咨询的作用,知晓其近期的心理状况,同时在实际生活中做出相应的对策。同时,学校、企业、单位可将在该软件中注册公众号,发布自己的活动动态。企业可以将该软件运用于到人力资源部门。

    功能需求概述图:

    普通用户功能需求

    专业用户功能需求

    ####2.性能需求
    (1)数据精确度
    输入数据:用户填写的账号、密码,个人信息、量表、用户在心理指导窗口的陈述、用户做出的心理测试以及用户的动态
    输出数据:查询结果
    (2)时间特性
    软件运行在Andriod平台上,相应时间取决于数据库操作的相应时间,因不同机器,不同数据库而异。页面的转换和结果的查询应尽量要求在0.5秒-1秒内响应。
    (3)主存容量
    由于该软件功能齐全,集合度较高,主存容量大概为30M.
    (4)磁盘容量
    智能心理指导系统需要储存大量的数据,且用户在对话中的答案会随时被记录进数据库,要求储存数据库的磁盘容量要较大,在此暂定为500G。
    (5)安全性
    无论是普通用户还是学校企业等用户,每个账号是独一无二的,且自己设有密码,安保问题和绑定邮箱和绑定手机,进一步增加用户的安全性。

    ####3.界面要求
    (1)用户界面要求实用
    A.完成同一功能的或任务的的元素放在集中位置,减少移动距离
    B.常用功能支持快捷键
    C.按功能将界面划分区域块,并要有功能说明或标题
    D.界面上首先应输入的和重要信息应当靠前,位置也应放在界面上较醒目的位置
    E.同一界面上的控件数最好不要超过10个,多于10个时可以考虑使用分页界面显示。
    F.用户查看顺序总体从上到下,同时行间从左到右的方式。
    G.选项数相同时多用选项框而不用下拉列表框。
    H.界面空间较小时使用下拉框而不用选项框。
    I.选项数较少时使用选项框,相反使用下拉列表框。
    J.使用通用性词眼。
    K.长时间的操作应提供进度指示和取消功能。
    L.对于一些常用的输入,软件应具有记忆功能,以避免用户重复输入相同的内容。
    M.所有的提示要清晰易懂,避免让用户去记大量无用的东西

    (2)用户界面要求规范
    A.常用功能要有命令快捷方式
    B.界面中的图标能直观的代表要完成的操作。
    C.状态条要能显示用户切实需要的信息,常用的有:目前的操作、系统 状态、用户位置、用户信息、提示信息、错误信息等,如果某一操作需要的时间较长,还应该显示进度条和进程提示。
    D.滚动条的长度要根据显示信息的长度或宽度能及时变换,以利于用户了解显示信息的位置和百分比。
    E.使用操作系统提供的控件,不要改变其功能,避免将用户弄糊涂。

    (3)用户界面要求合理
    A.父窗体或主窗体的中心位置应该在对角线焦点附近。
    B.子窗体位置应该在主窗体的左上角或正中。
    C.多个子窗体弹出时应该依次向右下方偏移,以显示窗体出标题为宜。
    D.重要的命令按钮与使用较频繁的按钮要放在界面上注目的位置。
    E. 错误使用容易引起界面退出或关闭的按钮不应该放在易点位置。横排开头或最后与竖排最.后为易点位置。
    G.与正在进行的操作无关的按钮应该加以屏蔽(Windows中用灰色显示,没法使用该按钮)。
    H.对可能造成数据无法恢复的操作必须提供确认信息,给用户放弃选择的机会。
    I.非法的输入或操作应有足够的提示说明。
    J.提示、警告、或错误说明应该清楚、明了、恰当。
    K…窗体及控件大小合适,避免剩余控件过大或信息显示不全。

    (4)用户界面要求美观
    A.长宽接近黄金点比例,切忌长宽比例失调、或宽度超过长度。
    B.布局要合理,不宜过于密集,也不能过于空旷,合理的利用空间。
    C.按钮大小基本相近,忌用太长的名称,免得占用过多的界面位置。
    D.按钮的大小要与界面的大小和空间要协调。
    E.避免空旷的界面上放置很大的按钮。
    F.放置完控件后界面不应有很大的空缺位置。
    G.字体的大小要与界面的大小比例协调,
    H.前景与背景色搭配合理协调,反差不宜太大,最好少用深色,如大红、大绿等。常用色考虑使用界面色调。
    I.如果使用其他颜色,主色要柔和,具有亲和力与磁力,坚决杜绝刺目的颜色。
    J.界面风格要保持一致,字的大小、颜色、字体要相同,除非是需要艺术处理或有特殊要求的地方。
    K.如果窗体支持最小化和最大化或放大时,窗体上的控件也要随着窗体而缩放;切忌只放大窗体而忽略控件的缩放。
    L.对于含有按钮的界面一般不应该支持缩放
    M.通常父窗体支持缩放时,子窗体没有必要缩放。
    N.如果能给用户提供自定义界面风格则更好,由用户自己选择颜色、字体等。

    (5)用户界面展示

    用户界面展示

    ####4.出错处理需求
    1)对运行过程中出现问题而引起错误的地方有提示,让用户明白错误出处,避免形成无限期的等待,例如用户查询不到自己想查的内容,软件即显示“您所查的内容尚且无法得到,请问是否继续”。
    2)之后,我们后台将会将用户所查的内容收集,放进数据库,以便用户下次查找的时候可以找到所需内容。
    3)每隔一段时间测试软件,减少软件的出错。

    ####5.接口需求
    1)用户接口
    使用Java编程语言类库的抽象窗口工具箱AWT(Abstract Windowing Toolkit)。
    2)硬件接口
    在输入方面,对于键盘、鼠标的输入,可用Java语言输入/输出,对输入进行处理,也可以运用USB接口进行数据的输入。
    在输出方面,运用USB接口进行输出数据。
    3)软件接口
    A.服务器程序可使用Java 提供的对SQL Server的接口,进行对数据库的所有访问。
    B.服务器程序上可使用SQL Server的对数据库的备分命令,以做到对数据的保存。
    C.在网络软件接口方面,使用一种无差错的传输协议,采用滑动窗口方式对数据进行网络 传输及接收。
    D.制作手机界面的软件Photoshop
    E.编程源代码的软件Java
    ####6.其他需求
    为了保证系统的安全性需要在网络的传输过程中对数据进行加密。

    ##五、总体设计
    ####1.设想供选择的方案
    1.1 心理疏导版块
    心理聊天窗口:
    当用户有问题时,用户通过心理聊天窗口语音或者手写输入自己的心理状态,系统通过玩偶小熊的形象及时将信息、建议反馈给用户,同时小熊会根据对话做出一系列的表情与动作。好似用户与心理学专家面对面聊天谈心。若此时,用户输入的信息没有存在于数据库中,数据库会收集用户的信息,同时给用户做出提示。
    心理引导窗口:
    当用户有问题时 ,用户通过心理引导窗口选择相对于自己当时的情绪名词,系统通过玩偶小熊的形象根据用户做出的选择用一些情景场景引导用户或者推荐用户去浏览一些相关的书籍,同时小熊会根据对话做出一系列的表情与动作。当用户确实存在很大的心理“疾病”时,系统会提醒用户去看心理医生。若此时,用户输入的信息没有存在于数据库中,数据库会收集用户的信息,同时给用户做出提示。

    1.2 心灵鸡汤版块
    收集与心理学相关的心理学书籍、电影、视频、文章以及与生活有关的小tips,将他们分类放在界面。同时,在界面的最顶部设有搜索框,用户可以自己搜索想要的知识,满足用户的需要。该版块会隔一段时间更新,确保用户得到最新的心理学知识。可以吸引一些著名的专家为用户推荐好的作品。

    1.3 个人主页版块
    用户通过注册账号,输进账号和密码之后可以进入个人主页界面。在个人主页版块中,用户可以看到自己的呢称、性别、头像以及更换头像、相册、 设置、近期自己发布或者收藏的动态,已添加的好友和关注的公众号,自己所建立的群和加入的群。同时,在这一版块中增加心理测试和心理知识问答游戏。当用户心理测试或者进行心理知识问答后,结果会被数据库采集并增加进数据库。

    1.4 心理专家医生版块
    在线咨询模块:
    当用户确实觉得自己有很大的心理问题时,需要心理医生的咨询。用户可以进入心理专家医生在线咨询模块与其进行语音聊天、文字聊天或者视频聊天,同时心理医生在线收取一定的费用。
    在线预约模块:
    当用户确实觉得自己有很大的心理问题时,需要心理医生的咨询。用户可以进入心理专家医生在线预约模块与医生进行预约,查看医生的简介和预约时间。用户也可以在搜索框中搜索想找到的心理学专家,预约后与医生进行线下的交流,不在线收费。

    ####2.选取合理地方案
    2.1 选取心理引导窗口
    由于心理聊天窗口需要智能化,好似人与人在面对面地聊天,场景设想较多,造成数据库较为庞大,前期由于经费不足,无法收集到十分丰富的信息和购买巨大的数据库,因此不理想。
    心理引导窗口由于具有固定的模式, 数据库较小,较为理想。

    2.2 心灵鸡汤版块
    由于前期关注度不高,专家入驻该软件的人数较少,故减去专家推荐这一功能,改为系统今日推荐这一功能,其他功能保留。

    2.3 个人主页版块
    个人主页版块收集了较多的信息,造成界面较为复杂,故将与个人信息较少联系的功能独立出来,将心理测试与心理知识问答游戏功能分别独立出来作为心理测试版块和心理知识问答版块。

    2.4 心理医生专家版块
    在线咨询可能由于网速,流量、延时等问题造成交流不能有效进行,且在线付费存在风险,用户问题得不到解决,因此不理想。改由在线预约可以使用户与心理医生面对面交流,问题可以得到有效的解决,故选择该方案。

    ####3.最佳方案
    3.1 心理引导窗口
    用户通过心理引导窗口选择相对于自己当时的情绪名词,系统通过玩偶小熊的形象根据用户做出的选择用一些情景场景引导用户或者推荐用户去浏览一些相关的书籍,同时小熊会根据对话做出一系列的表情与动作。当用户确实存在很大的心理“疾病”时,系统会提醒用户去看心理医生。若此时,用户输入的信息没有存在于数据库中,数据库会收集用户的信息,同时给用户做出提示。

    3.2 心灵鸡汤
    收集与心理学相关的心理学书籍、电影、视频、文章以及与生活有关的小tips,将他们分类放在界面。同时,在界面的最顶部设有搜索框,用户可以自己搜索想要的知识,满足用户的需要。该版块会隔一段时间更新,确保用户得到最新的心理学知识。

    3.3 个人主页
    用户通过注册账号,输进账号和密码之后可以进入个人主页界面。在个人主页版块中,用户可以看到自己的呢称、性别、头像以及更换头像、相册、 设置、近期自己发布或者收藏的动态,已添加的好友和关注的公众号,自己所建立的群和加入的群。

    3.4 心理测试
    通过心理测试,用户可以大概了解自己当前的情绪,系统将用户的数据录入数据库。

    3.5 心理知识问答
    通过心理知识问答,用户可以了解自己对心理学知识的了解程度,一定程度上了解当前的情绪,系统同时将用户的数据录入数据库。

    3.6 心理专家信息查询
    当用户确实觉得自己有很大的心理问题时,需要心理医生的咨询。用户可以进入心理专家医生在线预约模块与医生进行预约,查看医生的简介和预约时间。用户也可以在搜索框中搜索想找到的心理学专家,预约后与医生进行线下的交流,不在线收费。

    ####4.程序流程图

    程序流程图

    ####5.层次图

    层次图

    ####6.数据流图

    数据流图

    ##六、详细设计

    ####1.各个模块功能描述:
    1.1 社交版块
    这一版块主要由用户及其关注用户的信息组成。用户个人信息主要有:个人动态、以往的心理测试结果、每一次与智能聊天系统聊天的主题和情绪状态,关注用户的信息主要有动态和关注用户的个人介绍。
    关注的用户由普通用户、包括软件官方账号、心理学专业账号和企业账号在内的公众用户、用户群等组成。大致用户组成关系如表所示:

    用户类别用户组成信息
    个人用户自身个人动态、以往心理测试结果、每一次与智能聊天系统聊天的主题和情绪状态
    关注用户其他普通用户、公众用户(官方账号、心理学专业账号、企业账号)、用户群普通用户动态、公众号消息、群聊动态(以发帖和评论形式,用户点击后可以直接参与)

    1.2 心理测试及版块
    这一版块的功能是为用户提供心理测试和心理量表,用户注册后第一次登陆时需要做一系列关于性格和情绪的量表,以供智能聊天系统在衡量用户的情绪状态时参考,在这之后用户可以通过进入心理测试版块选择不同的量表来测试自己相关的心理参数,每一次做完量表之后,系统都会给出一个参考结果,并自动进入智能聊天系统进行相关的讲解。

    1.3 心理知识问答版块
    这一版块的功能是心理知识问答,该功能可以通过给出经典的心理实验与生活经验相违背的问题,让用户在回答问题的过程中了解到有趣又有用的心理学知识。

    1.4 “心灵鸡汤”版块
    该版块主要是通过为用户推送心理学的相关知识、文章和视频来达到让用户了解心理学和学习心理学的目的,推送的资料主要以外部链接为主,按照不同的主题来分类,让用户能够有针对性地找到自己想了解的资料,指导自我的心理调适以及解决生活中的难题、走出思维误区,拥抱美好的生活。

    1.5 专家查询功能版块
    该版块通过与各大心理咨询机构和医院联系以及心理学专业人员的申请和官方认证,获取心理学咨询领域从业人员的资料。让用户在遇到心理问题,并且通过该软件的指导不能良好的自我调适时,能够获取相关的信息,了解到每个专家的长处,并搜索到最近的心理咨询地点,获得最及时的心理咨询。在咨询后,用户还可以评价该版块内有记录到的心理咨询从业人员,为其他有需要的用户提供参考。

    该版块可以推广心理学在中国的了解,改善心理学在中国发展缓慢、不成熟的现状,让心理咨询市场在中国透明化,让心理咨询从业人员拥有更多的发展空间,消除不良从业人员对心理咨询市场的影响,消除心理咨询市场两极分化、好的工资很高、发展不好的收入很低的缺点,也让心理疾病患者能及时治疗,不要因为不了解心理咨询和心理治疗而影响正常生活。

    1.6 心理指导智能聊天版块
    该版块能够为用户提供以心理指导主题的智能聊天。用户可以用自然语言描述自己的状况和问题,智能聊天系统会接收和处理整个用户输入语句、根据中文分词原理准确地理解用户的意思;然后在数据库中搜索相关的心理学关键词,对关键词进行语句包装,后返回与用户输入的内容直接相关的一句话,引导用户进行心理指导。
    该版块主要有以下几个模块组成:
    1.6.1 解释模块
    功能:
    可以分解用户输入的语句,输出关键词,触发搜索功能
    搜索模块搜索数据库最后一层后输出相应的关键词或引导语,可以把从数据库得到的关键词或者引导语包装成一句话,输出到用户界面,并且能够根据量表结果和语句识别到的用户情绪进行有加权的表情变换。

    性能:
    注重对用户一度的理解准确性,输出更符合用户问题的结果指导语句,牺牲一定的搜索效率,但由于该聊天版块只针对心理学问题的引导,数据库较小,所以基本上对效率的影响很小。

    为了有效识别用户的聊天意图,用户进入聊天界面之后,系统会要求用户做心理量表或者选取要咨询的主题关键词或者根据引导问题做一段自我陈述,然后系统对用户状态做出评估,给出参考结果。

    为了结果的准确性,在用户注册账号的时候需要做性格等量表,在每次开始聊天的时候,系统会对用户的情绪倾向自动做出预测。

    1.6.2 运行流程:
    功能一:分词
    1.识别句子中的标点符号,引号(“ ” ‘ ’)、括号〔( ) [ ] { } 〕、书名号(《 》〈 〉) 内的内容作为特别内容处理,逗号(,)、句号(。)、顿号(、)、分号(;)和冒号(:)以及连续的逗号(,,,)、句号(。。。)和其他的标点符号都当做句子的分词标志;感叹号(!)作为加强情绪的标志,问号(?)作为问句的标志,连续的感叹号(!!……)和问号(??……)作为加强语气的表达和疑问标志等等。

    2.把常用的词语成分中数量比较少的成分,如:介词、连词和助词等单独列出来作为切分句子的标志,并且按照逻辑规则把切分后的句子排序成简单句顺序。

    3.把剩下的字段中的字按顺序逐字和数据库中的词语匹配,并切分成关键词。匹配规则:按顺序优先匹配歇后语、诗词、成语、三字词、两字词语,遇到未能匹配的情况自动跳过一个单字,继续匹配字段中剩下的字,并把跳过的单字反馈到数据库待完善匹配规则,最后输出所有匹配好的关键词到搜索模块。

    分词

    功能二:生成输出语
    根据数据库输出语层返回的关键词,依据中文的语法规则输出符合人性化的语句,并且根据用户账户中记录的用户性格和临时聊天记录识别用户情绪进行加权,生成卡通人物形象的表情变换方案,辅助心理指导的情景构建。

    一般来说,在咨询的前半段的表情变换主要以共情为主,与随着用户的情绪变化,卡通人物会生成相应的忧伤、焦虑的表情;后半段以鼓励为主,根据用户的状态生成正向的情绪的表情,相应的表情参考积极心理学现有的研究成果。识别心理指导是否进入后半段的标志是用户的问题与迷惑减少,负面情绪指数开始稳定或者减少。

    生成输出语

    1.6.3 搜索模块
    功能:
    1.在数据库的用户语库层搜索关键词的词性以及相应的近义词和情绪类别以及情绪强度

    2.根据词性把关键词及其近义词分类为用户问题关键词和情景关键词,存入不同的内存区

    3.在数据库的心理学主题层次中分别搜索每个近义词的对应主题,选出相关度最高的心理学主题

    4.情景关键词的每个近义词在数据库的心理学关键词层搜索对应的心理学关键词,结合心理学主题和用户的性格进行加权运算,最后得出相关度最高的5个关键词

    5.在输出语层搜索相关度最高的关键词的对应输出语,输出到解释模块进行语句包装,并输出其它4个关键词到用户界面候选

    运行流程:

    搜索模块

    1.6.4 数据库:
    心理指导智能聊天系统的数据库分为四层,每一层存储不同的词汇,有用户语层、心理学主题层、心理学关键词层和输出语层。
    存储四个层次的数据内容,并且在搜索模块每次搜索过后都能返回相应的关键词。
    用户语层采用网状结构,每一个关键词都与其近义词关联,当搜索触发一个关键词时即触发下一级的所有关联的近义词,每一个词汇有词性、情绪类别、情绪强度、场景类别等属性。
    心理学主题层和心理学关键词层采用关系结构,每一个词汇对应几个用户语层的关键词,有情绪种类和应用场景等属性。
    输出语层采用关系结构,每一个词汇对应几个心理学关键词层的关键词,每一个词汇有对应的心理学主题。

    智能聊天系统数据库结构
    用户语层
    心理学主题层
    心理学关键词层
    输出语层

    用户语层数据表

    字段名词性情绪类别情绪强度场景类别描述
    关键词1名词抑郁5人际关次关键词
    近义词1名词焦虑3工作学业相关的近义词1及其相关属性
    近义词2名词忧伤2人生规划相关的近义词2及其相关属性

    心理学主题层数据表

    心理学主题情绪种类应用场景描述
    主题情绪种类1应用场景1心理学主题及其相关属性
    相近主题1情绪种类2应用场景2相近主题1及其相关属性

    心理学关键词层数据表

    心理学关键词情绪种类应用场景描述
    关键词情绪种类1应用场景1心理学关键词及其相关属性
    相近关键词1情绪种类2应用场景2相近关键词1及其相关属性

    输出语层数据表

    输出语对应心理学主题应用场景描述
    关键词主题1应用场景1输出语及其相关属性
    相近关键词1主题2应用场景2相近输出语1及其相关属性

    1.7 总数据库
    该软件总数据库分别根据6个版块分为6个子数据库,每个子数据库互相独立,不同版块可以互相调用其他版块的数据,例如:社交版块在查询自己的心理测试和量表结果时,会调用心理测试版块和心理量表版块的数据库数据;智能聊天系统版块在心理指导过程中会应用户要求调用社交版块的相关动态信息等其他版块的数据库数据。

    社交版块数据库:
    用户信息表

    字段名说明描述
    Yhxx不空 主键用户账号
    Lljl不空用户昵称
    Gmjl不空用户公开的动态

    个人关注列表

    字段名说明描述
    Yhxx不空 主键用户1
    Lljl不空用户2
    Gmjl不空用户3

    动态列表

    字段名说明描述
    Yhxx不空 主键用户
    Lljl不空动态主题
    Gmjl不空动态内容

    心理测试版块:
    心理测试、量表

    字段名说明描述
    Yhxx不空 主键题目1
    Lljl不空题目2
    Gmjl不空结果

    心理知识问答版块:
    心理题目

    字段名说明描述
    Yhxx不空 主键题目1
    Lljl不空答案
    Gmjl不空相关心理知识

    “心灵鸡汤”版块:
    心理学知识、文章、视频

    字段名说明描述
    Yhxx不空 主键主题
    Lljl不空题目
    Gmjl不空链接

    专家信息查询版块:
    专家信息

    字段名说明描述
    Yhxx不空 主键姓名
    Lljl不空介绍
    Gmjl不空联系方式

    ##七、测试验收方案

    ####1.测试目的
    软件测试的目的是使我们通过对软件错误的原因和分布进行归纳,来发现并排除当前软件产品的缺陷,对在需求和设计过程中存在的问题查缺补漏,从而确保软件产品的质量。
    1)确定现有项目的信息和应测试的软件构件。
    2)列出推荐的测试需求(高级需求)。
    3)推荐可采用的测试策略,并对这些策略加以说明。
    4)确定所需的资源,并对测试的工作量进行估计。
    5)列出测试项目的可交付元素。
    ####2.测试的步骤
    1)明确需要测试的模块和功能
    2)根据不同的被测试模块选择相应的测试方法
    3)设计相应的测试用例
    4)开始测试
    5)对测试进行总结,做出相应修改
    ####3.用户测试
    3.1 登录模块测试
    功能模块:登录或者注册的人员(包括普通用户、学校企业等单位)
    功能特性:具有身份权限的登录
    测试目的:验证是否能正确判断登录

    步骤操作描述数据期望结果实际结果
    1在登录中输入用户名和密码,输入错误的用户名或密码在用户名中输入11,密码输入123出现“账号或密码不存在,请重新输入”同期望结果
    2在登录中输入用户名和密码,输入错误的用户名或密码在用户名中输入Ruanjian,密码输入123成功进入个人界面同期望结果

    3.2 用户个人主页模块测试
    功能模块:登录或者注册的人员(包括普通用户、学校企业等单位)
    功能特性:进行个人信息完善,密码修改,查看通讯录,动态发布,建群群聊,进行心理测试、玩心理小游戏
    测试目的:验证是否能完成以上的功能

    步骤操作描述数据期望结果实际结果
    1在个人信息界面点击“编辑”输入个人头像,名称,性别,个性签名出现“您输入的的内容已存在或非法,请重新输入”同期望结果
    2在个人信息界面点击“编辑”输入个人头像,名称,性别,个性签名界面刷新后,可以看到用户的个人信息完全照着用户的填写同期望结果
    3在密码修改区的“旧密码”填写之前的密码,在“新密码”和“确认密码”填写改动的密码输入字母、数字出现“您的密码为纯数字或者纯字母,安全性过低,请重新填写字母和数字结合的密码”同期望结果
    4在密码修改区的“旧密码”填写之前的密码,在“新密码”和“确认密码”填写改动的密码输入字母、数字界面刷新后出现“您的密码已修改成功,请重新登录”,并出现登录界面同期望结果
    5在通讯录查看好友,关注的公众号并添加好友,关注公众号输入好友或者公众号的名称或者号码界面出现“您所输入的内容有误,请重新输入”同期望结果
    6在通讯录查看好友,关注的公众号并添加好友,关注公众号输入好友或者公众号的名称或者号码在通讯录中可以看到新加的好友或者公众号同期望结果
    7在动态圈发布动态输入自己的动态在动态圈中可以看到自己和朋友的动态同期望结果
    8搜索群号加入进去或者自己创建群输入群号或者点击“建群”按钮界面出现“您所查找的群不在,请重新查找”或者“您没有权利建群”同期望结果
    9搜索群号加入进去或者自己创建群输入群号或者点击“建群”按钮在通讯录中可以找到所加的群以及自己创建的群同期望结果
    10点击“心理测试”按钮在心理测试中选择每一个选项当完成时出现“你已完成测试,谢谢您的配合”并出现“您当前的情绪指数为XXXX”同期望结果
    11点击“心理游戏”按钮照着游戏的顺序开始游戏游戏运行顺畅同期望结果

    **3.3 心理指导窗口模块测试** 功能模块:登录或者注册的的普通用户 功能特性:与用户聊天,指导用户梳理心理情绪 测试目的:验证用户的输入是否能得到及时的反馈
    步骤操作描述数据期望结果实际结果
    1用户输入自己的一些情况,比如近期的生活、学习、心理状况用户的陈述数据库数据不足以满足用户的情况,界面出现“您当前的问题系统无法为您提出建议”同期望结果
    2用户输入自己的一些情况,比如近期的生活、学习、心理状况用户的陈述界面上的玩偶“小熊”会随着对话做出相应的表情和动作,对话一直持续,直到用户结束对话同期望结果

    **3.4 心灵鸡汤模块测试** 功能模块:登录或者注册的的普通用户 功能特性:为用户提供心理学书籍、电影、视频以及最新心理学知识的更新 测试目的:测试用户是否能够搜到所要查到的心理学知识
    步骤操作描述数据期望结果实际结果
    1用户点击已有的心理学知识分类或者在搜索栏中搜索自己想找的心理学知识搜索栏中数据已有的心理学知识可以打开并观看,搜索时界面出现“您所搜索的不存在,请重新搜索”同期望结果
    2用户点击已有的心理学知识分类或者在搜索栏中搜索自己想找的心理学知识搜索栏中数据已有的心理学知识可以打开并观看,搜索时界面出现转换到搜索到的内容界面同期望结果

    **3.5 心理预约模块测试** 功能模块:登录或者注册的的普通用户 功能特性:查询到心理医生的简介或者预约时间,并可预约 测试目的:验证上述的功能
    步骤操作描述数据期望结果实际结果
    1用户点击“我要预约”或者在搜索栏搜索医生的姓名搜索栏中的数据可以查询界面已有医生的简介和预约时间,搜索时界面出现“您所搜索的内容不在,请重新搜索”同期望结果
    2用户点击“我要预约”或者在搜索栏搜索医生的姓名搜索栏中的数据可以查询界面已有医生的简介和预约时间,搜索时界面出现“您所搜索的内容不在,请重新搜索”同期望结果

    ####4.第三方程序员测试 该过程使编辑该软件的程序员不参与测试阶段,由第三方的程序员按照程序内部的逻辑测试过程,检测程序中的主要执行通路是否都能按预定要求正确工作。第三方程序员通过逻辑覆盖(语句覆盖、判定覆盖、条件覆盖、判定/条件覆盖、条件组合覆盖、点覆盖、边覆盖、路径覆盖)或者控制结构测试(基本路径测试、条件测试、循环测试)对软件内部进行测试。

    测试应长期进行,以便发现其中的错误并及时改正、调试。

    ##八、参考文献
    1.戴开宇;张申生;王淼 分布式虚拟环境中的聊天机器人的研究[期刊论文]-计算机工程与应用 2002(07)
    2.易顺明;胡振宇 中文聊天机器人原型系统的设计 2007
    3.李鹏 中文分词在聊天机器人中的应用研究 2009
    4.宁长英 智能聊天机器人的关键技术研究 2011
    5.樊丽华 心理咨询专家系统的研究与实现 2008
    6.冯德虎 基于ALICE的研究生招生咨询智能聊天机器人研究与实现 2013
    7.穆肃 网络智能聊天系统的原理及其教学应用 2003
    8.施询之;孙宁远;李骋罡 基于微博信息库和文本分词的人机对话模型设计 2013
    9.邓志鸿;唐世渭;张铭;杨冬青;陈捷 Ontology 研究综述 2002
    10.郭文琪;温馨;王鹏;张利军;陈群;李战 Ropeway:基于语义相关的XML关键字搜索引擎 2010
    11.王竖堡 垂直搜索引擎若干关键技术的研究 2007
    12.张艳贺 基于本体的主义搜索研究与实现 2012
    13.侯越先;张鹏;于瑞国 基于内容相关性挖掘的反馈式搜索引擎框架 2008

    展开全文
  • 人工智能时代,所需要了解人工智能的基本常识

    万次阅读 多人点赞 2018-12-10 22:49:44
    在句子“光阴似箭(Timeflieslikeanarrow)”中每一个单词的意义看起来都很清晰,直到系统遇到这样的句子“果蝇喜欢香蕉(Fruitflieslikeabanana)”,用“水果(fruit)”替代了“时间(time)”,并用“香蕉...

      国内对于人工智能的讨论大多是不成体系的碎片式,很难从中深入了解人工智能的发展脉络和技术体系,也很难有实际借鉴意义。人工智能的历史、核心技术和应用情况进行了详细说明,尤其是其中重要的认知技术。这份报告将有助于我们对人工智能和认知技术进行深入了解,也有助于各行业的公司考量人工智能应用的实际价值。

      一、概述

      近几年各界对人工智能的兴趣激增,自2011年以来,开发与人工智能相关的产品和技术并使之商业化的公司已获得超过总计20亿美元的风险投资,而科技巨头更是投资数十亿美元收购那些人工智能初创公司。相关报道铺天盖地,而巨额投资、计算机导致失业等问题也开始浮现,计算机比人更加聪明并有可能威胁到人类生存这类论断更是被媒体四处引用并引发广泛关注。

      IBM承诺拨出10亿美元来使他们的认知计算平台Watson商业化。

      谷歌在最近几年里的投资主要集中在人工智能领域,比如收购了8个机器人公司和1个机器学习公司。

      Facebook聘用了人工智能学界泰斗YannLeCun来创建自己的人工智能实验室,期望在该领域获得重大突破。

      牛津大学的研究人员发表了一篇报告表明,美国大约47%的工作因为机器认知技术自动化而变得岌岌可危。

      纽约时报畅销书《TheSecondMachineAge》论断,数字科技和人工智能带来巨大积极改变的时代已经到来,但是随之而来的也有引发大量失业等负面效应。

      硅谷创业家ElonMusk则通过不断投资的方式来保持对人工智能的关注。他甚至认为人工智能的危险性超过核武器。

      著名理论物理学家StephenHawking认为,如果成功创造出人工智能则意味着人类历史的终结,“除非我们知道如何规避风险。”

      即便有如此多炒作,但人工智能领域却也不乏显著的商业行为,这些活动已经或者即将对各个行业和组织产生影响。商业领袖需要透彻理解人工智能的含义以及发展趋势。

      二、人工智能与认知科技

      揭秘人工智能的首要步骤就是定义专业术语,勾勒历史,同时描述基础性的核心技术。

      1、人工智能的定义

      人工智能领域苦于存在多种概念和定义,有的太过有的则不够。作为该领域创始人之一的NilsNilsson先生写到:“人工智能缺乏通用的定义。”一本如今已经修订三版的权威性人工智能教科书给出了八项定义,但书中并没有透露其作者究竟倾向于哪种定义。对于我们来说,一种实用的定义即为——人工智能是对计算机系统如何能够履行那些只有依靠人类智慧才能完成的任务的理论研究。例如,视觉感知、语音识别、在不确定条件下做出决策、学习、还有语言翻译等。比起研究人类如何进行思维活动,从人类能够完成的任务角度对人工智能进行定义,而非人类如何思考,在当今时代能够让我们绕开神经机制层面对智慧进行确切定义从而直接探讨它的实际应用。值得一提的是,随着计算机为解决新任务挑战而升级换代并推而广之,人们对那些所谓需要依靠人类智慧才能解决的任务的定义门槛也越来越高。所以,人工智能的定义随着时间而演变,这一现象称之为“人工智能效应”,概括起来就是“人工智能就是要实现所有目前还无法不借助人类智慧才能实现的任务的集合。”

      2、人工智能的历史

      人工智能并不是一个新名词。实际上,这个领域在20世纪50年代就已经开始启动,这段探索的历史被称为“喧嚣与渴望、挫折与失望交替出现的时代”——最近给出的一个较为恰当的评价。

      20世纪50年代明确了人工智能要模拟人类智慧这一大胆目标,从此研究人员开展了一系列贯穿20世纪60年代并延续到70年代的研究项目,这些项目表明,计算机能够完成一系列所本只属于人类能力范畴之内的任务,例如证明定理、求解微积分、通过规划来响应命令、履行物理动作,甚至是模拟心理学家、谱曲这样的活动。

      但是,过分简单的算法、匮乏的难以应对不确定环境(这种情形在生活中无处不在)的理论,以及计算能力的限制严重阻碍了我们使用人工智能来解决更加困难和多样的问题。伴随着对缺乏继续努力的失望,人工智能于20世纪70年代中期逐渐淡出公众视野。

      20世纪80年代早期,日本发起了一个项目,旨在开发一种在人工智能领域处于领先的计算机结构。西方开始担心会在这个领域输给日本,这种焦虑促使他们决定重新开始对人工智能的投资。20世纪80年代已经出现了人工智能技术产品的商业供应商,其中一些已经上市,例如Intellicorp、Symbolics、和Teknowledge。

      20世纪80年代末,几乎一半的“财富500强”都在开发或使用“专家系统”,这是一项通过对人类专家的问题求解能力进行建模,来模拟人类专家解决该领域问题的人工智能技术。

      对于专家系统潜力的过高希望彻底掩盖了它本身的局限性,包括明显缺乏常识、难以捕捉专家的隐性知识、建造和维护大型系统这项工作的复杂性和成本,当这一点被越来越多的人所认识到时,人工智能研究再一次脱离轨道。

      20世纪90年代在人工智能领域的技术成果始终处于低潮,成果寥寥。反而是神经网络、遗传算法等科技得到了新的关注,这一方面是因为这些技术避免了专家系统的若干限制,另一方面是因为新算法让它们运行起来更加高效。

      神经网络的设计受到了大脑结构的启发。遗传算法的机制是,首先迭代生成备选解决方案,然后剔除最差方案,最后通过引入随机变量来产生新的解决方案,从而“进化”出解决问题的最佳方案。

      3、人工智能进步的催化剂

      截止到21世纪前10年的后期,出现了一系列复兴人工智能研究进程的要素,尤其是一些核心技术。下面将对这些重要的因素和技术进行详细说明。

      1)摩尔定律

      在价格、体积不变的条件下,计算机的计算能力可以不断增长。这就是被人们所熟知的摩尔定律,它以Intel共同创办人GordonMoore命名。GordonMoore从各种形式的计算中获利,包括人工智能研究人员使用的计算类型。数年以前,先进的系统设计只能在理论上成立但无法实现,因为它所需要的计算机资源过于昂贵或者计算机无法胜任。今天,我们已经拥有了实现这些设计所需要的计算资源。举个梦幻般的例子,现在最新一代微处理器的性能是1971年第一代单片机的400万倍。

      2)大数据

      得益于互联网、社交媒体、移动设备和廉价的传感器,这个世界产生的数据量急剧增加。随着对这些数据的价值的不断认识,用来管理和分析数据的新技术也得到了发展。大数据是人工智能发展的助推剂,这是因为有些人工智能技术使用统计模型来进行数据的概率推算,比如图像、文本或者语音,通过把这些模型暴露在数据的海洋中,使它们得到不断优化,或者称之为“训练”——现在这样的条件随处可得。

      3)互联网和云计算

      和大数据现象紧密相关,互联网和云计算可以被认为是人工智能基石有两个原因,第一,它们可以让所有联网的计算机设备都能获得海量数据。这些数据是人们推进人工智能研发所需要的,因此它可以促进人工智能的发展。第二,它们为人们提供了一种可行的合作方式——有时显式有时隐式——来帮助人工智能系统进行训练。比如,有些研究人员使用类似MechanicalTurk这样基于云计算的众包服务来雇佣成千上万的人来描绘数字图像。这就使得图像识别算法可以从这些描绘中进行学习。谷歌翻译通过分析用户的反馈以及使用者的无偿贡献来提高它自动翻译的质量。

      4)新算法

      算法是解决一个设计程序或完成任务的路径方法。最近几年,新算法的发展极大提高了机器学习的能力,这些算法本身很重要,同时也是其他技术的推动者,比如计算机视觉(这项科技将会在后文描述)。机器学习算法目前被开源使用,这种情形将促成更大进步,因为在开源环境下开发人员可以补足和增强彼此的工作。

      4、认知技术

      我们将区分人工智能领域和由此延伸的各项技术。大众媒体将人工智能刻画为跟人一样聪明的或比人更聪明的计算机的来临。而各项技术则在以往只有人能做到的特定任务上面表现得越来越好。我们称这些技术为认知技术(下图),认知技术是人工智能领域的产物,它们能完成以往只有人能够完成的任务。而它们正是商业和公共部门的领导者应该关注的。下面我们将介绍几个最重要的认知技术,它们正被广泛采纳并进展迅速,也获得大量投资。

      一文了解人工智能的基本常识

      1)计算机视觉

      是指计算机从图像中识别出物体、场景和活动的能力。计算机视觉技术运用由图像处理操作及其他技术所组成的序列来将图像分析任务分解为便于管理的小块任务。比如,一些技术能够从图像中检测到物体的边缘及纹理。分类技术可被用作确定识别到的特征是否能够代表系统已知的一类物体。

      计算机视觉有着广泛应用。其中包括,医疗成像分析被用来提高疾病的预测、诊断和治疗;人脸识别被Facebook用来自动识别照片里的人物;在安防及监控领域被用来指认嫌疑人;在购物方面,消费者现在可以用智能手机拍摄下产品以获得更多购买选择。

      机器视觉作为一个相关学科,泛指在工业自动化领域的视觉应用。在这些应用里,计算机在高度受限的工厂环境里识别诸如生产零件一类的物体,因此相对于寻求在非受限环境里操作的计算机视觉来说目标更为简单。计算机视觉是一个正在进行中的研究,而机器视觉则是“已经解决的问题”,是系统工程方面的课题而非研究层面的课题。因为应用范围的持续扩大,计算机视觉领域的初创公司自2011年起已经吸引了数亿美元的风投资本。

      2)机器学习

      指的是计算机系统无需遵照显式的程序指令而只是依靠暴露在数据中来提升自身性能的能力。其核心在于,机器学习是从数据中自动发现模式,模式一旦被发现便可用于做预测。比如,给予机器学习系统一个关于交易时间、商家、地点、价格及交易是否正当等信用卡交易信息的数据库,系统就会学习到可用来预测信用卡欺诈的模式。处理的交易数据越多,预测就会越好。

      机器学习的应用范围非常广泛,针对那些产生庞大数据的活动,它几乎拥有改进一切性能的潜力。除了欺诈甄别之外,这些活动还包括销售预测、库存管理、石油和天然气勘探、以及公共卫生。机器学习技术在其他的认知技术领域也扮演着重要角色,比如计算机视觉,它能在海量图像中通过不断训练和改进视觉模型来提高其识别对象的能力。现如今,机器学习已经成为认知技术中最炙手可热的研究领域之一,在2011-2014年中这段时间内就已吸引了近十亿美元的风险投资。谷歌也在2014年斥资4亿美金收购Deepmind这家研究机器学习技术的公司。

      3)自然语言处理

      是指计算机拥有的人类般文本处理的能力,比如,从文本中提取意义,甚至从那些可读的、风格自然、语法正确的文本中自主解读出含义。一个自然语言处理系统并不了解人类处理文本的方式,但是它却可以用非常复杂与成熟的手段巧妙处理文本,例如自动识别一份文档中所有被提及的人与地点;识别文档的核心议题;或者在一堆仅人类可读的合同中,将各种条款与条件提取出来并制作成表。以上这些任务通过传统的文本处理软件根本不可能完成,后者仅能针对简单的文本匹配与模式进行操作。请思考一个老生常谈的例子,它可以体现自然语言处理面临的一个挑战。在句子“光阴似箭(Timeflieslikeanarrow)”中每一个单词的意义看起来都很清晰,直到系统遇到这样的句子“果蝇喜欢香蕉(Fruitflieslikeabanana)”,用“水果(fruit)”替代了“时间(time)”,并用“香蕉(banana)”替代“箭(arrow)”,就改变了“飞逝/飞着的(like)”与“像/喜欢(like)”这两个单词的意思。

      自然语言处理,像计算机视觉技术一样,将各种有助于实现目标的多种技术进行了融合。建立语言模型来预测语言表达的概率分布,举例来说,就是某一串给定字符或单词表达某一特定语义的最大可能性。选定的特征可以和文中的某些元素结合来识别一段文字,通过识别这些元素可以把某类文字同其他文字区别开来,比如垃圾邮件同正常邮件。以机器学习为驱动的分类方法将成为筛选的标准,用来决定一封邮件是否属于垃圾邮件。

      因为语境对于理解“timeflies(时光飞逝)”和“fruitflies(果蝇)”的区别是如此重要,所以自然语言处理技术的实际应用领域相对较窄,这些领域包括分析顾客对某项特定产品和服务的反馈、自动发现民事诉讼或政府调查中的某些含义、以及自动书写诸如企业营收和体育运动的公式化范文等。

      4)机器人技术

      将机器视觉、自动规划等认知技术整合至极小却高性能的传感器、致动器、以及设计巧妙的硬件中,这就催生了新一代的机器人,它有能力与人类一起工作,能在各种未知环境中灵活处理不同的任务。例如无人机,还有可以在车间为人类分担工作的“cobots”,还包括那些从玩具到家务助手的消费类产品。

      5)语音识别技术

      主要是关注自动且准确的转录人类的语音。该技术必须面对一些与自然语言处理类似的问题,在不同口音的处理、背景噪音、区分同音异形异义词(“buy”和“by”听起来是一样的)方面存在一些困难,同时还需要具有跟上正常语速的工作速度。语音识别系统使用一些与自然语言处理系统相同的技术,再辅以其他技术,比如描述声音和其出现在特定序列和语言中概率的声学模型等。语音识别的主要应用包括医疗听写、语音书写、电脑系统声控、电话客服等。比如Domino’sPizza最近推出了一个允许用户通过语音下单的移动APP。

      上面提到的认知技术进步飞快并吸引了大量投资,其他相对成熟的认知技术仍然是企业软件系统的重要组成部分。这些日渐成熟的认知技术包括决策最优化——自动完成对复杂决策或者在资源有限的前提下做出最佳权衡;规划和调度——使设计一系列行动流程来满足目标和观察约束;规则导向系统——为专家系统提供基础的技术,使用知识和规则的数据库来自动完成从信息中进行推论的处理过程。

      三、认知技术的广泛使用

      各种经济部门已经把认知技术运用到了多种商业职能中。

      1)银行业

      自动欺诈探测系统使用机器学习可以识别出预示着欺诈性付款行动的行为模式;借助语音识别技术能够自动完成电话客服;声音识别可以核实来电者的身份

      2)医疗健康领域

      美国有一半的医院采用自动语音识别来帮助医生自动完成医嘱抄录,而且使用率还在迅速增长;机器视觉系统自动完成乳房X光检查和其他医学影响的分析;IBM的Watson借助自然语言处理技术来阅读和理解大量医学文献,通过假设自动生成来完成自动诊断,借助机器学习可以提高准确率。

      3)生命科学领域

      机器学习系统被用来预测生物数据和化合物活动的因果关系,从而帮助制药公司识别出最有前景的药物。

      4)媒体与娱乐行业

      许多公司正在使用数据分析和自然语言生成技术,自动起草基于数据的的公文材料,比如公司营收状况、体育赛事综述等。

      5)石油与天然气

      厂商将机器学习广泛运用在矿藏资源定位、钻井设备故障诊断等众多方面。

      6)公共部门

      出于监控、合规和欺诈检测等特定目的,公共部门也已经开始使用认知技术。比如,乔治亚州正在通过众包的形式来进行财政披露和竞选捐助表格的数字化,在这个过程中他们就采用了一套自动手写识别系统。

      7)零售商

      零售商利用机器学习来自动发现有吸引力的交叉销售定价和有效的促销活动。

      8)科技公司

      它们正利用机器视觉、机器学习等认知技术来改进产品或者开发全新产品,比如Roomba机器人吸尘器,Nest智能恒温器。

      上述例子表明,认识技术的潜在商业收益远大于自动化带来的成本节约,这主要体现在:

      更快的行动与决策(比如,自动欺诈检测,计划和调度)

      更好的结果(比如,医学诊断、石油探测、需求预测)

      更高的效率(亦即,更好的利用高技能人才和昂贵设备)

      更低的成本(比如,自动电话客服减少了劳动成本)

      更大的规模(亦即,开展人力无法执行的大规模任务)

      产品与服务创新(从增加新功能到创造新产品)

      四、认知技术影响力与日俱增的原因

      在未来五年,认知技术在商业领域的影响力将显著增长。原因有二,首先,近些年来,技术性能有了实质进步,并处于持续研发状态。其次,数亿美元已经投入到技术商业化中,许多公司正致力于为各商业部门的广泛需求提供定制化开发和打包方案,以使这些技术更易购买和配置。虽然并非所有的技术提供商都能幸存,但他们的努力将共同推动市场前进。技术性能的改善和商业化正在共同扩大着认知技术的应用范围,这种情况在未来几年都将持续下去。

      1、技术提升扩展了应用范围

      认知技术大踏步前进的例子非常多。比如Google的语音识别系统,一份报告显示,Google用了不到两年时间就将语音识别的精准度从2012年的84%提升到如今的98%。计算机视觉技术也取得了突飞猛进的发展。如果以计算机视觉技术研究者设置的技术标准来看,自2010年到2014年,图像分类识别的精准度提高了4倍。Facebook的DeepFace技术在同行评审报告(译者注:同行评审,是一种学术成果审查程序,即一位作者的学术著作或计划被同一领域的其他专家学者评审。)被高度肯定,其脸部识别率的准确度达到97%。2011年,IBM为了让Watson在智力节目《危险边缘》中获胜,曾对Watson进行优化,提升两倍的答案精确度。现在,IBM又宣称如今的Watson比当时“智能”了2400%。

      随着技术的改进和提高,技术应用的范围也在不断扩大。比如,在语音识别方面,机器曾经需要大量训练才能在有限词库里勉强识别出来,由语音识别技术延伸出的医疗应用程序也很难得到真正普及。而现在,每个月互联网上都会有数以百万次的语音搜索。另外,计算机视觉技术过去被狭隘的理解为部署在工业自动化方面,但现在,我们早已看到这一技术被广泛运用到监控、安全以及各种各样的消费应用里。IBM如今正拓展Watson在竞赛游戏之外的应用,从医疗诊断到医学研究再到财务建议以及自动化的呼叫中心。

      并不是所有的认知技术都有如此令人瞩目的发展。机器翻译有了一定发展,但幅度很小。一份调查发现,从2009年到2012年,将阿拉伯语翻译到英语的精确度仅仅提升了13%。尽管这些技术还不完美,但他们已经可以影响到专业机构的工作方式。很多专业翻译人员依靠机器翻译提升翻译精准度,并把一些常规翻译交给机器,自己专注在更具挑战性的任务上。

      很多公司正努力将认知技术做进一步研发,并逐步将其融入到更多产品尤其是企业级产品里,以方便企业用户购买和部署。

      2、对商业化进行的大规模投资

      从2011年到2014年5月,超过20亿美元的风险投资流入到基于认知技术研究的产品和服务里。与此同时,超过100家的相关公司被兼并或收购,其中一些被互联网巨头如亚马逊、苹果、Google、IBM或Facebook收购。所有这些投资都在培育一个多样化的公司图谱,这些公司正在加速认知技术的商业化进程。

      在这里,我们并不会提供关于某公司在认知技术商业化方面的细节,我们希望说明,认知技术产品拥有丰富的多样性。下面就是致力于认知技术商业化的公司名单,这个名单既不是完整无缺也非固定不变,而是一个动态的,用于推动和培育市场的指标。

      数据管理和分析工具主要使用自然语言处理、机器学习等认知技术。这些工具利用自然语言处理来从非结构化的文本中提取出意思,或者借助机器学习帮助分析人员从大规模数据集中发现深层含义。这个领域的公司包括ContextRelevant(译者注:美国的一家大数据挖掘和分析公司)、PalantirTechnologies(译者注:这家公司称要将数据、技术、人类和环境连接起来)、以及Skytree(译者注:一家借助机器学习进行市场分析并提供决策依据的大数据公司)。

      认知技术的各个部分可以被整合到各种应用和商业决策中,分别起到增加功能和提高效率的作用。例如,Wise.io公司提供一套模块来促进商业决策,比如客户支持、营销和销售,这里面会用到机器学习模型来预测哪些客户比较容易流失,以及哪些潜在客户更加容易转化。Nuance公司通过提供一种语音识别技术来帮助开发者进行需要语音控制的移动APP的开发。

      单点解决方案。众多认知技术成熟的标志是它们正在被不断的嵌入到特定商业问题的解决方案中。这些解决方案的设计初衷是要比公司原有的解决方案更加有效,并且几乎不需要认知技术方面的专业人员。普及度比较高的应用领域包括广告、营销和销售自动化、预测以及规划。

      技术平台。平台的目的是为建立高度定制化的商业解决方案提供基础。它们会提供一系列功能,包括数据管理、机器学习工具、自然语言处理、知识表示和推理、以及将这些定制化软件整合在一起的统一框架。

      3、新兴应用

      如果这些技术的表现和商业化趋势继续发展,我们就能够大胆预测认知技术的应用将更加广泛,被接受程度也会大大增加。数亿美金的投资涌入这些基于机器学习、自然语言处理、机器视觉或者机器人技术的公司,这预示着许多新应用即将投入市场。在商业机构依托认知技术构建自动化业务流程、增强产品和服务方面,我们也看到了巨大空间。

      五、认知技术在企业的应用路径

      认知技术将在接下来几年里变得流行。在未来2-5年,技术层面的进步和商业化将扩大认知技术对企业的影响。越来越多的企业会找到一些创新性应用来显著改善他们自身的表现或者创造新功能,以增强他们的竞争地位。企业的IT部门现在可以行动起来,增加对这些技术的了解,评估出适用这些技术的机会,将这些技术可能带来的价值向领导进行汇报。高级商务和公共部门的领导应该思考认知技术将对他们的部门以及整个公司产生何种影响,这些技术将如何激发创新并提升经营表现。


    1.人工智能大发展时代,如何利用大数据改变现有商业模式?

    http://www.duozhishidai.com/article-17554-1.html

    2.人工智能来势凶猛,人工智能最热门的技术趋势是什么

    http://www.duozhishidai.com/article-923-1.html

    3.今年人工智能领域,十项中外人工智能领域富有突破性的技术

    http://www.duozhishidai.com/article-17560-1.html

     

    展开全文
  • 软件测试面试题汇总

    万次阅读 多人点赞 2018-09-27 12:31:09
    转载自: ... 软件测试面试题汇总 测试技术面试题 ...........................................................................................................
    转载自: https://blog.csdn.net/koudaidai/article/details/7394126

    软件测试面试题汇总

    测试技术面试题

    ........................................................................................................................................................................ 5

    1、什么是兼容性测试?兼容性测试侧重哪些方面?.................................................................................... 5

    2、我现在有个程序,发现在Windows上运行得很慢,怎么判别是程序存在问题还是软硬件系统存在问题?       5

    3、测试的策略有哪些?................................................................................................................................. 5

    4、正交表测试用例设计方法的特点是什么?............................................................................................... 5

    5、描述使用bugzilla缺陷管理工具对软件缺陷(BUG)跟踪的管理的流程?.......................................... 5

    6、你觉得bugzilla在使用的过程中,有什么问题?................................................................................. 5

    7、描述测试用例设计的完整过程?.............................................................................................................. 6

    8、单元测试的策略有哪些?......................................................................................................................... 6

    9、LoadRunner分哪三部分?....................................................................................................................... 6

    10、LoadRunner进行测试的流程?................................................................................................................ 6

    什么是并发?在lordrunner中,如何进行并发的测试?集合点失败了会怎么样?.................................. 6

    12、使用QTP做功能测试,录制脚本的时候,要验证多个用户的登录情况/查询情况,如何操作?......... 6

    13、QTP中的Action有什么作用?有几种?................................................................................................. 6

    14、TestDirector有些什么功能,如何对软件测试过程进行管理?............................................................... 7

    15、你所熟悉的软件测试类型都有哪些?请试着分别比较这些不同的测试类型的区别与联系(如功能测试、性能测试……)?........................................................................................................................................... 7

    16、条软件缺陷(或者叫Bug)记录都包含了哪些内容?如何提交高质量的软件缺陷(Bug)记录?...... 8

    17、Beta测试与Alpha测试有什么区别?...................................................................................................... 8

    18、软件的评审一般由哪些人参加?其目的是什么?.................................................................................. 8

    19、测试活动中,如果发现需求文档不完善或者不准确,怎么处理?........................................................ 8

    20、阶段评审与项目评审有什么区别?......................................................................................................... 8

    21、阐述工作版本的定义?............................................................................................................................ 8

    22、什么是桩模块?什么是驱动模块?......................................................................................................... 8

    23、什么是扇入?什么是扇出?.................................................................................................................... 8

    24、你认为做好测试计划工作的关键是什么?............................................................................................. 8

    25、你认为做好测试用例工作的关键是什么?............................................................................................. 9

    26、简述一下缺陷的生命周期?.................................................................................................................... 9

    27、软件的安全性应从哪几个方面去测试?................................................................................................. 9

    28、软件配置管理工作开展的情况和认识?................................................................................................. 9

    29、你觉得软件测试通过的标准应该是什么样的?.................................................................................... 10

    30、引入测试管理的含义?......................................................................................................................... 10

    31、一套完整的测试应该由哪些阶段组成?............................................................................................... 10

    32、单元测试的主要内容?......................................................................................................................... 10

    33、集成测试也叫组装测试或者联合测试,请简述集成测试的主要内容?.............................................. 10

    34、简述集成测试与系统测试关系?.......................................................................................................... 10

    35、软件测试的文档测试应当贯穿于软件生命周期的全过程,其中用户文档是文档测试的重点。那么软件系统的用户文档包括哪些?.............................................................................................................................. 10

    36、软件系统中除用户文档之外,文档测试还应该关注哪些文档?.......................................................... 10

    37、简述软件系统中用户文档的测试要点?............................................................................................... 11

    38、单元测试主要内容是什么?.................................................................................................................. 11

    39、如何理解强度测试?............................................................................................................................. 13

    40、如何理解压力、负载、性能测试测试?............................................................................................... 13

    41、什么是系统瓶颈?................................................................................................................................. 13

    42、文档测试主要包含什么内容?.............................................................................................................. 13

    43、功能测试用例需要详细到什么程度才是合格的?................................................................................ 14

    44、配置和兼容性测试的区别是什么?....................................................................................................... 14

    45、软件文档测试主要包含什么?.............................................................................................................. 15

    46、没有产品说明书和需求文档地情况下能够进行黑盒测试吗?............................................................. 15

    47、测试中的“杀虫剂怪事”是指什么?................................................................................................... 15

    48、在配置测试中,如何判断发现的缺陷是普通问题还是特定的配置问题?........................................... 15

    49、为什么尽量不要让时间有富裕的员工去做一些测试?......................................................................... 16

    50、完全测试程序是可能的吗?.................................................................................................................. 16

    51、软件测试的风险主要体现在哪里?....................................................................................................... 16

    52、发现的缺陷越多,说明软件缺陷越多吗?........................................................................................... 16

    53、所有的软件缺陷都能修复吗?所有的软件缺陷都要修复吗?............................................................. 17

    54、软件测试人员就是QA吗?.................................................................................................................... 17

    55、如何减少测试人员跳槽带来的损失?................................................................................................... 17

    56、测试产品与测试项目的区别是什么?................................................................................................... 17

    57、和用户共同测试(UAT测试)的注意点有哪些?................................................................................. 18

    58、如何编写提交给用户的测试报告?....................................................................................................... 18

    59、测试工具在测试工作中是什么地位?................................................................................................... 18

    60、什么是软件测试,软件测试的目的?................................................................................................... 18

    61、简述负载测试与压力测试的区别。....................................................................................................... 19

    62、写出bug报告流转的步骤,每步的责任人及主要完成的工作。.......................................................... 19

    63、写出bug报告当中一些必备的内容。................................................................................................... 19

    64、开发人员老是犯一些低级错误怎么解决?........................................................................................... 20

    65、画出软件测试的V模型图。.................................................................................................................. 20

    66、为什么要在一个团队中开展软件测试工作?........................................................................................ 20

    67、您在以往的测试工作中都曾经具体从事过哪些工作?其中最擅长哪部分工作?............................... 20

    68、您所熟悉的软件测试类型都有哪些?请试着分别比较这些不同的测试类型的区别与联系(如功能测试、性能测试……)............................................................................................................................................. 20

    69、您认为做好测试用例设计工作的关键是什么?.................................................................................... 21

    70、请试着比较一下黑盒测试、白盒测试、单元测试、集成测试、系统测试、验收测试的区别与联系。21

    71、测试计划工作的目的是什么?测试计划工作的内容都包括什么?其中哪些是最重要的?................. 22

    72、您所熟悉的测试用例设计方法都有哪些?请分别以具体的例子来说明这些方法在测试用例设计工作中的应用。................................................................................................................................................................ 22

    73、请以您以往的实际工作为例,详细的描述一次测试用例设计的完整的过程。.................................... 23

    74、您以往是否曾经从事过性能测试工作?如果有,请尽可能的详细描述您以往的性能测试工作的完整过程。................................................................................................................................................................ 23

    75、你对测试最大的兴趣在哪里?为什么?................................................................................................ 23

    76、你以前工作时的测试流程是什么?....................................................................................................... 24

    77、当开发人员说不是BUG时,你如何应付?.......................................................................................... 24

    78、软件的构造号与版本号之间的区别?BVT(BuildVerificationTest)............................................... 24

    79、您以往的工作中,一条软件缺陷(或者叫Bug)记录都包含了哪些内容?如何提交高质量的软件缺陷(Bug)记录?.................................................................................................................................................... 25

    80、您以往所从事的软件测试工作中,是否使用了一些工具来进行软件缺陷(Bug)的管理?如果有,请结合该工具描述软件缺陷(Bug)跟踪管理的流程。.......................................................................................... 25

    81、您认为性能测试工作的目的是什么?做好性能测试工作的关键是什么?........................................... 25

    82、单元测试、集成测试、系统测试的侧重点是什么?............................................................................. 25

    83、集成测试通常都有那些策略?............................................................................................................... 25

    84、一个缺陷测试报告的组成...................................................................................................................... 25

    85、基于WEB信息管理系统测试时应考虑的因素有哪些?......................................................................... 25

    86、软件测试项目从什么时候开始,?为什么?........................................................................................ 26

    87、需求测试注意事项有哪些?.................................................................................................................. 26

    88、简述一下缺陷的生命周期...................................................................................................................... 26

    89、你在你所在的公司是怎么开展测试工作的?是如何组织的?............................................................. 26

    90、你认为理想的测试流程是什么样子?................................................................................................... 26

    91、您在从事性能测试工作时,是否使用过一些测试工具?如果有,请试述该工具的工作原理,并以一个具体的工作中的例子描述该工具是如何在实际工作中应用的。...................................................................... 26

    92、软件测试活动的生命周期是什么?....................................................................................................... 26

    93、请画出软件测试活动的流程图?.......................................................................................................... 26

    94、针对缺陷采取怎样管理措施?.............................................................................................................. 26

    95、什么是测试评估?测试评估的范围是什么?........................................................................................ 26

    96、如果能够执行完美的黑盒测试,还需要进行白盒测试吗?为什么?.................................................. 26

    97、测试结束的标准是什么?...................................................................................................................... 26

    98、软件验收测试除了alpha ,beta测试以外,还有哪一种?.................................................................... 26

    99、做测试多久了?以前做过哪些项目?你们以前测试的流程是怎样的?用过哪些测试工具?............. 27

    100、请就如何在开发中进行软件质量控制说说你的看法.......................................................................... 27

    101、一套完整的测试应该由哪些阶段组成?分别阐述一下各个阶段。.................................................... 27

    102、软件测试的类型有那些?分别比较这些不同的测试类型的区别与联系。......................................... 27

    103、测试用例通常包括那些内容?着重阐述编制测试用例的具体做法.................................................... 27

    104、在分别测试winform的C/S结构与测试WEB结构的软件是,应该采取什么样的方法分别测试?他们存在什么样的区别与联系?.................................................................................................................................. 27

    105、在测试winform的C/S结构软件时,发现这个软件的运行速度很慢,您会认为是什么原因?您会采取哪些方法去检查这个原因?.............................................................................................................................. 27

    106、描述使用bugzilla缺陷管理工具对软件缺陷(BUG)跟踪的管理的流程........................................ 27

    107、你都用什么测试方法 针对不同的产品或者系统或者模块,有不同的测试方法。总体而言有白盒测试和黑盒测试。.................................................................................................................................................... 27

    108、怎么编写案例 案例的编写与测试阶段的定义有很大的关系。系统测试和unit测试的案例可能不同。总体而言测试案例根据系统的需求而定。....................................................................................................... 27

    109、怎么才能够全面的测试到每一个点 测试的全面性主要需要在设计测试计划的时候考虑,从测试策略,产品需求等等多个角度考虑从而定义全部的测试点。................................................................................. 27

    110、谈谈软件测试技术,以及如何提高..................................................................................................... 27

    111、谈谈软件测试职业发展,以及个人的打算......................................................................................... 27

    112、谈谈软件测试在企业的地位,也可以结合软件生命周期来谈........................................................... 27

    113、一般公司里实际的软件测试流程是什么样的?你们公司又是怎样的?............................................ 27

    114、软件工程师要具有那些素质?............................................................................................................ 27

    115、你会哪些测试工具?怎么操作?........................................................................................................ 27

    116、你能不能说下你的3到5年的职业计划(规划)............................................................................... 27

    117、你觉得你来应聘有那些优势?............................................................................................................ 27

    其他问题:(有可能清晰的思路比确切的答案更重要)............................................................................. 27

     

    开发及环境搭建类面试题

    ....................................................................................................................................................................... 28

    1、描述软件产生内存泄露的原因以及检查方式。(可以结合一种开发语言进行描述)............................ 28

    2、简述什么是值传递,什么是地址传递,两者区别是什么?................................................................... 28

    3、结构化程序设计和面向对象程序设计各自的特点及优缺点是什么?.................................................... 28

    4、简述什么是存储过程和触发器?............................................................................................................. 28

    5、使用C语言编写一个函数,用于交换两个变量的值(地址传递)。...................................................... 29

    6、请简述DNS、活动目录、域的概念。..................................................................................................... 29

    7、描述TCP/IP协议的层次结构,以及每一层中重要协议。...................................................................... 29

    8、简述子网掩码的用途。............................................................................................................................ 29

    9、说出4种以上常用的操作系统及其主要的应用范围(微软的操作系统除外)。.................................... 29

    10、在Linux系统中,一个文件的访问权限是755,其含义是什么?......................................................... 29

    11、Windows操作系统中PATH环境变量的作用是什么?.......................................................................... 30

    12、Ghost的主要用途和常用方法?........................................................................................................... 30

    13、在RedHat中,从root用户切到userl用户,一般用什么命令?..................................................... 30

    14、Linux中,一般怎么隐藏文件?........................................................................................................... 30

    15、如何将自己的本地磁盘(D)做成FTP供远端主机使用?................................................................... 30

    16、对RUP.CMM,CMMI,XP,PSP.TSP的认识?............................................................................................. 30

    17、DNS是什么,它是如何工作的?............................................................................................................... 31

    18、防火墙如何保证安全的?主要有哪些?............................................................................................... 31

    19、目前流行的操作的系统有哪些?请举例说明安装操作系统的注意事项?........................................... 33

    20、简述一下c/s模式或者b/s模式?....................................................................................................... 33

    21、TCP/UDP有哪些区别?.......................................................................................................................... 34

    22、ISO模型?HUB、tch、Router是ISO的第几层设备?....................................................................... 34

    23、内存有哪几种存储组织结构.请分别加以说明?.................................................................................. 34

     

    人力资源面试题

    ....................................................................................................................................................................... 34

    1、你的测试职业发展是什么?你自认为做测试的优势在哪里?................................................................ 34

    2、你为什么想离开目前的职务?................................................................................................................ 34

    3、你对我们公司了解有多少?.................................................................................................................... 34

    4、你找工作时,最重要的考虑因素为何?................................................................................................. 34

    5、为什么我们应该录取你?........................................................................................................................ 34

    6、请谈谈你个人的最大特色。.................................................................................................................... 34

    7、一个测试工程师应具备那些素质和技能?.............................................................................................. 35

    8、您认为在测试人员同开发人员的沟通过程中,如何提高沟通的效率和改善沟通的效果?维持测试人员同开发团队中其他成员良好的人际关系的关键是什么?..................................................................................... 35

    9、在您以往的测试工作中,最让您感到不满意或者不堪回首的事情是什么?您是如何来对待这些事情的?35

    10、在即将完成这次笔试前,您是否愿意谈一些自己在以往的学习和工作中获得的工作经验和心得体会?(可以包括软件测试、过程改进、软件开发或者与此无关的其他方面)....................................................... 35

    11、为什么选择测试这行?......................................................................................................................... 35

    12、你的工作通常能在时限内完成吗.(我想问一下就是她问这个问题的动机是什么).......................... 35

    13、通常你对于别人批评你会有什么样的反应........................................................................................... 35

    14、如果明知这样做不对,你还会依主管的指过去做吗?......................................................................... 35

    15、如果你接到一个客户抱怨的电话,你确知无法解决他的问题,你会怎么处理?............................... 35

    16、请就软件测试人员应该具备什么样的基本素质说说你的看法。.......................................................... 36

    17、你在五年内的个人目标和职业目标分别是什么?................................................................................ 36

    18、你怎样做出自己的职业选择?.............................................................................................................. 36

     

     

     

     

     

     

     

     

    测试技术面试题

    1、什么是兼容性测试?兼容性测试侧重哪些方面?

    参考答案:

    兼容测试主要是检查软件在不同的硬件平台、软件平台上是否可以正常的运行,即是通常说的软件的可移植性。

    兼容的类型,如果细分的话,有平台的兼容,网络兼容,数据库兼容,以及数据格式的兼容。

    兼容测试的重点是,对兼容环境的分析。通常,是在运行软件的环境不是很确定的情况下,才需要做兼容。根据软件运行的需要,或者根据需求文档,一般都能够得出用户会在什么环境下使用该软件,把这些环境整理成表单,就得出做兼容测试的兼容环境了。

    兼容和配置测试的区别在于,做配置测试通常不是Clean OS下做测试,而兼容测试多是在Clean OS的环境下做的。

    2、我现在有个程序,发现在Windows上运行得很慢,怎么判别是程序存在问题还是软硬件系统存在问题?

    参考答案:

    1、检查系统是否有中毒的特征;

    2、检查软件/硬件的配置是否符合软件的推荐标准;

    3、确认当前的系统是否是独立,即没有对外提供什么消耗CPU资源的服务;

    4、如果是C/S或者B/S结构的软件,需要检查是不是因为与服务器的连接有问题,或者访问有问题造成的;

    5、在系统没有任何负载的情况下,查看性能监视器,确认应用程序对CPU/内存的访问情况。

    3、测试的策略有哪些?

    参考答案:

    黑盒/白盒,静态/动态,手工/自动,冒烟测试,回归测试,公测(Beta测试的策略)

    4、正交表测试用例设计方法的特点是什么?

    参考答案:

    用最少的实验覆盖最多的操作,测试用例设计很少,效率高,但是很复杂;

    对于基本的验证功能,以及二次集成引起的缺陷,一般都能找出来;但是更深的缺陷,更复杂的缺陷,还是无能为力的;

    具体的环境下,正交表一般都很难做的。大多数,只在系统测试的时候使用此方法。

    5、描述使用bugzilla缺陷管理工具对软件缺陷(BUG)跟踪的管理的流程?

    参考答案:

    就是Bugzilla的状态转换图。

    6、你觉得bugzilla在使用的过程中,有什么问题?

    参考答案:

    界面不稳定;

    根据需要配置它的不同的部分,过程很烦琐。

    流程控制上,安全性不好界定,很容易对他人的Bug进行误操作;

    没有综合的评分指标,不好确认修复的优先级别。

    7、描述测试用例设计的完整过程?

    参考答案:

    需求分析 + 需求变更的维护工作;

    根据需求 得出测试需求;

    设计测试方案,评审测试方案;

    方案评审通过后,设计测试用例,再对测试用例进行评审;

    8、单元测试的策略有哪些?

    参考答案:

    逻辑覆盖、循环覆盖、同行评审、桌前检查、代码走查、代码评审、景泰数据流分析

    9、LoadRunner分哪三部分?

    参考答案:

    用户动作设计;

    场景设计;

    测试数据分析;

    10、LoadRunner进行测试的流程?

    参考答案:

    1、 测试测试

    2、 创建虚拟用户脚本

    3、 创建运行场景

    4、 运行测试脚本

    5、 监视场景

    6、 分析测试的结果

    以上,最好是结合一个案例,根据以上流程来介绍。

    什么是并发?在lordrunner中,如何进行并发的测试?集合点失败了会怎么样?

    参考答案:

    在同一时间点,支持多个不同的操作。

    LoadRunner中提供IP伪装,集合点,配合虚拟用户的设计,以及在多台电脑上设置,可以比较好的模拟真实的并发。

    集合点,即是多个用户在某个时刻,某个特定的环境下同时进行虚拟用户的操作的。集合点失败,则集合点的才操作就会取消,测试就不能进行。

    12、使用QTP做功能测试,录制脚本的时候,要验证多个用户的登录情况/查询情况,如何操作?

    参考答案:

    分析用户登录的基本情况,得出一组数据,通过性测试/失败性测试的都有(根据TC来设计这些数据),然后录制登录的脚本,将关键的数据参数化,修改脚本,对代码进行加强,调试脚本。

    13、QTP中的Action有什么作用?有几种?

    参考答案:

    Action的作用

    用Action可以对步骤集进行分组

    步骤重组,然后被整体调用

    拥有自己的sheet

    组合有相同需求的步骤,整体操作

    具有独立的对象仓库

    Action的种类

    可复用Action

    不可复用Action

    外部Action

    14、TestDirector有些什么功能,如何对软件测试过程进行管理?

    参考答案:

     需求管理

    定义测试范围

    定义需求树

    描述需求树的功能点

    测试计划

    定义测试目标和测试策略。

    分解应用程序,建立测试计划树。

    确定每个功能点的测试方法。

    将每个功能点连接到需求上,使测试计划覆盖全部的测试需求。

    描述手工测试的测试步骤

    指明需要进行自动测试的功能点

    测试执行

    定义测试集合。

    为每个测试人员制定测试任务和测试日程安排。

    运行自动测试。

    缺陷跟踪

    记录缺陷

    查看新增缺陷,并确定哪些是需要修正的

    相关技术人员修改缺陷

    回归测试

    分析缺陷统计图表,分析应用程序的开发质量。

    15、你所熟悉的软件测试类型都有哪些?请试着分别比较这些不同的测试类型的区别与联系(如功能测试、性能测试……)?

    参考答案:Compatibility Testing(兼容性测试),也称“Configuration testing(配置测试)”,测试软件是否和系统的其它与之交互的元素之间兼容,如:浏览器、操作系统、硬件等。验证测试对象在不同的软件和硬件配置中的运行情况。

     

    Functional testing (功能测试),也称为behavioral testing(行为测试),根据产品特征、操作描述和用户方案,测试一个产品的特性和可操作行为以确定它们满足设计需求。本地化软件的功能测试,用于验证应用程序或网站对目标用户能正确工作。使用适当的平台、浏览器和测试脚本,以保证目标用户的体验将足够好,就像应用程序是专门为该市场开发的一样。

    Performance testing(性能测试),评价一个产品或组件与性能需求是否符合的测试。包括负载测试、强度测试、数据库容量测试、基准测试等类型。

    16、软件缺陷(或者叫Bug)记录都包含了哪些内容?如何提交高质量的软件缺陷(Bug)记录?

    参考答案:5C标准

    17、Beta测试与Alpha测试有什么区别?

    参考答案:Beta testing(β测试),测试是软件的多个用户在一个或多个用户的实际使用环境下进行的测试。开发者通常不在测试现场

    Alpha testing (α测试),是由一个用户在开发环境下进行的测试,也可以是公司内部的用户在模拟实际操作环境下进行的受控测试

    18、软件的评审一般由哪些人参加?其目的是什么?

    参考答案:

    在正式的会议上将软件项目的成果(包括各阶段的文档、产生的代码等)提交给用户、客户或有关部门人员对软件产品进行评审和批准。其目的是找出可能影响软件产品质量、开发过程、维护工作的适用性和环境方面的设计缺陷,并采取补救措施,以及找出在性能、安全性和经济方面的可能的改进。

    人员:用户、客户或有关部门开发人员,测试人员,需求分析师都可以,就看处于评审那个阶段

    19、测试活动中,如果发现需求文档不完善或者不准确,怎么处理?

    参考答案:

    测试需求分析发现需求文档不完善或者不准确,应该立即和相关人员进行协调交流。

    20、阶段评审与项目评审有什么区别?

    参考答案:

    阶段评审对项目各阶段评审:对阶段成果和工作

    项目评审对项目总体评审:对工作和产品

    21、阐述工作版本的定义?

    参考答案:

    构造号: BUILD

    22、什么是桩模块?什么是驱动模块?

    参考答案:

    桩模块:被测模块调用模块

    驱动模块调用被测模块

    23、什么是扇入?什么是扇出?

    参考答案:

    扇入:被调次数,扇出:调其它模块数目

    24、你认为做好测试计划工作的关键是什么?

    参考答案:

    软件测试计划就是在软件测试工作正式实施之前明确测试的对象,并且通过对资源、时间、风险、测试范围和预算等方面的综合分析和规划,保证有效的实施软件测试;

    做好测试计划工作的关键:目的,管理,规范

    1. 明确测试的目标,增强测试计划的实用性

    编写软件测试计划得重要目的就是使测试过程能够发现更多的软件缺陷,因此软件测试计划的价值取决于它对帮助管理测试项目,并且找出软件潜在的缺陷。因此,软件测试计划中的测试范围必须高度覆盖功能需求,测试方法必须切实可行,测试工具并且具有较高的实用性,便于使用,生成的测试结果直观、准确

    2.坚持“5W”规则,明确内容与过程

    “5W”规则指的是“What(做什么)”、“Why(为什么做)”、“When(何时做)”、“Where(在哪里)”、“How(如何做)”。利用“5W”规则创建软件测试计划,可以帮助测试团队理解测试的目的(Why),明确测试的范围和内容(What),确定测试的开始和结束日期(When),指出测试的方法和工具(How),给出测试文档和软件的存放位置(Where)。

    3.采用评审和更新机制,保证测试计划满足实际需求

    测试计划写作完成后,如果没有经过评审,直接发送给测试团队,测试计划内容的可能不准确或遗漏测试内容,或者软件需求变更引起测试范围的增减,而测试计划的内容没有及时更新,误导测试执行人员。

    4. 分别创建测试计划与测试详细规格、测试用例

    应把详细的测试技术指标包含到独立创建的测试详细规格文档,把用于指导测试小组执行测试过程的测试用例放到独立创建的测试用例文档或测试用例管理数据库中。测试计划和测试详细规格、测试用例之间是战略和战术的关系,测试计划主要从宏观上规划测试活动的范围、方法和资源配置,而测试详细规格、测试用例是完成测试任务的具体战术。

    25、你认为做好测试用例工作的关键是什么?

    参考答案:

     需求和设计文档的理解程度,对系统的熟悉程度

    26、简述一下缺陷的生命周期?

    参考答案:提交->确认->分配->修复->验证->关闭

    27、软件的安全性应从哪几个方面去测试?

    参考答案:

    (1)用户认证机制:如数据证书、智能卡、双重认证、安全电子交易协议

    (2)加密机制

    (3)安全防护策略:如安全日志、入侵检测、隔离防护、漏洞扫描

    (4)数据备份与恢复手段:存储设备、存储优化、存储保护、存储管理

    (5)防病毒系统

    28、软件配置管理工作开展的情况和认识?

    参考答案:

    软件配置管理贯穿于软件开发、测试活动的始终,覆盖了开发、测试活动的各个环节,它的重要作用之一就是要全面的管理保存各个配置项,监控各配置项的状态,并向项目经理及相关的人员报告,从而实现对软件过程的控制。

    软件测试配置管理包括4个最基本的活动:

    配置项标识

    配置项控制

    配置项状态报告

    配置审计

           软件配置管理通常借助工具来辅助,主要有MS SourceSafe、Rational ClearCase等

    29、你觉得软件测试通过的标准应该是什么样的?

    参考答案:

        缺陷密度值达到客户的要求

    30、引入测试管理的含义?

    参考答案:风险分析,进度控制、角色分配、质量控制

    31、一套完整的测试应该由哪些阶段组成?

    参考答案:测试计划、测试设计与开发、测试实施、测试评审与测试结论

    32、单元测试的主要内容?

    参考答案:

     模块接口测试、局部数据结构测试、路径测试、错误处理测试、边界测试

    33、集成测试也叫组装测试或者联合测试,请简述集成测试的主要内容?

    参考答案:

    (1)在把各个模块连接起来的时候,穿越模块接口的数据是否会丢失;

     (2)一个模块的功能是否会对另一个模块的功能产生不利的影响;

     (3)各个子功能组合起来,能否达到预期要求的父功能;

     (4)全局数据结构是否有问题;

     (5)单个模块的误差累积起来,是否会放大,从而达到不能接受的程度。

    34、简述集成测试与系统测试关系?

    参考答案:

     (1)集成测试的主要依据概要设计说明书,系统测试的主要依据是需求设计说明书;

     (2)集成测试是系统模块的测试,系统测试是对整个系统的测试,包括相关的软硬件平台、网络以及相关外设的测试。

    35、软件测试的文档测试应当贯穿于软件生命周期的全过程,其中用户文档是文档测试的重点。那么软件系统的用户文档包括哪些?

    参考答案:

      用户手册

      安装和设置指导

      联机帮助

      指南、向导

      样例、示例和模板

      授权/注册登记表

    最终用户许可协议

    36、软件系统中除用户文档之外,文档测试还应该关注哪些文档?

    参考答案:

    开发文档

    软件需求说明书

        数据库设计说明书

        概要设计说明书

        详细设计说明书

        可行性研究报告

    管理文档

        项目开发计划

        测试计划

        测试报告

        开发进度月报

        开发总结报告

    37、简述软件系统中用户文档的测试要点?

    参考答案:

     (1)读者群。文档面向的读者定位要明确。对于初级用户、中级用户以及高级用户应该有不同的定位

     (2)术语。文档中用到的术语要适用与定位的读者群,用法一致,标准定义与业界规范相吻合。

     (3)正确性。测试中需检查所有信息是否真实正确,查找由于过期产品说明书和销售人员夸大事实而导致的错误。检查所有的目录、索引和章节引用是否已更新,尝试链接是否准确,产品支持电话、地址和邮政编码是否正确。

     (4)完整性。对照软件界面检查是否有重要的分支没有描述到,甚至是否有整个大模块没有描述到。

     (5)一致性。按照文档描述的操作执行后,检查软件返回的结果是否与文档描述的相同。

     (6)易用性。对关键步骤以粗体或背景色给用户以提示,合理的页面布局、适量的图表都可以给用户更高的易用性。需要注意的是文档要有助于用户排除错误。不但描述正确操作,也要描述错误处理办法。文档对于用户看到的错误信息应当有更详细的文档解释。

     (7)图表与界面截图。检查所有图表与界面截图是否与发行版本相同。

     (8)样例与示例。像用户一样载入和使用样例。如果是一段程序,就输入数据并执行它。以每一个模块制作文件,确认它们的正确性。

     (9)语言。不出现错别字,不要出现有二义性的说法。特别要注意的是屏幕截图或绘制图形中的文字。

     (10)印刷与包装。检查印刷质量;手册厚度与开本是否合适;包装盒的大小是否合适;有没有零碎易丢失的小部件等等。

    38、单元测试主要内容是什么?

    参考答案:

    单元测试大多数由开发人员来完成,测试人员技术背景较好或者开发系统软件时可能会安排测试人员进行单元测试,大多数进行的单元测试都是开发人员调试程序或者开发组系统联合调试的过程。讨论这个问题主要是扩充一下读者的视野。

    单元测试一般包括五个方面的测试:

    (1)模块接口测试:模块接口测试是单元测试的基础。只有在数据能正确流入、流出模块的前提下,其他测试才有意义。模块接口测试也是集成测试的重点,这里进行的测试主要是为后面打好基础。测试接口正确与否应该考虑下列因素:

    -输入的实际参数与形式参数的个数是否相同;

    -输入的实际参数与形式参数的属性是否匹配;

    -输入的实际参数与形式参数的量纲是否一致;

    -调用其他模块时所给实际参数的个数是否与被调模块的形参个数相同;

    -调用其他模块时所给实际参数的属性是否与被调模块的形参属性匹配;

    -调用其他模块时所给实际参数的量纲是否与被调模块的形参量纲一致;

    -调用预定义函数时所用参数的个数、属性和次序是否正确;

    -是否存在与当前入口点无关的参数引用;

    -是否修改了只读型参数;

    -对全程变量的定义各模块是否一致;

    -是否把某些约束作为参数传递。

    如果模块功能包括外部输入输出,还应该考虑下列因素:

    -文件属性是否正确;

    -OPEN/CLOSE语句是否正确;

    -格式说明与输入输出语句是否匹配;

    -缓冲区大小与记录长度是否匹配;

    -文件使用前是否已经打开;

    -是否处理了文件尾;

    -是否处理了输入/输出错误;

    -输出信息中是否有文字性错误。

    -局部数据结构测试;

    -边界条件测试;

    -模块中所有独立执行通路测试;

    (2)局部数据结构测试:检查局部数据结构是为了保证临时存储在模块内的数据在程序执行过程中完整、正确,局部功能是整个功能运行的基础。重点是一些函数是否正确执行,内部是否运行正确。局部数据结构往往是错误的根源,应仔细设计测试用例,力求发现下面几类错误:

    -不合适或不相容的类型说明;

    -变量无初值;

    -变量初始化或省缺值有错;

    -不正确的变量名(拼错或不正确地截断);

    -出现上溢、下溢和地址异常。

    (3)边界条件测试:边界条件测试是单元测试中最重要的一项任务。众所周知,软件经常在边界上失效,采用边界值分析技术,针对边界值及其左、右设计测试用例,很有可能发现新的错误。边界条件测试是一项基础测试,也是后面系统测试中的功能测试的重点,边界测试执行的较好,可以大大提高程序健壮性。

    (4)模块中所有独立路径测试:在模块中应对每一条独立执行路径进行测试,单元测试的基本任务是保证模块中每条语句至少执行一次。测试目的主要是为了发现因错误计算、不正确的比较和不适当的控制流造成的错误。具体做法就是程序员逐条调试语句。常见的错误包括:

    -误解或用错了算符优先级;

    -混合类型运算;

    -变量初值错;

    -精度不够;

    -表达式符号错。

    比较判断与控制流常常紧密相关,测试时注意下列错误:

    -不同数据类型的对象之间进行比较;

    -错误地使用逻辑运算符或优先级;

    -因计算机表示的局限性,期望理论上相等而实际上不相等的两个量相等;

    -比较运算或变量出错;

    -循环终止条件或不可能出现;

    -迭代发散时不能退出;

    -错误地修改了循环变量。

    模块的各条错误处理通路测试:程序在遇到异常情况时不应该退出,好的程序应能预见各种出错条件,并预设各种出错处理通路。如果用户不按照正常操作,程序就退出或者停止工作,实际上也是一种缺陷,因此单元测试要测试各种错误处理路径。一般这种测试着重检查下列问题:

    -输出的出错信息难以理解;

    -记录的错误与实际遇到的错误不相符;

    -在程序自定义的出错处理段运行之前,系统已介入;

    -异常处理不当;

    -错误陈述中未能提供足够的定位出错信息。

    39、如何理解强度测试?

    参考答案:

    强度测试是为了确定系统在最差工作环境的工作能力,也可能是用于验证在标准工作压力下的各种资源的最下限指标。

    它和压力测试的目标是不同的,压力测试是在标准工作环境下,不断增加系统负荷,最终测试出该系统能力达到的最大负荷(稳定和峰值),而强度测试则是在非标准工作环境下,甚至不断人为降低系统工作环境所需要的资源,如网络带宽,系统内存,数据锁等等,以测试系统在资源不足的情况下的工作状态,通过强度测试,可以确定本系统正常工作的最差环境.

    强度测试和压力测试的测试指标相近,大多都是与时间相关的指标,如并发量(吞吐量),延迟(最大\最小\平均)以及顺序指标等

    强度测试需要对系统的结构熟悉,针对系统的特征设计强度测试的方法

    40、如何理解压力、负载、性能测试测试?

    参考答案:

    性能测试是一个较大的范围,实际上性能测试本身包含了性能、强度、压力、负载等多方面的测试内容。

    压力测试是对服务器的稳定性以及负载能力等方面的测试,是一种很平常的测试。增大访问系统的用户数量、或者几个用户进行大数据量操作都是压力测试。而负载测试是压力相对较大的测试,主要是测试系统在一种或者集中极限条件下的相应能力,是性能测试的重要部分。100个用户对系统进行连续半个小时的访问可以看作压力测试,那么连续访问8个小时就可以认为负载测试,1000个用户连续访问系统1个小时也可以看作是负载测试。

    实际上压力测试和负载测试没有明显的区分。测试人员应该站在关注整体性能的高度上来对系统进行测试。

    41、什么是系统瓶颈?

    参考答案:

    瓶颈主要是指整个软硬件构成的软件系统某一方面或者几个方面能力不能满足用户的特定业务要求,“特定”是指瓶颈会在某些条件下会出现,因为毕竟大多数系统在投入前。

    严格的从技术角度讲,所有的系统都会有瓶颈,因为大多数系统的资源配置不是协调的,例如CPU使用率刚好达到100%时,内存也正好耗尽的系统不是很多见。因此我们讨论系统瓶颈要从应用的角度讨论:关键是看系统能否满足用户需求。在用户极限使用系统的情况下,系统的响应仍然正常,我们可以认为改系统没有瓶颈或者瓶颈不会影响用户工作。

    因此我们测试系统瓶颈主要是实现下面两个目的:

    -发现“表面”的瓶颈。主要是模拟用户的操作,找出用户极限使用系统时的瓶颈,然后解决瓶颈,这是性能测试的基本目标。

    -发现潜在的瓶颈并解决,保证系统的长期稳定性。主要是考虑用户在将来扩展系统或者业务发生变化时,系统能够适应变化。满足用户目前需求的系统不是最好的,我们设计系统的目标是在保证系统整个软件生命周期能够不断适应用户的变化,或者通过简单扩展系统就可以适应新的变化。

    42、文档测试主要包含什么内容?

    参考答案:

    在国内软件开发管理中,文档管理几乎是最弱的一项,因而在测试工作中特别容易忽略文档测试也就不足为奇了。要想给用户提供完整的产品,文档测试是必不可少的。文档测试一般注重下面几个方面:

    文档的完整性:主要是测试文档内容的全面性与完整性,从总体上把握文档的质量。例如用户手册应该包括软件的所有功能模块。

    描述与软件实际情况的一致性:主要测试软件文档与软件实际的一致程度。例如用户手册基本完整后,我们还要注意用户手册与实际功能描述是否一致。因为文档往往跟不上软件版本的更新速度。

    易理解性:主要是检查文档对关键、重要的操作有无图文说明,文字、图表是否易于理解。对于关键、重要的操作仅仅只有文字说明肯定是不够的,应该附有图表使说明更为直观和明了。

    文档中提供操作的实例:这项检查内容主要针对用户手册。对主要功能和关键操作提供的应用实例是否丰富,提供的实例描述是否详细。只有简单的图文说明,而无实例的用户手册看起来就像是软件界面的简单拷贝,对于用户来说,实际上没有什么帮助。

    印刷与包装质量:主要是检查软件文档的商品化程度。有些用户手册是简单打印、装订而成,过于粗糙,不易于用户保存。优秀的文档例如用户手册和技术白皮书,应提供商品化包装,并且印刷精美。

    43、功能测试用例需要详细到什么程度才是合格的?

    参考答案:

    这个问题也是测试工程师经常问的问题。有人主张测试用例详细到每个步骤执行什么都要写出来,目的是即使一个不了解系统的新手都可以按照测试用例来执行工作。主张这类写法的人还可以举出例子:欧美、日本等软件外包文档都是这样做的。

    另外一种观点就是主张写的粗些,类似于编写测试大纲。主张这种观点的人是因为软件开发需求管理不规范,变动十分频繁,因而不能按照欧美的高标准来编写测试用例。这样的测试用例容易维护,可以让测试执行人员有更大的发挥空间。

    实际上,软件测试用例的详细程度首先要以覆盖到测试点为基本要求。举个例子:“用户登陆系统”的测试用例可以不写出具体的执行数据,但是至少要写出五种以上情况(),如果只用一句话覆盖了这个功能是不合格的测试用例。覆盖功能点不是指列出功能点,而是要写出功能点的各个方面(如果组合情况较多时可以采用等价划分)。

    另一个影响测试用例的就是组织的开发能力和测试对象特点。如果开发力量比较落后,编写较详细的测试用例是不现实的,因为根本没有那么大的资源投入,当然这种情况很随着团队的发展而逐渐有所改善。测试对象特点重点是指测试对象在进度、成本等方面的要求,如果进度较紧张的情况下,是根本没有时间写出高质量的测试用例的,甚至有些时候测试工作只是一种辅助工作,因而不编写测试用例。

    因此,测试用例的编写要根据测试对象特点、团队的执行能力等各个方面综合起来决定编写策略。最后要注意的是测试人员一定不能抱怨,力争在不断提高测试用例编写水平的同时,不断地提高自身能力。

    44、配置和兼容性测试的区别是什么?

    参考答案:

    配置测试的目的是保证软件在其相关的硬件上能够正常运行,而兼容性测试主要是测试软件能否与不同的软件正确协作。

    配置测试的核心内容就是使用各种硬件来测试软件的运行情况,一般包括:

    (1)软件在不同的主机上的运行情况,例如Dell和Apple;

    (2)软件在不同的组件上的运行情况,例如开发的拨号程序要测试在不同厂商生产的Modem上的运行情况;

    (3)不同的外设;

    (4)不同的接口;

    (5)不同的可选项,例如不同的内存大小;

    兼容性测试的核心内容:

    (1)测试软件是否能在不同的操作系统平台上兼容;

    (2)测试软件是否能在同一操作系统平台的不同版本上兼容;

    (3)软件本身能否向前或者向后兼容;

    (4)测试软件能否与其它相关的软件兼容;

    (5)数据兼容性测试,主要是指数据能否共享;

    配置和兼容性测试通称对开发系统类软件比较重要,例如驱动程序、操作系统、数据库管理系统等。具体进行时仍然按照测试用例来执行。

    45、软件文档测试主要包含什么?

    参考答案:

    随着软件文档系统日益庞大,文档测试已经成为软件测试的重要内容。文档测试对象主要如下:

    -包装文字和图形;

    -市场宣传材料、广告以及其它插页;

    -授权、注册登记表;

    -最终用户许可协议;

    -安装和设置向导;

    -用户手册;

    -联机帮助;

    -样例、示范例子和模板;

    -……

    文档测试的目的是提高易用性和可靠性,降低支持费用,因为用户通过文档就可以自己解决问题。因文档测试的检查内容主要如下:

    -读者对象——主要是文档的内容是否能让该级别的读者理解;

    -术语——主要是检查术语是否适合读者;

    -内容和主题——检查主题是否合适、是否丢失、格式是否规范等;

    -图标和屏幕抓图——检查图表的准确度和精确度;

    -样例和示例——是否与软件功能一致;

    -拼写和语法;

    -文档的关联性——是否与其它相关文档的内容一致,例如与广告信息是否一致;

    文档测试是相当重要的一项测试工作,不但要给予充分的重视,更要要认真的完成,象做功能测试一样来对待文档测试。

    46、没有产品说明书和需求文档地情况下能够进行黑盒测试吗?

    参考答案:

    这个问题是国内测试工程师经常遇到的问题,根源就是国内软件开发文档管理不规范,对变更的管理方法就更不合理了。实际上没有任何文档的时候,测试人员是能够进行黑盒测试的,这种测试方式我们可以称之为探索测试,具体做法就是测试工程师根据自己的专业技能、领域知识等不断的深入了解测试对象、理解软件功能,进而发现缺陷。

    在这种做法基本上把软件当成了产品说明书,测试过程中要和开发人员不断的进行交流。尤其在作项目的时候,进度压力比较大,可以作为加急测试方案。最大的风险是不知道有些特性是否被遗漏。

    47、测试中的“杀虫剂怪事”是指什么?

    参考答案:

    “杀虫剂怪事”一词由BorisBeizer在其编著的《软件测试技术》第二版中提出。用于描述测试人员对同一测试对象进行的测试次数越多,发现的缺陷就会越来越少的现象。就像老用一种农药,害虫就会有免疫力,农药发挥不了效力。这种现象的根本原因就是测试人员对测试软件过于熟悉,形成思维定势。

    为了克服这种现象,测试人员需要不断编写新的测试程序或者测试用例,对程序的不同部分进行测试,以发现更多的缺陷。也可以引用新人来测试软件,刚刚进来的新手往往能发现一些意想不到的问题。

    48、在配置测试中,如何判断发现的缺陷是普通问题还是特定的配置问题?

    参考答案:

    在进行配置测试时,测试工程师仍然会发现一些普通的缺陷,也就是与配置环境无关的缺陷。因此判断新发现的问题,需要在不同的配置中重新执行发现软件缺陷的步骤,如果软件缺陷不出现了,就可能是配置缺陷;如果在所有的配置中都出现,就可能是普通缺陷。

    需要注意的是,配置问题可以在一大类配置中出现。例如,拨号程序可能在所有的外置Modem中都存在问题,而内置的Modem不会有任何问题。

    49、为什么尽量不要让时间有富裕的员工去做一些测试?

    参考答案:

    表面上看这体现了管理的效率和灵活性,但实际上也体现了管理者对测试的轻视。测试和测试的人有很大关系。测试工作人员应该是勤奋并富有耐心,善于学习、思考和发现问题,细心有条理,总结问题,如果具备这样的优点,做其它工作同样也会很出色,因此这里还有一个要求,就是要喜欢测试这项工作。如果他是专职的,那么肯定更有经验和信心。国内的小伙子好象都喜欢做程序员,两者工作性质不同,待遇不同,地位不同,对自我实现的价值的认识也不同,这是行业的一个需要改善的问题。如果只是为了完成任务而完成任务,或者发现了几个问题就觉得满意了,这在任何其它工作中都是不行的。

    50、完全测试程序是可能的吗?

    参考答案:

    软件测试初学者可能认为拿到软件后需要进行完全测试,找到全部的软件缺陷,使软件“零缺陷”发布。实际上完全测试是不可能的。主要有以下一个原因:

    -完全测试比较耗时,时间上不允许;

    -完全测试通常意味着较多资源投入,这在现实中往往是行不通的;

    -输入量太大,不能一一进行测试;

    -输出结果太多,只能分类进行验证;

    -软件实现途径太多;

    -软件产品说明书没有客观标准,从不同的角度看,软件缺陷的标准不同;

    因此测试的程度要根据实际情况确定。

    51、软件测试的风险主要体现在哪里?

    参考答案:

    我们没有对软件进行完全测试,实际就是选择了风险,因为缺陷极有可能存在没有进行测试的部分。举个例子,程序员为了方便,在调试程序时会弹出一些提示信息框,而这些提示只在某种条件下会弹出,碰巧程序发布前这些代码中的一些没有被注释掉。在测试时测试工程师又没有对其进行测试。如果客户碰到它,这将是代价昂贵的缺陷,因为交付后才被客户发现。

    因此,我们要尽可能的选择最合适的测试量,把风险降低到最小。

    52、发现的缺陷越多,说明软件缺陷越多吗?

    参考答案:

    这是一个比较常见的现象。测试工程师在没有找到缺陷前会绞尽脑汁的思考,但是找到一个后,会接二连三的发现很多缺陷,颇有个人成就感。其中的原因主要如下:

    -代码复用、拷贝代码导致程序员容易犯相同的错误。类的继承导致所有的子类会包含基类的错误,反复拷贝同一代码意味可能也复制了缺陷。

    -程序员比较劳累是可以导致某些连续编写的功能缺陷较多。程序员加班是一种司空见惯的现象,因此体力不只时容易编写一些缺陷较多的程序。而这些连续潜伏缺陷恰恰时测试工程师大显身手的地方。

    “缺陷一个连着一个”不是一个客观规律,只是一个常见的现象。如果软件编写的比较好,这种现象就不常见了。测试人员只要严肃认真的测试程序就可以了。

    53、所有的软件缺陷都能修复吗?所有的软件缺陷都要修复吗?

    参考答案:

    从技术上讲,所有的软件缺陷都是能够修复的,但是没有必要修复所有的软件缺陷。测试人员要做的是能够正确判断什么时候不能追求软件的完美。对于整个项目团队,要做的是对每一个软件缺陷进行取舍,根据风险决定那些缺陷要修复。发生这种现象的主要原因如下:

    -没有足够的时间资源。在任何一个项目中,通常情况下开发人员和测试人员都是不够用的,而且在项目中没有预算足够的回归测试时间,再加上修改缺陷可能引入新的缺陷,因此在交付期限的强大压力下,必须放弃某些缺陷的修改。

    -有些缺陷只是特殊情况下出现,这种缺陷处于商业利益考虑,可以在以后升级中进行修复。

    -不是缺陷的缺陷。我们经常会碰到某些功能方面的问题被当成缺陷来处理,这类问题可以以后有时间时考虑再处理。

    最后要说的是,缺陷是否修改要由软件测试人员、项目经理、程序员共同讨论来决定是否修复,不同角色的人员从不同的角度来思考,以做出正确的决定。

    54、软件测试人员就是QA吗?

    参考答案:

    软件测试人员的职责是尽可能早的找出软件缺陷,确保得以修复。而质量保证人员(QA)主要职责是创建或者制定标准和方法,提高促进软件开发能力和减少软件缺陷。测试人员的主要工作是测试,质量保证人员日常工作重要内容是检查与评审,测试工作也是测试保证人员的工作对象。

    软件测试和质量是相辅相成的关系,都是为了提高软件质量而工作。

    55、如何减少测试人员跳槽带来的损失?

    参考答案:

    在IT行业里跳槽已经是一种司空见惯的现象,而且跳槽无论给公司还是给个人都会带来一定的损失。测试队伍也无疑会面临跳槽的威胁,作为测试经理管理者,只有从日常工作中开始做起,最能最大限度的减少损失。建议我们从以下两个方面做起:

    -加强部门内员工之间的互相学习,互相学习是建立学习型组织的基本要求,是知识互相转移的过程。在此基础上,可以把个人拥有的技术以知识的形式沉积下来,也就完成了隐性知识到显性知识的转化。

    -通常情况下,企业能为员工提供足够大的发展空间时,如果不是待遇特别低,员工都不会主动离开企业。因此我们要想留住员工,管理者就应该把员工的个人成长和企业的发展联系起来,为员工设定合理发展规划并付诸实现。不过这项要求做起来比较,要有比较好的企业文化为依托。

    56、测试产品与测试项目的区别是什么?

    参考答案:

    习惯上把开发完成后进行商业化、几乎不进行代码修改就可以售给用户使用的软件成为软件产品,也就是可以买“卖拷贝”的软件,例如Windows2000。而通常把针对一个或者几个特定的用户而开发的软件成为软件项目,软件项目是一种个性化的产品,可以是按照用户要求全部重新开发,也可以修改已有的软件产品来满足特定的用户需求。项目和产品的不同特点,决定我们测试产品和测试项目仍然会有很多不同的地方:

    -质量要求不同。通常产品的质量要高一些,修复发布后产品的缺陷成本较高,甚至会带来很多负面的影响。而做项目通常面向某一用户,虽然质量越高越好,但是一般只要满足用户要求就可以了。

    -测试资源投入多少不同。做软件产品通常是研发中心来开发,进度压力要小些。同时由于质量要求高,因此会投入较多的人力、物力资源。

    -项目最后要和用户共同验收测试,这是产品测试不具有的特点。

    此外,测试产品与测试项目在缺陷管理方面、测试策略制定都会有很大不同,测试管理者应该结合具体的环境,恰如其分的完成工作。

    57、和用户共同测试(UAT测试)的注意点有哪些?

    参考答案:

    软件产品在投产前,通常都会进行用户验收测试。如果用户验收测试没有通过,直接结果就是那不到“Money”,间接影响是损害了公司的形象,而后者的影响往往更严重。根据作者的经验,用户验收测试一定要让用户满意。

    实际上用户现场测试更趋于是一种演示。在不欺骗用户的前提下,我们向用户展示我们软件的优点,最后让“上帝”满意并欣然掏出“银子”才是我们的目标。因此用户测试要注意下面的事项:

    (1)用户现场测试不可能测试全部功能,因此要测试核心功能。这需要提前做好准备,这些核心功能一定要预先经过测试,证明没有问题才可以和用户共同进行测试。测试核心模块的目的是建立用户对软件的信心。当然如果这些模块如果问题较多,不应该进行演示。

    (2)如果某些模块确实有问题,我们可以演示其它重要的业务功能模块,必要时要向用户做成合理的解释。争得时间后,及时修改缺陷来弥补。

    (3)永远不能欺骗用户,蒙混过关。道理很简单,因为软件是要给用户用的,问题早晚会暴露出来,除非你可以马上修改。

    和用户进行测试还要注意各种交流技巧,争取不但短期利益得到了满足,还要为后面得合作打好基础。

    58、如何编写提交给用户的测试报告?

    参考答案:

    随着测试工作越来越受重视,开发团队向客户提供测试文档是不可避免的事情。很多人会问:“我们可以把工作中的测试报告提供给客户吗?”答案是否定的。因为提供内部测试报告,可能会让客户失去信心,甚至否定项目。

    测试报告一般分为内部测试报告和外部测试报告。内部报告是我们在测试工作中的项目文档,反映了测试工作的实施情况,这里不过多讨论,读者可以参考相关教材。这里主要讨论一下外部测试报告的写法,一般外部测试报告要满足下面几个要求:

    -根据内部测试报告进行编写,一般可以摘录;

    -不可以向客户报告严重缺陷,即使是已经修改的缺陷,开发中的缺陷也没有必要让客户知道;

    -报告上可以列出一些缺陷,但必须是中级的缺陷,而且这些缺陷必须是修复的;

    -报告上面的内容尽量要真实可靠;

    -整个测试报告要仔细审阅,力争不给项目带来负面作用,尤其是性能测试报告。

    总之,外部测试报告要小心谨慎的编写。

    59、测试工具在测试工作中是什么地位?

    参考答案:

    国内的很多测试工程师对测试工具相当迷恋,尤其是一些新手,甚至期望测试工具可以取代手工测试。测试工具在测试工作中起的是辅助作用,一般用来提高测试效率。自动化测试弥补了手工测试的不足,减轻一定的工作量。实际上测试工具是无法替代大多数手工测试的,而一些诸如性能测试等自动化测试也是手工所不能完成的。

    对于自动测试技术,应当依据软件的不同情况来分别对待,一般自动技术会应用在引起大量重复性工作的地方、系统的压力点、以及任何适合使用程序解决大批量输入数据的地方。然后再寻找合适的自动测试工具,或者自己开发测试程序。一定不要为了使用测试工具而使用。

    60、什么是软件测试,软件测试的目的?

    参考答案:

    61、简述负载测试与压力测试的区别。

    参考答案:

        压力测试(Stress Testing)

    压力测试的主要任务就是获取系统正确运行的极限,检查系统在瞬间峰值负荷下正确执行的能力。例如,对服务器做压力测试时就可以增加并发操作的用户数量;或者不停地向服务器发送请求;或一次性向服务器发送特别大的数据等。看看服务器保持正常运行所能达到的最大状态。人们通常使用测试工具来完成压力测试,如模拟上万个用户从终端同时登录,这是压力测试中常常使用的方法。

    负载测试(Volume Testing)

    用于检查系统在使用大量数据的时候正确工作的能力,即检验系统的能力最高能达到什么程度。例如,对于信息检索系统,让它使用频率达到最大;对于多个终端的分时系统,让它所有的终端都开动。在使整个系统的全部资源达到“满负荷”的情形下,测试系统的承受能力。

    62、写出bug报告流转的步骤,每步的责任人及主要完成的工作。

    参考答案:(要结合自己实际的工作经验进行回答,不同公司略有区别)

        测试人员提交新的Bug入库,错误状态为New。

    高级测试员/测试经理验证错误,如果确认是错误,分配给开发组。设置状态为Open。如果不是错误,则拒绝,设置为Declined状态。

    开发经理分配bug至对应的模块开发人员。

    开发人员查询状态为Open的Bug,如果不是错误,则置状态为Declined;如果是Bug则修复并置状态为Fixed。不能解决的Bug,要留下文字说明及保持Bug为Open状态。

    对于不能解决和延期解决的Bug,不能由开发人员自己决定,一般要通过某种会议(评审会)通过才能认可。

    测试人员查询状态为Fixed的Bug,然后验证Bug是否已解决,如解决,置Bug的状态为Closed,如没有解决,置bug状态为Reopen。

    63、写出bug报告当中一些必备的内容。

    参考答案:

           硬件平台和操作系统

           测试应用的硬件平台(Platform),通常选择“PC”。

           测试应用的操作系统平台(OS)。

    a)        版本

           提交缺陷报告时通过该字段标识此缺陷存在于被测试软件的哪个版本。

    b)        Bug报告优先级

    c)         Bug状态

    d)        Bug的编号

    e)         发现人

    f)         提交人

    g)        指定处理人

    h)        概述

    i)          从属关系

    j)         详细描述

    k)        严重程度

    l)          所属模块

    m)      附件

    n)        提交日期

    64、开发人员老是犯一些低级错误怎么解决?

    参考答案:

    这种现象在开发流程不规范的团队里特别常见,尤其是一些“作坊式”的团队里。解决这种问题一般从两个方面入手:

    一方面从开发管理入手,也就是从根源来解决问题。可以制定规范的开发流程,甚至可以制定惩罚制度,还有就是软件开发前做好规划设计。

    另一方面就是加强测试,具体做法就是加强开发人员的自己测试,把这些问题“消灭”在开发阶段,这是比较好的做法,读者可以参考第13章试案例分析的“13.1.2缺陷反复出现,谁的责任”小节,13.1.2专门讨论了这类问题的方法。

    此外,还可以通过规范的缺陷管理来对开发人员进行控制,比如测试部门整理出常见的缺陷,让开发人员自己对照进行检查,以减少这类低级错误的发生。

    开发人员犯错误是正常的现象,作为测试人员一定不能抱怨,要认认真真的解决问题才是上策。

    65、画出软件测试的V模型图。

      参考答案:

            

    66、为什么要在一个团队中开展软件测试工作?

    参考答案:

    因为没有经过测试的软件很难在发布之前知道该软件的质量,就好比ISO质量认证一样,测试同样也需要质量的保证,这个时候就需要在团队中开展软件测试的工作。在测试的过程发现软件中存在的问题,及时让开发人员得知并修改问题,在即将发布时,从测试报告中得出软件的质量情况。

    67、您在以往的测试工作中都曾经具体从事过哪些工作?其中最擅长哪部分工作?

    参考答案:(根据项目经验不同,灵活回答即可)

    我曾经做过web测试,后台测试,客户端软件,其中包括功能测试性能测试,用户体验测试。最擅长的是功能测试

    68、您所熟悉的软件测试类型都有哪些?请试着分别比较这些不同的测试类型的区别与联系(如功能测试、性能测试……)

    参考答案:

    测试类型有:功能测试,性能测试,界面测试。

      功能测试在测试工作中占的比例最大,功能测试也叫黑盒测试。是把测试对象看作一个黑盒子。利用黑盒测试法进行动态测试时,需要测试软件产品的功能,不需测试软件产品的内部结构和处理过程。采用黑盒技术设计测试用例的方法有:等价类划分、边界值分析、错误推测、因果图和综合策略。

      性能测试是通过自动化的测试工具模拟多种正常、峰值以及异常负载条件来对系统的各项性能指标进行测试。负载测试和压力测试都属于性能测试,两者可以结合进行。通过负载测试,确定在各种工作负载下系统的性能,目标是测试当负载逐渐增加时,系统各项性能指标的变化情况。压力测试是通过确定一个系统的瓶颈或者不能接收的性能点,来获得系统能提供的最大服务级别的测试。

      界面测试,界面是软件与用户交互的最直接的层,界面的好坏决定用户对软件的第一印象。而且设计良好的界面能够引导用户自己完成相应的操作,起到向导的作用。同时界面如同人的面孔,具有吸引用户的直接优势。设计合理的界面能给用户带来轻松愉悦的感受和成功的感觉,相反由于界面设计的失败,让用户有挫败感,再实用强大的功能都可能在用户的畏惧与放弃中付诸东流。

      区别在于,功能测试关注产品的所有功能上,要考虑到每个细节功能,每个可能存在的功能问题。性能测试主要关注于产品整体的多用户并发下的稳定性和健壮性。界面测试更关注于用户体验上,用户使用该产品的时候是否易用,是否易懂,是否规范(快捷键之类的),是否美观(能否吸引用户的注意力),是否安全(尽量在前台避免用户无意输入无效的数据,当然考虑到体验性,不能太粗鲁的弹出警告)?做某个性能测试的时候,首先它可能是个功能点,首先要保证它的功能是没问题的,然后再考虑该功能点的性能测试

    69、您认为做好测试用例设计工作的关键是什么?

    参考答案:

           白盒测试用例设计的关键是以较少的用例覆盖尽可能多的内部程序逻辑结果

    黑盒法用例设计的关键同样也是以较少的用例覆盖模块输出和输入接口。不可能做到完全测试,以最少的用例在合理的时间内发现最多的问题

    70、请试着比较一下黑盒测试、白盒测试、单元测试、集成测试、系统测试、验收测试的区别与联系。

    参考答案:

           黑盒测试:已知产品的功能设计规格,可以进行测试证明每个实现了的功能是否符合要求。

      白盒测试:已知产品的内部工作过程,可以通过测试证明每种内部操作是否符合设计规格要求,所有内部成分是否以经过检查。

      软件的黑盒测试意味着测试要在软件的接口处进行。这种方法是把测试对象看做一个黑盒子,测试人员完全不考虑程序内部的逻辑结构和内部特性,只依据程序的需求规格说明书,检查程序的功能是否符合它的功能说明。因此黑盒测试又叫功能测试或数据驱动测试。黑盒测试主要是为了发现以下几类错误:

      1、是否有不正确或遗漏的功能?

      2、在接口上,输入是否能正确的接受?能否输出正确的结果?

      3、是否有数据结构错误或外部信息(例如数据文件)访问错误?

      4、性能上是否能够满足要求?

      5、是否有初始化或终止性错误?

      软件的白盒测试是对软件的过程性细节做细致的检查。这种方法是把测试对象看做一个打开的盒子,它允许测试人员利用程序内部的逻辑结构及有关信息,设计或选择测试用例,对程序所有逻辑路径进行测试。通过在不同点检查程序状态,确定实际状态是否与预期的状态一致。因此白盒测试又称为结构测试或逻辑驱动测试。白盒测试主要是想对程序模块进行如下检查:

      1、对程序模块的所有独立的执行路径至少测试一遍。

      2、对所有的逻辑判定,取“真”与取“假”的两种情况都能至少测一遍。

      3、在循环的边界和运行的界限内执行循环体。

      4、测试内部数据结构的有效性,等等。

      单元测试(模块测试)是开发者编写的一小段代码,用于检验被测代码的一个很小的、很明确的功能是否正确。通常而言,一个单元测试是用于判断某个特定条件(或者场景)下某个特定函数的行为。

      单元测试是由程序员自己来完成,最终受益的也是程序员自己。可以这么说,程序员有责任编写功能代码,同时也就有责任为自己的代码编写单元测试。执行单元测试,就是为了证明这段代码的行为和我们期望的一致。

      集成测试(也叫组装测试,联合测试)是单元测试的逻辑扩展。它的最简单的形式是:两个已经测试过的单元组合成一个组件,并且测试它们之间的接口。从这一层意义上讲,组件是指多个单元的集成聚合。在现实方案中,许多单元组合成组件,而这些组件又聚合成程序的更大部分。方法是测试片段的组合,并最终扩展进程,将您的模块与其他组的模块一起测试。最后,将构成进程的所有模块一起测试。

      系统测试是将经过测试的子系统装配成一个完整系统来测试。它是检验系统是否确实能提供系统方案说明书中指定功能的有效方法。(常见的联调测试)

      系统测试的目的是对最终软件系统进行全面的测试,确保最终软件系统满足产品需求并且遵循系统设计。

      验收测试是部署软件之前的最后一个测试操作。验收测试的目的是确保软件准备就绪,并且可以让最终用户将其用于执行软件的既定功能和任务。

    验收测试是向未来的用户表明系统能够像预定要求那样工作。经集成测试后,已经按照设计把所有的模块组装成一个完整的软件系统,接口错误也已经基本排除了,接着就应该进一步验证软件的有效性,这就是验收测试的任务,即软件的功能和性能如同用户所合理期待的那样。

    71、测试计划工作的目的是什么?测试计划工作的内容都包括什么?其中哪些是最重要的?

    参考答案:

           软件测试计划是指导测试过程的纲领性文件,包含了产品概述、测试策略、测试方法、测试区域、测试配置、测试周期、测试资源、测试交流、风险分析等内容。借助软件测试计划,参与测试的项目成员,尤其是测试管理人员,可以明确测试任务和测试方法,保持测试实施过程的顺畅沟通,跟踪和控制测试进度,应对测试过程中的各种变更。

    测试计划和测试详细规格、测试用例之间是战略和战术的关系,测试计划主要从宏观上规划测试活动的范围、方法和资源配置,而测试详细规格、测试用例是完成测试任务的具体战术。所以其中最重要的是测试测试策略和测试方法(最好是能先评审)

    72、您所熟悉的测试用例设计方法都有哪些?请分别以具体的例子来说明这些方法在测试用例设计工作中的应用。

    参考答案:

           1.等价类划分

      划分等价类: 等价类是指某个输入域的子集合.在该子集合中,各个输入数据对于揭露程序中的错误都是等效的.并合理地假定:测试某等价类的代表值就等于对这一类其它值的测试.因此,可以把全部输入数据合理划分为若干等价类,在每一个等价类中取一个数据作为测试的输入条件,就可以用少量代表性的测试数据.取得较好的测试结果.等价类划分可有两种不同的情况:有效等价类和无效等价类.

      2.边界值分析法

      边界值分析方法是对等价类划分方法的补充。测试工作经验告诉我,大量的错误是发生在输入或输出范围的边界上,而不是发生在输入输出范围的内部.因此针对各种边界情况设计测试用例,可以查出更多的错误.

      使用边界值分析方法设计测试用例,首先应确定边界情况.通常输入和输出等价类的边界,就是应着重测试的边界情况.应当选取正好等于,刚刚大于或刚刚小于边界的值作为测试数据,而不是选取等价类中的典型值或任意值作为测试数据.

        3.错误推测法

      基于经验和直觉推测程序中所有可能存在的各种错误, 从而有针对性的设计测试用例的方法.

      错误推测方法的基本思想: 列举出程序中所有可能有的错误和容易发生错误的特殊情况,根据他们选择测试用例. 例如, 在单元测试时曾列出的许多在模块中常见的错误. 以前产品测试中曾经发现的错误等, 这些就是经验的总结. 还有, 输入数据和输出数据为0的情况. 输入表格为空格或输入表格只有一行. 这些都是容易发生错误的情况. 可选择这些情况下的例子作为测试用例.

        4.因果图方法

      前面介绍的等价类划分方法和边界值分析方法,都是着重考虑输入条件,但未考虑输入条件之间的联系, 相互组合等. 考虑输入条件之间的相互组合,可能会产生一些新的情况. 但要检查输入条件的组合不是一件容易的事情, 即使把所有输入条件划分成等价类,他们之间的组合情况也相当多. 因此必须考虑采用一种适合于描述对于多种条件的组合,相应产生多个动作的形式来考虑设计测试用例. 这就需要利用因果图(逻辑模型). 因果图方法最终生成的就是判定表. 它适合于检查程序输入条件的各种组合情况.

    73、请以您以往的实际工作为例,详细的描述一次测试用例设计的完整的过程。

    参考答案:

           就说最近的这次网站功能的测试吧

      首先:得到相关文档(需求文档和设计文档),理解需求和设计设计思想后,想好测试策略(测试计划简单点就OK了),考虑到测试环境,测试用例,测试时间等问题。

      第二步:设计测试用例,测试策略是:把网站部分的功能点测试完,然后在进行系统测试(另外个模块呢有另一个测试人员负责,可以进行联调测试),网站模块的测试基本是功能测试和界面测试(用户并发的可能性很小,所以不考虑):这次的网站的输入数据呢是使用数据库中的某张表记录,如果表中某一数据记录中新加进来的(还没有被处理的,有个标志位),网站启动后会立刻去刷那张表,得到多条数据,然后在进行处理。处理过程中,会经历3个步骤,网站才算完成了它的任务。有3个步骤呢,就可以分别对  这3个步骤进行测试用例的设计,尽量覆盖到各种输入情况(包括数据库中的数据,用户的输入等),得出了差不多50个用例。界面测试,也就是用户看的到的地方,包括发送的邮件和用户填写资料的页面展示。

      第三步:搭建测试环境(为什么这个时候考虑测试环境呢?因为我对网站环境已经很熟了,只有有机器能空于下来做该功能测试就可以做了),因为网站本身的环境搭建和其他的系统有点不同,它需要的测试环境比较麻烦,需要web服务器(Apache,tomcat),不过这次需求呢,网站部分只用到了tomcat,所以只要有tomcat即可

      第四步:执行测试

    74、您以往是否曾经从事过性能测试工作?如果有,请尽可能的详细描述您以往的性能测试工作的完整过程。

    参考答案:(以自己最熟悉的性能测试项目为例)

           是的,曾经做过网站方面的性能测试,虽然做的时间并不久(2个月吧),当时呢,是有位网站性能测试经验非常丰富的前辈带着我一起做。

    性能测试类型包括负载测试,强度测试,容量测试等

      负载测试:负载测试是一种性能测试指数据在超负荷环境中运行,程序是否能够承担。

      强度测试:强度测试是一种性能测试,他在系统资源特别低的情况下软件系统运行情况

      容量测试:确定系统可处理同时在线的最大用户数   

      在网站流量逐渐加大的情况下,开始考虑做性能测试了,首先要写好性能测试计划,根据运营数据得出流量最大的页面(如果是第一次的话,一般是首页,下载页,个人帐户页流量最大,而且以某种百分比),

      Web服务器指标指标:

      * Avg Rps: 平均每秒钟响应次数=总请求时间 / 秒数;

      * Successful Rounds:成功的请求;

      * Failed Rounds :失败的请求;

      * Successful Hits :成功的点击次数;

      * Failed Hits :失败的点击次数;

      * Hits Per Second :每秒点击次数;

      * Successful Hits Per Second :每秒成功的点击次数;

      * Failed Hits Per Second :每秒失败的点击次数;

      * Attempted Connections :尝试链接数; 

    75、你对测试最大的兴趣在哪里?为什么?

    参考答案:

           最大的兴趣就是测试有难度,有挑战性!做测试越久越能感觉到做好测试有多难。曾经在无忧测试网上看到一篇文章,是关于如何做好一名测试工程师。一共罗列了11,12点,有部分是和人的性格有关,有部分需要后天的努力。但除了性格有关的1,2点我没有把握,其他点我都很有信心做好它。

      刚开始进入测试行业时,对测试的认识是从无忧测试网上了解到的一些资料,当时是冲着做测试需要很多技能才能做的好,虽然入门容易,但做好很难,比开发更难,虽然当时我很想做开发(学校专业课我基本上不缺席,因为我喜欢我的专业),但看到测试比开发更难更有挑战性,想做好测试的意志就更坚定了。

      不到一年半的测试工作中,当时的感动和热情没有减退一点(即使环境问题以及自身经验,技术的不足,做测试的你一定也能理解)。

      我觉得做测试整个过程中有2点让我觉得很有难度(对我来说,有难度的东西我就非常感兴趣),第一是测试用例的设计,因为测试的精华就在测试用例的设计上了,要在版本出来之前,把用例写好,用什么测试方法写?(也就是测试计划或测试策略),如果你刚测试一个新任务时,你得花一定的时间去消化业务需求和技术基础,业务需求很好理解(多和产品经理和开发人员沟通就能达到目的),而技术基础可就没那么简单了,这需要你自觉的学习能力,比如说网站吧,最基本的技术知识你要知道网站内部是怎么运作的的,后台是怎么响应用户请求的?测试环境如何搭建?这些都需要最早的学好。至少在开始测试之前能做好基本的准备,可能会遇到什么难题?需求细节是不是没有确定好?这些问题都能在设计用例的时候发现。

      第二是发现BUG的时候了,这应该是测试人员最基本的任务了,一般按测试用例开始测试就能发现大部分的bug,还有一部分bug需要测试的过程中更了解所测版本的情况获得更多信息,补充测试用例,测试出bug。还有如何发现bug?这就需要在测试用例有效的情况下,通过细心和耐心去发现bug了,每个用例都有可能发现bug,每个地方都有可能出错,所以测试过程中思维要清晰(测试过程数据流及结果都得看仔细了,bug都在里面发现的)。如何描述bug也很有讲究,bug在什么情况下会产生,如果条件变化一点点,就不会有这个bug,以哪些最少的操作步骤就能重现这个bug,这个bug产生的规律是什么?如果你够厉害的话,可以帮开发人员初步定位问题。

    76、你以前工作时的测试流程是什么?

    参考答案:(灵活回答)

    公司对测试流程没有规定如何做,但每个测试人员都有自己的一套测试流程。我说下我1年来不断改正(自己总结,吸取同行的方法)后的流程吧。需求评审(有开发人员,产品经理,测试人员,项目经理)->需求确定(出一份确定的需求文档)->开发设计文档(开发人员在开始写代码前就能输出设计文档)->想好测试策略,写出测试用例->发给开发人员和测试经理看看(非正式的评审用例)->接到测试版本->执行测试用例(中间可能会补充用例)->提交bug(有些bug需要开发人员的确定(严重级别的,或突然发现的在测试用例范围之外的,难以重现的),有些可以直接录制进TD)->开发人员修改(可以在测试过程中快速的修改)->回归测试(可能又会发现新问题,再按流程开始跑)。

    77、当开发人员说不是BUG时,你如何应付?

    参考答案:

      开发人员说不是bug,有2种情况,一是需求没有确定,所以我可以这么做,这个时候可以找来产品经理进行确认,需不需要改动,3方商量确定好后再看要不要改。二是这种情况不可能发生,所以不需要修改,这个时候,我可以先尽可能的说出是BUG的依据是什么?如果被用户发现或出了问题,会有什么不良结果?程序员可能会给你很多理由,你可以对他的解释进行反驳。如果还是不行,那我可以给这个问题提出来,跟开发经理和测试经理进行确认,如果要修改就改,如果不要修改就不改。其实有些真的不是bug,我也只是建议的方式写进TD中,如果开发人员不修改也没有大问题。如果确定是bug的话,一定要坚持自己的立场,让问题得到最后的确认。

    78、软件的构造号与版本号之间的区别?BVT(BuildVerificationTest)

    参考答案:版本控制命名格式: 主版本号.子版本号[.修正版本号[.编译版本号 ]]

    Major.Minor [.Revision[.Build]]

          应根据下面的约定使用这些部分:

    Major :具有相同名称但不同主版本号的程序集不可互换。例如,这适用于对产品的大量重写,这些重写使得无法实现向后兼容性。

    Minor :如果两个程序集的名称和主版本号相同,而次版本号不同,这指示显著增强,但照顾到了向后兼容性。例如,这适用于产品的修正版或完全向后兼容的新版本。

    Build :内部版本号的不同表示对相同源所作的重新编译。这适合于更改处理器、平台或编译器的情况。

    Revision :名称、主版本号和次版本号都相同但修订号不同的程序集应是完全可互换的。这适用于修复以前发布的程序集中的安全漏洞。

    BVT(BuildVerificationTest):

    作为Build的一部分,主要是通过对基本功能、特别是关键功能的测试,保证新增代码没有导致功能失效,保证版本的持续稳定。实现BVT方式是有以下几种:1、测试人员手工验证关键功能实现的正确性。特点:这是传统开发方法中,通常采用的方式。无需维护测试脚本的成本,在测试人力资源充足,测试人员熟悉业务、并对系统操作熟练情况下效率很高,比较灵活快速。缺点:人力成本较高;对测试人员能力有一定要求;测试人员面对重复的工作,容易产生疲倦懈怠,从而影响测试质量。2、借助基于GUI的自动化功能测试工具来完成,将各基本功能操作录制成测试脚本,每次回放测试脚本验证功能实现的正确性。特点:能够模拟用户操作完成自动的测试,从UI入口到业务实现,每一层的代码实现都经过验证;节约人力成本;降低测试人员重复劳动的工作量,机器不会疲倦;缺点:对于UI变动比较频繁的系统来说,这种方式的维护成本很高,实施起来非常困难。另外,在项目周期较短且后续无延续性或继承的情况下,也不推荐使用此方式。3、由开发人员通过自动化测试工具完成业务层的BVT测试。特点:通过对业务层关键功能的持续集成测试,保证系统功能的持续稳定。可以结合DailyBuild,做为Build的一部分,自动实现并输入BVT报告。缺点:仅对业务规则实现的正确性进行了测试,对表现层无法测试到,对于诸如:前台页面控件各种事件响应、页面元素变化等方面的问题无法保证。

    79、您以往的工作中,一条软件缺陷(或者叫Bug)记录都包含了哪些内容?如何提交高质量的软件缺陷(Bug)记录?

    参考答案:

    80、您以往所从事的软件测试工作中,是否使用了一些工具来进行软件缺陷(Bug)的管理?如果有,请结合该工具描述软件缺陷(Bug)跟踪管理的流程。

    参考答案:

    81、您认为性能测试工作的目的是什么?做好性能测试工作的关键是什么?

    参考答案:

    82、单元测试、集成测试、系统测试的侧重点是什么?

           参考答案:

    83、集成测试通常都有那些策略?

    参考答案:

    84、一个缺陷测试报告的组成

    参考答案:

    85、基于WEB信息管理系统测试时应考虑的因素有哪些?

    参考答案:

    86、软件测试项目从什么时候开始,?为什么?

    参考答案:

    87、需求测试注意事项有哪些?

    参考答案:

    88、简述一下缺陷的生命周期

    参考答案:

    89、你在你所在的公司是怎么开展测试工作的?是如何组织的?

    参考答案:

    90、你认为理想的测试流程是什么样子?

    参考答案:

    91、您在从事性能测试工作时,是否使用过一些测试工具?如果有,请试述该工具的工作原理,并以一个具体的工作中的例子描述该工具是如何在实际工作中应用的。

    参考答案:        

    92、软件测试活动的生命周期是什么?

    参考答案:

    93、请画出软件测试活动的流程图?

    参考答案:

    94、针对缺陷采取怎样管理措施?

    参考答案:

    95、什么是测试评估?测试评估的范围是什么?

    参考答案:

    96、如果能够执行完美的黑盒测试,还需要进行白盒测试吗?为什么?

    参考答案:

    97、测试结束的标准是什么?

    参考答案:

    98、软件验收测试除了alpha ,beta测试以外,还有哪一种?

    参考答案:

    99、做测试多久了?以前做过哪些项目?你们以前测试的流程是怎样的?用过哪些测试工具?

    参考答案:

    100、请就如何在开发中进行软件质量控制说说你的看法

    参考答案:

    101、一套完整的测试应该由哪些阶段组成?分别阐述一下各个阶段。

    102、软件测试的类型有那些?分别比较这些不同的测试类型的区别与联系。

    103、测试用例通常包括那些内容?着重阐述编制测试用例的具体做法

    104、在分别测试winform的C/S结构与测试WEB结构的软件是,应该采取什么样的方法分别测试?他们存在什么样的区别与联系?

    105、在测试winform的C/S结构软件时,发现这个软件的运行速度很慢,您会认为是什么原因?您会采取哪些方法去检查这个原因?

    106、描述使用bugzilla缺陷管理工具对软件缺陷(BUG)跟踪的管理的流程

    107、你都用什么测试方法

    针对不同的产品或者系统或者模块,有不同的测试方法。总体而言有白盒测试和黑盒测试。

    108、怎么编写案例

    案例的编写与测试阶段的定义有很大的关系。系统测试和unit测试的案例可能不同。总体而言测试案例根据系统的需求而定。

    109、怎么才能够全面的测试到每一个点

    测试的全面性主要需要在设计测试计划的时候考虑,从测试策略,产品需求等等多个角度考虑从而定义全部的测试点。

    110、谈谈软件测试技术,以及如何提高

    111、谈谈软件测试职业发展,以及个人的打算

    112、谈谈软件测试在企业的地位,也可以结合软件生命周期来谈

    113、一般公司里实际的软件测试流程是什么样的?你们公司又是怎样的?

    114、软件工程师要具有那些素质?

    115、你会哪些测试工具?怎么操作?

    116、你能不能说下你的3到5年的职业计划(规划)

    117、你觉得你来应聘有那些优势?

    其他问题:(有可能清晰的思路比确切的答案更重要)

    对测试的理解——考查点:基本的测试知识,对测试是否认可

    谈一谈过去自己的工作——考查点:了解经历、提供进一步提问的素材,表达能力、测试技能

    测试设计的方法并举例说明——考查点:测试技术的使用

    测试工具——考查点:熟悉程度,能否与当前工作匹配?

    如何做计划?如何跟踪计划?——考查点:日常工作能力

    如果开发人员提供的版本不满足测试的条件,如何做?——考查点:与开发人员协作的能力

    熟悉unix系统、oracle数据库吗?——考查点:是否具备系统知识

    做过开发吗?写过哪些代码?——考查点:开发技能

    阅读英语文章,给出理解说明?——考查点:部分英语能力

    文档的意义——考查点:是否善于思考?(最简单的概念,不同层次的理解)

    假如进入我们公司,对我们哪些方面会有帮助?——考查点:讲讲自己的特长

    随便找一件物品,让其测试——考查点:测试的实际操作能力

    有一个新的软件,假如你是测试工程师,该如何做——考查点:实际项目经验、是否有带领测试团队的经验和潜力

    开发及环境搭建类面试题

    1、描述软件产生内存泄露的原因以及检查方式。(可以结合一种开发语言进行描述)

    参考答案:

    内存泄露的原因,主要是由于开发过程当中申请了计算机资源(例如对象、内存等),但是使用资源完成以后没有及时释放资源导致的。例如在C语言当中使用了malloc申请了内存,但是未使用free来释放内存。

    2、简述什么是值传递,什么是地址传递,两者区别是什么?

    参考答案:

    值传递主调函数传递给被调函数的是值的拷贝,不是原值;地址传递主调函数传递给被调函数的是值的地址。区别是值传递被调函数中的操作不改变主调函数的值,而地址传递则不同。

    3、结构化程序设计和面向对象程序设计各自的特点及优缺点是什么?

    参考答案:(不需要回答如此复杂)

    结构化程序设计思想采用了模块分解与功能抽象和自顶向下、分而治之的方法,从而有效地将一个较复杂的程序系统设计任务分解成许多易于控制和处理的子程序,便于开发和维护。它的重点在于把功能进行分解。但是由于在实际开发过程当中需求会经常发生变化,因此,它不能很好的适应需求变化的开发过程。结构化程序设计是面向过程的。

    面向对象程序设计以需求当中的数据作为中心,来进行设计,具有良好的代码重用性。

    封装性:也叫数据隐藏,用户无需知道内部工作流程,只要知道接口和操作就可以的,C++中一般用类来实现封装。

    继承性:一种支持重用的思想,在现有的类型派生出新的子类,例如新型电视机在原有型号的电视机上增加若干中功能而得到,新型电视机是原有电视机的派生,继承了原有电视机的属性,并增加了新的功能。

    多态性:指在一般类中定义的属性或行为,被特殊类继承之后,可以具有不同的数据类型或表现出不同的行为。

    动态联编:指一个计算机程序自身彼此关联的过程,按照联编所进行的阶段不同,可分为两种不同的联编方法:静态联编和动态联编。

    4、简述什么是存储过程和触发器?

    参考答案:

    存储过程:是数据库中的一个对象,Transact-SQL 语句的预编译集合,这些语句在一个名称下存储并作为一个单元进行处理。(可以理解为C语言中的函数,有参数、返回值等函数特性)

    触发器是一种特殊类型的存储过程,当使用下面的一种或多种数据修改操作在指定表中对数据进行修改时,触发器会生效:UPDATE、INSERT 或 DELETE。

    5、使用C语言编写一个函数,用于交换两个变量的值(地址传递)。

           参考答案:

           void Swap(int *a,int *b)

    {

                  int temp;

                  int temp=*a;

                  int *a=*b;

                  int *b=temp;

    }

    6、请简述DNS、活动目录、域的概念。

    参考答案:

    DNS:域名服务,作用是将网络域名解析成IP地址;

    活动目录:微软提供的目录服务的一种,它存储有关网络上的对象信息,并使管理员和用户更方便的查找和使用这类信息;

    域:网络系统的一个安全边界,在一个域当中,计算机和用户共享一些列的安全信息。

    7、描述TCP/IP协议的层次结构,以及每一层中重要协议。

    参考答案:(可以回答五层结构)

    TCP/IP

    协议

    应用层/Application

    HTTP、SMTP、FTP

    传输层/Transport

    TCP、UDP

    网络层/Network

    IP

    链路层/Link

    ARP、RARP

          

     

     

     

     

     

    8、简述子网掩码的用途。

    参考答案:

        子网掩码主要用来判断两个IP地址是否处在同一个局域网当中;子网掩码是由连续的2进制1组成的。子网掩码和IP地址进行按位与运算后,结果一致,表示处于一个局域网当中,如果不一致,表示不再一个局域网当中,需要寻找路由。

    9、说出4种以上常用的操作系统及其主要的应用范围(微软的操作系统除外)。

    参考答案:

    Linux(Red Hat、SUSE、Debian、Trubo Linux):主要用于搭建各类服务器

    MAC OS:苹果机的操作系统,用于图像处理

    Unix(AIX:IBM服务器的专用操作系统;

    Solaris:Sun操作系统;FreeBSD、NetBSD)

    10、在Linux系统中,一个文件的访问权限是755,其含义是什么?

    参考答案:

           755表示该文件所有者对该文件具有读、写、执行权限,该文件所有者所在组用户及其他用户对该文件具有读和执行权限。

    11、Windows操作系统中PATH环境变量的作用是什么?

    参考答案:

           PATH是Windows操作系统环境变量,PATH作用是用户在命令行窗口执行一个命令,则在PATH变量设置的目录下依次寻找该命令或对应的执行文件,若找到,则执行,若没有找到,则命令行窗口返回无效命令。

    12、Ghost的主要用途和常用方法?

    参考答案:

    Ghost是一个非常著名的硬盘克隆工具。该工具的主要作用是可以将一个硬盘或硬盘中的某个分区原封不动的复制到另一个硬盘或其他的分区中。如果你需要备份启动分区或者是需要在多台机器上安装相应的系统和应用程序,都可以通过Ghost来实现,相信通过这个工具备份,恢复速度和硬盘安装速度会成倍的提高。

    Norton Ghost有一个很大的特点,就是在克隆硬盘时不会改变任何文件信息,程序可以很好的支持FAT16、FAT32以及NTFS格式的文件分配结构(其中包括Windows 2000的文件分配格式),虽然是DOS环境下运行的程序,但工具可支持Win 9x的长文件名特性。

    常用方法包括:硬盘克隆、分区克隆、硬盘或分区克隆成镜像文件等。

    13、在RedHat中,从root用户切到userl用户,一般用什么命令?

    参考答案:su

    su user1  切换到user1,但切换后的当前目录还是root访问的目录

    su – user1 切换到user1,并且当前目录切换到user1的根目录下(/home/user1/)

    14、Linux中,一般怎么隐藏文件?

    参考答案:文件名以一个.开头

    15、如何将自己的本地磁盘(D)做成FTP供远端主机使用?

    参考答案:Windows下安装FTP服务,并将FTP的根目录指向D盘即可。

    16、对RUP.CMM,CMMI,XP,PSP.TSP的认识?

    参考答案:软件过程标准:CMMI、PSP、TSP、RUP、软件工程规范国家标准;(AP、XP、ASD等开发过程思想好像还不能称其为标准)

    RUP(Rational Unified Process)是Rational公司提出的一套开发过程模型,它是一个面向对象软件工程的通用业务流程。它描述了一系列相关的软件工程流程,它们具有相同的结构,即相同的流程构架。RUP 为在开发组织中分配任务和职责提供了一种规范方法,其目标是确保在可预计的时间安排和预算内开发出满足最终用户需求的高品质的软件。RUP具有两个轴,一个轴是时间轴,这是动态的。另一个轴是工作流轴,这是静态的。在时间轴上,RUP划分了四个阶段:初始阶段、细化阶段、构造阶段和发布阶段。每个阶段都使用了迭代的概念。在工作流轴上,RUP设计了六个核心工作流程和三个核心支撑工作流程,核心工作流轴包括:业务建模工作流、需求工作流、分析设计工作流、实现工作流、测试工作流和发布工作流。核心支撑工作流包括:环境工作流、项目管理工作流和配置与变更管理工作流。RUP 汇集现代软件开发中多方面的最佳经验,并为适应各种项目及组织的需要提供了灵活的形式。作为一个商业模型,它具有非常详细的过程指导和模板。但是同样由于该模型比较复杂,因此在模型的掌握上需要花费比较大的成本。尤其对项目管理者提出了比较高的要求。

    CMM(Capability Maturity Model能力成熟度模型) 由美国卡内基-梅隆大学的软件工程研究所(简称SEI)受美国国防部委托,于1991年研究制定,初始的主要目的是为了评价美国国防部的软件合同承包组织的能力,后因为在软件企业应用CMM模型实施过程改进取得较大的成功,所以在全世界范围内被广泛使用,SEI同时建立了主任评估师评估制度,CMM的评估方法为CBA-IPI。CMM的本质是软件管理工程的一个部分。它是对于软件组织在定义,实现,度量,控制和改善其软件过程的进程中各个发展阶段的描述。他通过5个不断进化的层次来评定软件生产的历史与现状:初始层是混沌的过程;可重复层是经过训练的软件过程;定义层是标准一致的软件过程;管理层是可预测的软件过程;优化层是能持续改善的软件过程。

    CMM/PSP/TSP即软件能力成熟度模型/ 个体软件过程/群组软件过程,是1987年美国 Carnegie Mellon 大学软件工程研究所(CMU/SEI)以W.S.Humphrey为首的研究组发表的研究成果"承制方软件工程能力的评估方法"。

    CMMI是SEI于2000年发布的CMM的新版本。CMMI不但包括了软件开发过程改进,还包含系统集成、软硬件采购等方面的过程改进内容。

    CMMI纠正了CMM存在的一些缺点,使其更加适用企业的过程改进实施。CMMI适用SCAMPI评估方法。需要注意的是,SEI没有废除CMM模型,只是停止了CMM评估方法:CBA-IPI。现在如要进行CMM评估,需使用SCAMPI方法。但CMMI模型最终代替CMM模型的趋势不可避免。

    XP (极限编程)规定了一组核心价值和方法,可以让软件开发人员发挥他们的专长:编写代码。XP 消除了大多数重量型过程的不必要产物,通过减慢开发速度、耗费开发人员的精力(例如干特图、状态报告,以及多卷需求文档)从目标偏离。

    XP 的核心价值:交流、简单、反馈、勇气。

    17、DNS是什么,它是如何工作的?

    参考答案:域名解析服务。用于将域名解析为IP,或反和将IP解析为域名。

    客户机可指定DNS服务器来解析,或用本机hosts文件进行解析。

    Windows下配置DNS服务器在《搭建Windows测试环境》中有。

    18、防火墙如何保证安全的?主要有哪些?

    参考答案:防火墙分类1

    从防火墙的软、硬件形式来分的话,防火墙可以分为软件防火墙和硬件防火墙以及芯片级防火墙。

    第一种:软件防火墙

    软件防火墙运行于特定的计算机上,它需要客户预先安装好的计算机操作系统的支持,一般来说这台计算机就是整个网络的网关。俗称“个人防火墙”。软件防火墙就像其它的软件产品一样需要先在计算机上安装并做好配置才可以使用。防火墙厂商中做网络版软件防火墙最出名的莫过于Checkpoint。使用这类防火墙,需要网管对所工作的操作系统平台比较熟悉。

    第二种:硬件防火墙

    这里说的硬件防火墙是指“所谓的硬件防火墙”。之所以加上"所谓"二字是针对芯片级防火墙说的了。它们最大的差别在于是否基于专用的硬件平台。目前市场上大多数防火墙都是这种所谓的硬件防火墙,他们都基于PC架构,就是说,它们和普通的家庭用的PC没有太大区别。在这些PC架构计算机上运行一些经过裁剪和简化的操作系统,最常用的有老版本的Unix、Linux和FreeBSD系统。值得注意的是,由于此类防火墙采用的依然是别人的内核,因此依然会受到OS(操作系统)本身的安全性影响。

    传统硬件防火墙一般至少应具备三个端口,分别接内网,外网和DMZ区(非军事化区),现在一些新的硬件防火墙往往扩展了端口,常见四端口防火墙一般将第四个端口做为配置口、管理端口。很多防火墙还可以进一步扩展端口数目。

    第三种:芯片级防火墙

    芯片级防火墙基于专门的硬件平台,没有操作系统。专有的ASIC芯片促使它们比其他种类的防火墙速度更快,处理能力更强,性能更高。做这类防火墙最出名的厂商有NetScreen、FortiNet、Cisco等。这类防火墙由于是专用OS(操作系统),因此防火墙本身的漏洞比较少,不过价格相对比较高昂。

    防火墙技术虽然出现了许多,但总体来讲可分为“包过滤型”和“应用代理型”两大类。前者以以色列的Checkpoint防火墙和美国Cisco公司的PIX防火墙为代表,后者以美国NAI公司的Gauntlet防火墙为代表。

    (1). 包过滤(Packet filtering)型

    包过滤型防火墙工作在OSI网络参考模型的网络层和传输层,它根据数据包头源地址,目的地址、端口号和协议类型等标志确定是否允许通过。只有满足过滤条件的数据包才被转发到相应的目的地,其余数据包则被从数据流中丢弃。

    包过滤方式是一种通用、廉价和有效的安全手段。之所以通用,是因为它不是针对各个具体的网络服务采取特殊的处理方式,适用于所有网络服务;之所以廉价,是因为大多数路由器都提供数据包过滤功能,所以这类防火墙多数是由路由器集成的;之所以有效,是因为它能很大程度上满足了绝大多数企业安全要求。

    在整个防火墙技术的发展过程中,包过滤技术出现了两种不同版本,称为“第一代静态包过滤”和“第二代动态包过滤”。

    ●第一代静态包过滤类型防火墙

    这类防火墙几乎是与路由器同时产生的,它是根据定义好的过滤规则审查每个数据包,以便确定其是否与某一条包过滤规则匹配。过滤规则基于数据包的报头信息进行制订。报头信息中包括IP源地址、IP目标地址、传输协议(TCP、UDP、ICMP等等)、TCP/UDP目标端口、ICMP消息类型等。

    ●第二代动态包过滤类型防火墙

    这类防火墙采用动态设置包过滤规则的方法,避免了静态包过滤所具有的问题。这种技术后来发展成为包状态监测(Stateful Inspection)技术。采用这种技术的防火墙对通过其建立的每一个连接都进行跟踪,并且根据需要可动态地在过滤规则中增加或更新条目。

    包过滤方式的优点是不用改动客户机和主机上的应用程序,因为它工作在网络层和传输层,与应用层无关。但其弱点也是明显的:过滤判别的依据只是网络层和传输层的有限信息,因而各种安全要求不可能充分满足;在许多过滤器中,过滤规则的数目是有限制的,且随着规则数目的增加,性能会受到很大地影响;由于缺少上下文关联信息,不能有效地过滤如UDP、RPC(远程过程调用)一类的协议;另外,大多数过滤器中缺少审计和报警机制,它只能依据包头信息,而不能对用户身份进行验证,很容易受到“地址欺骗型”攻击。对安全管理人员素质要求高,建立安全规则时,必须对协议本身及其在不同应用程序中的作用有较深入的理解。因此,过滤器通常是和应用网关配合使用,共同组成防火墙系统。

     (2). 应用代理(Application Proxy)型

    应用代理型防火墙是工作在OSI的最高层,即应用层。其特点是完全"阻隔"了网络通信流,通过对每种应用服务编制专门的代理程序,实现监视和控制应用层通信流的作用。其典型网络结构如图所示。

    在代理型防火墙技术的发展过程中,它也经历了两个不同的版本,即:第一代应用网关型代理防火和第二代自适应代理防火墙。

    第一代应用网关(Application Gateway)型防火墙

    这类防火墙是通过一种代理(Proxy)技术参与到一个TCP连接的全过程。从内部发出的数据包经过这样的防火墙处理后,就好像是源于防火墙外部网卡一样,从而可以达到隐藏内部网结构的作用。这种类型的防火墙被网络安全专家和媒体公认为是最安全的防火墙。它的核心技术就是代理服务器技术。

    第二代自适应代理(Adaptive proxy)型防火墙

    它是近几年才得到广泛应用的一种新防火墙类型。它可以结合代理类型防火墙的安全性和包过滤防火墙的高速度等优点,在毫不损失安全性的基础之上将代理型防火墙的性能提高10倍以上。组成这种类型防火墙的基本要素有两个:自适应代理服务器(Adaptive Proxy Server)与动态包过滤器(Dynamic Packet filter)。

    在“自适应代理服务器”与“动态包过滤器”之间存在一个控制通道。在对防火墙进行配置时,用户仅仅将所需要的服务类型、安全级别等信息通过相应Proxy的管理界面进行设置就可以了。然后,自适应代理就可以根据用户的配置信息,决定是使用代理服务从应用层代理请求还是从网络层转发包。如果是后者,它将动态地通知包过滤器增减过滤规则,满足用户对速度和安全性的双重要求。

    代理类型防火墙的最突出的优点就是安全。由于它工作于最高层,所以它可以对网络中任何一层数据通信进行筛选保护,而不是像包过滤那样,只是对网络层的数据进行过滤。

    另外代理型防火墙采取是一种代理机制,它可以为每一种应用服务建立一个专门的代理,所以内外部网络之间的通信不是直接的,而都需先经过代理服务器审核,通过后再由代理服务器代为连接,根本没有给内、外部网络计算机任何直接会话的机会,从而避免了入侵者使用数据驱动类型的攻击方式入侵内部网。

    代理防火墙的最大缺点就是速度相对比较慢,当用户对内外部网络网关的吞吐量要求比较高时,代理防火墙就会成为内外部网络之间的瓶颈。那因为防火墙需要为不同的网络服务建立专门的代理服务,在自己的代理程序为内、外部网络用户建立连接时需要时间,所以给系统性能带来了一些负面影响,但通常不会很明显。

    防火墙分类3

    从防火墙结构上分,防火墙主要有:单一主机防火墙、路由器集成式防火墙和分布式防火墙三种。

    单一主机防火墙是最为传统的防火墙,独立于其它网络设备,它位于网络边界。

    这种防火墙其实与一台计算机结构差不多(如下图),同样包括CPU、内存、硬盘等基本组件,当然主板更是不能少了,且主板上也有南、北桥芯片。它与一般计算机最主要的区别就是一般防火墙都集成了两个以上的以太网卡,因为它需要连接一个以上的内、外部网络。其中的硬盘就是用来存储防火墙所用的基本程序,如包过滤程序和代理服务器程序等,有的防火墙还把日志记录也记录在此硬盘上。虽然如此,但我们不能说它就与我们平常的PC机一样,因为它的工作性质,决定了它要具备非常高的稳定性、实用性,具备非常高的系统吞吐性能。正因如此,看似与PC机差不多的配置,价格甚远。

    随着防火墙技术的发展及应用需求的提高,原来作为单一主机的防火墙现在已发生了许多变化。最明显的变化就是现在许多中、高档的路由器中已集成了防火墙功能,还有的防火墙已不再是一个独立的硬件实体,而是由多个软、硬件组成的系统,这种防火墙,俗称“分布式防火墙”。

    原来单一主机的防火墙由于价格非常昂贵,仅有少数大型企业才能承受得起,为了降低企业网络投资,现在许多中、高档路由器中集成了防火墙功能。如Cisco IOS防火墙系列。但这种防火墙通常是较低级的包过滤型。这样企业就不用再同时购买路由器和防火墙,大大降低了网络设备购买成本。

    分布式防火墙再也不是只是位于网络边界,而是渗透于网络的每一台主机,对整个内部网络的主机实施保护。在网络服务器中,通常会安装一个用于防火墙系统管理软件,在服务器及各主机上安装有集成网卡功能的PCI防火墙卡,这样一块防火墙卡同时兼有网卡和防火墙的双重功能。这样一个防火墙系统就可以彻底保护内部网络。各主机把任何其它主机发送的通信连接都视为“不可信”的,都需要严格过滤。而不是传统边界防火墙那样,仅对外部网络发出的通信请求“不信任”。

    防火墙分类4

    如果按防火墙的应用部署位置分,可以分为边界防火墙、个人防火墙和混合防火墙三大类。

    边界防火墙是最为传统的那种,它们于内、外部网络的边界,所起的作用的对内、外部网络实施隔离,保护边界内部网络。这类防火墙一般都是硬件类型的,价格较贵,性能较好。

    个人防火墙安装于单台主机中,防护的也只是单台主机。这类防火墙应用于广大的个人用户,通常为软件防火墙,价格最便宜,性能也最差。

    混合式防火墙可以说就是“分布式防火墙”或者“嵌入式防火墙”,它是一整套防火墙系统,由若干个软、硬件组件组成,分布于内、外部网络边界和内部各主机之间,既对内、外部网络之间通信进行过滤,又对网络内部各主机间的通信进行过滤。它属于最新的防火墙技术之一,性能最好,价格也最贵。

    防火墙分类5

    如果按防火墙的性能来分可以分为百兆级防火墙和千兆级防火墙两类。

    因为防火墙通常位于网络边界,所以不可能只是十兆级的。这主要是指防火的通道带宽(Bandwidth),或者说是吞吐率。当然通道带宽越宽,性能越高,这样的防火墙因包过滤或应用代理所产生的延时也越小,对整个网络通信性能的影响也就越小。

    19、目前流行的操作的系统有哪些?请举例说明安装操作系统的注意事项?

    参考答案:MS Windows系列:win 98、windows 2000系列、win XP、win 2003 Server、win Vista等等。

    UNIX类:SVRx、FreeBSD、OpenBSD、NetBSD、Solaris、各种Linux等等。Mac OS……

    多重引导时,一般先安装win操作系统,从低版本到高,再安装Linux

    20、简述一下c/s模式或者b/s模式?

    参考答案:C/S模式:客户端/服务器模式。工作原理:Client向Server提交一个请求;Server则使用一些方法处理这个请求,并将效果返回给Client。

    B/S结构,即Browser/Server(浏览器/服务器)结构,是随着Internet技术的兴起,对C/S结构的一种变化或者改进的结构。在这种结构下,用户界面完全通过WWW浏览器实现,一部分事务逻辑在前端实现,但是主要事务逻辑在服务器端实现,形成所谓3-tier结构。B/S结构,主要是利用了不断成熟的WWW浏览器技术,结合浏览器的多种Script语言(VBScript、JavaScript…)和ActiveX技术,用通用浏览器就实现了原来需要复杂专用软件才能实现的强大功能,并节约了开发成本,是一种全新的软件系统构造技术。

    21、TCP/UDP有哪些区别?

    参考答案:TCP-有连接,所以握手过程会消耗资源,过程为可靠连接,不会丢失数据,适合大数据量交换
    UDP-非可靠连接,会丢包,没有校验,速度快,无须握手过程

     
    TCP
    UDP
    是否连接
    面向连接
    面向非连接
    传输可靠性
    可靠的
    不可靠的
    应用场合
    传输大量数据
    少量数据
    速度

    22、ISO模型?HUB、tch、Router是ISO的第几层设备?

    参考答案:从底向上:物理层、数据链路层、网络层、传输层、会话层、表示层和应用层

    HUB:1层(物理层);Switch:2层(数据链路层);Router:3层(网络层)

    23、内存有哪几种存储组织结构.请分别加以说明?

    参考答案:

    人力资源面试题

    1、你的测试职业发展是什么?你自认为做测试的优势在哪里?

    参考答案:

           测试经验越多,测试能力越高。所以我的职业发展是需要时间累积的,一步步向着高级测试工程师奔去。而且我也有初步的职业规划,前3年累积测试经验,按如何做好测试工程师的要求自己,不断的更新自己改正自己,做好测试任务。

      优势在于我对测试坚定不移的信心和热情,虽然经验还不够,但测试需要的基本技能我有信心在工作中得以发挥。

    2、你为什么想离开目前的职务?

    参考答案:

    3、你对我们公司了解有多少?

    参考答案:

    4、你找工作时,最重要的考虑因素为何?

    参考答案:工作的性质和内容是否能让我发挥所长,并不断成长。

    5、为什么我们应该录取你?

    参考答案:您可以由我过去的工作表现所呈现的客观数据,明显地看出我全力以赴的工作态度。

    6、请谈谈你个人的最大特色。

    参考答案:我的坚持度很高,事情没有做到一个令人满意的结果,绝不罢手。

    7、一个测试工程师应具备那些素质和技能?

    参考答案:

    8、您认为在测试人员同开发人员的沟通过程中,如何提高沟通的效率和改善沟通的效果?维持测试人员同开发团队中其他成员良好的人际关系的关键是什么?

    参考答案:

    9、在您以往的测试工作中,最让您感到不满意或者不堪回首的事情是什么?您是如何来对待这些事情的?

    参考答案:

    10、在即将完成这次笔试前,您是否愿意谈一些自己在以往的学习和工作中获得的工作经验和心得体会?(可以包括软件测试、过程改进、软件开发或者与此无关的其他方面)

    参考答案:

    11、为什么选择测试这行?

    参考答案:

      它是一个新兴的行业,有发展潜力,而且很锻炼人,需要掌握更多的技能,比做开发要更难

      为什么值得他们公司雇用?如果我雇用你,你能给部门带来什么贡献?

        如果明知这样做不对,你还会依主管的指过去做吗

      如果你接到一个客户抱怨的电话,你确知无法解决他的问题,你会怎么处理

      你觉得什么样的人最难相处

      为什么值得他们公司雇用?

        帮助公司提高软件质量和测试部门的技术水平

      如果我雇用你,你能给部门带来什么贡献?

        分享我的测试经验和测试技能,提高测试部门技术水平

      如何从工作中看出你是个自动自觉的人

            自动自觉范围太广

         1. 工作成果

         2. 工作质量  

    12、你的工作通常能在时限内完成吗.(我想问一下就是她问这个问题的动机是什么)

    参考答案:

        在有足够的资源和合理的工作量的情况下,完全可以按时完成,并能比一般人做的更好

    13、通常你对于别人批评你会有什么样的反应

    参考答案:有错即改,无错勉之

    14、如果明知这样做不对,你还会依主管的指过去做吗?

           参考答案:

    15、如果你接到一个客户抱怨的电话,你确知无法解决他的问题,你会怎么处理?

    参考答案:

        弄清楚客户为什么抱怨?是怎么样的问题?

      如果是客服问题,提交客服部门解决

      如果是质量问题,分析原因,下一版本改进

    16、请就软件测试人员应该具备什么样的基本素质说说你的看法。

    参考答案:

    17、你在五年内的个人目标和职业目标分别是什么?

    参考答案:

    分析这个问题是用来了解你的计划能力的,通过这个问题,面试人同时还可以知道你的目标是否符合企业对你的安排。

      错误回答我想在将来的某个时候考虑这个问题。如今企业的领导者更换频繁,我认为做太多的个人计划是荒谬可笑的,不是吗?

      评论这种回答属于令人反感的一类。首先,当有人想了解你的目标时,"将来的某个时候"这种通俗说法并不奏效。其次,认为企业很脆弱,领导者更换频繁,这种说法毫无疑问会令人反感,而且也是不合理的。最后,认为做计划可笑,看不起这个问题,而且反问面试人,这些都注定了这样的求职者最终会失败。

      正确回答从现在起的五年之内,我希望能够在一个很好的职位上待几年,而且最好有一次晋升,然后就期待着下一步。不管是向上提升,还是在企业内横向调动,对我个人来说,我希望找到一家企业——一家愿意做相互投入的企业——待上一段时间。

      评论这个问题没有回答得过分具体(那样可能会产生漏洞),而且它表明你有雄心,并且思考过在企业中的成长方式。通过表达横向调动和向上提升的愿望,表明你是一个有灵活性的人。

    18、你怎样做出自己的职业选择?

    参考答案:

           分析 面试人提出这个问题是为了了解求职者的动机,看看他(她)应聘这份工作是否有什么历史渊源,是否有职业规划,是不是仅仅在漫无目的地申请很多工作。

      错误回答 我一直都想在企业界工作。自孩提时代起,我就梦想自己至少也要成为大企业的副总裁。

      评论 除了难以令人相信之外,这种回答还存在一个问题:它表明求职者会对副总裁以下的职位不感兴趣。

      正确回答 在上大学四年级前的那个夏天,我决定集中精力在某一领域谋求发展。尽管我是学商业的,但是我不知道自己最终会从事哪一行业的工作。我花了一定的时间考虑自己的目标,想清楚了自己擅长做的事情以及想从工作中得到的东西,最后我得出了一个坚定的结论,那就是这个行业是最适合我的。

      评论 这种回答表明,求职者认真地做过一些计划,缩小了自己的关注点,而且也认准了前进的方向。这种回答还表明,求职者理解个人职业规划的重要性,并且有能力做出认真的个人决策。

     

     

    展开全文
  • 分布式服务框架

    千次阅读 2016-01-29 10:42:11
    第2 章 分布式系统基础设施 chapter 第2 章 分布式系统基础设施 │ 59 一个大型、稳健、成熟的分布式系统的背后,往往会涉及众多的支撑系统,我们将这些支 撑系统称为分布式系统的基础设施。除了前面所介绍的分布式...

    第2 章
    分布式系统基础设施
    chapter
    第2 章 分布式系统基础设施 │ 59
    一个大型、稳健、成熟的分布式系统的背后,往往会涉及众多的支撑系统,我们将这些支撑系统称为 分布式系统的基础设施。除了前面所介绍的 分布式协作及配置管理系统ZooKeeper,我们进行系统架构设计所依赖的基础设施,还包括 分布式缓存系统、持久化存储、分布式消息系统、搜索引擎,以及CDN 系统、负载均衡系统、运维自动化系统等,还有后面章节所要介绍的 实时计算系统、离线计算系统、分布式文件系统、日志收集系统、监控系统、数据仓库等。
    分布式缓存主要用于在高并发环境下,减轻数据库的压力,提高系统的响应速度和并发吞吐。当大量的读、写请求涌向数据库时,磁盘的处理速度与内存显然不在一个量级,因此,在数据库之前加一层缓存,能够显著提高系统的响应速度,并降低数据库的压力。
    作为传统的关系型数据库,MySQL 提供完整的ACID 操作,支持丰富的数据类型、强大的关联查询、where 语句等,能够非常容易地建立查询索引,执行复杂的内连接、外连接、求和、排序、分组等操作,并且支持存储过程、函数等功能,产品成熟度高,功能强大。但是,对于
    需要应对高并发访问并且存储海量数据的场景来说,出于对性能的考虑,不得不放弃很多传统关系型数据库原本强大的功能,牺牲了系统的易用性,并且使得系统的设计和管理变得更为复杂。这也使得在过去几年中,流行着另一种新的存储解决方案——NoSQL,它与传统的关系型
    数据库最大的差别在于,它不使用SQL 作为查询语言来查找数据,而采用key-value 形式进行查找,提供了更高的查询效率及吞吐,并且能够更加方便地进行扩展,存储海量数据,在数千个节点上进行分区,自动进行数据的复制和备份。
    在分布式系统中,消息作为应用间通信的一种方式,得到了十分广泛的应用。消息可以被保存在队列中,直到被接收者取出,由于消息发送者不需要同步等待消息接收者的响应,消息的异步接收降低了系统集成的耦合度,提升了分布式系统协作的效率,使得系统能够更快地响

    应用户,提供更高的吞吐。当系统处于峰值压力时,分布式消息队列还能够作为缓冲,削峰填谷,缓解集群的压力,避免整个系统被压垮。垂直化的搜索引擎在分布式系统中是一个非常重要的角色,它既能够满足用户对于全文检索、模糊匹配的需求,解决数据库like 查询效率低下的问题,又能够解决分布式环境下,由于采用分库分表,或者使用NoSQL 数据库,导致无法进行多表关联或者进行复杂查询的问题。

    本章主要介绍和解决如下问题:

     分布式缓存memcache 的使用及分布式策略,包括Hash 算法的选择。
     常见的分布式系统存储解决方案,包括MySQL 的分布式扩展、HBase 的API 及使用
    场景、Redis 的使用等。
     如何使用分布式消息系统 ActiveMQ 来降低系统之间的耦合度,以及进行应用间的通信。
     垂直化的搜索引擎在分布式系统中的使用,包括搜索引擎的基本原理、Lucene 详细的

    使用介绍,以及基于Lucene 的开源搜索引擎工具Solr 的使用。


    60 │ 大型分布式网站架构设计与实践
    2.1 分布式缓存
    在高并发环境下,大量的读、写请求涌向数据库,磁盘的处理速度与内存显然不在一个量级,从减轻数据库的压力和提高系统响应速度两个角度来考虑,一般都会在数据库之前加一层缓存。由于单台机器的内存资源和承载能力有限,并且如果大量使用本地缓存,也会使相同的
    数据被不同的节点存储多份,对内存资源造成较大的浪费,因此才催生出了分布式缓存。本节将详细介绍分布式缓存的典型代表memcache,以及分布式缓存的应用场景。最为典型的场景莫过于分布式session。

    2.1.1 memcache 简介及安装

    memcache1是danga.com 的一个项目,它是一款开源的高性能的分布式内存对象缓存系统,最早是给 LiveJournal2提供服务的,后来逐渐被越来越多的大型网站所采用,用于在应用中减少对数据库的访问,提高应用的访问速度,并降低数据库的负载。
    为了在内存中提供数据的高速查找能力,memcache 使用 key-value 形式存储和访问数据,在内存中维护一张巨大的HashTable,使得对数据查询的时间复杂度降低到O(1),保证了对数据的高性能访问。内存的空间总是有限的,当内存没有更多的空间来存储新的数据时,memcache就会使用LRU(Least Recently Used)算法,将最近不常访问的数据淘汰掉,以腾出空间来存放新的数据。memcache 存储支持的数据格式也是灵活多样的,通过对象的序列化机制,可以将更高层抽象的对象转换成为二进制数据,存储在缓存服务器中,当前端应用需要时,又可以通过二进制内容反序列化,将数据还原成原有对象。
    1. memcache 的安装
    由于 memcache 使用了libevent 来进行高效的网络连接处理,因此在安装memcache 之前,
    需要先安装libevent。
    下载 libevent3,这里采用的是1.4.14 版本的libevent。
    wget https://github.com/downloads/libevent/libevent/libevent-1.4.14bstable.
    tar.gz
    1 memcache 项目地址为http://memcached.org。
    2 LiveJournal,http://www.livejournal.com。
    3 libevent,http://libevent.org。
    第2 章 分布式系统基础设施 │ 61
    解压:
    tar –xf libevent-1.4.14b-stable.tar.gz
    配置、编译、安装libevent:
    ./configure
    make
    62 │ 大型分布式网站架构设计与实践
    sudo make install
    下载memcache,并解压:
    wget http://www.memcached.org/files/memcached-1.4.17.tar.gz
    tar –xf memcached-1.4.17.tar.gz
    配置、编译、安装memcache:
    ./configure
    第2 章 分布式系统基础设施 │ 63
    make
    sudo make install
    64 │ 大型分布式网站架构设计与实践
    2. 启动与关闭memcache
    启动memcache 服务:
    /usr/local/bin/memcached -d -m 10 -u root -l 192.168.136.135 -p 11211 -c 32
    -P /tmp/memcached.pid
    参数的含义如下:
     -d 表示启动的是一个守护进程;
     -m 指定分配给memcache 的内存数量,单位是MB,这里指定的是10 MB。
     -u 指定运行memcache 的用户,这里指定的是root;
     -l 指定监听的服务器的IP 地址;
     -p 设置memcache 监听的端口,这里指定的是11211;
     -c 指定最大允许的并发连接数,这里设置为32;
     -P 指定memcache 的pid 文件保存的位置。
    关闭memcache 服务:
    kill `cat /tmp/memcached.pid`
    2.1.2 memcache API 与分布式
    memcache 客户端与服务端通过构建在TCP 协议之上的memcache 协议4来进行通信,协议
    支持两种数据的传递,这两种数据分别为文本行和非结构化数据。文本行主要用来承载客户端
    的命令及服务端的响应,而非结构化数据则主要用于客户端和服务端数据的传递。由于非结构
    化数据采用字节流的形式在客户端和服务端之间进行传输和存储,因此使用方式非常灵活,缓
    存数据存储几乎没有任何限制,并且服务端也不需要关心存储的具体内容及字节序。
    memcache 协议支持通过如下几种方式来读取/写入/失效数据:
    4 memcache 协议见https://github.com/memcached/memcached/blob/master/doc/protocol.txt。
    第2 章 分布式系统基础设施 │ 65
     set 将数据保存到缓存服务器,如果缓存服务器存在同样的key,则替换之;
     add 将数据新增到缓存服务器,如果缓存服务器存在同样的key,则新增失败;
     replace 将数据替换缓存服务器中相同的key,如果缓存服务器不存在同样的key,则替
    换失败;
     append 将数据追加到已经存在的数据后面;
     prepend 将数据追加到已经存在的数据前面;
     cas 提供对变量的cas 操作,它将保证在进行数据更新之前,数据没有被其他人更改;
     get 从缓存服务器获取数据;
     incr 对计数器进行增量操作;
     decr 对计数器进行减量操作;
     delete 将缓存服务器上的数据删除。
    memcache 官方提供的Memcached-Java-Client5工具包含了对memcache 协议的Java 封装,
    使用它可以比较方便地与缓存服务端进行通信,它的初始化方式如下:
    public static void init(){
    String[] servers = {
    "192.168.136.135:11211"
    };
    SockIOPool pool = SockIOPool.getInstance();
    pool.setServers(servers);//设置服务器
    pool.setFailover(true);//容错
    pool.setInitConn(10);//设置初始连接数
    pool.setMinConn(5);//设置最小连接数
    pool.setMaxConn(25); //设置最大连接数
    pool.setMaintSleep(30);//设置连接池维护线程的睡眠时间
    pool.setNagle(false);//设置是否使用Nagle 算法
    pool.setSocketTO(3000);//设置socket 的读取等待超时时间
    pool.setAliveCheck(true);//设置连接心跳监测开关
    pool.setHashingAlg(SockIOPool.CONSISTENT_HASH);//设置Hash 算法
    pool.initialize();
    }
    通过 SockIOPool,可以设置与后端缓存服务器的一系列参数,如服务器地址、是否采用容
    5 Memcached-Java-Client,https://github.com/gwhalin/Memcached-Java-Client。
    66 │ 大型分布式网站架构设计与实践
    错、初始连接数、最大连接数、最小连接数、线程睡眠时间、是否使用Nagle 算法、socket 的
    读取等待超时时间、是否心跳检测、Hash 算法,等等。
    使用 Memcached-Java-Client 的API 设置缓存的值:
    MemCachedClient memCachedClient = new MemCachedClient();
    memCachedClient.add("key", 1);
    memCachedClient.set("key", 2);
    memCachedClient.replace("key", 3);
    通过 add()方法新增缓存,如果缓存服务器存在同样的key,则返回false;而通过set()方法
    将数据保存到缓存服务器,缓存服务器如果存在同样的key,则将其替换。replace()方法可以用
    来替换服务器中相同的key 的值,如果缓存服务器不存在这样的key,则返回false。
    使用 Memcached-Java-Client 的API 获取缓存的值:
    Object value = memCachedClient.get("key");
    String[] keys = {"key1","key2"};
    Map<String, Object> values = memCachedClient.getMulti(keys);
    通过 get()方法,可以从服务器获取该key 对应的数据;而使用getMulti()方法,则可以一次
    性从缓存服务器获取一组数据。
    对缓存的值进行append 和prepend 操作:
    memCachedClient.set("key-name", "chenkangxian");
    memCachedClient.prepend("key-name", "hello");
    memCachedClient.append("key-name", "!");
    通过 prepend()方法,可以在对应key 的值前面增加前缀;而通过append()方法,则可以在
    对应的key 的值后面追加后缀。
    对缓存的数据进行cas6操作:
    MemcachedItem item = memCachedClient.gets("key");
    memCachedClient.cas("key", (Integer)item.getValue() + 1,
    item.getCasUnique());
    通过 gets()方法获得key 对应的值和值的版本号,它们包含在MemcachedItem 对象中;然
    后使用cas()方法对该值进行修改,当key 对应的版本号与通过gets 取到的版本号(即
    item.getCasUnique())相同时,则将key 对应的值修改为item.getValue() + 1,这样可以防止并发
    修改所带来的问题。
    6 memcache 的CAS 有点类似Java 的CAS(compare and set)操作,关于Java 的CAS 操作,第4 章会有
    详细介绍。
    第2 章 分布式系统基础设施 │ 67
    对缓存的数据进行增量与减量操作:
    memCachedClient.incr("key",1);
    memCachedClient.decr("key",1);
    使用 incr()方法可以对key 对应的值进行增量操作,而使用decr()方法则可以对key 对应的
    值进行减量操作。
    memcache 本身并不是一种分布式的缓存系统,它的分布式是由访问它的客户端来实现的。一种比较简单的实现方式是根据缓存的key 来进行Hash,当后端有N 台缓存服务器时,访问的服务器为hash(key)%N,这样可以将前端的请求均衡地映射到后端的缓存服务器,如图2-1 所示。
    但这样也会导致一个问题,一旦后端某台缓存服务器宕机,或者是由于集群压力过大,需要新增缓存服务器时,大部分的key 将会重新分布。对于高并发系统来说,这可能会演变成一场灾难,所有的请求将如洪水般疯狂地涌向后端的数据库服务器,而数据库服务器的不可用,将会
    导致整个应用的不可用,形成所谓的“雪崩效应”。

    图2-1 memcache 集群采用hash(key)%N 进行分布
    使用consistent Hash 算法能够在一定程度上改善上述问题。该算法早在1997 年就在论文
    68 │ 大型分布式网站架构设计与实践
    Consistent hashing and random trees7中被提出,它能够在移除/添加一台缓存服务器时,尽可能小
    地改变已存在的key 映射关系,避免大量key 的重新映射。
    consistent Hash 的原理是这样的,它将Hash 函数的值域空间组织成一个圆环,假设Hash
    函数的值域空间为0~232-1(即Hash 值是一个32 位的无符号整型),整个空间按照顺时针方向
    进行组织,然后对相应的服务器节点进行Hash,将它们映射到Hash 环上,假设有4 台服务器,
    分别为node1、node2、node3、node4,它们在环上的位置如图2-2 所示。
    图2-2 consistent Hash 的原理
    接下来使用相同的Hash 函数,计算出对应的key 的Hash 值在环上对应的位置。根据
    consistent Hash 算法,按照顺时针方向,分布在node1 与node2 之间的key,它们的访问请求会
    被定位到node2,而node2 与node4 之间的key,访问请求会被定为到node4,以此类推。
    假设有新节点node5 增加进来时,假设它被Hash 到node2 和node4 之间,如图2-3 所示。
    那么受影响的只有node2 和node5 之间的key,它们将被重新映射到node5,而其他key 的映射
    关系将不会发生改变,这样便避免了大量key 的重新映射。
    当然,上面描绘的只是一种理想的情况,各个节点在环上分布得十分均匀。正常情况下,
    当节点数量较少时,节点的分布可能十分不均匀,从而导致数据访问的倾斜,大量的key 被映
    射到同一台服务器上。为了避免这种情况的出现,可以引入虚拟节点机制,对每一个服务器节
    点都计算多个Hash 值,每一个Hash 值都对应环上一个节点的位置,该节点称为虚拟节点,而
    key 的映射方式不变,只是多了一步从虚拟节点再映射到真实节点的过程。这样,如果虚拟节
    7 consistent hash,http://dl.acm.org/citation.cfm?id=258660。
    第2 章 分布式系统基础设施 │ 69
    点的数量足够多,即使只有很少的实际节点,也能够使key 分布得相对均衡。
    图2-3 当新节点加入时的情景8
    2.1.3 分布式session
    传统的应用服务器,如tomcat、jboss 等,其自身所实现的session 管理大部分都是基于单
    机的。对于大型分布式网站来说,支撑其业务的远远不止一台服务器,而是一个分布式集群,
    请求在不同服务器之间跳转。那么,如何保持服务器之间的session 同步呢?传统网站一般通过
    将一部分数据存储在cookie 中,来规避分布式环境下session 的操作。这样做的弊端很多,一方
    面cookie 的安全性一直广为诟病,另一方面cookie 存储数据的大小是有限制的。随着移动互联
    网的发展,很多情况下还得兼顾移动端的session 需求,使得采用cookie 来进行session 同步的
    方式的弊端更为凸显。分布式session 正是在这种情况下应运而生的。
    对于系统可靠性要求较高的用户,可以将session 持久化到DB 中,这样可以保证宕机时会
    话不易丢失,但缺点也是显而易见的,系统的整体吞吐将受到很大的影响。另一种解决方案便
    是将session 统一存储在缓存集群上,如memcache,这样可以保证较高的读、写性能,这一点
    对于并发量大的系统来说非常重要;并且从安全性考虑,session 毕竟是有有效期的,使用缓存
    存储,也便于利用缓存的失效机制。使用缓存的缺点是,一旦缓存重启,里面保存的会话也就
    丢失了,需要用户重新建立会话。
    如图 2-4 所示,前端用户请求经过随机分发之后,可能会命中后端任意的Web Server,并
    8 图片来源http://blog.charlee.li/content/images/2008/Jul/memcached-0004-05.png。
    70 │ 大型分布式网站架构设计与实践
    且 Web Server 也可能会因为各种不确定的原因宕机。在这种情况下,session 是很难在集群间同
    步的,而通过将session 以sessionid 作为key,保存到后端的缓存集群中,使得不管请求如何分
    配,即便是Web Server 宕机,也不会影响其他Web Server 通过sessionid 从Cache Server 中获得
    session,这样既实现了集群间的session 同步,又提高了Web Server 的容错性。
    图2-4 基于缓存的分布式session 架构
    这里以 Tomcat 作为Web Server 来举例,通过一个简单的工具memcached-session- manager9,
    实现基于memcache 的分布式session。
    memcached-session-manager 是一个开源的高可用的Tomcat session 共享解决方案,它支持
    Sticky 模式和Non-Sticky 模式。Sticky 模式表示每次请求都会被映射到同一台后端Web Server,
    直到该Web Server 宕机,这样session 可先存放在服务器本地,等到请求处理完成再同步到后端
    memcache 服务器;而当Web Server 宕机时,请求被映射到其他Web Server,这时候,其他Web
    Server 可以从后端memcache 中恢复session。对于Non-Sticky 模式来说,请求每次映射的后端
    Web Server 是不确定的,当请求到来时,从memcache 中加载session;当请求处理完成时,将
    9 memcached-session-manager,https://code.google.com/p/memcached-session-manager。
    第2 章 分布式系统基础设施 │ 71
    session 再写回到memcache。
    以 Non-Sticky 模式为例,它需要给Tomcat 的$CATALINA_HOME/conf/context.xml 文件配
    置SessionManager,具体配置如下:
    <Manager className="de.javakaffee.web.msm.MemcachedBackupSessionManager"
    memcachedNodes="n1:192.168.0.100:11211,n2:192.168.0.101:11211"
    sticky="false"
    sessionBackupAsync="false"
    lockingMode="auto"
    requestUriIgnorePattern=".*\.(ico|png|gif|jpg|css|js)$"
    transcoderFactoryClass="de.javakaffee.web.msm.serializer.kryo.KryoTranscoderFactory"
    />
    其中:memcachedNodes 指定了memcache 的节点;sticky 表示是否采用Sticky 模式;
    sessionBackupAsync 表示是否采用异步方式备份session;lockingMode 表示session 的锁定模式;
    auto 表示对于只读请求,session 将不会被锁定,如果包含写入请求,则session 会被锁定;
    requestUriIgnorePattern 表示忽略的url;transcoderFactoryClass 用来指定序列化的方式,这里采用
    的是Kryo 序列化,也是memcached-session-manager 比较推荐的一种序列化方式。
    memcached-session-manager 依赖于memcached-session-manager-${version}.jar,如果使用的是
    tomcat6,则还需要下载memcached-session-manager-tc6-${version}.jar,并且它还依赖memcached-
    ${version}.jar 进行memcache 的访问。在启动Tomcat 之前,需要将这些jar 放在$CATALINA_
    HOME/lib/目录下。如果使用第三方序列化方式,如Kryo,还需要在Web 工程中引入相关的第三方
    库,Kryo 序列化所依赖的库,包括kryo-${version}-all.jar 、kryo-serializers-${version}.jar 和
    msm-kryo-serializer. ${version}.jar。
    2.2 持久化存储
    随着科技的不断发展,越来越多的人开始参与到互联网活动中来,人们在网络上的活动,
    如发表心情动态、微博、购物、评论等,这些信息最终被转变成二进制字节的数据存储下来。
    面对并发访问量的激增和数据量几何级的增长,如何存储正在迅速膨胀并且不断累积的数据,
    以及应对日益增长的用户访问频次,成为了亟待解决的问题。
    传统的 IOE10解决方案,使用和扩展的成本越来越高,使得互联网企业不得不思考新的解决
    方案。开源软件加廉价PC Server 的分布式架构,得益于社区的支持。在节约成本的同时,也给
    系统带来了良好的扩展能力,并且由于开源软件的代码透明,使得企业能够以更低的代价定制
    10 I 表示IBM 小型机,O 表示oracle 数据库,E 表示EMC 高端存储。
    72 │ 大型分布式网站架构设计与实践
    更符合自身使用场景的功能,以提高系统的整体性能。本节将介绍互联网领域常见的三种数据
    存储方式,包括传统关系型数据库MySQL、Google 所提出的bigtable 概念及其开源实现HBase,
    以及包含丰富数据类型的key-value 存储Redis。
    作为传统的关系型数据库,MySQL 提供完整的ACID 操作,支持丰富的数据类型、强大的关联查询、where 语句等,能够非常容易地建立查询索引,执行复杂的内连接、外连接、求和、排序、分组等操作,并且支持存储过程、函数等功能,产品成熟度高,功能强大。对于大多数中小规模的应用来说,关系型数据库拥有强大完整的功能,以及提供的易用性、灵活性和产品成熟度,地位很难被完全替代。 但是,对于需要应对高并发访问并且存储海量数据的场景来说,出于性能的考虑,不得不放弃很多传统关系型数据的功能,如关联查询、事务、数据一致性(由
    强一致性降为最终一致性);并且由于对数据存储进行拆分,如分库分表,以及进行反范式设计,以提高系统的查询性能,使得我们放弃了关系型数据库大部分原本强大的功能,牺牲了系统的易用性,并且使得系统的设计和管理变得更为复杂

    过去几年中,流行着一种新的存储解决方案,NoSQL、HBase 和Redis 作为其中较为典型的代表,各自都得到了较为广泛的使用,它们各自都具有比较鲜明的特性。与传统的关系型数据库相比,HBase 有更好的伸缩能力,更适合于海量数据的存储和处理,并且HBase 能够支持
    多个Region Server 同时写入,并发写入性能十分出色。但HBase 本身所支持的查询维度有限,难以支持复杂的条件查询,如group by、order by、join 等,这些特点使它的应用场景受到了限制。对于Redis 来说,它拥有更好的读/写吞吐能力,能够支撑更高的并发数,而相较于其他的key-value 类型的数据库,Redis 能够提供更为丰富的数据类型支持,能更灵活地满足业务需求。
    2.2.1 MySQL 扩展
    随着互联网行业的高速发展,使得采用诸如IOE 等商用存储解决方案的成本不断攀升,越
    来越难以满足企业高速发展的需要;因此,开源的存储解决方案开始逐渐受到青睐,并成为互
    联网企业数据存储的首选方案。
    以 MySQL 为例,它作为开源关系型数据库的典范,正越来越广泛地被互联网企业所使用。
    企业可以根据业务规模的不同的阶段,选择采用不同的系统架构,以应对逐渐增长的访问压力
    和数据量;并且随着业务的发展,需要提前做好系统的容量规划,在系统的处理能力还未达到
    极限时,对系统进行扩容,以免带来损失。

    1. 业务拆分

    业务发展初期为了便于快速迭代,很多应用都采用集中式的架构。随着业务规模的扩展,
    使系统变得越来越复杂,越来越难以维护,开发效率越来越低,并且系统的资源消耗也越来越
    大,通过硬件提升性能的成本也越来越高。因此,系统业务的拆分是难以避免的。
    第2 章 分布式系统基础设施 │ 73
    举例来说,假设某门户网站,它包含了新闻、用户、帖子、评论等几大块内容,对于数据
    库来说,它可能包含这样几张表,如news、users、post、comment,如图2-5 所示。
    图2-5 single DB 的拆分
    随着业务的不断发展,单个库的访问量越来越大,因此,不得不对业务进行拆分。每一块
    业务都使用单独的数据库来进行存储,前端不同的业务访问不同的数据库,这样原本依赖单库
    的服务,变成4 个库同时承担压力,吞吐能力自然就提高了。
    顺带说一句,业务拆分不仅仅提高了系统的可扩展性,也带来了开发工作效率的提升。原
    来一次简单修改,工程启动和部署可能都需要很长时间,更别说开发测试了。随着系统的拆分,
    单个系统复杂度降低,减轻了应用多个分支开发带来的分支合并冲突解决的麻烦,不仅大大提
    高了开发测试的效率,同时也提升了系统的稳定性。
    2. 复制策略
    架构变化的同时,业务也在不断地发展,可能很快就会发现,随着访问量的不断增加,拆
    分后的某个库压力越来越大,马上就要达到能力的瓶颈,数据库的架构不得不再次进行变更,
    这时可以使用MySQL 的replication(复制)策略来对系统进行扩展。
    通过数据库的复制策略,可以将一台 MySQL 数据库服务器中的数据复制到其他MySQL
    数据库服务器上。当各台数据库服务器上都包含相同数据时,前端应用通过访问MySQL 集群
    中任意一台服务器,都能够读取到相同的数据,这样每台MySQL 服务器所需要承担的负载就
    会大大降低,从而提高整个系统的承载能力,达到系统扩展的目的。
    如图 2-6 所示,要实现数据库的复制,需要开启Master 服务器端的Binary log。数据复制的
    74 │ 大型分布式网站架构设计与实践
    过程实际上就是Slave 从master 获取binary log,然后再在本地镜像的执行日志中记录的操作。
    由于复制过程是异步的,因此Master 和Slave 之间的数据有可能存在延迟的现象,此时只能够
    保证数据最终的一致性。
    图2-6 MySQL 的Master 与Slave 之间数据同步的过程11
    MySQL 的复制可以基于一条语句(statement level),也可以基于一条记录(row level)。通
    过row level 的复制,可以不记录执行的SQL 语句相关联的上下文信息,只需要记录数据变更
    的内容即可。但由于每行的变更都会被记录,这样可能会产生大量的日志内容,而使用statement
    level 则只是记录修改数据的SQL 语句,减少了binary log 的日志量,节约了I/O 成本。但是,
    为了让SQL 语句在Slave 端也能够正确地执行,它还需要记录SQL 执行的上下文信息,以保证
    所有语句在Slave 端执行时能够得到在Master 端执行时的相同结果。
    在实际的应用场景中,MySQL 的Master 与Slave 之间的复制架构有可能是这样的,如图
    2-7 所示。
    前端服务器通过Master 来执行数据写入的操作,数据的更新通过Binary log 同步到Slave
    集群,而对于数据读取的请求,则交由Slave 来处理,这样Slave 集群可以分担数据库读的压力,
    并且读、写分离还保障了数据能够达到最终一致性。一般而言,大多数站点的读数据库操作要
    比写数据库操作更为密集。如果读的压力较大,还可以通过新增Slave 来进行系统的扩展,因
    此,Master-Slave 的架构能够显著地减轻前面所提到的单库读的压力。毕竟在大多数应用中,读
    的压力要比写的压力大得多。
    11 图片来源http://hatemysql.com/wp-content/uploads/2013/04/mysql_replication.png。
    第2 章 分布式系统基础设施 │ 75
    图2-7 Master-Slaves 复制架构
    Master-Slaves 复制架构存在一个问题,即所谓的单点故障。当Master 宕机时,系统将无法
    写入,而在某些特定的场景下,也可能需要Master 停机,以便进行系统维护、优化或者升级。
    同样的道理,Master 停机将导致整个系统都无法写入,直到Master 恢复,大部分情况下这显然
    是难以接受的。为了尽可能地降低系统停止写入的时间,最佳的方式就是采用Dual-Master 架构,
    即Master-Master 架构,如图2-8 所示。
    76 │ 大型分布式网站架构设计与实践
    图 2-8 MySQL Dual-Master 架构
    所谓的 Dual Master,实际上就是两台MySQL 服务器互相将对方作为自己的Master,自己
    作为对方的Slave,这样任何一台服务器上的数据变更,都会通过MySQL 的复制机制同步到另
    一台服务器。当然,有的读者可能会担心,这样不会导致两台互为Master 的MySQL 之间循环
    复制吗?当然不会,这是由于MySQL 在记录Binary log 日志时,记录了当前的server-id,server-id
    在我们配置MySQL 复制时就已经设置好了。一旦有了server-id,MySQL 就很容易判断最初的
    写入是在哪台服务器上发生的,MySQL 不会将复制所产生的变更记录到Binary log,这样就避
    免了服务器间数据的循环复制。
    当然,我们搭建Dual-Master 架构,并不是为了让两个Master 能够同时提供写入服务,这
    样会导致很多问题。举例来说,假如Master A 与Master B 几乎同时对一条数据进行了更新,对
    Master A 的更新比对Master B 的更新早,当对Master A 的更新最终被同步到Master B 时,老版
    本的数据将会把版本更新的数据覆盖,并且不会抛出任何异常,从而导致数据不一致的现象发
    生。在通常情况下,我们仅开启一台Master 的写入,另一台Master 仅仅stand by 或者作为读库
    开放,这样可以避免数据写入的冲突,防止数据不一致的情况发生。
    在正常情况下,如需进行停机维护,可按如下步骤执行Master 的切换操作:
    (1)停止当前Master 的所有写入操作。
    (2)在Master 上执行set global read_only=1,同时更新MySQL 配置文件中相应的配置,
    避免重启时失效。
    (3)在Master 上执行show Master status,以记录Binary log 坐标。
    (4)使用Master 上的Binary log 坐标,在stand by 的Master 上执行select Master_pos_wait(),
    等待stand by Master 的Binary log 跟上Master 的Binary log。
    (5)在stand by Master 开启写入时,设置read_only=0。
    (6)修改应用程序的配置,使其写入到新的Master。
    假如 Master 意外宕机,处理过程要稍微复杂一点,因为此时Master 与stand by Master 上的
    数据并不一定同步,需要将Master 上没有同步到stand by Master 的Binary log 复制到Master 上
    进行replay,直到stand by Master 与原Master 上的Binary log 同步,才能够开启写入;否则,
    这一部分不同步的数据就有可能导致数据不一致。
    3. 分表与分库
    对于大型的互联网应用来说,数据库单表的记录行数可能达到千万级别甚至是亿级,并且
    数据库面临着极高的并发访问。采用Master-Slave 复制模式的MySQL 架构,只能够对数据库的
    读进行扩展,而对数据的写入操作还是集中在Master 上,并且单个Master 挂载的Slave 也不可
    第2 章 分布式系统基础设施 │ 77
    能无限制多,Slave 的数量受到Master 能力和负载的限制。因此,需要对数据库的吞吐能力进
    行进一步的扩展,以满足高并发访问与海量数据存储的需要。
    对于访问极为频繁且数据量巨大的单表来说,我们首先要做的就是减少单表的记录条数,
    以便减少数据查询所需要的时间,提高数据库的吞吐,这就是所谓的分表。在分表之前,首先
    需要选择适当的分表策略,使得数据能够较为均衡地分布到多张表中,并且不影响正常的查询。
    对于互联网企业来说,大部分数据都是与用户关联的,因此,用户id 是最常用的分表字段。
    因为大部分查询都需要带上用户id,这样既不影响查询,又能够使数据较为均衡地分布到各个
    表中12,如图2-9 所示。
    图2-9 user 表按照user_id%256 的策略进行分表
    假设有一张记录用户购买信息的订单表order,由于order 表记录条数太多,将被拆分成256
    张表13。拆分的记录根据user_id%256 取得对应的表进行存储,前台应用则根据对应的
    user_id%256,找到对应订单存储的表进行访问。这样一来,user_id 便成为一个必需的查询条件,
    否则将会由于无法定位数据存储的表而无法对数据进行访问。
    假设 user 表的结构如下:
    create table order(
    order_id bigint(20) primary key auto_increment,
    12 当然,有的场景也可能会出现冷热数据分布不均衡的情况。
    13 拆分后表的数量一般为2 的n 次方。
    78 │ 大型分布式网站架构设计与实践
    user_id bigint(20),
    user_nick varchar(50),
    auction_id bigint(20),
    auction_title bigint(20),
    price bigint(20),
    auction_cat varchar(200),
    seller_id bigint(20),
    seller_nick varchar(50)
    );
    那么分表以后,假设user_id=257,并且auction_id=100,需要根据auction_id 来查询对应的
    订单信息,则对应的SQL 语句如下:
    select * from order_1 where user_id = 257 and auction_id = 100;
    其中,order_1 根据257%256 计算得出,表示分表之后的第1 张order 表。
    分表能够解决单表数据量过大带来的查询效率下降的问题,但是,却无法给数据库的并发
    处理能力带来质的提升。面对高并发的读写访问,当数据库Master 服务器无法承载写操作压力
    时,不管如何扩展Slave 服务器,此时都没有意义了。因此,我们必须换一种思路,对数据库
    进行拆分,从而提高数据库写入能力,这就是所谓的分库。
    与分表策略相似,分库也可以采用通过一个关键字段取模的方式,来对数据访问进行路由,
    如图2-10 所示。
    图2-10 MySQL 分库策略
    还是之前的订单表,假设user_id 字段的值为257,将原有的单库分为256 个库,那么应用
    第2 章 分布式系统基础设施 │ 79
    程序对数据库的访问请求将被路由到第1 个库(257%256=1)。
    有时数据库可能既面临着高并发访问的压力,又需要面对海量数据的存储问题,这时需要
    对数据库即采用分库策略,又采用分表策略,以便同时扩展系统的并发处理能力,以及提升单
    表的查询性能,这就是所谓的分库分表。
    分库分表的策略比前面的仅分库或者仅分表的策略要更为复杂,一种分库分表的路由策略
    如下:
     中间变量=user_id%(库数量×每个库的表数量);
     库=取整(中间变量/每个库的表数量);
     表=中间变量%每个库的表数量。
    同样采用 user_id 作为路由字段,首先使用user_id 对库数量×每个库表的数量取模,得到
    一个中间变量;然后使用中间变量除以每个库表的数量,取整,便得到对应的库;而中间变量
    对每个库表的数量取模,即得到对应的表。分库分表策略如图2-11 所示。
    图2-11 MySQL 分库分表策略
    假设将原来的单库单表order 拆分成256 个库,每个库包含1024 个表,那么按照前面所提
    到的路由策略,对于user_id=262145 的访问,路由的计算过程如下:
     中间变量=262145%(256×1024)=1;
    80 │ 大型分布式网站架构设计与实践
     库=取整(1/1024)=0;
     表=1%1024=1。
    这意味着,对于user_id=262145 的订单记录的查询和修改,将被路由到第0 个库的第1 个
    表中执行。
    数据库经过业务拆分及分库分表之后,虽然查询性能和并发处理能力提高了,但也会带来
    一系列的问题。比如,原本跨表的事务上升为分布式事务;由于记录被切分到不同的库与不同
    的表当中,难以进行多表关联查询,并且不能不指定路由字段对数据进行查询。分库分表以后,
    如果需要对系统进行进一步扩容(路由策略变更),将变得非常不方便,需要重新进行数据迁移。
    相较于 MySQL 的分库分表策略,后面要提到的HBase 天生就能够很好地支持海量数据的
    存储,能够以更友好、更方便的方式支持表的分区,并且HBase 还支持多个Region Server 同时
    写入,能够较为方便地扩展系统的并发写入能力。而通过后面章节所提到的搜索引擎技术,能
    够解决采用业务拆分及分库分表策略后,系统无法进行多表关联查询,以及查询时必须带路由
    字段的问题。搜索引擎能够很好地支持复杂条件的组合查询,通过搜索引擎构建的一张大表,
    能够弥补一部分数据库拆分所带来的问题。
    2.2.2 HBase
    HBase14是Apache Hadoop 项目下的一个子项目,它以Google BigTable15为原型,设计实现
    了高可靠性、高可扩展性、实时读/写的列存储数据库。它的本质实际上是一张稀疏的大表,用
    来存储粗粒度的结构化数据,并且能够通过简单地增加节点来实现系统的线性扩展。
    HBase 运行在分布式文件系统HDFS16之上,利用它可以在廉价的PC Server 上搭建大规模
    结构化存储集群。HBase 的数据以表的形式进行组织,每个表由行列组成。与传统的关系型数
    据库不同的是,HBase 每个列属于一个特定的列族,通过行和列来确定一个存储单元,而每个
    存储单元又可以有多个版本,通过时间戳来标识,如表2-1 所示。
    表 2-1 HBase 表数据的组织形式
    rowkey
    column-family1 column-family2 column-family3
    column1 column2 column3 column1 column2 column1
    key1 … … … … … …
    key2 … … … … … …
    14 HBase 项目地址为https://hbase.apache.org。
    15 著名的Google BigTable 论文,http://research.google.com/archive/bigtable.html。
    16 关于HDFS 的介绍,请参照第5.2 节。
    第2 章 分布式系统基础设施 │ 81
    key3 … … … … … …
    HBase 集群中通常包含两种角色,HMaster 和HRegionServer。当表随着记录条数的增加而
    不断变大后,将会分裂成一个个Region,每个Region 可以由(startkey,endkey)来表示,它包
    含一个startkey 到endkey 的半闭区间。一个HRegionServer 可以管理多个Region,并由HMaster
    来负责HRegionServer 的调度及集群状态的监管。由于Region 可分散并由不同的HRegionServer
    来管理,因此,理论上再大的表都可以通过集群来处理。HBase 集群布署图如图2-12 所示。
    图2-12 HBase 集群部署图17
    1. HBase 安装
    下载 HBase 的安装包,这里选择的版本是0.9618。
    wget http://mirror.bit.edu.cn/apache/hbase/hbase-0.96.1.1/hbase-
    0.96.1.1-hadoop1-bin.tar.gz
    17 图片来源http://dl2.iteye.com/upload/attachment/0073/5412/53da4281-58d4-3f53-8aaf-a09d0c295f05.jpg。
    18 HBase 的版本需要与Hadoop 的版本相兼容,详情请见http://hbase.apache.org/book/configuration.html# hadoop。
    82 │ 大型分布式网站架构设计与实践
    解压安装文件:
    tar -xf hbase-0.96.1.1-hadoop1-bin.tar.gz
    修改配置文件:
    编辑{HBASE_HOME}/conf/hbase-env.sh 文件,设置JAVA_HOME 为Java 的安装目录。
    export JAVA_HOME=/usr/java/
    编辑{HBASE_HOME}/conf/hbase-site.xml 文件,增加如下配置,其中hbase.rootdir 目录用
    于指定HBase 的数据存放位置,这里指定的是HDFS 上的路径,而hbase.cluster.distributed 则指
    定了是否运行在分布式模式下。
    <configuration>
    <property>
    <name>hbase.cluster.distributed</name>
    <value>true</value>
    </property>
    <property>
    <name>hbase.rootdir</name>
    <value>hdfs://localhost:9000/hbase</value>
    </property>
    </configuration>
    启动 HBase:
    完成上述操作后,先启动Hadoop,再启动HBase,就可以进行相应的操作了。
    第2 章 分布式系统基础设施 │ 83
    使用HBase shell:
    ./hbase shell
    查看HBase 集群状态:
    status
    HBase 的基本使用:
    创建一个表,并指定列族的名称,create '表名称'、'列族名称1'、'列族名称2' ……
    例如,create 'user','phone','info'。
    创建 user 表,包含两个列族,一个是phone,一个是info。
    84 │ 大型分布式网站架构设计与实践
    列出已有的表,并查看表的描述:
    list
    describe ‘表名’
    例如,describe ‘user’。
    新增/删除一个列族。
    给表新增一个列族:
    alter '表名',NAME=>'列族名称'
    例如,alter 'user',NAME=>'class'。
    删除表的一个列族:
    alter '表名',NAME=>'列族名称',METHOD=>'delete'
    例如,alter 'user',NAME=>'class',METHOD=>'delete'。
    第2 章 分布式系统基础设施 │ 85
    删除一个表:
    在使用 drop 删除一个表之前,必须先将该表disable:
    disable 'user'
    drop 'user'
    如果没有disable 表而直接使用drop 删除,则会出现如下提示:
    给表添加记录:
    put '表名', 'rowkey','列族名称:列名称','值'
    例如,put 'user','1','info:name','zhangsan'。
    查看数据。
    根据 rowkey 查看数据:
    get '表名称','rowkey'
    例如,get 'user','1'。
    根据rowkey 查看对应列的数据:
    get '表名称','rowkey','列族名称:列名称'
    例如,get 'user','1','info:name'。
    86 │ 大型分布式网站架构设计与实践
    查看表中的记录总数:
    count '表名称'
    例如,count 'user'。
    查看表中所有记录:
    scan '表名称'
    例如,scan 'user'。
    查看表中指定列族的所有记录:
    scan '表名',{COLUMNS => '列族'}
    例如,scan 'user',{COLUMNS => 'info'}。
    查看表中指定区间的所有记录:
    scan '表名称',{COLUMNS => '列族',LIMIT =>记录数, STARTROW => '开始rowkey',
    STOPROW=>'结束rowkey'}
    例如,scan 'user',{COLUMNS => 'info',LIMIT =>5, STARTROW => '2',STOPROW=>'7'}。
    第2 章 分布式系统基础设施 │ 87
    删除数据。
    根据 rowkey 删除列数据:
    delete '表名称','rowkey' ,'列簇名称'
    例如,delete 'user','1','info:name'。
    根据rowkey 删除一行数据:
    deleteall '表名称','rowkey'
    例如,deleteall 'user','2。
    2. HBase API
    除了通过shell 进行操作,HBase 作为分布式数据库,自然也提供程序访问的接口,此处以
    Java 为例。
    首先,需要配置HBase 的HMaster 服务器地址和对应的端口(默认为60000),以及对应的
    ZooKeeper 服务器地址和端口:
    private static Configuration conf = null;
    static {
    conf = HBaseConfiguration.create();
    conf = HBaseConfiguration.create();
    conf.set("hbase.ZooKeeper.property.clientPort", "2181");
    conf.set("hbase.ZooKeeper.quorum", "192.168.136.135");
    conf.set("hbase.master", "192.168.136.135:60000");
    }
    接下来,通过程序来新增user 表,user 表中有三个列族,分别为info、class、parent,如果
    该表已经存在,则先删除该表:
    public static void createTable() throws Exception {
    88 │ 大型分布式网站架构设计与实践
    String tableName = "user";
    HBaseAdmin hBaseAdmin = new HBaseAdmin(conf);
    if (hBaseAdmin.tableExists(tableName)) {
    hBaseAdmin.disableTable(tableName);
    hBaseAdmin.deleteTable(tableName);
    }
    HTableDescriptor tableDescriptor = new
    HTableDescriptor(TableName.valueOf(tableName));
    tableDescriptor.addFamily(new HColumnDescriptor("info"));
    tableDescriptor.addFamily(new HColumnDescriptor("class"));
    tableDescriptor.addFamily(new HColumnDescriptor("parent"));
    hBaseAdmin.createTable(tableDescriptor);
    hBaseAdmin.close();
    }
    将数据添加到user 表,每个列族指定一个列col,并给该列赋值:
    public static void putRow() throws Exception {
    String tableName = "user";
    String[] familyNames = {"info","class","parent"};
    HTable table = new HTable(conf, tableName);
    for(int i = 0; i < 20; i ++){
    for (int j = 0; j < familyNames.length; j++) {
    Put put = new Put(Bytes.toBytes(i+""));
    put.add(Bytes.toBytes(familyNames[j]),
    Bytes.toBytes("col"),
    Bytes.toBytes("value_"+i+"_"+j));
    table.put(put);
    }
    }
    table.close();
    }
    取得 rowkey 为1 的行,并将该行打印出来:
    public static void getRow() throws IOException {
    String tableName = "user";
    String rowKey = "1";
    HTable table = new HTable(conf, tableName);
    Get g = new Get(Bytes.toBytes(rowKey));
    第2 章 分布式系统基础设施 │ 89
    Result r = table.get(g);
    outputResult(r);
    table.close();
    }
    public static void outputResult(Result rs){
    List<Cell> list = rs.listCells();
    System.out.println("row key : " +
    new String(rs.getRow()));
    for(Cell cell : list){
    System.out.println("family: " + new String(cell.getFamily())
    + ", col: " + new String(cell.getQualifier())
    + ", value: " + new String(cell.getValue()) );
    }
    }
    scan 扫描user 表,并将查询结果打印出来:
    public static void scanTable() throws Exception {
    String tableName = "user";
    HTable table = new HTable(conf, tableName);
    Scan s = new Scan();
    ResultScanner rs = table.getScanner(s);
    for (Result r : rs) {
    outputResult(r);
    }
    //设置startrow 和endrow 进行查询
    s = new Scan("2".getBytes(),"6".getBytes());
    rs = table.getScanner(s);
    for (Result r : rs) {
    outputResult(r);
    }
    table.close();
    }
    删除 rowkey 为1 的记录:
    public static void deleteRow( ) throws IOException {
    String tableName = "user";
    String rowKey = "1";
    HTable table = new HTable(conf, tableName);
    90 │ 大型分布式网站架构设计与实践
    List<Delete> list = new ArrayList<Delete>();
    Delete d = new Delete(rowKey.getBytes());
    list.add(d);
    table.delete(list);
    table.close();
    }
    3. rowkey 设计
    要想访问 HBase 的行,只有三种方式,一种是通过指定rowkey 进行访问,另一种是指定
    rowkey 的range 进行scan,再者就是全表扫描。由于全表扫描对于性能的消耗很大,扫描一张
    上亿行的大表将带来很大的开销,以至于整个集群的吞吐都会受到影响。因此,rowkey 设计的
    好坏,将在很大程度上影响表的查询性能,是能否充分发挥HBase 性能的关键。
    举例来说,假设使用HBase 来存储用户的订单信息,我们可能会通过这样几个维度来记录
    订单的信息,包括购买用户的id、交易时间、商品id、商品名称、交易金额、卖家id 等。假设
    需要从卖家维度来查看某商品已售出的订单,并且按照下单时间区间来进行查询,那么订单表
    可以这样设计:
    rowkey:seller_id + auction_id + create_time
    列族:order_info(auction_title,price,user_id)
    使用卖家id+商品id+交易时间作为表的rowkey,列族为order,该列族包含三列,即商品
    标题、价格、购买者id,如图2-13 所示。由于HBase 的行是按照rowkey 来排序的,这样通过
    rowkey 进行范围查询,可以缩小scan 的范围。
    图 2-13 根据rowkey 进行表的scan
    第2 章 分布式系统基础设施 │ 91
    而假设需要从购买者维度来进行订单数据的查询,展现用户购买过的商品,并且按照购买
    时间进行查询分页,那么rowkey 的设计又不同了:
    rowkey:user_id + create_time
    列族:order_info(auction_id,auction_title,price,seller_id)
    这样通过买家id+交易时间区间,便能够查到用户在某个时间范围内因购买所产生的订单。
    但有些时候,我们既需要从卖家维度来查询商品售出情况,又需要从买家维度来查询商品
    购买情况,关系型数据库能够很好地支持类似的多条件复杂查询。但对于HBase 来说,实现起
    来并不是那么的容易。基本的解决思路就是建立一张二级索引表,将查询条件设计成二级索引
    表的rowkey,而存储的数据则是数据表的rowkey,这样就可以在一定程度上实现多个条件的查
    询。但是二级索引表也会引入一系列的问题,多表的插入将降低数据写入的性能,并且由于多
    表之间无事务保障,可能会带来数据一致性的问题19。
    与传统的关系型数据库相比,HBase 有更好的伸缩能力,更适合于海量数据的存储和处理。
    由于多个Region Server 的存在,使得HBase 能够多个节点同时写入,显著提高了写入性能,并
    且是可扩展的。但是,HBase 本身能够支持的查询维度有限,难以支持复杂查询,如group by、
    order by、join 等,这些特点使得它的应用场景受到了限制。当然,这也并非是不可弥补的硬伤,
    通过后面章节所介绍的搜索引擎来构建索引,可以在一定程度上解决HBase 复杂条件组合查询
    的问题。
    2.2.3 Redis
    Redis 是一个高性能的key-value 数据库,与其他很多key-value 数据库的不同之处在于,Redis
    不仅支持简单的键值对类型的存储,还支持其他一系列丰富的数据存储结构,包括strings、
    hashs、lists、sets、sorted sets 等,并在这些数据结构类型上定义了一套强大的API。通过定义
    不同的存储结构,Redis 可以很轻易地完成很多其他key-value 数据库难以完成的任务,如排序、
    去重等。
    1. 安装Redis
    下载Redis 源码安装包:
    wget http://download.redis.io/releases/redis-2.8.8.tar.gz
    19 关于HBase 的二级索引表,华为提供了hindex 的二级索引解决方案,有兴趣的读者可以参考
    https://github.com/Huawei-Hadoop/hindex。
    92 │ 大型分布式网站架构设计与实践
    解压文件:
    tar -xf redis-2.8.8.tar.gz
    编译安装Redis:
    sudo make PREFIX=/usr/local/redis install
    将 Redis 安装到/usr/local/redis 目录,然后,从安装包中找到Redis 的配置文件,将其复制
    到安装的根目录。
    sudo cp redis.conf /usr/local/redis/
    启动Redis Server:
    ./redis-server ../redis.conf
    第2 章 分布式系统基础设施 │ 93
    使用redis-cli 进行访问20:
    ./redis-cli
    2. 使用Redis API
    Redis 的Java client21有很多,这里选择比较常用的Jedis22来介绍Redis 数据访问的API。
    首先,需要对Redis client 进行初始化:
    Jedis redis = new Jedis ("192.168.136.135",6379);
    Redis 支持丰富的数据类型,如strings、hashs、lists、sets、sorted sets 等,这些数据类型都
    有对应的API 来进行操作。比如,Redis 的strings 类型实际上就是最基本的key-value 形式的数
    据,一个key 对应一个value,它支持如下形式的数据访问:
    redis.set("name", "chenkangxian");//设置key-value
    redis.setex("content", 5, "hello");//设置key-value 有效期为5 秒
    20 更多数据访问的命令请参考http://redis.io/commands。
    21 Redis 的clien,http://redis.io/clients。
    22 Jedis 项目地址为https://github.com/xetorthio/jedis。
    94 │ 大型分布式网站架构设计与实践
    redis.mset("class","a","age","25"); //一次设置多个key-value
    redis.append("content", " lucy");//给字符串追加内容
    String content = redis.get("content"); //根据key 获取value
    List<String> list = redis.mget("class","age");//一次取多个key
    通过 set 方法,可以给对应的key 设值;通过get 方法,可以获取对应key 的值;通过setex
    方法可以给key-value 设置有效期;通过mset 方法,一次可以设置多个key-value 对;通过mget
    方法,可以一次获取多个key 对应的value,这样的好处是,可以避免多次请求带来的网络开销,
    提高性能;通过append 方法,可以给已经存在的key 对应的value 后追加内容。
    Redis 的hashs 实际上是一个string 类型的field 和value 的映射表,类似于Map,特别适合
    存储对象。相较于将每个对象序列化后存储,一个对象使用hashs 存储将会占用更少的存储空
    间,并且能够更为方便地存取整个对象:
    redis.hset("url", "google", "www.google.cn");//给Hash 添加key-value
    redis.hset("url", "taobao", "www.taobao.com");
    redis.hset("url", "sina", "www.sina.com.cn");
    Map<String,String> map = new HashMap<String,String>();
    map.put("name", "chenkangxian");
    map.put("sex", "man");
    map.put("age", "100");
    redis.hmset("userinfo", map);//批量设置值
    String name = redis.hget("userinfo", "name");//取Hash 中某个key 的值
    //取Hash 的多个key 的值
    List<String> urllist = redis.hmget("url","google","taobao","sina");
    //取Hash 的所有key 的值
    Map<String,String> userinfo = redis.hgetAll("userinfo");
    通过 hset 方法,可以给一个Hash 存储结构添加key-value 数据;通过hmset 方法,能够一
    次性设置多个值,避免多次网络操作的开销;使用hget 方法,能够取得一个Hash 结构中某个
    key 对应的value;使用hmget 方法,则可以一次性获取得多个key 对应的value;通过hgetAll
    方法,可以将Hash 存储对应的所有key-value 一次性取出。
    Redis 的lists 是一个链表结构,主要的功能是对元素的push 和pop,以及获取某个范围内
    的值等。push 和pop 操作可以从链表的头部或者尾部插入/删除元素,这使得lists 既可以作为栈
    使用,又可以作为队列使用,其中,操作的key 可以理解为链表的名称:
    第2 章 分布式系统基础设施 │ 95
    redis.lpush("charlist", "abc");//在list 首部添加元素
    redis.lpush("charlist", "def");
    redis.rpush("charlist", "hij");//在list 尾部添加元素
    redis.rpush("charlist", "klm");
    List<String> charlist = redis.lrange("charlist", 0, 2);
    redis.lpop("charlist");//在list 首部删除元素
    redis.rpop("charlist");//在list 尾部删除元素
    Long charlistSize = redis.llen("charlist");//获得list 的大小
    通过 lpush 和rpush 方法,分别可以在list 的首部和尾部添加元素;使用lpop 和rpop 方法,
    可以在list 的首部和尾部删除元素,通过lrange 方法,可以获取list 指定区间的元素。
    Redis 的sets 与数据结构的set 相似,用来存储一个没有重复元素的集合,对集合的元素可
    以进行添加和删除的操作,并且能够对所有元素进行枚举:
    redis.sadd("SetMem", "s1");//给set 添加元素
    redis.sadd("SetMem", "s2");
    redis.sadd("SetMem", "s3");
    redis.sadd("SetMem", "s4");
    redis.sadd("SetMem", "s5");
    redis.srem("SetMem", "s5");//从set 中移除元素
    Set<String> set = redis.smembers("SetMem");//枚举出set 的元素
    sadd 方法用来给set 添加新的元素,而srem 则可以对元素进行删除,通过smembers 方法,
    能够枚举出set 中的所有元素。
    sorted sets 是Redis sets 的一个升级版本,它在sets 的基础之上增加了一个排序的属性,该
    属性在添加元素时可以指定,sorted sets 将根据该属性来进行排序, 每次新元素增加后,sorted
    sets 会重新对顺序进行调整。sorted sets 不仅能够通过range 正序对set 取值,还能够通过range
    对set 进行逆序取值,极大地提高了set 操作的灵活性:
    redis.zadd("SortSetMem", 1, "5th");//插入sort set,并指定元素的序号
    redis.zadd("SortSetMem", 2, "4th");
    redis.zadd("SortSetMem", 3, "3th");
    redis.zadd("SortSetMem", 4, "2th");
    redis.zadd("SortSetMem", 5, "1th");
    //根据范围取set
    Set<String> sortset = redis.zrange("SortSetMem", 2, 4);
    96 │ 大型分布式网站架构设计与实践
    //根据范围反向取set
    Set<String> revsortset = redis.zrevrange("SortSetMem", 1, 2);
    通过 zadd 方法来给sorted sets 新增元素,在新增操作的同时,需要指定该元素排序的序号,
    以便进行排序。使用zrange 方法可以正序对set 进行范围取值,而通过zrevrange 方法,则可以
    高效率地逆序对set 进行范围取值。
    相较于传统的关系型数据库,Redis 有更好的读/写吞吐能力,能够支撑更高的并发数。而
    相较于其他的key-value 类型的数据库,Redis 能够提供更为丰富的数据类型的支持,能够更灵
    活地满足业务需求。Redis 能够高效率地实现诸如排序取topN、访问计数器、队列系统、数据
    排重等业务需求,并且通过将服务器设置为cache-only,还能够提供高性能的缓存服务。相较
    于memcache 来说,在性能差别不大的情况下,它能够支持更为丰富的数据类型。
    2.3 消息系统
    在分布式系统中,消息系统的应用十分广泛,消息可以作为应用间通信的一种方式。消息
    被保存在队列中,直到被接收者取出。由于消息发送者不需要同步等待消息接收者的响应,消
    息的异步接收降低了系统集成的耦合度,提升了分布式系统协作的效率,使得系统能够更快地
    响应用户,提供更高的吞吐。当系统处于峰值压力时,分布式消息队列还能够作为缓冲,削峰
    填谷,缓解集群的压力,避免整个系统被压垮。
    开源的消息系统有很多,包括Apache 的ActiveMQ,Apache 的Kafka、RabbitMQ、memcacheQ
    等,本节将通过Apache 的ActiveMQ 来介绍消息系统的使用与集群架构。
    2.3.1 ActiveMQ & JMS
    ActiveMQ 是Apache 所提供的一个开源的消息系统,完全采用Java 来实现,因此,它能够
    很好地支持J2EE 提出JMS 规范。JMS(Java Message Service,即Java 消息服务)是一组Java
    应用程序接口,它提供消息的创建、发送、接收、读取等一系列服务。JMS 定义了一组公共应
    用程序接口和相应的语法,类似于Java 数据库的统一访问接口JDBC,它是一种与厂商无关的
    API,使得Java 程序能够与不同厂商的消息组件很好地进行通信。
    JMS 支持的消息类型包括简单文本(TextMessage)、可序列化的对象(ObjectMessage)、键
    值对(MapMessage)、字节流(BytesMessage)、流(StreamMessage),以及无有效负载的消息
    (Message)等。消息的发送是异步的,因此,消息的发布者发送完消息之后,不需要等待消息
    接收者立即响应,这样便提高了分布式系统协作的效率。
    第2 章 分布式系统基础设施 │ 97
    JMS 支持两种消息发送和接收模型。一种称为Point-to-Point(P2P)模型,即采用点对点
    的方式发送消息。P2P 模型是基于queue(队列)的,消息生产者发送消息到队列,消息消费者
    从队列中接收消息,队列的存在使得消息的异步传输称为可能,P2P 模型在点对点的情况下进
    行消息传递时采用。另一种称为Pub/Sub(Publish/Subscribe,即发布/订阅)模型,发布/订阅模
    型定义了如何向一个内容节点发布和订阅消息,这个内容节点称为topic(主题)。主题可以认
    为是消息传递的中介,消息发布者将消息发布到某个主题,而消息订阅者则从主题订阅消息。
    主题使得消息的订阅者与消息的发布者互相保持独立,不需要进行接触即可保证消息的传递,
    发布/订阅模型在消息的一对多广播时采用。
    如图 2-14 所示,对于点对点消息传输模型来说,多个消息的生产者和消息的消费者都可以
    注册到同一个消息队列,当消息的生产者发送一条消息之后,只有其中一个消息消费者会接收
    到消息生产者所发送的消息,而不是所有的消息消费者都会收到该消息。
    图2-14 点对点消息传输模型
    如图2-15 所示,对于发布/订阅消息传输模型来说,消息的发布者需将消息投递给topic,
    而消息的订阅者则需要在相应的topic 进行注册,以便接收相应topic 的消息。与点对点消息传
    输模型不同的是,消息发布者的消息将被自动发送给所有订阅了该topic 的消息订阅者。当消息
    订阅者某段时间由于某种原因断开了与消息发布者的连接时,这个时间段内的消息将会丢失,
    除非将消息的订阅模式设置为持久订阅(durable subscription),这时消息的发布者将会为消息
    的订阅者保留这段时间所产生的消息。当消息的订阅者重新连接消息发布者时,消息订阅者仍
    然可以获得这部分消息,而不至于丢失这部分消息。
    98 │ 大型分布式网站架构设计与实践
    图 2-15 发布/订阅消息传输模型
    1. 安装ActiveMQ
    由于ActiveMQ 是纯Java 实现的,因此ActiveMQ 的安装依赖于Java 环境,关于Java 环境
    的安装此处就不详细介绍了,请读者自行查阅相关资料。
    下载 ActiveMQ:
    wget http://apache.dataguru.cn/activemq/apache-activemq/5.9.0/apacheactivemq-
    5.9.0-bin.tar.gz
    解压安装文件:
    tar -xf apache-activemq-5.9.0-bin.tar.gz
    相关的配置放在{ACTIVEMQ_HOME}/conf 目录下,可以对配置文件进行修改:
    ls /usr/activemq
    第2 章 分布式系统基础设施 │ 99
    启动 ActiveMQ:
    ./activemq start
    2. 通过JMS 访问ActiveMQ
    ActiveMQ 实现了JMS 规范提供的一系列接口,如创建Session、建立连接、发送消息等,
    通过这些接口,能够实现消息发送、消息接收、消息发布、消息订阅的功能。
    使用 JMS 来完成ActiveMQ 基于queue 的点对点消息发送:
    ConnectionFactory connectionFactory = new
    ActiveMQConnectionFactory(
    ActiveMQConnection.DEFAULT_USER,
    ActiveMQConnection.DEFAULT_PASSWORD,
    "tcp://192.168.136.135:61616");
    Connection connection = connectionFactory
    .createConnection();
    connection.start();
    Session session = connection.createSession
    (Boolean.TRUE,Session.AUTO_ACKNOWLEDGE);
    Destination destination = session
    .createQueue("MessageQueue");
    MessageProducer producer = session.createProducer(destination);
    producer.setDeliveryMode(DeliveryMode.NON_PERSISTENT);
    ObjectMessage message = session
    .createObjectMessage("hello everyone!");
    producer.send(message);
    session.commit();
    创 建 一 个ActiveMQConnectionFactory , 通过ActiveMQConnectionFactory 来创建到
    ActiveMQ 的连接,通过连接创建Session。创建Session 时有两个非常重要的参数,第一个boolean
    100 │ 大型分布式网站架构设计与实践
    类型的参数用来表示是否采用事务消息。如果消息是事务的,对应的该参数设置为true,此时
    消息的提交自动由comit 处理,消息的回滚则自动由rollback 处理。假如消息不是事务的,则对
    应的该参数设置为false,此时分为三种情况,Session.AUTO_ACKNOWLEDGE 表示Session 会
    自动确认所接收到的消息;而Session.CLIENT_ACKNOWLEDGE 则表示由客户端程序通过调
    用消息的确认方法来确认所收到的消息;Session.DUPS_OK_ACKNOWLEDGE 这个选项使得
    Session 将“懒惰”地确认消息,即不会立即确认消息,这样有可能导致消息重复投递。Session
    创建好以后,通过Session 创建一个queue,queue 的名称为MessageQueue,消息的发送者将会
    向这个queue 发送消息。
    基于 queue 的点对点消息接收类似:
    ConnectionFactory connectionFactory = new
    ActiveMQConnectionFactory(
    ActiveMQConnection.DEFAULT_USER,
    ActiveMQConnection.DEFAULT_PASSWORD,
    "tcp://192.168.136.135:61616");
    Connection connection = connectionFactory
    .createConnection();
    connection.start();
    Session session = connection.createSession(Boolean.FALSE,
    Session.AUTO_ACKNOWLEDGE);
    Destination destination= session
    .createQueue("MessageQueue");
    MessageConsumer consumer = session
    .createConsumer(destination);
    while (true) {
    //取出消息
    ObjectMessage message = (ObjectMessage)consumer.receive(10000);
    if (null != message) {
    String messageContent = (String)message.getObject();
    System.out.println(messageContent);
    } else {
    break;
    }
    }
    创建 ActiveMQConnectionFactory,通过ActiveMQConnectionFactory 创建连接,通过连接
    创建Session,然后创建目的queue(这里为MessageQueue),根据目的queue 创建消息的消费
    第2 章 分布式系统基础设施 │ 101
    者,消息消费者通过receive 方法来接收Object 消息,然后将消息转换成字符串并打印输出。
    还可以通过JMS 来创建ActiveMQ 的topic,并给topic 发送消息:
    ConnectionFactory factory = new ActiveMQConnectionFactory(
    ActiveMQConnection.DEFAULT_USER,
    ActiveMQConnection.DEFAULT_PASSWORD,
    "tcp://192.168.136.135:61616");
    Connection connection = factory.createConnection();
    connection.start();
    Session session = connection.createSession(false,
    Session.AUTO_ACKNOWLEDGE);
    Topic topic = session.createTopic("MessageTopic");
    MessageProducer producer = session.createProducer(topic);
    producer.setDeliveryMode(DeliveryMode.NON_PERSISTENT);
    TextMessage message = session.createTextMessage();
    message.setText("message_hello_chenkangxian");
    producer.send(message);
    与 发 送 点 对点消息一样, 首先需要初始化ActiveMQConnectionFactory , 通过
    ActiveMQConnectionFactory 创建连接,通过连接创建Session。然后再通过Session 创建对应的
    topic,这里指定的topic 为MessageTopic。创建好topic 之后,通过Session 创建对应消息producer,
    然后创建一条文本消息,消息内容为message_hello_chenkangxian,通过producer 发送。
    消息发送到对应的topic 后,需要将listener 注册到需要订阅的topic 上,以便能够接收该topic
    的消息:
    ConnectionFactory factory = new ActiveMQConnectionFactory(
    ActiveMQConnection.DEFAULT_USER,
    ActiveMQConnection.DEFAULT_PASSWORD,
    "tcp://192.168.136.135:61616");
    Connection connection = factory.createConnection();
    connection.start();
    Session session = connection.createSession(false, Session.AUTO_ACKNOWLEDGE);
    Topic topic = session.createTopic("MessageTopic");
    MessageConsumer consumer = session.createConsumer(topic);
    102 │ 大型分布式网站架构设计与实践
    consumer.setMessageListener(new MessageListener() {
    public void onMessage(Message message) {
    TextMessage tm = (TextMessage) message;
    try {
    System.out.println(tm.getText());
    } catch (JMSException e) {}
    }
    });
    Session 创建好之后,通过Session 创建对应的topic,然后通过topic 来创建消息的消费者,
    消息的消费者需要在该topic 上注册一个listener,以便消息发送到该topic 之后,消息的消费者
    能够及时地接收到。
    3. ActiveMQ 集群部署
    针对分布式环境下对系统高可用的严格要求,以及面临高并发的用户访问,海量的消息发
    送等场景的挑战,单个ActiveMQ 实例往往难以满足系统高可用与容量扩展的需求,这时
    ActiveMQ 的高可用方案及集群部署就显得十分重要了。
    当一个应用被部署到生产环境中,进行容错和避免单点故障是十分重要的,这样可以避免
    因为单个节点的不可用而导致整个系统的不可用。目前ActiveMQ 所提供的高可用方案主要是
    基于Master-Slave 模式实现的冷备方案,较为常用的包括基于共享文件系统的Master-Slave 架
    构和基于共享数据库的Master-Slave 架构23。
    如图 2-16 所示,当Master 启动时,它会获得共享文件系统的排他锁,而其他Slave 则stand-by,
    不对外提供服务,同时等待获取Master 的排他锁。假如Master 连接中断或者发生异常,那么它
    的排他锁则会立即释放,此时便会有另外一个Slave 能够争夺到Master 的排他锁,从而成为Master,
    对外提供服务。当之前因故障或者连接中断而丢失排他锁的Master 重新连接到共享文件系统时,
    排他锁已经被抢占了,它将作为Slave 等待,直到Master 再一次发生异常。
    23 关于ActiveMQ 的高可用架构可以参考http://activemq.apache.org/masterslave.html。
    第2 章 分布式系统基础设施 │ 103
    图2-16 基于共享文件系统的Master-Slave 架构
    基于共享数据库的Master-Slave 架构同基于共享文件系统的Master-Slave 架构类似,如图
    2-17 所示。当Master 启动时,会先获取数据库某个表的排他锁,而其他Slave 则stand-by,等
    待表锁,直到Master 发生异常,连接丢失。这时表锁将释放,其他Slave 将获得表锁,从而成
    为Master 并对外提供服务,Master 与Slave 自动完成切换,完全不需要人工干预。
    图2-17 基于共享数据库的Master-Slave 架构
    104 │ 大型分布式网站架构设计与实践
    当然,客户端也需要做一些配置,以便当服务端Master 与Slave 切换时,客户无须重启和
    更改配置就能够进行兼容。在ActiveMQ 的客户端连接的配置中使用failover 的方式,可以在
    Master 失效的情况下,使客户端自动重新连接到新的Master:
    failover:(tcp://master:61616,tcp://slave1:61616,tcp://slave2:61616)
    假设 Master 失效,客户端能够自动地连接到Slave1 和Slave2 两台当中成功获取排他锁的
    新Master。
    当系统规模不断地发展,产生和消费消息的客户端越来越多,并发的请求数以及发送的消
    息量不断增加,使得系统逐渐地不堪重负。采用垂直扩展可以提升ActiveMQ 单broker 的处理
    能力。扩展最直接的办法就是提升硬件的性能,如提高CPU 和内存的能力,这种方式最为简单
    也最为直接。再者就是就是通过调节ActiveMQ 本身的一些配置来提升系统并发处理的能力,
    如使用nio 替代阻塞I/O,提高系统处理并发请求的能力,或者调整JVM 与ActiveMQ 可用的
    内存空间等。由于垂直扩展较为简单,此处就不再详细叙述了。
    硬件的性能毕竟不能无限制地提升,垂直扩展到一定程度时,必然会遇到瓶颈,这时就需
    要对系统进行相应的水平扩展。对于ActiveMQ 来说,可以采用broker 拆分的方式,将不相关
    的queue 和topic 拆分到多个broker,来达到提升系统吞吐能力的目的。
    假设使用消息系统来处理订单状态的流转,对应的topic 可能包括订单创建、购买者支付、
    售卖者发货、购买者确认收货、购买者确认付款、购买者发起退款、售卖者处理退款等,如
    图2-18 所示。
    第2 章 分布式系统基础设施 │ 105
    图 2-18 broker 的拆分
    原本一个 broker 可以承载多个queue 或者topic,现在将不相关的queue 和topic 拆出来放
    到多个broker 当中,这样可以将一部分消息量大并发请求多的queue 独立出来单独进行处理,
    避免了queue 或者topic 之间的相互影响,提高了系统的吞吐量,使系统能够支撑更大的并发请
    求量及处理更多的消息。当然,如有需要,还可以对queue 和topic 进行进一步的拆分,类似于
    数据库的分库分表策略,以提高系统整体的并发处理能力。
    2.4 垂直化搜索引擎
    这里所介绍的垂直化搜索引擎,与大家所熟知的Google 和Baidu 等互联网搜索引擎存在着
    一些差别。垂直化的搜索引擎主要针对企业内部的自有数据的检索,而不像Google 和Baidu 等
    搜索引擎平台,采用网络爬虫对全网数据进行抓取,从而建立索引并提供给用户进行检索。在
    分布式系统中,垂直化的搜索引擎是一个非常重要的角色,它既能满足用户对于全文检索、模
    糊匹配的需求,解决数据库like 查询效率低下的问题,又能够解决分布式环境下,由于采用分
    库分表或者使用NoSQL 数据库,导致无法进行多表关联或者进行复杂查询的问题。
    106 │ 大型分布式网站架构设计与实践
    本节将重点介绍搜索引擎的基本原理和Apache Lucence 的使用,以及基于Lucence 的另一
    个强大的搜索引擎工具Solr 的一些简单配置。
    2.4.1 Lucene 简介
    要深入理解垂直化搜索引擎的架构,不得不提到当前全球范围内使用十分广泛的一个开源
    检索工具——Lucene24。Lucene 是Apache 旗下的一款高性能、可伸缩的开源的信息检索库,最
    初是由Doug Cutting25开发,并在SourceForge 的网站上提供下载。从2001 年9 月开始,Lucene
    作为高质量的开源Java 产品加入到Apache 软件基金会,经过多年的不断发展,Lucene 被翻译
    成C++、C#、perl、Python 等多种语言,在全球范围内众多知名互联网企业中得到了极为广泛
    的应用。通过Lucene,可以十分容易地为应用程序添加文本搜索功能,而不必深入地了解搜索
    引擎实现的技术细节以及高深的算法,极大地降低了搜索技术推广及使用的门槛。
    Lucene 与搜索应用程序之间的关系如图2-19 所示。
    24 Lucene 项目地址为https://lucene.apache.org。
    25 开源领域的重量级人物,创建了多个成功的开源项目,包括Lucene、Nutch 和Hadoop。
    第2 章 分布式系统基础设施 │ 107
    图 2-19 Lucene 与搜索应用程序之间的关系26
    在学习使用Lucene 之前,需要理解搜索引擎的几个重要概念:
    倒排索引(inverted index)也称为反向索引,是搜索引擎中最常见的数据结构,几乎所有
    的搜索引擎都会用到倒排索引。它将文档中的词作为关键字,建立词与文档的映射关系,通过
    对倒排索引的检索,可以根据词快速获取包含这个词的文档列表,这对于搜索引擎来说至关重
    要。
    分词又称为切词,就是将句子或者段落进行切割,从中提取出包含固定语义的词。对于英
    语来说,语言的基本单位就是单词,因此分词特别容易,只需要根据空格/符号/段落进行分割,
    并且排除停止词(stop word),提取词干27即可完成。但是对于中文来说,要将一段文字准确地
    切分成一个个词,就不那么容易了。中文以字为最小单位,多个字连在一起才能构成一个表达
    具体含义的词。中文会用明显的标点符号来分割句子和段落,唯独词没有一个形式上的分割符,
    因此,对于支持中文搜索的搜索引擎来说,需要一个合适的中文分词工具,以便建立倒排索引。
    停止词(stop word),在英语中包含了a、the、and 这样使用频率很高的词,如果这些词都
    被建到索引中进行索引的话,搜索引擎就没有任何意义了,因为几乎所有的文档都会包含这些
    词。对于中文来说也是如此,中文里面也有一些出现频率很高的词,如“在”、“这”、“了”、“于”
    等,这些词没有具体含义,区分度低,搜索引擎对这些词进行索引没有任何意义,因此,停止
    词需要被忽略掉。
    排序,当输入一个关键字进行搜索时,可能会命中许多文档,搜索引擎给用户的价值就是
    快速地找到需要的文档,因此,需要将相关度更大的内容排在前面,以便用户能够更快地筛选
    出有价值的内容。这时就需要有适当的排序算法。一般来说,命中标题的文档将比命中内容的
    文档有更高的相关性,命中多次的文档比命中一次的文档有更高的相关性。商业化的搜索引擎
    的排序规则十分复杂,搜索结果的排序融入了广告、竞价排名等因素,由于涉及的利益广泛,
    一般属于核心的商业机密。
    另外,关于Lucene 的几个概念也值得关注一下:
    文档(Document),在Lucene 的定义中,文档是一系列域(Field)的组合,而文档的域则
    代表一系列与文档相关的内容。与数据库表的记录的概念有点类似,一行记录所包含的字段对
    应的就是文档的域。举例来说,一个文档比如老师的个人信息,可能包括年龄、身高、性别、
    个人简介等内容。
    域(Field),索引的每个文档中都包含一个或者多个不同名称的域,每个域都包含了域的名
    26 图片来源https://www.ibm.com/developerworks/cn/java/j-lo-lucene1/fig001.jpg。
    27 提取词干是西方语言特有的处理步骤,比如英文中的单词有单复数的变形,-ing 和-ed 的变形,但是在
    搜索引擎中,应该当作同一个词。
    108 │ 大型分布式网站架构设计与实践
    称和域对应的值,并且域还可以是不同的类型,如字符串、整型、浮点型等。
    词(Term),Term 是搜索的基本单元,与Field 对应,它包括了搜索的域的名称以及搜索的
    关键词,可以用它来查询指定域中包含特定内容的文档。
    查询(Query),最基本的查询可能是一系列Term 的条件组合,称为TermQuery,但也有可
    能是短语查询(PhraseQuery)、前缀查询(PrefixQuery)、范围查询(包括TermRangeQuery、
    NumericRangeQuery 等)等。
    分词器(Analyzer),文档在被索引之前,需要经过分词器处理,以提取关键的语义单元,
    建立索引,并剔除无用的信息,如停止词等,以提高查询的准确性。中文分词与西文分词的区
    别在于,中文对于词的提取更为复杂。常用的中文分词器包括一元分词28、二元分词29、词库分
    词30等。
    如图 2-20 所示,Lucene 索引的构建过程大致分为这样几个步骤,通过指定的数据格式,将
    Lucene 的Document 传递给分词器Analyzer 进行分词,经过分词器分词之后,通过索引写入工
    具IndexWriter 将索引写入到指定的目录。
    图 2-20 Lucene 索引的构建过程
    而对索引的查询,大概可以分为如
    下几个步骤,如图2-21 所示。首先构
    建查询的Query,通过IndexSearcher
    进行查询,得到命中的TopDocs。然后
    通过TopDocs 的scoreDocs()方法,拿到
    ScoreDoc,通过ScoreDoc,得到对应的
    文档编号,IndexSearcher 通过文档编
    号,使用IndexReader 对指定目录下的
    索引内容进行读取,得到命中的文档后
    28 一元分词,即将给定的字符串以一个字为单位进行切割分词,这种分词方式较为明显的缺陷就是语义
    不准,如“上海”两个字被切割成“上”、“海”,但是包含“上海”、“海上”的文档都会命中。
    29 二元分词比一元分词更符合中文的习惯,因为中文的大部分词汇都是两个字,但是问题依然存在。
    30 词库分词就是使用词库中定义的词来对字符串进行切分,这样的好处是分词更为准确,但是效率较N
    元分词更低,且难以识别互联网世界中层出不穷的新兴词汇。
    图2-21 Lucene 索引搜索过程
    第2 章 分布式系统基础设施 │ 109
    返回。
    2.4.2 Lucene 的使用
    Lucene 为搜索引擎提供了强大的、令人惊叹的API,在企业的垂直化搜索领域得到了极为
    广泛的应用。为了学习搜索引擎的基本原理,有效地使用Lucene,并将其引入到我们的应用程
    序当中,本节将介绍Lucene 的一些常用的API 和使用方法,以及索引的优化和分布式扩展。
    1. 构建索引
    在执行搜索之前,先要构建搜索的索引:
    Directory dir = FSDirectory.open(new File(indexPath));
    Analyzer analyzer = new StandardAnalyzer();
    Document doc = new Document();
    doc.add(new Field("name","zhansan",Store.YES,Index.ANALYZED));
    doc.add(new Field("address","hangzhou",Store.YES,Index.ANALYZED));
    doc.add(new Field("sex","man",Store.YES,Index.NOT_ANALYZED));
    doc.add(new Field("introduce","i am a coder,my name is zhansan",Store.YES,
    Index.NO));
    IndexWriter indexWriter = new IndexWriter(dir,analyzer, MaxFieldLength.LIMITED);
    indexWriter.addDocument(doc);
    indexWriter.close();
    首先需要构建索引存储的目录Directory,索引最终将被存放到该目录。然后初始化
    Document,给Document 添加Field,包括名称、地址、性别和个人介绍信息。Field 的第一个参
    数为Field 的名称;第二个参数为Filed 的值;第三个参数表示该Field 是否会被存储。Store.NO
    表示索引中不存储该Field;Store.YES 表示索引中存储该Field;如果是Store.COMPRESS,则
    表示压缩存储。最后一个参数表示是否对该字段进行检索。Index.ANALYZED 表示需对该字段
    进行全文检索,该Field 需要使用分词器进行分词;Index.NOT_ANALYZED 表示不进行全文检
    索,因此不需要分词;Index.NO 表示不进行索引。创建一个IndexWriter,用来写入索引,初始
    化时需要指定索引存放的目录,以及索引建立时使用的分词器,此处用的是Lucene 自带的中文
    分词器StandardAnalyzer,最后一个参数则用来指定是否限制Field 的最大长度。
    2. 索引更新与删除
    很多情况下,在搜索引擎首次构建完索引之后,数据还有可能再次被更改,此时如果不将
    最新的数据同步到搜索引擎,则有可能检索到过期的数据。遗憾的是,Lucene 暂时还不支持对
    于Document 单个Field 或者整个Document 的更新,因此这里所说的更新,实际上是删除旧的
    110 │ 大型分布式网站架构设计与实践
    Document,然后再向索引中添加新的Document。所添加的新的Document 必须包含所有的Field,
    包括没有更改的Field:
    IndexWriter indexWriter = new IndexWriter(dir,analyzer, MaxFieldLength.LIMITED);
    indexWriter.deleteDocuments(new Term("name","zhansan"));
    indexWriter.addDocument(doc);
    IndexWriter 的deleteDocuments 可以根据Term 来删除Document。请注意Term 匹配的准确
    性,一个不正确的Term 可能会导致搜索引擎的大量索引被误删。Lucene 的IndexWriter 也提供
    经过封装的updateDocument 方法,其实质仍然是先删除Term 所匹配的索引,然后再新增对应
    的Document:
    indexWriter.updateDocument(new Term("name","zhansan"), doc);
    3. 条件查询
    索引构建完之后,就需要对相关的内容进行查询:
    String queryStr = "zhansan";
    String[] fields = {"name","introduce"};
    Analyzer analyzer = new StandardAnalyzer();
    QueryParser queryPaser = new MultiFieldQueryParser(fields, analyzer);
    Query query = queryPaser.parse(queryStr);
    IndexSearcher indexSearcher = new IndexSearcher(indexPath);
    Filter filter = null;
    TopDocs topDocs = indexSearcher.search(query, filter, 10000);
    System.out.println("hits :" + topDocs.totalHits );
    for(ScoreDoc scoreDoc : topDocs.scoreDocs){
    int docNum = scoreDoc.doc;
    Document doc = indexSearcher.doc(docNum);
    printDocumentInfo(doc);
    }
    查询所使用的字符串为人名zhansan,查询的Field 包括name 和introduce。构建一个查询
    MultiFieldQueryParser 解析器,对查询的内容进行解析,生成Query;然后通过IndexSearcher
    来对Query 进行查询,查询将返回TopDocs,TopDocs 中包含了命中的总条数与命中的Document
    第2 章 分布式系统基础设施 │ 111
    的文档编号;最后通过IndexSearcher 读取指定文档编号的文档内容,并进行输出。
    Lucene 支持多种查询方式,比如针对某个Field 进行关键字查询:
    Term term = new Term("name","zhansan");
    Query termQuery = new TermQuery(term);
    Term 中包含了查询的Field 的名称与需要匹配的文本值,termQuery 将命中名称为name 的
    Field 中包含zhansan 这个关键字的Document。
    也可以针对某个范围对Field 的值进行区间查询:
    NumericRangeQuery numericRangeQuery
    = NumericRangeQuery.newIntRange("size", 2, 100, true, true);
    假设 Document 包含一个名称为size 的数值型的Field,可以针对size 进行范围查询,指定
    查询的范围为2~100,后面两个参数表示是否包含查询的边界值。
    还可以通过通配符来对Field 进行查询:
    Term wildcardTerm = new Term("name","zhansa?");
    WildcardQuery wildcardQuery = new WildcardQuery(wildcardTerm);
    通配符可以让我们使用不完整、缺少某些字母的项进行查询,但是仍然能够查询到匹配的
    结果,如指定对name 的查询内容为“zhansa?”,?表示0 个或者一个字母,这将命中name 的值
    为zhansan 的Document,如果使用*,则代表0 个或者多个字母。
    假设某一段落中包含这样一句话“I have a lovely white dog and a black lazy cat”,即使不知
    道这句话的完整写法,也可以通过PhraseQuery 查找到包含dog 和cat 两个关键字,并且dog 和
    cat 之间的距离不超过5 个单词的document:
    PhraseQuery phraseQuery = new PhraseQuery();
    phraseQuery.add(new Term("content","dog"));
    phraseQuery.add(new Term("content","cat"));
    phraseQuery.setSlop(5);
    其中,content 为查询对应的Field,dog 和cat 分别为查询的短语,而phraseQuery.setSlop(5)
    表示两个短语之间最多不超过5 个单词,两个Field 之间所允许的最大距离称为slop。
    除这些之外,Lucene 还支持将不同条件组合起来进行复杂查询:
    PhraseQuery query1 = new PhraseQuery();
    query1.add(new Term("content","dog"));
    query1.add(new Term("content","cat"));
    query1.setSlop(5);
    112 │ 大型分布式网站架构设计与实践
    Term wildTerm = new Term("name","zhans?");
    WildcardQuery query2 = new WildcardQuery(wildTerm);
    BooleanQuery booleanQuery = new BooleanQuery();
    booleanQuery.add(query1,Occur.MUST);
    booleanQuery.add(query2,Occur.MUST);
    query1 为前面所说的短语查询,而query2 则为通配符查询,通过BooleanQuery 将两个查
    询条件组合起来。需要注意的是,Occur.MUST 表示只有符合该条件的Document 才会被包含在
    查询结果中;Occur.SHOULD 表示该条件是可选的;Occur.MUST_NOT 表示只有不符合该条件
    的Document 才能够被包含到查询结果中。
    4. 结果排序
    Lucene 不仅支持多个条件的复杂查询,还支持按照指定的Field 对查询结果进行排序:
    String queryStr = "lishi";
    String[] fields = {"name","address","size"};
    Sort sort = new Sort();
    SortField field = new SortField("size",SortField.INT, true);
    sort.setSort(field);
    Analyzer analyzer = new StandardAnalyzer();
    QueryParser queryParse = new MultiFieldQueryParser(fields, analyzer);
    Query query = queryParse.parse(queryStr);
    IndexSearcher indexSearcher = new IndexSearcher(indexPath);
    Filter filter = null;
    TopDocs topDocs = indexSearcher.search(query, filter, 100, sort);
    for(ScoreDoc scoreDoc : topDocs.scoreDocs){
    int docNum = scoreDoc.doc;
    Document doc = indexSearcher.doc(docNum);
    printDocumentInfo(doc);
    }
    通过新建一个Sort,指定排序的Field 为size,Field 的类型为SortField.INT,表示按照整数
    类型进行排序,而不是字符串类型,SortField 的第三个参数用来指定是否对排序结果进行反转。
    在查询时,使用IndexSearcher 的一个重构方法,带上Sort 参数,则能够让查询的结果按照指定
    的字段进行排序:
    第2 章 分布式系统基础设施 │ 113
    如果是多个Field 同时进行查询,可以指定每个Field 拥有不同的权重,以便匹配时可以按
    照Document 的相关度进行排序:
    String queryStr = "zhansan shanghai";
    String[] fields = {"name","address","size"};
    Map<String,Float> weights = new HashMap<String, Float>();
    weights.put("name", 4f);
    weights.put("address", 2f);
    Analyzer analyzer = new StandardAnalyzer();
    QueryParser queryParse = new MultiFieldQueryParser(fields, analyzer,
    weights);
    Query query = queryParse.parse(queryStr);
    IndexSearcher indexSearcher = new IndexSearcher(indexPath);
    Filter filter = null;
    TopDocs topDocs = indexSearcher.search(query, filter, 100);
    for(ScoreDoc scoreDoc : topDocs.scoreDocs){
    int docNum = scoreDoc.doc;
    Document doc = indexSearcher.doc(docNum);
    printDocumentInfo(doc);
    }
    114 │ 大型分布式网站架构设计与实践
    假设查询串中包含zhansan 和shanghai 两个查询串,设置Field name 的权重为4,而设置
    Field address 的权重为2,如按照Field 的权重进行查询排序,那么同时包含zhansan 和shanghai
    的Document 将排在最前面,其次是name 为zhansan 的Document,最后是address 为shanghai
    的Document:
    5. 高亮
    查询到匹配的文档后,需要对匹配的内容进行突出展现,最直接的方式就是对匹配的内容
    高亮显示。对于搜索list 来说,由于文档的内容可能比较长,为了控制展示效果,还需要对文
    档的内容进行摘要,提取相关度最高的内容进行展现,Lucene 都能够很好地满足这些需求:
    Formatter formatter = new SimpleHTMLFormatter("<font color='red'>","</font>");
    Scorer scorer = new QueryScorer(query);
    Highlighter highLight = new Highlighter(formatter, scorer);
    Fragmenter fragmenter = new SimpleFragmenter(20);
    highLight.setTextFragmenter(fragmenter);
    通过构建高亮的Formatter 来指定高亮的HTML 前缀和HTML 后缀,这里用的是font 标签。
    查询短语在被分词后构建一个QueryScorer,QueryScorer 中包含需要高亮显示的关键字,
    Fragmenter 则用来对较长的Field 内容进行摘要,提取相关度较大的内容,参数20 表示截取前
    20 个字符进行展现。构建一个Highlighter,用来对Document 的指定Field 进行高亮格式化:
    String hi = highLight.getBestFragment(analyzer, "introduce", doc.get
    ("introduce"));
    查询命中相应的Document 后,通过构建的Highlighter,对Document 指定的Field 进行高
    亮格式化,并且对相关度最大的一块内容进行摘要,得到摘要内容。假设对dog 进行搜索,
    introduce 中如包含有dog,那么使用Highlighter 高亮并摘要后的内容如下:
    第2 章 分布式系统基础设施 │ 115
    6. 中文分词
    Lucene 提供的标准中文分词器StandardAnalyzer 只能够进行简单的一元分词,一元分词以
    一个字为单位进行语义切分,这种本来为西文所设计的分词器,用于中文的分词时经常会出现
    语义不准确的情况。可以通过使用一些其他中文分词器来避免这种情况,常用的中文分词器包
    括Lucene 自带的中日韩文分词器CJKAnalyzer,国内也有一些开源的中文分词器,包括IK 分
    词31、MM 分词32,以及庖丁分词33、imdict 分词器34等。假设有下面一段文字:
    String zhContent = "我是一个中国人,我热爱我的国家";
    分词之后,通过下面一段代码可以将分词的结果打印输出:
    System.out.println("\n 分词器:" + analyze.getClass());
    TokenStream tokenStream = analyze.tokenStream("content", new StringReader(text));
    Token token = tokenStream.next();
    while(token != null){
    System.out.println(token);
    token = tokenStream.next();
    }
    通过 StandardAnalyzer 分词得到的分词结果如下:
    Analyzer standarAnalyzer = new StandardAnalyzer(Version.LUCENE_CURRENT);
    由此可以得知,StandardAnalyzer 采用的是一元分词,即字符串以一个字为单位进行切割。
    使用 CJKAnalyzer 分词器进行分词,得到的结果如下:
    31 IK 分词项目地址为https://code.google.com/p/ik-analyzer。
    32 MM 分词项目地址为https://code.google.com/p/mmseg4j。
    33 庖丁分词项目地址为https://code.google.com/p/paoding。
    34 imdict 分词项目地址为https://code.google.com/p/imdict-chinese-analyzer。
    116 │ 大型分布式网站架构设计与实践
    Analyzer cjkAnalyzer = new CJKAnalyzer();
    通过分词的结果可以看到,CJKAnalyzer 采用的是二元分词,即字符串以两个字为单位进
    行切割。
    使用开源的IK 分词的效果如下:
    Analyzer ikAnalyzer = new IKAnalyzer()
    可以看到,分词的效果比单纯的一元或者二元分词要好很多。
    使用 MM 分词器分词的效果如下:
    Analyzer mmAnalyzer = new MMAnalyzer()
    第2 章 分布式系统基础设施 │ 117
    7. 索引优化
    Lucene 的索引是由段(segment)组成的,每个段可能又包含多个索引文件,即每个段包含
    了一个或者多个Document;段结构使得Lucene 可以很好地支持增量索引,新增的Document
    将被添加到新的索引段当中。但是,当越来越多的段被添加到索引当中时,索引文件也就越来
    越多。一般来说,操作系统对于进程打开的文件句柄数是有限的,当一个进程打开太多的文件
    时,会抛出too many open files 异常,并且执行搜索任务时,Lucene 必须分别搜索每个段,然后
    将各个段的搜索结果合并,这样查询的性能就会降低。
    为了提高 Lucene 索引的查询性能,当索引段的数量达到设置的上限时,Lucene 会自动进
    行索引段的优化,将索引段合并成为一个,以提高查询的性能,并减少进程打开的文件句柄数
    量。但是,索引段的合并需要大量的I/O 操作,并且需要耗费相当的时间。虽然这样的工作做
    完以后,可以提高搜索引擎查询的性能,但在索引合并的过程中,查询的性能将受到很大影响,
    这对于前台应用来说一般是难以接受的。
    因此,为了提高搜索引擎的查询性能,需要尽可能地减少索引段的数量,另外,对于需要
    应对前端高并发查询的应用来说,对索引的自动合并行为也需要进行抑制,以提高查询的性能。
    一般来说,在分布式环境下,会安排专门的集群来生成索引,并且生成索引的集群不负责
    处理前台的查询请求。当索引生成以后,通过索引优化,对索引的段进行合并。合并完以后,
    将生成好的索引文件分发到提供查询服务的机器供前台应用查询。当然,数据会不断地更新,
    索引文件如何应对增量的数据更新也是一个挑战。对于少量索引来说,可以定时进行全量的索
    引重建,并且将索引推送到集群的其他机器,前提是相关业务系统能够容忍数据有一定延迟。
    但是,当数据量过于庞大时,索引的构建需要很长的时间,延迟的时间可能无法忍受,因此,
    我们不得不接受索引有一定的瑕疵,即索引同时包含多个索引段,增量的更新请求将不断地发
    送给查询机器。查询机器可以将索引加载到内存,并以固定的频率回写磁盘,每隔一定的周期,
    对索引进行一次全量的重建操作,以将增量更新所生成的索引段进行合并。
    8. 分布式扩展
    与其他的分布式系统架构类似,基于Lucene 的搜索引擎也会面临扩展的问题,单台机器难
    以承受访问量不断上升的压力,不得不对其进行扩展。但是,与其他应用不同的是,搜索应用
    大部分场景都能够接受一定时间的数据延迟,对于数据一致性的要求并不那么高,大部分情况
    下只要能够保障数据的最终一致性,可以容忍一定时间上的数据不同步,一种扩展的方式如
    图2-22 所示。
    每个 query server 实例保存一份完整的索引,该索引由dump server 周期性地生成,并进行
    索引段的合并,索引生成好之后推送到每台query server 进行替换,这样避免集群索引dump 对
    后端数据存储造成压力。当然,对于增量的索引数据更新,dump server 可以异步地将更新推送
    到每台query server,或者是query server 周期性地到dump server 进行数据同步,以保证数据最
    118 │ 大型分布式网站架构设计与实践
    终的一致性。对于前端的client 应用来说,通过对请求进行Hash,将请求均衡地分发到集群中
    的每台服务器,使得压力能够较为均衡地分布,这样即达到了系统扩展的目的。
    图2-22 搜索引擎索引的读写分离
    索引的读/写分离解决的是请求分布的问题,而对于数据量庞大的搜索引擎来说,单机对索
    引的存储能力毕竟有限。而且随着索引数量的增加,检索的速度也会随之下降。此时索引本身
    已经成为系统的瓶颈,需要对索引进行切分,将索引分布到集群的各台机器上,以提高查询性
    能,降低存储压力,如图2-23 所示。
    图2-23 索引的切分
    在如图 2-24 所示的架构中,索引依据uniquekey%N,被切分到多台index server 中进行存
    储。client 应用的查询请求提交到merge server,merge server 将请求分发到index server 进行检
    索,最后将查询的结果进行合并后,返回给client 应用。对于全量的索引构建,可以使用dump
    第2 章 分布式系统基础设施 │ 119
    server 集群,以加快索引构建的速度,并分担存储的压力。而增量的更新请求,可以根据索引
    的uniquekey 取模,将索引同步到index server;为避免merge server 出现单点,可以对merge server
    进行高可用部署。当然,索引切分的方案并非完美,可能也会带来一些问题。举例来说,假如
    查询请求需要进行结果排序,当索引没有切分时很好处理,只需要按照查询指定的条件排列即
    可,但是对切分后的索引来说,排序请求将被分发到每一台index server 执行排序,排完以后取
    topN(出于性能考虑)发送到merge server 进行合并,合并后的结果与真正的结果很可能存在
    偏差,这就需要在业务上进行取舍。
    有的时候,可能既面临高并发的用户访问请求,又需要对海量的数据集进行索引,这时就需
    要综合上述的两种方法,即既采用索引读写分离的方式,以支撑更大的并发访问量,又采用索引
    切分的方式,以解决数据量膨胀所导致的存储压力以及索引性能下降的问题,如图2-24 所示。
    图2-24 既进行读写分离,又进行索引切分
    merge server 与index server 作为一组基本单元进行复制,而前端应用的请求通过Hash 被分
    发到不同的组进行处理;每一组与之前类似,使用merge server 将请求分发到index server 进行
    索引的查询;查询的结果将在merge server 进行合并,合并完以后,再将结果返回给client。
    120 │ 大型分布式网站架构设计与实践
    2.4.3 Solr
    Solr 是一个基于Lucene、功能强大的搜索引擎工具,它对Lucene 进行了扩展,提供一系列
    功能强大的HTTP 操作接口,支持通过Data Schema 来定义字段、类型和设置文本分析,使得
    用户可以通过HTTP POST 请求,向服务器提交Document,生成索引,以及进行索引的更新和
    删除操作。对于复杂的查询条件,Solr 提供了一整套表达式查询语言,能够更方便地实现包括
    字段匹配、模糊查询、分组统计等功能;同时,Solr 还提供了强大的可配置能力,以及功能完
    善的后台管理系统。Solr 的架构如图2-25 所示。
    图2-25 Solr 的架构35
    1. Solr 的配置
    通过 Solr 的官方站点下载Solr:
    wget http://apache.fayea.com/apache-mirror/lucene/solr/4.7.2/solr-4.7.2.tgz
    35 图片来源http://images.cnitblog.com/blog/483523/201308/20142655-8e3153496cf244a280c5e195232ba962.x-png。
    第2 章 分布式系统基础设施 │ 121
    解压:
    tar -xf solr-4.7.2.tgz
    修改 Tomcat 的conf/server.xml 中的Connector 配置,将URIEncoding 编码设置为UTF-8,
    否则中文将会乱码,从而导致搜索查询不到结果。
    <Connector port="8080" protocol="HTTP/1.1"
    connectionTimeout="20000"
    redirectPort="8443" URIEncoding="UTF-8"/>
    将 Solr 的dist 目录下的solr-{version}.war 包复制到tomcat 的webapps 目录下,并且重命名
    为solr.war。
    配置 Solr 的home 目录,包括schema 文件、solrconfig 文件及索引文件,如果是第一次配
    置Solr,可以直接复制example 目录下的Solr 目录作为Solr 的home,并通过修改tomcat 的启
    动脚本catalina.sh 来指定solr.solr.home 变量所代表的Solr home 路径。
    CATALINA_OPTS="$CATALINA_OPTS -Dsolr.solr.home=/usr/solr"
    启动 Tomcat,访问Solr 的管理页面,如图2-26 所示。
    图2-26 Solr 的管理页面
    2. 构建索引
    在构建索引之前,首先需要定义好Document 的schema。同数据库建表有点类似,即每个
    Document 包含哪些Field,对应的Field 的name 是什么,Field 是什么类型,是否被索引,是否
    被存储,等等。假设我们要构建一个讨论社区,需要对社区内的帖子进行搜索,那么搜索引擎
    的Document 中应该包含帖子信息、版块信息、版主信息、发帖人信息、回复总数等内容的聚
    合,如图2-27 所示。
    122 │ 大型分布式网站架构设计与实践
    图 2-27 帖子、版块、用户、评论总数的关联关系
    其中,post 用来描述用户发布的帖子信息,section 则表示版块信息,user 代表该社区的用
    户,comment_count 用来记录帖子的评价总数。
    对帖子信息建立搜索引擎的好处在于,由于帖子的数据量大,如采用MySQL 这一类的关
    系型数据库来进行存储的话,需要进行分库分表。数据经过拆分之后,就难以同时满足多维度
    复杂条件查询的需求,并且查询可能需要版块、帖子、用户等多个表进行关联查询,导致查询
    性能下降,甚至回帖总数这样的数据有可能根本就没有存储在关系型数据库当中,而通过搜索
    引擎,这些需求都能够很好地得到满足。
    搜索引擎对应的schema 文件定义可能是下面这个样子:
    <?xml version="1.0" encoding="UTF-8" ?>
    <schema name="post" version="1.5">
    <fields>
    <field name="_version_" type="long" indexed="true" stored="true"/>
    <field name="post_id" type="long" indexed="true" stored="true" required=
    "true"/>
    <field name="post_title" type="string" indexed="true" stored="true"/>
    <field name="poster_id" type="long" indexed="true" stored="true" />
    <field name="poster_nick" type="string" indexed="true" stored="true"/>
    <field name="post_content" type="text_general" indexed="true" stored=
    "true"/>
    <field name="poster_degree" type="int" indexed="true" stored="true"/>
    第2 章 分布式系统基础设施 │ 123
    <field name="section_id" type="long" indexed="true" stored="true" />
    <field name="section_name" type="string" indexed="true" stored="true" />
    <field name="section_owner_id" type="long" indexed="true" stored="true"/>
    <field name="section_owner_nick" type="string" indexed="true" stored="true"/>
    <field name="gmt_modified" type="date" indexed="true" stored="true"/>
    <field name="gmt_create" type="date" indexed="true" stored="true"/>
    <field name="comment_count" type="int" indexed="true" stored="true"/>
    <field name="text" type="text_general" indexed="true" stored="false"
    multiValued="true"/>
    </fields>
    <uniqueKey>post_id</uniqueKey>
    <copyField source="post_content" dest="text"/>
    <copyField source="post_content" dest="text"/>
    <copyField source="section_name" dest="text"/>
    <types>
    <fieldType name="string" class="solr.StrField" sortMissingLast="true" />
    <fieldType name="int" class="solr.TrieIntField" precisionStep="0"
    positionIncrementGap="0"/>
    <fieldType name="long" class="solr.TrieLongField" precisionStep="0"
    positionIncrementGap="0"/>
    <fieldType name="date" class="solr.TrieDateField" precisionStep="0"
    positionIncrementGap="0"/>
    <fieldType name="text_general" class="solr.TextField" positionIncrementGap=
    "100">
    <analyzer type="index">
    <tokenizer class="solr.StandardTokenizerFactory"/>
    </analyzer>
    <analyzer type="query">
    <tokenizer class="solr.StandardTokenizerFactory"/>
    </analyzer>
    </fieldType>
    </types>
    </schema>
    124 │ 大型分布式网站架构设计与实践
    fields 标签中所包含的就是定义的这些字段,包括对应的字段名称、字段类型、是否索引、
    是否存储、是否多值等;uniqueKey 指定了Document 的唯一键约束;types 标签中则定义了可
    能用到的数据类型。
    使用 HTTP POST 请求可以给搜索引擎添加或者更新已存在的索引:
    http://hostname:8080/solr/core/update?wt=json
    POST 的JSON 内容:
    {
    "add": {
    "doc": {
    "post_id": "123456",
    "post_title": "Nginx 1.6 稳定版发布,顶级网站用量超越Apache",
    "poster_id": "340032",
    "poster_nick": "hello123",
    "post_content": "据W3Techs 统计数据显示,全球Alexa 排名前100 万的网站
    中的23.3%都在使用nginx,在排名前10 万的网站中,这一数据为30.7%,而在前1000 名的网站中,
    nginx 的使用量超过了Apache,位居第1 位。",
    "poster_degree": "2",
    "section_id": "422",
    "section_name": "技术",
    "section_owner_id": "232133333",
    "section_owner_nick": "chenkangxian",
    "gmt_modified": "2013-05-07T12:09:12Z",
    "gmt_create": "2013-05-07T12:09:12Z",
    "comment_count": "3"
    },
    "boost": 1,
    "overwrite": true,
    "commitWithin": 1000
    }
    }
    服务端的响应:
    {
    "responseHeader": {
    "status": 0,
    "QTime": 14
    }
    }
    第2 章 分布式系统基础设施 │ 125
    通过上述的HTTP POST 请求,便可将Document 添加到搜索引擎中。
    3. 条件查询
    比 Lucene 更进一步的是,Solr 支持将复杂条件组装成HTTP 请求的参数表达式,使得用户
    能够快速构建复杂多样的查询条件,包括条件查询、过滤查询、仅返回指定字段、分页、排序、
    高亮、统计等,并且支持XML、JSON 等格式的输出。举例来说,假如需要根据post_id(帖子
    id)来查询对应的帖子,可以使用下面的查询请求:
    http://hostname:8080/solr/core/select?q=post_id:123458&wt=json&indent=true
    返回的Document 格式如下:
    {
    "responseHeader": {
    "status": 0,
    "QTime": 0,
    "params": {
    "indent": "true",
    "q": "post_id:123458",
    "wt": "json"
    }
    },
    "response": {
    "numFound": 1,
    "start": 0,
    "docs": [
    {
    "post_id": 123458,
    "post_title": "美军研发光学雷达卫星可拍三维高分辨率照片",
    "poster_id": 340032,
    "poster_nick": "hello123",
    "post_content": "继广域动态图像、全动态视频和超光谱技术之后,Lidar
    技术也受到关注和投资。这是由于上述技术的能力已经在伊拉克和阿富汗得到试验和验证。",
    "poster_degree": 2,
    "section_id": 422,
    "section_name": "技术1",
    "section_owner_id": 232133333,
    "section_owner_nick": "chenkangxian",
    "gmt_modified": "2013-05-07T12:09:12Z",
    "gmt_create": "2013-05-07T12:09:12Z",
    126 │ 大型分布式网站架构设计与实践
    "comment_count": 3,
    "_version_": 1467083075564339200
    }
    ]
    }
    }
    假设页面需要根据poster_id(发帖人id)和section_owner_nick(版主昵称)作为条件来进
    行查询,并且根据uniqueKey 降序排列,以及根据section_id(版块id)进行分组统计,那么查
    询的条件表达式可以这样写:
    http://hostname:8080/solr/core/select?q=poster_id:340032+and+section_own
    er_nick:chenkangxian&sort=post_id+asc&facet=true&facet.field=section_id&
    wt=json&indent=true
    其中 q= poster_id:340032+and+section_owner_nick:chenkangxian 表示查询的post_id 为
    340032,section_owner_nick 为chenkangxian,两个条件使用and 组合,而sort=post_id+asc 则表
    示按照post_id 进行升序排列,facet=true&facet.field=section_id 表示使用分组统计,并且分组统
    计字段为section_id。
    当然,Solr 还支持更多复杂的条件查询,此处就不再详细介绍了36。
    2.5 其他基础设施
    除了前面所提到的分布式缓存、持久化存储、分布式消息系统、搜索引擎,大型的分布式
    系统的背后,还依赖于其他支撑系统,包括后面章节所要介绍的实时计算、离线计算、分布式
    文件系统、日志收集系统、监控系统、数据仓库等,以及本书没有详细介绍的CDN 系统、负
    载均衡系统、消息推送系统、自动化运维系统等37。
    36 更详细的查询语法介绍请参考Solr 官方wiki,http://wiki.apache.org/solr/CommonQueryParameters#
    head-6522ef80f22d0e50d2f12ec487758577506d6002。
    37 这些系统虽然本书虽没进行详细的介绍,但并不代表它们不重要,它们也是分布式系统的重要组成部
    分,限于篇幅,此处仅一笔带过,读者可自行查阅相关资料。
    展开全文
  • 【JAVA面试】java面试题整理(3)

    千次阅读 2018-10-28 12:50:13
    java面试题整理(3) JAVA常考点3 目录 1. 讲下JAVA的运行时区域 1 2、简单说下垃圾回收机制 2 3、TCP和UDP的区别 7 ...4、项目是怎样预防sql注入的 7 ...5、 MySQL存储引擎中的MyISAM和InnoDB区别 7 ...
  • SAP和Oracle的ERP是怎样被替代的?

    千次阅读 2021-10-04 00:16:45
    这其实也是所谓的中国ERP国产化替代的思路。 一、大财务产品线 一堆是:会计 一堆是:预算与企业绩效管理 我看随着开放式银行、税务电子发票的发展,会出现新的增量蓝海市场,这个需要密切关注。 二、大合规产品线 ...
  • 平台类产品,如阿里,淘宝,天猫,京东。   6. 产品的气质: 产品的气质需要不断雕琢和打磨,注重细节,做到极致,成为精品中的精品。其气质源于天赋,内功,外功的完美结合。  6.1 产品的天赋: 指的是...
  • 替代废除iframe方案

    万次阅读 2016-03-13 15:33:31
    ),不不,不是这个,是另一个,以 sh 开头,以 y 结尾。(注:对英文语境不是太熟悉,评论中有人提到是  shy 。)对对,就是它!我可以继续说,但是请相信我对 SVG shadow DOM 的评价。或者你可以查看文档。...
  •  将用“向量”的方式表示可谓是将 Deep Learning 算法引入 NLP 领域的一个核心技术。大多数宣称用了 Deep Learning 的论文,其中往往也用了向量。 本文目录: 0. 向量是什么 1. 向量的来历...
  • Trillian ICQ(自由软件,可以替代所有通常的即时传呼客户程序), Miranda , Gaim 1) Licq (ICQ) 2) Centericq (包括近乎所有的即时传呼协议,用于字符终端) 3) Alicq (ICQ). 4) Micq (ICQ). 5) ...
  • 几个可以替代百度的搜索引擎

    万次阅读 2017-10-30 13:31:38
    那么还有没有其他好用的替代品呢. 经过一番尝试还真找到了比较好的,个人感觉好用程度上排列如下: 不记录个人信息的: 1.https://duckduckgo.com/ 号称是可以对抗google的,不记录任何个人信息,不用登录,所以没有...
  • 百度云网盘 是目前最流行的在线文件分享途径,但它对免费用户的限速实在是严苛,即便是100M的宽带,常常也会遇到仅有几十KB/秒的速度,一个大文件要下载到天荒地老。...(替代PanDownload)》  发布于2019-03-02
  • GoldenDict j简介与词典下载等

    千次阅读 2015-01-02 16:17:17
    GoldenDict,星际译王后的另一个跨平台开源免费词典 Goldendict星际译王Stardict被SourceForce下架后,一直没有找到完美的替代品。Lingoes、金山词霸和有道词典都有这样那样的不完美,主要是广告和联网词典问题。...
  • 10 分钟了解 Flutter 跨平台方案

    千次阅读 2019-11-28 16:02:14
    一、目录 跨平台:跨平台是什么,有哪些平台要跨,为什么要跨平台 ...目前的发展状况和未来的发展前景如何,是否有可能替代当下,成为未来 成为 Flutter 工程师需要具备的素质 二、聊聊“跨平台” 1、什么是跨...
  • 用Transformer完全替代CNN?

    千次阅读 2020-10-24 14:03:00
    作者丨小小理工男@知乎来源丨https://zhuanlan.zhihu.com/p/266311690编辑丨极市平台这里将介绍一篇我认为是比较新颖的一篇文章 ——《An Image I...
  • 云计算平台已经不再是一个遥远的IT概念,它开始渗透到各行各业,未来将会像水和电一样,作为基础设施,在看得见和看不见的地方为人们提供服务。 “云”的概念并没有准确的定义,这个的来源大约是人们起初在画网络...
  • Select2是基于jQuery的选择框的替代品。 它支持搜索,远程数据集和结果分页。 首先,请在查看示例和文档。 用例 通过搜索增强本机选择。 通过更好的多选界面增强本机选择。 从JavaScript加载数据:通过AJAX轻松...
  • 本文主要介绍一些商用软件的替代免费和自由软件,很不错。 主张大家使用自由软件,像 TeX 这样如此先进的软件,会带给你不一 样的感观和愉悦。 目录 1  压缩解压缩软件 3...
  • 同时,ReAgent 也是创建基于 AI 的推理系统的最全面、模块化开源平台,并且是第一个包含策略评估的平台,将会加速相关决策系统的部署。 GitHub 地址: https://github.com/facebookresearch/ReAgent   ...
  • 同时,ReAgent 也是创建基于 AI 的推理系统的最全面、模块化开源平台,并且是第一个包含策略评估的平台,将会加速相关决策系统的部署。 GitHub 地址: https://github.com/facebookresearch/ReAgent  ...
  • 100个替代昂贵商业软件的开源应用/100 Open Source Replacements for Expensive Applications 100 Open Source Replacements for Expensive Applications Enterprises, SMBs and home users can see ...
  • 100个替代昂贵商业软件的开源应用

    千次阅读 2015-07-16 23:30:49
    100个替代昂贵商业软件的开源应用面对大,中,小企业和家庭用户,立竿见影显著降低成本的开源软件。某些商业软件素以昂贵著称。随着云计算的日益普及,很多常用软件包供应商将一次性收费改为月租模式。虽然月租费...
  • 在笔记本上用Ubuntu替代Win已经差不多两年来,...列表分成两个部分,一种是在WIn和Ubuntu下都能用的跨平台软件,另外一种则是和Win系统下软件有类似功能的替代软件。 跨平台软件 浏览器:FireFox 和 Chrome
  • 73个必会的经济类热

    千次阅读 2018-03-14 11:58:58
    区块链、消费革命、量化宽松、资本充足率、修斯底德陷阱、无现金社会……这些必会的经济类口译热,你都get了吗?1、消费革命 (consumer revolution):指一场让消费者树立新的消费观念的活动,提倡消费者更多重视...
  • 什么是低代码平台 low-code?

    千次阅读 2021-02-02 09:32:01
    Forrester定义 顺着Wiki的描述还能发现,原来“Low-Code”一早在2014年就由Forrester提出了,它对低代码开发平台的始祖级定义是这样的: 相比Wiki的版本,这个定义更偏向于阐明低代码所带来的核心价值: 低代码...
  • Flink: 快速构建统一的实时日志平台

    千次阅读 2018-09-05 16:22:53
    本文围绕一个中型电商/互联网公司涉及到日志的复杂系统运维、业务运营问题,使用Flink+Kafka+HBase+ES四套系统,告诉读者如何在一家中型互联网公司里面快速构建一套实时日志平台。 背景 最近在维护一个日志的...
  • MarginNote是一款基于...很多人在等待Marginnote出windows版本,但是这款软件的开发者已经表示目前没有开发windows平台的计划,当然windows平台不开发但是不代表windows平台就找不出能够替代的同类软件,今天要说的Bo
  • C++词典

    千次阅读 2013-12-20 19:54:12
    内联函数和宏的区别在于,宏是由预处理器对宏进行替代,而内联函数是通过编译器控制来实现的。而且内联函数是真正的函数,只是在需要用到的时候,内联函数像宏一样的展开,所以取消了函数的参数压栈,减少了调用的...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 27,847
精华内容 11,138
关键字:

平台的替代词