精华内容
下载资源
问答
  • 人机交互技术

    2014-06-18 21:48:59
    关于情感方面的人机交互应用情感在人类的认识和人机交互中起着关键性的作用.具有情感能力的计算机就是让计算机能够在和人类相处时更有智能、更为敏感和更为和谐和亲切。情感研究的进展与展望如何,情感计算的应用等...
  • 人机交互原理及应用,清华大学出版社出版。本书从基本的人机交互应用开发技术到当前人机交互研究的技术前沿由浅入深的介绍了人机交互技术
  • 自然人机交互技术.pdf

    2019-05-13 19:17:32
    自然人机交互技术.pdf,斯坦福大学机器学习笔记
  • 第四章 人机交互技术概述 1.人机交互的输入模式(第二版)  由于输入设备是多种多样的,而且对一个应用程序而言,可以有多个输入设备,同一个设备又可能为多个任务服务,这就要求对输入过程的处理要有合理的模式...

    第四章 人机交互技术概述

    1.人机交互的输入模式(第二版)

           由于输入设备是多种多样的,而且对一个应用程序而言,可以有多个输入设备,同一个设备又可能为多个任务服务,这就要求对输入过程的处理要有合理的模式。

         请求模式(Request Mode):在请求模式下,输入设备的启动是在应用程序中设置的。应用程序执行过程中需要输入数据时,暂停程序的执行,直到从输入设备接受到请求的输入数据后,才继续执行程序。应用程序和输入设备交替工作。

         采样模式(Sample Mode):输入设备和应用程序独立地工作。输入设备连续不断地把信息输入进来,信息的输入和应用程序中的输入命令无关。应用程序在处理其它数据的同时,输入设备也在工作,新的输入数据替换以前的输入数据。当应用程序遇到取样命令时,读取当前保存的输入设备数据。优点:这种模式对连续的信息流输入比较方便,也可同时处理多个输入设备的输入信息。缺点:当应用程序的处理时间较长时,可能会失掉某些输入信息

         事件模式(Event Mode):输入设备和程序并行工作。输入设备把数据保存到一个输入队列,也称为事件队列,所有的输入数据都保存起来,不会遗失。应用程序随时可以检查这个事件队列,处理队列中的事件,或删除队列中的事件。

    2.基本交互技术(第二版 P60)

     

    • 定位

            确定平面或空间的一个点的坐标,是交互中最基本的输入技术之一,是图形交互技术最基本的输入原语。

            直接定位:用定位设备直接指定某个对象的位置,是一种精确定位方式。例如光笔指定一个点、直接输入坐标

            间接定位:通过定位设备的运动控制屏幕上的映射光标进行定位,是一种非精确定位方式。其允许指定的点位于一个坐标范围内,一般用鼠标等指点设备配合光标来实现。例如选择子图或者菜单

     

    • 笔画

            笔画输入用于输入一组顺序的坐标点。它相当于多次调用定位输入,输入的一组点常用于显示折线或作为曲线的控制点。

            例如鼠标、轨迹球、游戏棒

     

    • 定值

            定值(或数值)输入用于设置物体旋转角度、缩放比例因子等。

            键盘输入数值、绘制刻度尺和比例尺

     

    • 选择

            选择是在某个选择集中选出一个元素,通过注视、指点或接触一个对象,使对象成为后续行为的焦点,是操作对象时不可缺少的一部分。例如菜单上选择一个命令、对话框选择一个选项等。

     

    • 字符串

            键盘是目前输入字符串最常用的方式,现在用写字板输入字符也已经很流行。

    3.图形交互技术(第二版 P63)

     

    • 几何约束

            几何约束可以用于对图形的方向、对齐方式等进行规定和校准。

            第一种几何约束是对定位的约束:在屏幕上定义一个网格,强迫输入点落在网格交点上,用户输入一个点,得到的是离它最近的一个网格点。    

            第二种几何约束是对方向的约束:例如要绘的垂直或水平方向的线,当给定的起点和终点连线和水平线的交角小于45°时,便可绘出一条水平线,否则就绘垂直线。绘制印刷线路板、管网图或地籍图时非常有用。

     

    • 引力场

           线段端点之间连接另外的线段。

            引力场也可以看作是一种定位约束,通过在特定图素(如直线段)周围假想有一个区域,当光标中心落在这个区域内时,就自动地被直线上最近的一个点所代替,就好像一个质点进入了直线周围的引力场,被吸引到这条直线上去一样。

     

    • 拖动

            不是简单地用光标指定新位置的一个点,而是当光标移动时拖动着被移动的对象,使用户感到更直观。

            图形模式:图形的重新绘制

            图像模式:图像的整体移动

     

    • 橡皮筋技术

            被拖动对象的形状和位置随着光标位置的不同而变化,用于画直线、矩形、圆、圆弧和自由曲线等。

     

    • 操作柄技术

            可以用来对图形对象进行缩放、旋转、错切等几何变换。先选择要处理的图形对象,该图形对象的周围会出现操作柄,移动或旋转操作柄就可以实现相应的变换

     

    • 三维交互技术

            三维交互技术采用六自由度输入设备。所谓六自由度,指沿三维空间X、Y、Z轴平移和绕X、Y、Z轴旋转。

            直接操作:通过三维光标实现选择并直接操作虚拟对象;需要大量计算,对硬件要求高

            三维Widgets:三维交互界面的小工具(漂浮菜单、手、平移和旋转指示器)

            三视图输入:二维输入设备在一定程度上实现三维输入

    4.多通道交互技术

    (1)多通道用户界面(Multimodal User Interface MUI)(第一版 P70)

           为适应目前和未来的计算机系统要求,人机界面应能支持时变媒体(time-varingmedia),实现三维、非精确及隐含的人机交互,而多通道人机界面是达到这一目的的重要途径。

    定义:

           为了消除当前WIMP/GUI 用户界面通信带宽不平衡的瓶颈,综合采用视线、语音、手势等新的交互通道、设备和交互技术,使用户利用多个通道以自然、并行、协作的方式进行人机对话,通过整合来自多个通道的、精确的和不精确的输入来捕捉用户的交互意图,提高人机交互的自然性和高效性。

    目标:

           交互的自然性:降低认识负荷

           交互的高效性:发挥人机不同的认知潜力

           与传统用户界面(WIMP/GUI)兼容

    基本特点:

    Ø  使用多个感觉和效应通道

    感觉通道侧重多媒体信息的接受,效应通道侧重交互过程中控制与信息的输入,二者相互配合。

    Ø  允许非精确的交互

    人类语言具有高度的模糊性,容许使用模糊的表达手段可以避免不必要的认识负荷。

    Ø  三维和直接操纵

    人类的大多数活动领域具有三维和直接操纵特点,多通道人机交互的自然性反应了这种本质特点。

    Ø  交互的双向性

    人的感觉和效应通道通常具有双向性的特点,如视觉可看可注视,手可控制、可触及等。

    多通道用户界面使用户避免生硬的、不自然的、频繁的、耗时的通道切换,从而提高自然性和效率。

    Ø  交互的隐含性

    追求交互自然性的多通道用户界面并不需要用户显式地说明每个交互成分,反之是在自然的交互过程中隐含地说明。例如,用户的视线自然地落在所感兴趣的对象之上;又如,用户的手自然地握住被操纵的目标

    (2)多通道交互技术(第一版 P75)

    ²  眼动跟踪

    眼动有三种主要形式(在人机交互中,眼动跟踪主要利用跳动和注视:

    跳动(Saccades):在正常的视觉观察过程中,眼动表现为在一系列被观察目标上的停留及在这些停留点之间的飞速跳跃。在注视点之间的飞速跳跃称为眼跳动。 

    注视(Fixations):停留时间至少持续100ms以上的称为注视。在注视中,眼也不是绝对静止不动,会有微小运动,但大小一般不会超过1°视角。绝大多数信息只有在注视时才能获得并进行加工。

    平滑尾随跟踪(Smooth Pursuit):缓慢、联合追踪的眼动通常称为平滑尾随跟踪。

    分类:

           以硬件为基础的视线跟踪:利用红外发光二极管发出红外线,采用图像处理技术和能锁定眼睛的特殊摄像机,通过分析人眼虹膜和瞳孔中红外线图象点的连续变化情况,得到视线变化的数据,从而达到视线追踪的目的。

           以软件为基础的视线跟踪:先利用摄像机获取人眼或脸部图像,然后用软件实现图像中人脸和人眼的定位与跟踪,从而估算用户在屏幕上的注视位置。人的注视方向可以用头的方位和眼睛的方位两种方式来表示。

    ²  手势识别手势是人的上肢(包括手臂、手和手指)的运动状态。

    手势的分类:

    交互性手势与操作性手势:手的运动表示特定的信息(如乐队指挥),靠视觉来感知;操作性手势不表达任何信息(如弹琴)。

    自主性手势和非自主性手势:自主性手势与语音配合用来加强或补充某些信息(如演讲者用手势描述动作、空间结构等信息)。

    离心手势和向心手势:离心手势直接针对说话人,有明确的交流意图,向心手势只是反应说话人的情绪和内心的愿望。

    识别手势的手段有:

    鼠标器和笔:优点是仅利用软件算法来实现,从而适合于一般桌面系统;缺点是只能识别手的整体运动而不能识别手指的动作。

    数据手套:主要优点是可以测定手指的姿势和手势;相对而言较为昂贵,并且有时会给用户带来不便。

    计算机视觉:利用摄像机输入手势,优点是不干扰用户;在技术上存在很多困难,还难以胜任手势识别和理解的任务。

    技术:

    模板匹配技术:一种最简单的识别技术,将传感器输入的原始数据与预先存储的模板进行匹配,通过度量两者之间的相似度完成识别任务。

    神经网络技术:一种较新的模式识别技术,具有自组织和自学习能力,具有分布性特点,抗噪声能力比较强,能处理不完整的模式,并具有模式推广能力。 

    统计分析技术:通过统计样本特征向量来确定分类器的一种基于概率的分类方法。在模式识别中一般采用贝叶斯极大似然理论确定分类函数。

    ²  语音识别

    概念:

    语音识别是计算机通过识别和理解过程把语音信号转变为相应的文本文件或命令的技术,目前主流的语音识别技术是基于统计的模式识别的基本理论。

    技术:

           数字化语音信号的转换和量化涉及到信号表示问题:需要研究如何使系统在传感器与环境的变化中保持性能的稳定,以适应这些变化。

    各种语音必须被恰当地建模:目前采用的最广泛的建模技术是隐马尔科夫模型(HMM)

    语言的约束问题。

     

    ²  表情识别

    步骤:

           表情的跟踪:以某种方式将表情信息从外界摄取出来。

    表情的编码:即对面部表情进行编码。基于面部运动确定表情的思想,面部动作编码系统(FacialAction Coding System,FACS),它是基于对所有引起面部动作的脸的“动作单元”的枚举编制而成的。

    表情的识别:面部表情的识别可以通过对FACS中的那种预定义的面部运动的分类来进行,而不是独立地确定每一个点。

    ²  手写识别

    分类:

           脱机(off-line,又称离线)识别:脱机识别就是机器对于已经写好或印刷好的静态的语言文本图像的识别。

    联机(on-line,又称在线)识别:联机识别是指用笔在输入板上写,用户一边写,机器一边进行识别,可实时人机交互。包括了预处理、归一化、特征抽取、特征匹配

    ²  汉字识别

    识别方法:

           结构识别:出发点是汉字的组成结构,把复杂的汉字模式分解为简单的子模式直至基本模式元素,对子模式的判定以及基于符号运算的匹配算法,实现对复杂模式的识别。

    统计识别:将汉字看为一个整体,其所有的特征是从整体上经过大量的统计而得到的,然后按照一定准则所确定的决策函数进行分类判决。

    神经网络:神经网络具有学习能力和快速并行实现的特点,因此可以通过神经网络分类器的推广能力准则和特征提取器的有效特征提取准则,对手写字符进行识别。

    ²  数字墨水

    数字墨水是一种新的人机界面技术,它借鉴手写识别技术的同时,克服了它的许多局限性。数字墨水在数学上是通过三阶贝塞尔曲线来描述笔输入的笔迹,它的记录格式与图像和文本格式都不同。

    展开全文
  • 人机交互技术》参考论文.rar 《人机交互技术》参考论文.rar 18份老师推荐参考论文 18份老师推荐参考论文
  • 虚拟维修中的人机交互技术研究,白中甲,刘伟,本文立足于虚拟现实技术的发展,分析了国内外虚拟装配的研究现状,并着重阐述了虚拟维修中的人机交互问题。文章中针对虚拟维修中
  • 全息显控界面中多通道人机交互技术研究
  • 1.掌握界面设计过程中应考虑人的哪些因素对设计的影响;...2.掌握人机交互技术的发展及人机界面的类型; 3.掌握人机界面设计过程、活动及常遇到的问题; 4.掌握3条黄金原则; 4.理解界面实现工具的机理及界面设计评估。
  • 支持Unity3D的多Kinect人机交互技术论文
  • 面向小界面大数据可视化的语义Focus+Context人机交互技术
  • 通过《人机交互技术》实验课程的实践,使学生了解《人机交互技术》与计算机图形、程序设计、认知心理学以及计算机硬件的发展等领域密切相关,并加深学生对人机交互知识的理解,增强学生的实际运用能力和开发高可用性...
  • 山东大学 2013年6月软件学院软工专业、多媒体技术专业 人机交互技术课程考试题目。 该题目为考后默写题目。
  • 人机交互技术概论

    千次阅读 2014-10-06 10:46:12
    人机交互技术(Human-Computer Interaction,HCI)致力于人与计算机的协调,旨在消融这两个智能系统间的通讯和对话界线,使得人与机器的信息交流便捷而通畅。计算机系统的人机交互是以用户界面(User Interface,UI)为...

    PS:说明一下,这个是网上的某大牛写的吧,没有搜到相关文献,也没有找到原出处,时间大概是10年或更早写的。

    人机交互技术(Human-Computer Interaction,HCI)致力于人与计算机的协调,旨在消融这两个智能系统间的通讯和对话界线,使得人与机器的信息交流便捷而通畅。计算机系统的人机交互是以用户界面(User Interface,UI)为中介的人与计算机间信息传递和转换过程:人向计算机传达交互意图 — 用户通过其侧重于多媒体信息接受的感觉通道(包括:视觉、听觉、触觉和嗅觉等)对用户界面中诸如语音、图形和图像等多媒体信息的感知,先利用逻辑思维和形象思维能力产生对交互意图的心理描述,再按用户界面对交互的输入要求使用其侧重于过程控制与信息输入的效应通道为(包括:手、嘴、眼、头、足及身体等)来实施交互行;计算机向人传递计算和反馈结果 — 它利用其感知机制从精确的用户界面框架结构中获取用户的交互信息,并完成获取交互行为信息的感知处理、判断用户交互意图的认知处理和回馈交互结果的响应处理等一系列计算过程,最终运用其输出机制以用户界面所定义的特定形式输出其计算结果。
    从信息传递的角度来看,用户界面的任务是为人类的感觉和效应通道与计算机的感知和输出机制提供通信接口,计算机系统的人机交互包含互不可分的两类感知过程:一类是人对计算机所提供信息的感知过程。在这个过程中,计算机利用其计算能力和各种媒体处理技术将计算机可供交互的输入要求或交互处理结果的反馈以适当形式在用户界面上呈现给用户;而人类使用感觉通道(如:视觉和听觉)接受和理解用户界面所提供的各种信息。这种感知过程的关键是用户界面所呈现信息的形式和丰富程度,并部分与用户的心理因素及其认知能力相关,这决定了人机交互中计算机与人间通信的输出带宽。另一类是计算机对人及其所处环境的感知过程。在这个过程中,人类按照计算机所要求的输入事件使用效应通道(如:语音和动作等)在用户界面中输入交互操作和指令;计算机则通过对来自用户界面的用户交互媒介信号的处理和分析来获取和识别用户交互意图,并以适当形式在用户界面上呈现给用户。这种感知过程不仅取决于计算机感知和识别人和物及其检测用户情绪变化或用户个性等信息处理能力,而且取决于用户有意识地将交互意图“分解”和“组织”为计算机所特有输入事件过程中所付出的“认知努力”,这决定了人机交互中计算机与人间通信的输入带宽。此外,如果计算机是可以感知外部世界的机器,还存在两种特殊的感知:一种是计算机感知并传递人及其环境信息,人借助于计算机传递感知信息,它基本上不属于人机交互的感知,但可以作为人机交互感知的基础。例如:在视频会议、远程教学和远程医疗等系统中,计算机并不一定需要识别人的交互行为和信息,而只成为两人或多人之间的相互交流的媒介;另一种是人作为虚拟世界中的成员而从计算机中获得的感知,这种感知是人机交互的感知,而且人和计算机的感知地位是等同的,其感知信息的形态不仅内容丰富,而且可以是现实世界里所看不到的(例如:虚拟的场景、文本和语音等)。

    从信息转换的角度来看,用户界面的作用是实现“用户认知空间”与“计算机信息处理空间”间信息的双向映射。由于人类的交互意图通常是一个涉及人的认知和行为因素的高维复杂信息,且这些信息是非精确的或模糊的;而计算机遵循线性信息表示和存储模式来表示和处理交互信息,所能捕获和处理的必须是形式化的精确信息,且其感知和处理结果不一定能够依从人的感知规则。两者间的差异决定了其双向映射实现的技术复杂性和方式多样性,因此,人机交互技术的任务就是要选择合适的映射方式来解决其技术实现的复杂性与用户交互的易用性问题。技术实现的复杂性主要体现在如何提升计算机感知和识别用户交互行为和状态并进而理解其交互意图;用户交互的易用性则表现为如何充分利用和协调人类的多个感觉和效应通道并进而降低其完成交互行为所需付出的“认知努力”。显然,一个良好的映射方式将会极大地提高人机交互的自然性和高效性。在人机交互技术发展历程中,人机交互的界面形式经历了手工作业、命令接口(作业控制语言及交互命令语言批处理)、(文本)菜单到多通道、多媒体人机交互和虚拟现实系统;人机交互的信息载体经历了以文本和符号为主字符用户界面(Character UI)、以二维图形为主的图形用户界面(Graphic UI)、兼顾视听感知的多媒体用户界面(Media UI)及综合运用多种感觉(包括触觉等)的虚拟现实系统(VR:Virtual Reality);人机交互的信息维度从一维(主要指文本流)、二维(主要是利用色彩、形状、纹理等维度信息的二维图形技术)、三维(主要是三维图形技术,但图形显示仍以二维平面为主)向多维空间(利用人的多个感觉通道和效应通道的信息)发展,计算机与用户间的通信带宽不断提高。就其技术机理本质而言,这种发展蕴涵着对人机交互中两个主体不同侧重点的映射方式演化:

    一种是以机器为中心的受限方式。这种方式强调将计算机的信息处理需求有效地呈现给用户,为用户提供一个形式化、半双工、串行的低维度信息展现和操作界面,主要表现在两个方面:一是人的交互需基于离散事件,用户界面等同于一个解释器,它接受事件输入并反馈计算机处理的结果,在此过程中,多维信息矢量被压缩为一个低维矢量,形成一个串行的输入流;二是人的交互必须基于精确交互:用户在交互中需要把意图按模型要求“分解”并“组织”为计算机所特有的输入事件,以完全说明用户交互目的和意度。用户必须面对机器操作定义的限制并付出较多的认知努力来使用计算机。从用户角度来看,这种方式支持的是受限人机交互(Formal HCI),用户需饱受命令记忆和新功能学习之苦。例如,用户通过使用鼠标、键盘和显示器来与传统的桌面计算机进行交互时,与计算机及其上运行软件间的交互存在着“受限的”交互次序:完成特定序列的操作来创建Word文档、输入文本并将其打印,等等。这种方式的实现关键在于计算机及其软件处理能力展示的有效性和合理性及用户操作的简便性和易记忆程度,具体表现为两个方面的问题:一是如何充分而有效地展示计算机及其软件的处理能力,即:如何定义操作及其布局,如:弹出菜单、下拉菜单、分层菜单等;二是如何让用户方便地使用和记忆,即:用户采用何种方式进行操作,如:命令语言、文字菜单和图标点击,等等。显然这种方式限制了人机间的通信带宽,使得既不能有效地利用当今计算机的强大计算和处理能力,也给用户使用电脑有诸多不便。

    传统用户界面都是采用了这种映射方式。它主要包括三大类:

    (1). 命令语言交互(Command HCI):这种人机交互始于联机终端的出现,用户与计算机间借助一种双方都能理解的语言进行对话。根据语言特点可分为:① 形式语言。这是一种人工语言,特点是简洁、严密、高效,如:应用于数学、化学、音乐、舞蹈等各领域的特殊语言,计算机语言则不仅是操纵计算机的语言,而且是处理语言的语言;② 自然语言。特点是具有多义性、微妙、丰富。③ 类自然语言。这是计算机语言的一种特例,命令语言的典型形式是动词后面接一个名词宾语,即:“动词+宾语”结构,二者都可带有限定词或量词。命令语言可以具有非常简单的形式,也可有非常复杂的语法。它要求惊人的记忆和大量的训练,且容易出错,但具有灵活和高效的特点,适合于专业人员使用。

    (2). 图形交互(Graphic HCI):图形用户界面(Graphics UI,GUI)是当前人机交互的主流,成熟的商品化系统有Apple的Macintosh、IBM的PM(Presentation Manager)、Microsoft的Windows和运行于Unix环境的X-Window、OpenLook和OSF/Motif等。这种界面包含三个重要思想:① 桌面隐喻(Desktop Metaphor),即在用户界面中用人们所熟悉的桌面上的物品来清楚地表现计算机可处理的能力;② WIMP(Windows、Icons、Menu and Pointer)是组成图形用户界面的基本单元,以可重叠多窗口管理的窗口管理系统为核心,使用键盘和鼠标器作为输入设备,并广泛采用事件驱动(Event-Driven)技术;③ 直接操作及所见即所得(What You See is What You Get)的界面,交互过程极大地依赖用户视觉和手动控制的参与,具有强烈的直接操作特点。菜单(Menu)本身与图形人机交互并没有必然联系,在图形用户界面出现前,字符型菜单已经在用户界面中得到了广泛应用。但图形人机交互中菜单的表现形式比字符人机交互更为丰富,在菜单项中可以显示不同的字体、图标甚至产生三维效果,同时,还可以诸如层叠式(Hierarchy)、弹出式(PopUp)、下拉式(PullDown)和滚动式(scrolling)及其组合等多种形式出现,菜单式人机交互与命令语言人机交互相比,用户只需确认而不需回忆系统命令,从而大大降低记忆负荷,其缺点是灵活性和效率较差,可能不适合于专家用户。图形人机交互具有一定的文化和语言独立性,并可提高视觉目标搜索的效率;其主要缺点是需要占用较多的屏幕空间,并且难以表达和支持非空间性的抽象信息的交互。

    (3). 直接操纵(Direct-manipulation HCI):直接操纵更多地借助物理的、空间的或形象的表示,而不是单纯的文字或数字表示。前者已为心理学证明有利于“问题解决”和“学习”。视觉的、形象的(艺术的、右脑的、整体的、直觉的)人机交互对于逻辑的、直接性的、面向文本的、左脑的、强迫性的、推理的人机交互是一个挑战。直接操纵人机交互的操纵模式采用“宾语+动词”结构,Windows 95设计者称之为“以文档为中心”,用户最终关心的是其欲控制和操作的对象,即:只关心任务语义,而不用过多为计算机语义和句法而分心。对于大量物理、几何空间及形象的任务,直接操纵表现出巨大的优越性,但它在抽象而复杂的应用中具有局限性。对于用户界面设计者来说,图形的设计比较因难,需大量测试和实验;而复杂和抽象语义的表示比较困难,不容易实现交互与应用程序的独立设计。

    另一种是以用户为中心的非受限方式。这种方式强调将对人类自然能力(尤其交流、运动和感知能力)与计算设备及其感知和推理结合起来,通过采用多种模态(Multimodal)感知人类的自然行为,并以易理解的多媒体(Multimedia)形式实现多通道(Multichannel)通信,建立“以人为中心”的感知用户界面(Perceptive User Interface,PUI)[10]。这种界面旨在充分使用人类诸如语音、手势、视线及头部跟踪等多个感觉和效应通道,并使之可选择地并行和协作来实现多通道、非精确、高带宽、高效及不限制地点的人机通信[11],以拓展人机间信息通信的“带宽”,减少人类的交互认知努力,提高人机交互的自然性和高效性。从用户角度来看,这种方式支持的是非受限人机交互(Informal HCI)[12][13],其主要出发点是借助于媒体感知技术获取并理解用户动作、行为、习惯、偏好及其它相关交互信息,来缓解以至于消除计算机和用户对交互意图的认识和描述存在的精确信息(人机系统的内部表示)和非精确信息(人机系统的外部表示)间的“鸿沟”;其实现的关键在于计算设备对人的动作和行为识别的有效性,因此,支持这种交互方式的用户界面又称为基于识别的用户界面(Recognition-based User Interface)。

    这种方式的用户界面则代表着人机交互技术的发展方向,体现了对人的因素的重视,标志着人机交互技术从“人适应计算机”向“计算机不断地适应人”方向发展,就是要给用户“充分的自由”,使得人类不再需要按机器的要求扭曲自己最自然的思维和行为方式,而可以像在电脑出现前人类那样自由地工作和生活。传统的界面事实上成为隔离物质世界和信息世界之间的屏障,虚拟现实、网络计算、智能代理和软件机器人、计算机支持的协同工作等技术的应用,将实现“虚物实化”和“实物虚化”,消除物理对象和抽象对象、输入装置和输出装置在交互空间中的差别,并为人提供多感觉通道的自然临境体验;语音及文字识别和自然语言理解等言语计算,手写体和手绘草图识别等笔式计算及手势和表情识别、视觉-目标拾取认知技术等视觉计算等技术的不断发展和完善,将不断提高人机交互的智能化程度,使机器能够根据上下文及使用者的特点主动识别人的身体姿态、手势、语音和表情等各种自然行为,进而判断出人的意图。同时,机器的功能齐全、高效,既适于人的操作使用,也能满足人的审美和认知需要,机器的操控和使用将更加符合人的习惯,并具备听、看和说的能力,人可以语言、文字、图像、手势、表情等自然方式与机器打交道,恰如与他人交流一样自然。因此,用户界面是能模拟多种智能和真实环境的虚拟空间,人们能够在任何时间、任何地点与任何需要的环境(包括人)以最自然和“身临其境”的方式来完成所需要完成的工作;实现“无形而又无处不在,有形而又自然和谐”的普适交互(Ubiquitous/Pervasive HCI)模式,这种方式的特性体现在以下三个方面:

    • 以用户为中心(Human-Centered):以用户对人机交互的需求变化为出发点,使人机交互的外在形式和内部机制能符合不同用户的需要。人类的交互行为是自然的,用户将可利用语音、手势、笔划等自然方式,不受地点限制地与计算机进行交互,既能满足用户个性化的需要,又使得用户不脱离自然社会关系(包括社会经济环境和人类沟通交流)。

    • 多模态(Multimodal)交互:充分利用人类多种感觉和效应通道的互补特性,并使之可选择地、充分地并行和协作来捕捉用户的交互意图,从而增进用户交互的自然性。模态(modal)和通道(Channel)间的联系和区别主要在于:人类通过视觉、听觉、触觉、味觉和嗅觉这五种感官的信息发送和接收来实现与世界交互的,一种模态对应一种官能;而通道是指信息传递的过程或途径。在人机交互应用中,通道描述一种交互技术,这种技术可基于某种特殊设备,如:键盘或鼠标,也可基于某种特殊行为,如口语、书面语或手势。如:命令语言用户界面中的每个命令都会使用视觉和触觉等多种模态;而图形用户交互既使用了视觉和触觉等多种模态,又用到了诸如键盘、鼠标和声音及图像等多种通道。多模态人机交互是使用同等方式将两种或两种以上输入模态相结合的技术,其重点是将基于诸如语音识别、笔形手势识别、计算机视觉等传感识别的输入技术集成到用户界面中。也就是说,多模态人机交互使用多种模态来实现多种通道通信。使用多种模态生成单独的通道,如:利用视觉和声音进行三维用户定位,属多传感器融合(Multisensor Fusion);类似地,使用一种模态生成多种通道,如:左手鼠标指示,右手鼠标选择,则属于多通道或多设备(Multichannel or multi-device)人机交互。

    • 多媒体感知((Multimdia Perceptive):机器利用其感知及推理能力对来自用户感觉和效应通道的交互信号进行识别、集成和协调,并获取用户动作和行为习惯、偏好及其它相关信息,并以人类易理解的多媒体信息方式为用户提供输出信息,从而提供不受时空限制而又效能最大化的个性化计算服务。这种人机交互方式的双向信息流动是以多媒体感知和处理为核心的:用户通过其感觉和效应通道传递的交互意图在计算机内表示为文本、语音、图形和图像等多媒体信息,人到机(Human to Compute)信息流动是多媒体信息的获取及识别过程;计算机经过处理的信息需要以文本、语音、图形和图像等用户理解概念所需的多媒体信息形式展现出来,机到人(Computer to Human)的信息展流动是多媒体信息的合成和呈现过程。

    自Weiser博士提出普适计算(Ubiquitous/Pervasive Computing)以来,人类开始向未来计算探索的进程,也催生了以网格计算(Grid Computing)和云计算(Cloud Computing)为代表的计算分布化(Distribution)、以嵌入式计算(Embed Computing)为代表的计算透明化(Transparent)、以虚拟现实(Virtual Reality)和可穿戴计算机(Wearable Computer)为代表的计算机系统拟人化(Personate)和有形化(Tangible)、以手持电脑(PDA)和智能手机(Smart Phone)为代表的计算机系统微型化(Micromation)和随身化(Mobile)及以智能空间(Smart Space)和环境智能(Ambient Intelligence)为代表的计算机系统嵌入化(Embeded)和无形化(Invisible)等众多新型计算技术,推动着“机箱时代”迈向一个崭新时代:计算设备将从人类视野中“消失”,那些装在机箱中的声音、视频和通信等将“游荡”于我们周围环境中而变得“无处不在”。这个时代具有两个重要特征:一方面,小型化嵌入式计算设备将使得人类生活的自然环境“具有”计算能力,它能自主感知人的存在,并在人类需要时出现和对其行为作出反应;另一方面,计算将日常生活化,能帮助人类安排、构造和控制日常生活,人类将能享受的计算服务,人类能以最自然的方式、在任何时间、任何地点、通过任何设备从环境中“无意识地”获取“有感觉”的计算资源和计算服务。概括地讲,在这个时代,人类生活将片刻离不开机器,人与机器间的交流更加自然和没有阻碍,人和计算间将是非侵入且不可见的交互,现实世界就成为用户界面,用户只需运用其日常技能来操作和使用计算设备,而不再关注交互媒体形式,也无需特定的用户界面,即:Idea Interface is no interface。这既对人机交互技术提出了更高的要求和新的挑战,也为人机交互技术的发展注入了新的动力,因此,自然、高效、无障碍的新型人机交互技术成为该领域发展方向和研究热点。

    新型人机交互技术的最主要特性就在于用户交互的“非受限性(Informaity)”:机器给人以最小的限制并对人的各种动作做出反应,人是主动参与者,可以最大的自由度操作机器,如日常生活中人与人间的交流一样自然、高效和无障碍。这种人机交互技术强调两个关键特征:一是交互隐含性。理想的人机交互应当使用户把所有注意力集中于完成任务而无需为交互操作分心,且应允许使用模糊表达手段来避免不必要的认识负荷,有利于提高交互活动的自然性和高效性。传统用户界面都是等待用户输入命令才开始采取行动,而新颖人机交互技术的用户界面则应是积极地感觉和理解世界,并让用户在各个层次上根据目标和已有知识采取行动,并以充分性代替精确性。理想地,这是一个使用“被动”或“非侵入性”感知的“主动”交互方式,无需用户显式说明交互成分,仅在交互过程中隐含地表现而允许非精确的交互,如:用户视线自然地落在所感兴趣的对象上;用户的手自然地握住被操纵的目标;等等。二是交互多模态性和双向性。允许使用多种感知模态(如:视觉、听觉、触觉等)或多个感觉和效应通道,突破了模态和鼠标键盘显示器通信通道的限制,使用连续形式和并行形式在内的多种模态。尽管感觉通道侧重于多媒体信息的接受,效应通道侧重于交互控制与信息输入,但两者是密不可分、相互配合:只用一种通道不能充分表达意图,就需要其它通道信息辅助。有时,使用辅助通道仅为增强表达力,否则,就必须允许充分地并行和协作的通道配合关系。此外,人的感觉和效应通道通常具有双向性特点,如:视觉可看又可注视;手可控制又可触及;等,新颖人机交互技术让用户避免生硬、频繁或耗时的通道切换,从而提高自然性和效率。如:视线跟踪系统可促成视觉交互双向性;听觉通道在利用三维听觉定位器实现交互双向性;等等。

    新型人机交互技术的核心问题在于如何确保计算设备对人的动作和行为识别的有效性并实现人机的和谐共处。计算设备及其传感器是透明和被动的,但可以主动感知人类相关通信通道并输出人类可理解的结果。这就需要不同类型和层面技术的集成,并随着关键维度或特征发生变化,包括:输入模态的数目和类型;通信通道的数目和类型;使用并行模式、串行模式或同时使用并行和串行模式的能力;识别模式的大小和类型;传感器和通道的集成方法及支持的应用种类,等等。依据充分利用人类感觉和效应通道并使得人机交互更加自然的目标,新型人机交互的关键技术主要集中在以下几个方面:

    (1). 支持语音交互(Speech-Based HCI)的言语计算(Speech Computing):语音是人类一种重要而灵活的通信模态,言语交互的核心是语音识别,其任务就是利用语音学和语言学知识,先对语音信号进行基于信号特征的模式分类(这是语音信号处理的范畴)得到拼音串,再利用语言学知识对拼音串进一步处理,得到一个符合语法和语义的句子。简单地说,语音识别就是让计算机能听懂人说话,将人说的话转换成计算机文本。

    (2). 支持笔迹交互(Pen-Based/Calligraphic HCI)的笔迹计算(Calligraphic Computing):笔迹交互是通过计算机软硬件技术和相关领域的研究,模拟人类“笔录纸现”这一日常技能的一种人机交互方式。在这种用户界面中,用户借助鼠标、笔迹交互器及触摸屏等设备用手自由地书写或绘制各种文字和图形,计算机通过对这些输入对象的识别和理解获得执行某种任务所需要的信息。它充分利用书写的自然性和墨水丰富的表达能力,从而拓宽了人机交互的频带,使人们通过笔迹交互自然地使用计算机的高性能计算能力:从计算机处理角度看,笔迹交互可以在一个或多个连续的笔画中自然地提交计算任务所需要的命令和参数;从人机交互角度来看,它通过将用户的交互意图映射为由压力、方向、位置和旋转等信息共同构成的多维矢量序列[11][2];从认知心理学角度看,用户的交互意图通过几个效应和感知通道提交。与言语交互相比,笔迹交互以视觉形象表达和传递概念,既有抽象、隐喻等特点,还具有形象、直观等特征,易于理解和记忆,更适于推论和构思;与传统图形图像工具相比,它具有自然、简便,可表达不完备模糊概念,拥有强大的信息表达能力,有利于创造性思想的快速表达、抽象思维的外化和自然交流。

    (3). 支持视觉交互(Vision-based HCI)的视觉计算(Vision Computing):在人类日常面对面交互中,除使用语音和文字外,还可利用身体各部位的姿态和动作(即所谓身体语言)来表达自己的意思。视觉和言语是联合表达、相互补充的通道,诸如脸部表情、注视焦点、肢体动作及其它活动等行为线索能为交流提供相关上下文信息,这些信息不仅能加强语音的表达能力,还能起到语音交互所不能起到的作用,并影响交谈的内容和进程,如:头部动作可能是“否定”或“肯定”的信号,脸部表情可能是“无奈”或“赞许”的表式,注视角度可能可消除“这边”或“那边”等语言中指代不明的问题。视觉交互技术(Vision-based Interaction)的目标就是在人机交互中采用计算机视觉作为有效的输入模态,探测、定位、跟踪和识别用户交互中有价值的行为视觉线索,进而预测和理解用户交互意图并做出响应。这种技术可以支持人机交互中的一系列的功能,如:人脸检测、定位和识别(确定场景中的人数、位置和身份等);头和脸部的跟踪(用户的头部、脸部的位置和方向);脸部表情分析(用户表情状态:微笑、大笑、皱眉、说话、困乏等);视听语音识别(协助判断用户说话内容);眼睛注视跟踪(用户的眼睛朝向);身体跟踪(用户身体的位置,身体的动作等);手跟踪(确定用户手的位置,二维或三维模型、手的结构等);步态识别(识别人的走路/跑步的风格);姿势、手势和活动识别等,最终实现人与机器的“行为交互(Behaviour Interaction)”。

    (4). 支持情感交互(Affective-based HCI)的情感计算(Affective Computing):众所周知,人类相互之间的沟通与交流是自然而富有感情的,计算机没有情感能力,就很难指望它具有类似人一样的智能,也很难期望人机交互真正实现和谐与自然。因此,人们在与计算机交互的过程中,也期望计算机具有情感和自然和谐的交互能力[14]。而情感交互就是要赋予计算机类似于人一样的观察、理解和生成各种情感特征的能力,它是通过各种传感器获取由人的情感所引起的表情及其生理变化信号,利用“情感模型”对这些信号进行识别,从而理解人的情感并做出适当的响应。其重点就在于创建一个能感知、识别和理解人类情感的能力,并能针对用户的情感做出智能、灵敏、友好反应的个人计算系统[14]。拥有情感能力的计算机能够对人类的情感进行获取、分类、识别和响应,进而帮助使用者获得高效而又亲切的感觉,并有效减轻人们使用电脑的挫败感,甚至帮助人们便于理解自己和他人的情感世界。情感交互还能帮助我们增加使用设备的安全性、使经验人性化、使计算机作为媒介进行学习的功能达到最佳化。

    (5). 支持可穿戴交互(Wearable HCI)的穿戴计算(Wearable Computing):可穿戴计算机是一类超微型、可穿戴、人机“最佳结合与协同”的移动信息系统。可穿戴计算机在体系结构、功能、形态、用途及使用方式上与现在流行的笔记本电脑、掌上电脑(HPC)、个人数字助理(PDA)等移动计算装置迥然不同:可穿戴计算机不只是将计算机微型化和穿戴在身上,它还实现了人机的紧密结合,使人脑得到“直接”和有效的扩充与延伸,增强了人的智能。这种交互方式由微型的、附在人体上的计算机系统来实现,该系统总是处在工作、待用和可存取状态,使人的感知能力得以增强,并主动感知穿戴者的状况、环境和需求,自主地做出适当响应,从而弱化了“人操作机器”,而强化了“机器辅助人”。

    上述技术都是利用人与人及人与世界间口头或非口头的交互方式,使用各种模态来实现多通道通信,本质上都属于支持感知交互的感知计算(Sentient Computing)。

    (6). 支持虚拟交互(VR HCI)的虚拟现实(Virtual Reality):虚拟现实的基本原理是采用摄像或扫描的手段(而不是传统的建模手段)来创建虚拟环境中的事件和对象,生成一个逼真的三维视觉、听觉、触觉或嗅觉等感觉世界,让用户可以从自己的视点出发,利用自然的技能和某些设备对这一生成的虚拟世界客体进行浏览和交互考察。其特点包括:逼真的感觉(视觉、听觉、触觉、嗅觉等)、自然的交互(运动、姿势、语言、身体跟踪等)、个人的视点(用户的眼、耳、身所感到的感觉信息)和迅速的响应(感觉信息根据视点变化和用户输入及时更新)。这些特点可概括为三大特征:沉浸感(Iimmersion):是指用户作为主角存在于虚拟环境中的真实程度;交互性(Iinteraction):指用户对虚拟环境内的物体的可操作程度和从环境得到反馈的自然程度(包括实时性);想象力(Imagination ):指用户沉浸在多维信息空间中,依靠自己的感知和认知能力全方位地获取知识,发挥主观能动性,寻求解答,形成新的概念。

    (7). 支持人脑交互(Brain-Computer Interaction)的脑计算(Brain Computing):最理想的人机交互形式是直接将计算机与用户思想和目的进行连接,无需再包括任何类型的物理动作或解释,实现“Your wish is my command”的交互模式[15]。虽然在可预见的未来这种思想不太可能实现,但对“人脑计算机界面(Brain-Computer Interface,BCI)”的初步研究可能是迈向这个方向的一步,它试图通过测量头皮或者大脑皮层的电信号来感知用户相关的大脑活动,从而获取命令或控制参数。人脑交互不是简单的“思想读取”或“偷听”大脑,而是通过监听大脑行为决定一个人的想法和目的,是一种新的大脑输出通道,一个可能需要训练和掌握技巧的通道。

    当前,采用第一种方式的图形用户界面仍是应用的主流,尤其是以超文本标记语言(HTML)及超文本传输协议(HTTP)为基础的网络浏览器和搜索引擎的桌面网络用户界面最为普遍,包含了适应不同带宽(从高速视频点播到低速移动电话)、不同尺寸(从手表、掌上电脑到墙壁大小)的各种用户界面;而采用第二种方式的语音、手写等易用而方便的界面也正逐步普及,多通道、多媒体的自然、高效、智能化用户界面正得到快速发展和应用。

     

    http://www.sciencenet.cn/m/user_content.aspx?id=332668

    展开全文
  • 清华大学出版社 人机交互技术 全套课件 孟祥旭
  • 基于激光笔的远程人机交互技术
  • 人机交互技术与应用的融合通过使用摄像投影传感系统能够将任意的,比如办公桌面、餐台、茶几等表面或一张普通的纸变成可触控的平台
  • 系统的介绍了 人机交互技术 不失为一个优秀的课件 简易你下载
  • 该文档来自MDCC 2015中国移动开发者大会。马赓宇发表了题为“虚拟现实与人机交互技术”的主题演讲,欢迎下载!
  • 人机交互技术》结课作业(华科软院) 作业内容概述: ● 一、界面调研报告:图文并茂,不少于15页(Word或PPT) ● 二、界面改造:用Auxre RP或GUI Design对热力学计算的界面实现三种风格的改造:对话框方式、...
  • 软件学院人机交互技术结课作业:界面调研报告&交互界面设计。 实验内容: 1、界面改造:用Axure RP 9对热力学计算的界面实现三种风格的改造:对话框方式、菜单方式、Tab栏方式 2、界面仿制:用Axure RP 9仿造Word ...
  • 3D人机交互技术是计算机图形学、虚拟现实和模式识别的交叉融合领域,可分为虚拟环境的显示和三维物体识别。该研究将虚拟环境显示和三维物体识别整合成一个完整的解决方案并应用到1∶1模拟虚拟场景的近距离交互。研究...
  • 移动互联网正在飞速发展,并改变着人们的生活,而智能终端是发展各种移动互联网应用的关键,新型的人机交互方式不仅改变着...对近几年的新型人机交互方式及其关键技术进行了全面分析,并对未来趋势进行了初步的总结。
  • 从草图识别和语义理解这两个方面对基于草图的人机交互技术的研究状况进行了分析和总结1 对草图识别方法按其模式单元定义(笔划、图元、特征和组合图形) 进行了分类和剖析;对草图语义理解所涉及的语义获取、语义解释和...
  • 人机交互技术》实验指导书.doc
  • 虚拟校园漫游及其人机交互技术的研究与实现虚拟校园漫游及其人机交互技术的研究与实现
  • 主要是人机交互这门课程的基础知识,适用于期末考试复习时针对选择和简答题的总结
  • 人机交互技术--原理与应用

    热门讨论 2010-07-20 12:29:36
    狭义的讲,人机交互技术主要是研究人与计算机之间的信息交换,它主要包括人到计算机和计算机到人的信息交换两部分。 对于前者,人们可以借助键盘、鼠标、操纵杆、数据服装、眼动跟踪器、位置跟踪器、数据手套、...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 4,287
精华内容 1,714
关键字:

人机交互技术