精华内容
下载资源
问答
  • 视线追踪
    万次阅读 多人点赞
    更多相关内容
  • 为了提取人眼的高精度亚像素特征参数, 利用亮瞳现象, 提出了一种基于多通道图像的高精度亚像素特征参数提取方法。该方法首先通过差分图像滤波获得...实验结果及视线追踪系统最终的视线估计结果证明, 该方法是有效的。
  • 基于单视觉主动红外光源系统, 提出了一种视线检测方法. 在眼部特征检测阶段, 采用投影法定位人脸; 根据人脸对称性和五官分布的先验知识, 确定瞳孔潜在区域; 最后进行人眼特征的精确分割. 在视线方向建模阶段, 首先在...
  • 文章目录一、 前言二、 眼球追踪基础1. 眼动类型研究2. 基本设备3. 校准 calibration4. 眼球视线和头部姿态的关系5. 视线追踪精确度的评估三、 视线估计算法1. 基于2维回归2. 基于3D模型1) 单摄像头2) 多摄像头3. ...

    一、前言

    本博客核心参考论文:

    A Review and Analysis of Eye-Gaze Estimation Systems, Algorithms and Performance Evaluation Methods in Consumer Platforms

    A. Kar and P. Corcoran, Towards the development of a standardized performance evaluation framework for eye gaze estimation systems in consumer platforms, in Proc. IEEE Int. Conf. Syst., Man, Cybern., Budapest, Hungary, Oct. 2016, pp. 002061 002066.

    目前,视线追踪技术有以下应用平台:

    • 电脑:主要用来人机交互——计算机通信和文本输入(比鼠标更有效率,而且更适合残障人士使用)
    • 电视:选择和导航菜单和切换频道
    • 头戴设备:应用于用户注意、认知研究、精神分析;或者是VR的局部渲染,如果能够通过头盔内置摄像头估计人的视线方向,则可以对场景做局部精细渲染,即仅对人视线范围内的场景精细渲染,从而大大降低硬件成本。
    • 汽车装备:检测驾驶员是否疲劳驾驶以及注意力是否集中。
    • 手持设备:亮度、音量调节等人机交互功能。

    在这些不同平台中,由于硬件、生物差异等因素各不相同,导致不同平台间的变量很多,差异很大,导致同样的算法在不同平台中表现会不一样。

    同时,还因为在当今的研究文献中:

    1. 不同文献衡量视线追踪性能的指标也不一样,导致不同研究之间很难直接进行对比;
    2. 在进行视线追踪研究时,所考虑的误差不够全面,所查阅的文献中,只有少数几篇论文研究了操作条件对系统性能的影响;
    3. 术语的使用也没有一个统一化的规范。

    这一切都不利于该领域的后续发展。所以,为了:

    1. 研究各种误差源对系统性能的影响;
    2. 以统一误差格式,来定量报告系统性能;
    3. 确定每个平台的精度性能瓶颈。

    本文:

    1. 提出了一个标准化的性能衡量框架。
    2. 为视线评估技术做一个综述性的介绍,包括系统、算法、以及有哪些误差因素会影响精度。

    二、为什么要开发性能评估框架?

    1. 应用平台之间操作环境不一样

    五个平台中视线追踪技术的使用条件完全不同。因此,根据平台的不同,视线追踪器也可能产生显著不同的结果。

    在这里插入图片描述

    表4给出了五个视线追踪平台的硬件配置和使用条件,包括用户姿势和视角、屏幕尺寸、用户与屏幕摄像机设置之间的典型距离。

    在误差方面(使用度数误差):

    • 通常情况下,头戴式系统误差低于一度,优于其他平台。
    • 对于桌面系统,其误差从0.5度到2度不等
    • 对于汽车和手持设备等更具动态性的平台,其误差在2度以上。

    2. 文献中性能评价指标不一样

    通常来讲,我们使用以下指标来衡量视线追踪系统的性能:

    1. 角度分辨率(以度为单位)
    2. 视线识别率(以百分比为单位)
    3. 视线和目标位置之间的最小像素位移/距离。

    但是这些指标之间没有任何关联。在参考文献中,不同的文章使用了不同的指标,例如百分比识别率或错误率。这就导致了,大多数视线估计方法之间无法相互比较。

    图10显示了不同平台不同格式精度的论文数量。

    在这里插入图片描述
    从表5可知,视线估计这项研究中,目前没有一个用来评价性能指标的标准。如表所示,在来自电脑/电视应用平台的总共69篇论文中:

    • 44篇论文使用了以度为单位的追踪精度
    • 16篇论文使用了视线识别率
    • 9篇论文使用了混合单位。

    在这里插入图片描述

    而在所有平台的182项研究工作中:

    • 95篇论文报告了以度为单位的视线准确度得分
    • 41篇论文报告了百分比(正确检测率)
    • 46篇论文使用了其他单位。

    另外,桌面和头戴式平台常使用度作为单位,而汽车或手持设备更倾向使用其他度量衡。这样会导致大量研究得出的性能既不能比较,也不能进行定量解释。

    3. 有很多误差源没有被考虑到

    视线追踪系统会被很多因素影响,这些因素,我们称之为误差源。

    • 在台式机平台上,误差主要来源于头部移动。
    • 在头戴式设备中,误差源于追踪器未校准、追踪器延迟…
    • 汽车系统,头部移动、可变照明、阴影造成的遮挡或用户戴眼镜…
    • 在手持设备中,用户相对于设备的位置发生变化、头部姿势、手抖动、可变照明和Midas-touch。

    [31] B. B. Velichkovsky, M. A. Rumyantsev, and M. A. Morozov, New solution to the midas touch problem: Identification of visual commands via extraction of focal fixations, Procedia Comput. Sci., vol. 39, pp. 75 82, Dec. 2014.

    在视线估计中,有些误差源已经进行了研究:

    • 头部姿势的变化
    • 用户距离和视角。

    但是也有很多误差源没有考虑:

    • 如追踪视线的屏幕的尺寸和像素分辨率
    • 平台移动和抖动
    • 照明变化
    • 相机质量
    • 人眼遮挡等

    众多文献中:

    • 基于桌面系统的69篇论文中,只有35篇报告了头部姿势变化的影响
    • 基于头戴式系统的57篇论文中,只有16篇报告了头部姿势变化的影响
    • 台式和头戴式平台中都只有2篇论文报告了视线追踪装置的显示属性的效果。
    • 4篇论文在台式机上报道了照明变化的影响,
    • 1篇在头戴式系统上报道了照明变化的影响。
    • 在汽车和手持设备等动态平台中,外部条件更多,评估统计数据甚至更差。

    在这里插入图片描述
    为了研究这种情况,表6给出了各种误差源的统计数据,以及它们的研究程度。

    • 从表中可以看出,每种平台都会遇到至少5-6种误差源件,但对于五种平台,有哪些共同的误差源呢?只可惜这方面研究较少,头部姿态是研究最多的因素,但其他误差源的影响很少有论文分析。

    只有对这些误差源有充分评估了解,我们才能可靠地给出视线追踪系统的精度。

    4. 术语的使用歧义

    在实现追踪领域的众多文献中,有些词语的使用并不精确,并没有给出一个定量的概念。例如:

    • 轻微头部运动slight head movement(如[43]、[78]和[145])
    • 剧烈头运动large head movement(如[45]、[47]和[66])
    • 自由头部运动free head movement(如[53]、[56]和[67])

    这都无法满足定量化衡量性能的需求。综上,我们需要一个统一的标准化性能评估框架。

    三、性能评估框架

    1. 框架介绍

    性能评估框架由一系列标准化测试,来评估视线追踪算法、系统在各种误差参数的影响下的实际性能:

    • 如头部姿态的变化、视角、屏幕大小和分辨率、眼遮挡、平台运动和光照变化。

    在这里插入图片描述

    这些误差可以被分为三大类,见框架结构示意图11:

    1. 人的因素:头部姿态、眼睛遮挡、手部姿势和震动
    2. 设备的因素:相机的数量、分辨率
    3. 环境的因素:平台本身的移动、光照变化、屏幕大小和分辨率、用户和设备的距离

    这个框架在开发完成后,能帮助我们回答以下问题:

    1. 在一个特定用例中,到底是哪一个系统参数影响了实际性能?
    2. 在同样操作条件下,与它类似系统相比,他的的性能如何?
    3. 为一个平台设计的算法能否在另一个平台上有效移植和实现?
    4. 算法的性能瓶颈是什么?

    目前框架还在开发中。

    2. 测试项

    在这个框架中,我们针对不同的测试项,分别展开测试。测试步骤如下

    1. 使用者坐在视线追踪器前面,并进行眼睛校准(calibration)。
    2. 使用者会盯着屏幕上出现的一些点看,同时,实现追踪器会记录使用者的视线坐标。
    3. 根据真实值和实现追踪值之间的偏移来计算误差(以°为单位)。

    一些视线追踪器的评估的初步结果见[24]。

    [24] A. Kar and P. Corcoran, Towards the development of a standardized performance evaluation framework for eye gaze estimation systems in consumer platforms, in Proc. IEEE Int. Conf. Syst., Man, Cybern., Budapest, Hungary, Oct. 2016, pp. 002061 002066.

    我们将测试以下误差:

    (1)头部姿势

    在这里插入图片描述
    测试头部姿态对误差的影响,步骤如下:

    1. 用户被定位在视线追踪器的前面,之后摄像机捕获头部的位置;

    2. 使用如图12所示的头部姿态模型,从视频中获得用使用者的当前的roll、pitch、yaw 三维偏转度;

    3. 之后,让用户的头转向一个特定的位置(特定的 roll、pitch、yaw);

    4. 校准 calibration(后面5.1.3章节会讲到);

    5. 进行实现追踪测试;

    6. 保存数据,计算精准度。

       补充一下:
       	- pitch ():俯仰,将物体绕X轴旋转
       	- yaw ():偏航,将物体绕Y轴旋转
       	- roll ():横滚,将物体绕Z轴旋转
      

    图13显示了各种头部姿势角度对应的视线精度。如果想要观察到可靠的视线追踪结果,头部姿势必须限制在3个方向(x、y、z)20度的运动范围内。这样,我们就可以得到视线追踪器能接受的最大头部姿态误差。

    在这里插入图片描述

    • 此图显示了使用者头部旋转角度与实现追踪精度的关系曲线,人的头部在三个维度(单侧)上的旋转范围为±40°。通过我们的测试,头部运动的误差极限是20°,如果用户的头部移动超过了这些角度,追踪器误差就会超过可接受的水平。
    • 另一个特征是,头部滚动和俯仰对追踪误差的影响相对比偏航变化更明显。

    (2)用户距离和视角

    在本实验中,使用者固定头部姿势,正面面向屏幕,且与计算机屏幕测试距离为40 - 100厘米,依次递增10厘米,记录每个位置的视线跟踪精度。如图7所示

    1. 用户的视角随着使用者远离屏幕而减小。
    2. 随着观测角度的增加,误差迅速下降。
    3. 当用户太接近跟踪器时,也就是用户对跟踪器屏幕设置小于40厘米时,跟踪器误差也很高(但图中并没有反映这一信息)。

    在这里插入图片描述

    (3)显示器尺寸和分辨率

    实验在4中不同的屏幕上进行测试,结果如下所示。
    在这里插入图片描述
    在这里插入图片描述

    (4)相机分辨率

    每个视线跟踪装置都有一个或多个摄像头,相机的分辨率直接影响所捕获图像中眼睛的细节程度,从而影响视线跟踪的准确性[29]。

    [29] W. W. Abbott and a a Faisal, “Ultra-low-cost 3D gaze estimation: an intuitive high information throughput compliment to direct brain–machine interfaces,” J. Neural Eng., vol. 9, no. 4, p. 046016, 2012.

    为了研究相机分辨率对注视估计误差的影响,在恒定光照下,在相机和用户之间不同距离下,使用相机分辨率从130万像素到2400万像素的相机分辨率采集眼睛图像,如图9所示。
    在这里插入图片描述

    我们使用眼窝宽度上的像素个数来衡量眼部细节程度,如图10所示。
    在这里插入图片描述

    眼睛的细节程度与相机距离的关系见图11 、12。

    在这里插入图片描述

    对于低分辨率的相机,当眼睛远离相机时,眼部细节变低,图像质量急剧降低;而用高质量的相机,随着距离的变化,眼睛的细节几乎保持不变。

    我们将实际瞳孔中心与检测到的瞳孔中心之间的误差为瞳孔检测误差。这个误差与相机分辨率的关系如图14所示。

    • 可以看到,相机的像素越高,误差越小
    • 在一米内,相机分辨率在8 MP(800万像素)左右会趋于平稳,这个值是一个最佳的相机分辨率。

    在这里插入图片描述

    (5)照明度(尚未给出结论)

    在测试过程中可以引入几种不同的照明水平:

    • 荧光灯(色温∼6400K)
    • 白炽灯(色温∼ 2500 K)
    • 混合灯(色温∼ 5500K)

    在这些光照条件下,分别进行视线追踪测试,以研究对追踪精度的影响。

    (6)遮挡问题(尚未给出结论)

    有时候,戴眼镜会产生眼部遮挡,从而会影响一部分视线追踪器。因此,在对戴眼镜和不戴眼镜的用户进行视线测试时,必须通过同时使用两个追踪器来评估视线追踪器对遮挡的耐受程度。

    (7)平台的移动(尚未给出结论)

    视线追踪器在静态平台(如台式机)上的操作环境,和移动平台(如智能手机或头戴式装置)有很大的不同。

    因此,我们计划在移动平台上来测试视线追踪的精度、性能,研究平台的移动 所带来的影响。

    此项试验尚未开始实施。该框架目前正在开发中,我们在[24]中公布了一些测试的初步结果。

    [24] A. Kar and P. Corcoran, Towards the development of a standardized performance evaluation framework for eye gaze estimation systems in consumer platforms, in Proc. IEEE Int. Conf. Syst., Man, Cybern., Budapest, Hungary, Oct. 2016, pp. 002061 002066.

    四、结论

    (1)不同平台、设备中所使用的度量各不相同:

    • 不同平台中,各种误差源都可能会影响视线追踪。
    • 目前,视线追踪系统能够在不约束头部运动的情况下,实时确定三维视线落点,误差约为0.5度。
    • 但相机质量、随机照明变化、用户戴眼镜(遮挡)和平台移动这些误差源,在参考文献中没有得到很好的描述,也没有数据统计。
    • 头部移动、用户距离和视角、视线追踪器装置本身的属性所带来的误差,这方面的研究仍然很差。
    • 同时在报告中,用于衡量精确度的单位、格式的各不相同,所以不同系统和算法之间无法进行比较。

    (2)为了解决以上问题,作者提供了一种标准化的框架,并在文章中介绍了:

    1. 框架有哪些测试方法?有哪些测试项?
    2. 以及一部分实现的细节。
    3. 目前框架正在开发中,其他细节将包含在后续论文中。

    (3)同时,本文详细介绍了视线估计的最新进展(截止于2017),做了一个系统性的科普(见下一章)。

    五、视线追踪领域其他知识

    1、基本概念

    (1)眼部动作的类型

    通过搜集眼部动作,可以获得用户意图、认知过程、行为和注意力分析的信息。

    眼部动作分为以下几类:

    1. 注视:指眼睛在停下来之后,到图像输入进大脑这部分过程。具体参数包括:总视线持续时间、 平均视线持续时间、 视线空间密度、视线区域数量、视线顺序、视线率。
    2. 眼跳:指在【注视】之间发生的快速、不自觉的眼球运动。可测量参数包括: 眼跳数、幅度、视线眼跳比。
    3. 扫描路径:指在眼睛到达目标位置之前的这部分阶段。其包括一系列短暂的【注视】和【眼跳】。具体参数包括:扫描路径方向、持续时间、长度和覆盖面积。
    4. 视线持续时间:指眼睛离开兴趣区之前,在一片区域的总【注视】时长,以及在每个兴趣区所占的时间比例
    5. 瞳孔大小和眨眼:瞳孔大小和眨眼率会用来衡量认知负载。

    表1显示了不同眼部动作的特征及其应用。
    在这里插入图片描述

    (2)基本设备构成和方法

    基于视频的视线追踪系统由以下组件组成:

    1. 一个或多个相机
    2. 近红外(NIR) LED灯(之所以是红外线,是防止光线影响用户注意力,之所以是近红外,是因为对人体无害)
    3. 和一台计算机。

    在这里插入图片描述

    一个典型的视线追踪装置如图1所示,步骤包括:

    1. 用户校准(校准会在下一小节讲到)
    2. 捕获脸和眼睛区域的视频帧
    3. 眼睛检测
    4. 在屏幕上映射出视线坐标

    这种方法我们称之为瞳孔-角膜反射技术(Pupil Center Corneal Reflection )PCCR法,该方法原理如下:

    1. 使用红外线照射眼睛,使我们的角膜上产生一个亮斑(就是下图中白白的那个光斑,只不过事实上使用的是近红外线而不是普通光源);
    2. 使用摄像机采集反射回来的这个光斑(注意,唯一的光源就是红外线灯);
    3. 由于眼球的生理结构和物理性质,在光源和头部相对位置不变的前提下,角膜反射形成的光斑不会移动;
    4. 光源光线从瞳孔射入,视网膜反射光线从瞳孔射出,再采集这个光线,这个从视网膜上反射的光线方向标示了瞳孔的朝向
    5. 根据 角膜反射光线 和 瞳孔反射光线 之间的相对位置,便可以计算视线的方向。

    PCCR眼动技术的核心原理可以用一句话表述:“视线方向由瞳孔中心相对于角膜上光斑的反射的位置确定。

    在这里插入图片描述

    另外,当盯着一个固定目标时,无论如何移动头部,瞳孔中心和角膜反射之间的位置关系都不会改变(如上图所示)。因此,PCCR方法能够接受一定程度的头部移动,在光源和头部位置相对稳定的情况下,采集角膜和视网膜反射的光线,并分析它们的相对位置关系,就能够得到瞳孔朝向的数据。这就是瞳孔-角膜反射式眼动仪(视线追踪器)的原理。

    在这里插入图片描述

    (3)校准 calibration

    在视线估计中通常需要以下眼相关参数:

    1. 瞳孔中心
    2. 角膜曲率中心
    3. 光轴Optical axes(物理上的中心旋转轴)
    4. 视轴visual axes

    其中:

    1. 眼球后部的边被称为视网膜
    2. 视网膜中心敏感度最高的地方被称为中央凹
    3. 连接中央凹与角膜曲率中心的线称为视轴(与直觉相反,这根线才是视线)
    4. 光轴为穿过瞳孔中心和角膜曲率中心的直线。

    在这里插入图片描述

    视轴决定视线的方向,并与光轴有一个夹角。这个角度被称为kappa角,一般测量值约为5度,但具体是多少度?以及kappa角的平移分量和倾斜分量,都因人而异,所以,视轴不能直接计算。

    那视轴怎么获得呢?每个人的视轴和kappa角都必须通过校准来获得,校准必须在眼球追踪开始之前完成。
    在这里插入图片描述

    校准是通过向用户显示分布在前屏幕上的一组特定目标(如图2所示)来执行的,并要求用户注视这些目标一定时间[38]。跟踪器相机捕捉每个目标点的对应的眼球的位置,然后将其映射到相应的视线坐标,让跟踪器学习该映射函数。

    校准因目标点的数量、布局、每个点的用户注视持续时间,以及使用的映射算法类型都各不相同,在此就不展开细讲了。

    [38] K. Harezlak, P. Kasprowski, and M. Stasch, ``Towards accurate eye tracker calibration_Methods and procedures,’’ Procedia Comput. Sci., vol. 35, pp. 1073_1081, Sep. 2014.

    (4)视线和头部位置的关系

    视线估计的最终结果,既取决于视线方向 + 头部方向。在使用PCCR技术的方法中,如果使用者的头部相对于捕捉光斑的摄像头发生移动(前提是用户没有盯着一个固定目标),那么相对于瞳孔中心(对于头部移动产生的两个不同眼睛位置)的闪烁向量将彼此不同。因此,原有的视线估计就会产生错误。

    实际视线方向(dkgaze)是头部和眼睛旋转的结果,如图3所示。

    在应用视线追踪算法之前,必须对头部运动的影响进行补偿,或者使用下巴托来固定头部姿势。

    在这里插入图片描述

    (5)视线追踪精确度的评估

    在传统的文献中,视线追踪精度测量方法有不同的表述方式,例如以度表示的角度精度、以厘米表示的距离精度、像素表示的距离精度。

    在实际中,两眼的计算是分开的,但是为了简单易懂,将左眼和右眼的计算算作相同。更多细节可以在[40]中找到。

    [40] Accuracy and Precision Test Method for Remote Eye Trackers, Test Specification Version: 2.1.1, Tobii Technology AB, Sweden, Feb. 2011.

    2、视线估计算法

    视线估计主要有以下算法:

    1. 基于2维回归
    2. 基于3D模型
    3. 基于交叉比(CROSS-RATIO)
    4. 基于外观
    5. 基于眼睛形状

    这些算法可以分为两大类:

    1. 基于几何的方法(Geometry Based Methods)
    2. 和基于外观的方法(Appearance Based Methods)两大类。
    • 几何法:检测眼睛的一些特征(例如眼角、瞳孔位置等关键点),然后根据这些特征来计算 gaze。这些方法使用近红外来照明,使用多项式函数或人眼的几何模型来估计视线方向或视线点。二维回归、三维模型和基于交叉比的方法属于这一类
    • 外观法:另一类方法利用可见光和内容信息(如眼睛区域的局部特征、形状、纹理)来估计注视方向,如基于外观和形状的方法

    两类方法各有长短:

    • 几何法相对更准确,然而这类方法对图片的质量和分辨率有很高的要求。使用可见光和内容信息(例如眼睛区域的局部特征、形状、纹理)来估计。
    • 外观法对低分辨和高噪声的图像表现更好,但模型的训练需要大量数据。随着深度学习的崛起以及大量数据集的公开,基于外观的方法越来越受到关注。

    不同的视线估计算法有不同的特点:

    (1)基于2D回归的方法

    利用了人眼的特征(如眼睛几何结构、瞳孔轮廓和角膜反射),在硬件上使用单个摄像头和几个近红外LED灯。然而,这种方法容易受到头部运动的影响,需要使用者使用头枕、下巴托或咬合杆保持头部静止。

    (2)基于3D模型的方法

    3D方法对用户头部移动有一定的容忍度。但是其硬件要求很高,需要多个光源或多个摄像头。

    基于3D模型的方法,可以使用单摄像头或者是多摄像头。

    1. 单摄像头:单摄像机系统结构简单,误差最低可以达到0.5°。

    2. 多摄像头:精度更高,同时和容忍头部移动,但需要复杂的系统校准程序,包括三维测量摄像机的校准、LED定位估计和确定监视器的几何特性及其与摄像机的关系。

    (3)基于交叉比的方法

    此方法不需要构建眼睛模型、硬件校准,并且允许头部自由运动。但容易受到用户距离增大和其他用户方面产生的问题的影响。

    • 工作原理是将近红外光线NIR的矩形图案投射到用户的眼睛上,并利用投影几何的不变性质,来估计视线位置。在电脑屏幕的四个角上的四个led被用来在角膜表面产生闪烁(图5)。

    使用两个透视投影,通过闪烁的位置,瞳孔和显示器屏幕的大小,来估计最终的视线。

    • 第一种投影是角膜反射LED灯的虚像
    • 第二种投影是相机投影,即经过角膜反射,最终打在相机成像平面上的图像。

    利用这两个投影,得到了与场景和摄像机图像平面相关的一个射影变换。然后求出场景平面上的PoG对摄像机平面上瞳孔中心图像的投影。
    在这里插入图片描述

    (4)基于外观

    基于外观模型的算法是非PCCR方法,使用眼睛的形状、纹理属性、瞳孔相对于眼角的位置来估计视线。

    • 这些方法的硬件要求较低,因此适合在没有高分辨率摄像机或附加光源的平台上实现。
    • 缺点是它们的准确度远远低于基于PCCR的方法,这种方法会随着头部运动、光照水平的变化而降低,为了获得稳健的性能,它们需要大型的训练图像数据库。

    近年来,人们也提出了基于深度学习(DL)和卷积神经网络(CNN)的视线估计方法,在此不细讲了。

    (5)基于形状

    硬件设备需求较低,其使用低分辨率网络摄像头,误差在2°左右。然而,这些方法的缺点包括头部姿态和眼睛遮挡问题,因为要去适应变化的眼睛形状,所以计算会比较复杂。

    展开全文
  • 为解决视线追踪系统中红外图像瞳孔跟踪鲁棒性差的问题, 提出一种基于伪彩色图的粒子滤波瞳孔跟踪算法. 利用亮暗瞳现象, 提出三通道伪彩色图(Triple-channel pseudo-color map, TCPCM) 的概念, 并将其引入瞳孔跟踪...
  • 目前,视线追踪技术有以下应用平台:在本项目中,我们提出了一个基于cnn的模型来预测视线注视的方向 我们建议分别回归每个注视角度,以提高每个角度的预测精度,这将提高整体的凝视能力。此外,我们使用两个相同的损失...

    L2CS-Net: Fine-Grained Gaze Estimation in Unconstrained Environments
    在这里插入图片描述
    在这里插入图片描述
    目前,视线追踪技术有以下应用平台

    • 电脑:主要用来人机交互——计算机通信和文本输入(比鼠标更有效率,而且更适合残障人士使用)
    • 电视:选择和导航菜单和切换频道
    • 头戴设备:应用于用户注意、认知研究、精神分析;或者是VR的局部渲染,如果- - 能够通过头盔内置摄像头估计人的视线方向,则可以对场景做局部精细渲染,即仅对人视线范围内的场景精细渲染,从而大大降低硬件成本。
    • 汽车装备:检测驾驶员是否疲劳驾驶以及注意力是否集中
    • 手持设备:亮度、音量调节等人机交互功能。
      在这里插入图片描述
      参考博客:

    视线追踪是在各种应用中都有使用比如人机交互和虚拟现实。最近,卷积神经网络(CNN)方法在预测视线方向方面取得了显著进展。然而,户外的视线追踪的仍然是一个具有挑战性的问题,由于独有的眼睛外观,光照条件,和头部姿势和视线注视方向的多样性。

    在本项目中,我们提出了一个基于cnn的模型来预测视线注视的方向
    我们建议分别回归每个注视角度,以提高每个角度的预测精度,这将提高整体的凝视能力。此外,我们使用两个相同的损失,每个角度一个,以改善并增加网络学习的泛化性。我们评估我们的模型使用了两个流行的数据集,这些数据集是用不受约束的设置收集的。我们提出的模型实现了先进的3.92◦的精度和10.41◦对MPIIGaze和Gaze360数据集。
    在这里插入图片描述
    原先是多任务的方式,准确度不够,多种损失合并在一起,很难使得各方训练都达到满意。,改进了使用了多重损失估计3D 视线追踪,使用并行的两个全连接层分别预测yaw角pitch角,并且对两个角度使用了独立的损失。每个损失包括了bin分类和回归,使用softmax和交叉熵估计gaze 角度(L2+交叉熵).

    视线追踪主要有两种方式实现:1. 常规的 和CNN based方法:

    • 常规:使用回归的方式,构建特定与视线估计的映射关系,比如adaptive linear regression and gaussian process regression 对于变化幅度不大的视线效果,但视线变化幅度比较大,效果就比较差
    • CNN: CNN在视线和图像之间构建非线性映射关系

    损失函数

    在这里插入图片描述
    在这里插入图片描述

    大部分都是使用L2损失估计视线方向的yawpitch角,我们对两个gaze角度提出了两种独立的损失函数,每种损失函数包括交叉熵损失均方差损失,根据估计的softmax 分类bin的概率,去计算gaze bin的期望值,利用该方法细粒度的优化。然后利用与真实的ground truth的均方误差提高输出的预测精度。

    网络架构

    在这里插入图片描述
    根据提出的分类和回归损失,我们构建了一个简单的网络(L2CS-Net),将识别到的人脸图片feed 到resnet50 backbone中,对网络特征进行初步提取。相对于之前在一个网络中回归gaze的yaw 和pich角度,我们提出每个角独立使用一个全连接网络。这两个全连接层共享一个backbone提取的特征。同时我们为全连接层的每个分支分别定义了损失函数。

    在这里插入图片描述

    数据集

    在这里插入图片描述

    结论

    在这里插入图片描述
    源码:https://github.com/ahmednull/l2cs-net

    展开全文
  • 将使用者相对于初始状态的实时位姿变化补偿至静止标定映射关系中得到自由运动下的视线方向,从而构建了一套基于光学跟踪设备的头戴式视线追踪系统。系统实验表明,使用者在3m*3m*2m空间内自由运动时视线方向误差为...
  • 针对现有单相机单光源视线追踪系统存在的几个问题: 精度不高、头动受限以及标定复杂, 提出了一种新的基于瞳孔角膜反射( PCCR) 技术的视线追踪方法. 通过提出的瞳孔边缘滤波算法( RDPEF) 和三通道伪彩色图( TCPCM) ...
  • 为方便残疾人和老年人使用计算机进行信息交互, 设计了一种非接触式低成本视线追踪系统. 系统设计了一种双环形红外光源, 通过交替照射用户脸部, 用单CCD摄像机得到亮瞳和暗瞳的相邻两帧图像. 将这两帧图像做差得到...
  • 双摄像机视线追踪系统中摄像机不能直接测量视野范围以外物体的空间坐标,为解决这一问题提出了一种基于平面镜的系统标定方法。首先对双摄像机进行标定,确定两摄像机之间的关系,建立统一的世界坐标系。其次,根据...
  • 针对人体在大空间范围内自由运动时视线方向难以追踪的问题,构建了一套基于光学跟踪设备的头戴式视线追踪系统。系统通过被动式光学追踪设备和头戴式眼部摄像机获取使用者的头部运动状态与眼部图像,然后依据初始标定...
  • 视线追踪技术资料

    2013-11-02 19:52:56
    资料由一第列论文组成,介绍了研究、应用视线跟踪技术的必要性,回顾了视线跟踪技术的研究历程,概述了主要的视线跟踪技术及其原理, 比较了各种视线跟踪技术的优缺点。
  • 为提高视线方向计算精度,研制了一种基于立体视觉的视线追踪系统。首先设计了一种可产生相邻2帧“亮暗瞳”图像的双摄像机红外光源,使用图像做差和椭圆拟合的方式计算瞳孔中心,结合在“暗瞳”图像中得到普洱钦斑中心,...
  • 为方便残疾人和老年人使用计算机进行信息交互,设计了一种非接触式低成本视线追踪系统。系统设计了一种双环形红外光源,通过交替照射用户脸部,用单CCD摄像机得到“亮瞳”和“暗瞳”的相邻两帧图像。将这两帧图像做差...
  • 基于红外线的眼睛视线跟踪器的最新进展显着增加了凝视跟踪技术的研究和工业应用。 虽然涉及眼睛凝视分析的研究可追溯到19世纪初,但直到最近,眼睛注视追踪器主要用于分析眼睛参数以进行阅读和各种人机交互任务。 ...

    介绍

    基于红外线的眼睛视线跟踪器的最新进展显着增加了凝视跟踪技术的研究和工业应用。 虽然涉及眼睛凝视分析的研究可追溯到19世纪初,但直到最近,眼睛注视追踪器主要用于分析眼睛参数以进行阅读和各种人机交互任务。 随着处理器速度和图像处理算法的进步,现在还可以实时使用凝视跟踪技术来控制直接操作界面中的屏幕指针。凝视控制的接口已经被研究并用于辅助技术,以及汽车和航空环境。本章介绍了一组提高眼睛注视控制界面交互质量的系统。

    在二维屏幕中,我们主要研究扫视(saccadic)和小幅度眼睛追踪运动。扫视需要250到350毫秒才能完成,本质上是有轨迹的运动(ballistic)弹。然而,微小的追随动作会让你的视线在你感兴趣的地方来回移动。如果我们将指针直接跟随视线移动,这个微小的追逐动作会产生抖动,如果指针不稳定,就很难选择目标。

    截至2015年2月,眼睛‐注视跟踪器的最佳可用精度为视角的0.4°。从65厘米的观看距离来看,这一精度相当于标准桌面屏幕的18个像素。因此,视线控制界面有时可能需要用户将焦点稍稍偏离目标,以便将光标移到屏幕元素上。

    总的来说,根据眼睛的注视移动屏幕指针并不困难,但是在注视控制界面中,将屏幕指针集中在屏幕元素上仍然是一个挑战。现有的凝视控制软件通过设计带有大屏幕元素的特殊界面来补偿精度的变化和限制,解决了这一问题。然而,交互系统不应该限制接口设计,而应该在不限制屏幕元素大小的情况下为现有接口工作。

    我们的研究试图通过两种方式减少注视控制界面中的指向和选择时间以及认知负荷。我们开发了一种目标预测和扩展技术,可以激活一个目标,而不需要指针到达目标的顶部。其次,我们将其他的输入模式与注视跟踪相结合,以帮助定位和选择。本章介绍了以下使用智能多模态凝视跟踪技术的案例研究:

    • 图形用户界面中的一种指向和选择任务,涉及眼睛‐注视跟踪器(eye‐gaze
      tracker)、操纵杆(joystick)和跳跃运动控制器(Leap motion controller);
    • 使用眼睛‐注视跟踪浏览谷歌地图;
    • 使用智能眼睛进行电子购物——电脑新手的目光跟踪;
    • 控制驾驶模拟器中的仪表盘(堆栈);
    • 控制飞行模拟器驾驶舱中的多功能显示器。

    新的视线追踪技术

    研究人员已经研究了将视线跟踪和其他输入方式结合起来。MAGIC指点系统(Zhai, Morimoto, & Ihde, 1999)探索将鼠标的使用与基于眼睛‐注视跟踪‐指点相结合。最近的Tobii EyeX系统也提供了一个类似的功能,可以通过触摸板或鼠标进行眼神交流。Bates(1999)将Polhemus跟踪器与基于眼睛‐视线跟踪‐的指向相结合,他们的多模态眼睛跟踪系统允许使用Polhemus跟踪器对屏幕的一部分进行缩放。Zandera, Gaertnera, Kothea和Vilmek(2010)将BCI系统与眼睛‐注视跟踪相结合,在该系统中,通过想象冲洗动作生成的脑电图被训练来进行选择。然而,他们的系统在减少指向时间方面收效甚微。

    眼动轨迹的追踪
    该系统的开发目的是将眼球注视跟踪与辅助技术相结合,帮助运动障碍患者完成指向和选择任务。
    最初,系统根据用户的眼睛注视情况在屏幕上移动指针(图20.1)。用户可以看到一个小按钮在屏幕上移动,按钮被放置在他们正在看屏幕的地方。我们使用SDK提取眼球‐注视位置,SDK提供了一个眼球‐注视跟踪器,并使用了一个中值过滤器,该过滤器每500毫秒改变一次指针位置。在眼球追踪过程中,用户可以通过眨眼或按键切换到扫描系统。眨眼的持续时间是可配置的,以区分有意和无意眨眼。
    在这里插入图片描述
    在这里插入图片描述
    我们使用了一种特殊类型的扫描系统,称为8‐定向扫描来在屏幕上导航。在8‐方向扫描技术中,指针图标定期改变,以显示8个方向之一(上、上、左、左、左、下、下、右、右、右、上)。当指针图标显示所需的方向时,用户可以通过按下开关或闪烁来选择方向。得到方向选择后,指针开始移动。当指针到达屏幕上所需的点时,用户必须再按下一个键来停止指针的移动并单击。用户可以在扫描界面中选择exit按钮,从扫描系统回到眼球跟踪系统(图20.2)。
    扫描系统的演示可以在http://www.youtube.com/ watch?v=0eSyyXeBoXQandfeature=user上看到。你可在以下连接找到有关该系统的短片:

    我们的研究(Biswas & Langdon, 2011)证实,这项技术的速度比基于扫描的界面更快,因为用户可以通过眼睛注视屏幕,将指针移动很长一段距离,比只使用一个单开关扫描界面更快。

    使用操纵杆对眼动轨迹的追踪
    该系统主要针对军用航空环境,将视线跟踪与操纵杆相结合。指针最初是基于用户的眼球注视在屏幕上移动的,但是如果用户移动操纵杆,基于眼球注视跟踪的指向将被关闭,指针的移动基于操纵杆输入。操纵杆按钮用于选择,一旦选择完成,基于指向的眼球注视跟踪将再次打开(图20.3)。
    在这里插入图片描述
    使用Leap motion对眼动轨迹的追踪
    在这项技术中,我们使用了带有视线追踪器的Leap - motion控制器。跳跃运动控制器用于当单靠眼球跟踪器无法使指针对准目标时进行小的纠正运动。如果用户将手放在Leap - motion传感器上,指针就会根据用户的视线停止移动。我们使用手指位置变化的对数来根据手的运动来移动指针。对数函数保证指针与前一位置的视角移动不超过1°,手的移动只能用于寻的阶段,不能用于弹道运动。当用户将手从Leap - motion传感器顶部移开时,指针根据用户的视线恢复移动。

    我们使用鼠标左键进行选择,虽然鼠标中的光传感器被阻塞,以确保屏幕指针不会随着鼠标移动而移动。该系统在Web浏览上下文中的演示视频可以在http://youtu.be/AnAZxJ6U9Wc 找到。参见图20.4。
    与前三种情况不同,我们没有为这种特殊的技术组合任何其他指向方式;相反,我们试图预测和扩大用户的预期目标。在一个二维的屏幕上,当人们搜索一个物品时,他们通常会向目标做一个大的扫视动作,然后进行一系列平滑的追踪动作,以视觉上观察目标。这两个阶段的运动大致对应的弹道和归航阶段的快速瞄准运动。
    我们开发了一个基于神经网络的模型(图20.5),它采用不同的轨迹剖面,如速度、加速度和运动方位作为输入参数,并在此基础上预测眼球运动的类型。如果模型预测的是小幅度的抖动运动,我们假设用户已经接近他的目标。然后我们将最近的目标从用户当前的注视位置扩展到原来大小的3/2。
    研究人员已经在意图识别或下一个点预测方面探索了类似的技术(Lank, Cheng, & Ruiz, 2007;但是我们率先使用了类似的技术来控制视线。我们的用户研究(Biswas & Langdon, 2015)证实,该模型可以显著减少注视控制界面的指向和选择时间。有关目标预测技术的演示视频可在https://www.youtube.com/watch?v=p9YOKj59TiY找到。
    在这里插入图片描述
    在这里插入图片描述

    应用

    本节介绍一系列眼动控制研究的结合在各种各样的领域。案例研究包括桌面计算、汽车和航空环境。前两项研究没有使用目标预测算法,而第三项和第四项研究使用了目标预测算法。最后的研究采用了目标扩展和多模态技术。

    指点和任务的选择

    在这项用户研究中,我们评估了两个多模态眼‐注视跟踪系统。这些系统没有使用任何目标预测或扩展技术,而是使用硬件开关进行选择,因为我们在之前的研究中发现它比基于语音的选择更好(bisis & Langdon, 2015)。我们结合了基于操纵杆和基于手的移动指示以及基于眼睛的注视跟踪指示。

    参与者 我们收集了10名参与者的数据(年龄从19岁到53岁,5名男性,5名女性),他们没有任何视觉、认知或运动障碍。参与者是我们大学的学生和工作人员,所有人都参加了一两次眼动跟踪研究,尽管除了参加用户研究,他们没有定期使用眼动控制界面。

    材料 我们使用Windows 7 HP Pavilion计算机(处理器速度2.5 GHz)和21英寸屏幕(435 mm×325 mm), 1600×1200像素分辨率,以及标准罗技鼠标进行研究。我们使用了一个Tobii TX‐2 (Tobii, 2013)眼睛凝视跟踪器和Tobii SDK。我们还使用了Leap motion controller (https://www.leapmotion.com/ )和美国空军A10 Warthog HOTAS (US Air Force A10 Warthog HOTAS) 操纵杆(http://www.thrustmaster.com/products/hotas‐Warthog )和目标软件将其与操作系统进行接口。

    设计 我们试图在输入观测器系统的完全自然交互场景和传统Fitts定律分析的受控单目标任务之间取得平衡。该任务类似于ISO 9241指向任务,屏幕上有多个干扰物(图20.6)。用户被要求点击屏幕中央的按钮,然后点击与其他干扰物一起出现的目标按钮。目标按钮(图20.6中的白色)可以以任意随机角度出现在内环或外环中。干扰物与目标按钮大小相同,目标和干扰物均为方形。
    在研究过程中,我们使用了记录软件,每隔15毫秒记录下参与者的光标位置和瞳孔大小。光标记录被用来测量任务完成的时间和错误选择的数量,同时分析瞳孔直径,以找到一种客观测量认知负荷的方法。
    我们比较了多模态眼球注视跟踪技术与单峰眼睛注视跟踪。

    结果 我们总共为每个基于眼球追踪的系统记录了400多个指向任务。我们比较了单模态非自适应眼动跟踪系统和多模态眼动跟踪系统的点和选择时间、TLX和系统可用性量表(2014)得分。图20.7绘制了与目标id相关的点和选择时间。在配对t‐测试中,我们发现使用Leap motion系统的眼‐注视跟踪的点和选择时间显著降低(p < 0.01),但使用操纵杆的眼注视跟踪在点和选择时间上与单峰注视跟踪系统没有显著差异。
    在这里插入图片描述
    在这里插入图片描述
    与单模态相比,多模态注视跟踪系统的TLX评分认知负荷有所降低,而Leap motion系统的眼球注视跟踪有显著性差异(p < 0.05)。参见图20.8。
    在使用操纵杆(ETJ)进行眼睛‐注视跟踪时,错误选择的数量比基于单模模式的眼睛‐注视跟踪系统要多。误差小于1%,如图20.9所示。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    我们也比较用户在多模视线追踪系统中的主观倾向。图20.10绘制SUS平均得分数。注意到在SUS数值68表示这个系统对于用户来说是便于使用的和倾向于的。用户更倾向于Leap Motion下的多模视线跟踪系统,而不是操纵杆下的多模视线跟踪系统。

    讨论 调查比较了两种不同的多模视线追踪技术,其中我们结合了另一种指定的模式与多模视线控制接口。另一种指定模式的加入降低了关于TLX评分用户感知认知负担。用户使用基于Leap motion的系统可以比基于操纵杆的系统更快地进行指向和选择任务,更能追踪视线。这种差异可以归因于研究中使用的操纵杆的特定模型。考虑到该系统在航空领域的应用,我们使用了一个附在油门上的操纵杆。特殊的操纵杆使用一个按钮在X‐Y平面上移动光标,并进行选择。用户经常发现,在不移动X‐Y平面上的光标的情况下,很难使用操纵杆进行选择,而且对于使用操纵杆切换模式也感到困惑。基于Leap motion的系统不那么令人困惑,因为我们使用一个单独的硬件开关进行选择,用户只需将手放在Leap motion顶部,然后将手拿开,使用视线跟踪,就可以轻松切换模式。然而,由于Leap motion需要几毫秒的时间来检测手的运动,所以在从视线跟踪切换到手跟踪的模式上存在延迟,这偶尔会增加指向时间,而在基于操纵杆的系统中没有这种延迟。事实上,本节中描述的最后一项用户研究使用了带有目标扩展技术的基于操纵杆的视线跟踪系统,比只使用操纵杆而不使用视线跟踪要快得多。

    地图浏览
    本研究探讨了在大尺度空间数据处理中视线跟踪的应用。与本章描述的其他研究不同的是,在本研究中,来自视线跟踪器的信号并没有用于控制屏幕上的指针,而是用于控制整个显示器。一种使用谷歌地图的技术演示程序被开发了。用户可以移动地图,只用眼睛放大或缩小,而不需要用手。我们开发了以下涉及谷歌映射的交互技术:

    • 查看屏幕的边缘会将地图向相反的方向移动——例如,如果用户查看屏幕的左边缘,地图会自动向右滚动;
    • 如果用户盯着地图上的某个特定点看,该区域就会放大;
    • 如果用户眨眼,地图就会缩小。

    虽然下面的研究对所有参与者使用相同的值,但是凝视和眨眼的持续时间是可以配置的。我们还设置了适当的功能来区分有意识的眨眼、无意识的眨眼以及当用户将视线从屏幕移开时跟踪器发出的信号丢失。该系统的演示视频可以在http://youtu.be/aJeiR_LZ1SE找到。
    下面的研究比较了用户的认知负荷和对使用现有技术凝视跟踪界面的主观偏好。

    参与者 我们收集了8名身体健康的参与者的数据(4名男性,4名女性,年龄介乎28至35岁),并无任何身体或认知障碍。他们都是计算机专家,熟悉谷歌地图界面。

    材料 我们使用宏碁Aspire E15笔记本电脑和Tobii EyeX (Tobii, 2015)视线跟踪器和Tobii EyeX SDK。笔记本电脑屏幕尺寸为34.5cm×19.5cm,分辨率为1366×768像素。

    设计 这项研究类似于从空间中搜索视觉刺激的情况显示。参与者被要求从谷歌地图显示中找到四个城市,使用视线跟踪和笔记本电脑触摸板。使用触摸板和视线跟踪器的顺序是随机的。这些城市的名称是随机选择的,在默认的谷歌地图界面中不可见。城市环绕着中心位置,与中心位置的距离几乎相同。
    参与者被要求找到这些城市,并在找到时放大它们。试验结束后,我们要求参与者填写来自NASA TLX、BRS和SUS的问卷。我们比较了用户对触摸板和视线追踪的认知负荷和主观偏好。

    结果 我们比较了参与者对于视线跟踪和触摸板的BRS、TLX和SUS评分 。所有参与者都通过BRS评分证明他们可以在两种情况下完成任务。八名参与者中只有一名(P4)认为视线追踪条件应该减少工作量,而其他人则认为两种条件下的工作量都很低或微不足道。
    图20.11显示了每个参与者的TLX得分,而图20.12显示了SUS得分。在图20.11中,条形图对应于平均分,误差条形图表示标准差。
    虽然TLX和SUS在视线追踪条件下的得分高于touchpad,但在配对t‐测试中,差异并不显著。TLX中心理需求和挫折感的差异最大。
    在这里插入图片描述
    在这里插入图片描述
    讨论 本研究调查了在大规模空间显示中搜索视觉刺激凝视控制界面的实用性。一些具有前瞻性的案例研究可能会在监视视频中寻找特定的人脸(演示视频可以在https://youtu.be/UjRoZbe9LAM上看到),或者在大型拓扑结构中研究特定的分子结构,等等。我们的研究表明,虽然用户在视线追踪界面中感知到的认知负荷比传统触摸板要高,但这种差异在统计学上并不显著,即使是第一次使用视线追踪系统,每个人都能完成任务。可以将上一节描述的多模态系统与此地图浏览系统集成在一起,这样用户就可以使用眼睛注视移动或缩放显示,并使用操纵杆或Leap motion控制器控制屏幕上的指针。

    电子购物
    在这个用户试验中,我们使用eShopping界面的在线购物任务对用户的认知负荷和视线追踪与鼠标之间的选择时间(图20.13)进行比较。本研究使用目标预测技术和视线追踪。我们从不经常使用电脑的参与者那里收集数据。这项研究旨在发现,与目前仍是最常用的电脑输入设备的鼠标相比,用户使用基于视线追踪的系统来感知和执行任务是容易还是困难。维特加尔(2008)比较了视线和基于鼠标的指向和点击任务交互,发现基于停留时间的选择的眼球‐视线追踪比鼠标更快,但视线追踪也产生了更高的错误率。

    参与者 我们收集了8名用户的数据(平均年龄57岁,男性6名,女性2名)。参与者被问及他们以前使用电脑的经验,只有在他们以前从未经常使用电脑的情况下才允许参加试验。少数用户偶尔使用计算机,但仍然不认为自己是专家用户。

    材料 我们使用的是一台装有54cm×33cm显示器的Windows 7 HP电脑,1920×1080像素分辨率,用eShopping系统记录用户的表现。我们使用一个Tobii TX2视线追踪器来记录眼睛的注视。我们使用基于贝塞尔曲线 (Shirley & Marschner, 2009)的滤波算法来平滑地移动鼠标指针。对于基于视线追踪的交互,使用标准罗技键盘上的空白按钮来选择目标。使用标准的罗技鼠标记录鼠标性能。我们使用NASA TLX评分表来测量认知负荷。

    设计 用户被指示使用eShopping界面(图20.13)购买一些物品,使用鼠标和视线追踪器。基于鼠标的交互不涉及目标预测系统,而基于眼睛的视线追踪系统则涉及目标预测。在重复这个过程几次之后,他们被要求填写TLX评分表。输入选项的顺序(鼠标和视线追踪器)被随机化,以最小化顺序效应。购买物品的过程包括以下步骤:
    1指向并单击顶部的组合框之一(图20.13)。
    2指向并单击具有所需项目的按钮(如照相机、计算机等)-参见图20.13。单击一个按钮,界面就会显示相机、计算机等的列表。
    3用手指点击拥有想要的产品的按钮,比如一个特定的电脑品牌或者一本书。
    4重复以上步骤,向购物车中添加更多的商品。
    5指向并单击屏幕右侧的“check out”按钮(图20.13)。
    6使用鼠标和视线追踪器重复整个过程(步骤1-5)2至3次。

    结果 所有8个用户都可以进行试验并完成任务。按钮选择时间以两个按钮选择之间的时间差值或组合框选择与下一个按钮按下之间的时间差值来度量。时间包括指向目标并选择它。在威克逊符号等级测试(Z= - 2.84, p<0.01, r= - 0.33)中,基于视线追踪‐的系统的按钮选择时间明显少于鼠标(图20.14显示平均值和标准差,图20.15显示中位数和四分位数)。在实验设置,我们定义误差或错误的选择如下:

    • 用户连续两次选择相同的商品;
    • 用户选择“删除最后一项”按钮;
    • 用户选择“清除所有”按钮。

    在这里插入图片描述
    在这里插入图片描述
    我们发现用户在93个视线追踪系统的选择中有4个选择错误,在79个鼠标选择中有一个选择错误。两种情况下的错误率都低于5%。
    在这里插入图片描述
    图20.16显示了NASA TLX评分下的认知负荷。这些列对应于平均分,而Y误差条表示标准差。用户在视线追踪器(平均38.48,stdev 17.85)的TLX评分高于鼠标(平均27.66,标准偏差15.67),尽管在配对双侧t‐测试中差异不显著。

    讨论 这项研究表明,对于一个易于使用的界面,新手用户使用视线追踪器比鼠标更快地完成任务,尽管视线追踪器往往比鼠标产生更多的认知负荷。值得注意的是,这些用户中没有人以前使用过视线追踪器,尽管他们中有6人以前使用过鼠标。我们只记录了四次用户在93个正确选项中选择一个按钮花费超过10秒的情况。按钮的平均选择时间为4.3秒。

    汽车仪表板控制
    Kern, Mahr, Castgronovo, Schmidt, 和 Müller (2010) 和 Poitschke, Laquai, Stamboliev, 和Rigoll (2011) 报告了涉及模拟驾驶任务的用户研究,同时将眼控界面与传统界面进行了比较。本研究探索了在汽车环境中操作仪表盘的视线控制接口的可能性。特别地,我们评估了两种不同的赛道条件对驾驶员视线追踪界面性能的影响。Kern 等人(2010)和Poitschke等人(2011)报告了涉及模拟驾驶任务的用户研究,同时比较了眼控界面和传统触摸屏控制界面。我们采用了一种低成本的视线跟踪器和一种智能的目标预测算法来进行这项工作,该算法可以减少指向时间。该系统的演示视频可以在http://youtu.be/lmYZcnwzEbU找到。

    参与者 我们收集了12名参与者的数据(年龄从19岁到27岁,10名男性,2女)。所有参与者都是大学生,没有人经常开车。8名参与者有驾照,尽管他们的驾驶考试质量有很大的不同。然而,所有的参与者都是驾驶模拟器的专家用户,并曾在模拟器中驾驶汽车。

    设计 我们设计了这个测试来评估在不同驾驶技能水平的参与者中,由眼睛控制的次要任务对主要驾驶任务的影响。主要任务是在不偏离车道的情况下将车开到左车道。我们使用了两种不同的赛道条件——一个由四个转弯组成的简单赛道和另一个由20个转弯组成的复杂赛道。路上没有其他车辆,司机们被告知要安全驾驶,不要偏离车道,同时要用眼睛盯着仪表盘。第二个任务是通过听觉线索启动的。它模仿汽车仪表盘(图20.17),参与者在听到听觉提示后按下仪表盘上的按钮(图20.18)。听觉提示设置为5 - 7秒间隔出现。在汽车仪表盘中随机选择目标按钮。使用智能眼球跟踪算法(bisis & Langdon, 2015)通过用户的眼球注视进行指向,通过方向盘上的一个硬件按钮进行选择。
    本研究(图20.18)采用2×2的因子设计,其中自变量是:

    • 跟踪情况:

      • 简单;
      • 复杂。
    • 次要任务的完成情况:

    • 无辅助任务驾驶;

    • 次要任务驾驶。

    因变量为:

    • 任务完成时间;
    • 平均偏离道路中心;
    • 注视‐控制界面中正确选择的数量。

    在这里插入图片描述
    在这里插入图片描述
    我们还使用血氧计(http://www.nonin.com/What‐is‐Pulse‐Oximetry)和NASA TLX评分来测量驾驶员的认知负荷。

    材料 我们使用罗技驾驶模拟器硬件和Torque©car仿真软件。硬件设置为自动变速器车。我们使用了Tobii EyeX eye‐凝视跟踪器和EyeX SDK来实现凝视控制界面。主任务在Linux桌面上运行,而辅助任务在Windows 8笔记本电脑上执行。笔记本电脑屏幕尺寸为34.5cm×19.5cm,屏幕分辨率为1368×800像素。

    程序 最初,参与者被简要介绍该程序,并接受了使用驾驶模拟器和视线控制界面的培训。然后他们按照随机的轨道条件进行试验。每个条件完成后,他们根据自己在试验中最艰难的经历填写TLX表格。
    我们使用了记录软件,用驾驶模拟器的时间戳记录了汽车的轨迹,并用鼠标和眼睛的运动记录了第二项任务。我们还用时间戳从血氧计记录了参与者的脉搏率。

    结果 我们发现二次任务中正确选择次数与平均车速之间存在显著的统计学相关性(图20.19,r= - 0.46, p<0.05)。驾驶员在复杂赛道上驾驶时,使用视线控制进行正确选择的次数(t (1,21)= - 2.2, p<0.05)显著高于在简单赛道上驾驶时(图20.20)。在重复测量方差分析中,我们发现:

    • 轨道条件对其主要影响显著
      • 任务完成时间F (11) = 88.24, p < 0.01,η2 = 0.89;
      • 偏离车道驾驶F (11) = 6.51, p <
        0.05,η2 = 0.37;
      • TLX分数F (11) = 14.58, p < 0.01,η2 = 0.57。
    • 次要任务的存在对:
      • 任务完成时间F (11) = 22.07, p < 0.01,η2 = 0.67;
      • 偏离车道驾驶F (11) = 13.69, p < 0.01,η2 = 0.55;
      • 及分数F (11) = 23.01, p < 0.01,η2 = 0.68。

    在这里插入图片描述
    在这里插入图片描述
    在p < 0.05时,各变量间的交互作用均不显著。可以注意到,辅助任务的存在对偏离车道和TLX分数的影响大于赛道条件,而赛道条件对任务完成时间的影响大于辅助任务的存在。结果表明,用户根据路况调整驾驶速度,在复杂轨道上行驶速度变慢。由于他们驾驶速度较慢,在复杂的赛道上,他们可以比在简单的赛道上承担更多的指向和选择任务。然而,当他们参与次要任务时,他们往往比没有任何次要任务时更容易偏离车道。
    在这里插入图片描述
    我们测量了听觉提示实例与目标按钮选择之间的时间差。这个时间差等于使用眼球注视的目标按钮的指向和选择时间。使用智能眼球注视跟踪技术,即使对于之前没有使用过注视控制界面的新手用户,平均也能将指向和选择时间缩短至2.5秒(图20.19)。两种不同赛道条件下的选择次数(图20.21)差异无统计学意义(p < 0.05)。
    综上所述,我们的结论是:

    • 复杂性和双重任务的存在显著增加认知负荷和任务完成时间;
    • 二次任务的性能与车速显著相关——在复杂路况下,用户驾驶速度较慢,二次任务比简单路况下表现更好;
    • 以目前的眼球‐注视跟踪器状态,用户需要大约2.5秒的时间来进行指向和选择。

    飞机驾驶舱控制
    该任务探索了在战斗机驾驶舱中使用多模态自适应眼动跟踪系统的可能性。我们的目标是增加现有的手控-油门-操纵杆(HOTAS)与眼睛-注视跟踪系统。我们将多模态眼‐注视跟踪系统与基于HOTAS‐的操纵杆进行了比较。该任务要求参与者在一个模拟多功能显示器中检查五个目标,该显示器的尺寸与欧洲台风战斗机的原始显示器相同。下面几节将详细描述这项研究。

    参与者 我们招募了8名身体健康的年轻参与者(5名男性,3名女性,平均年龄31.2岁)。

    材料 我们进行这项研究使用Windows 7惠普馆电脑(处理器速度2.5 GHz)和21个“屏幕(435毫米×325毫米)和1600×1200像素分辨率和一个标准的罗技鼠标。我们使用了Tobii TX‐2 (Tobii,2013)眼注视跟踪器和Tobii SDK。我们使用了美国空军A10疣猪HOTAS (http://www.thrustmaster.com/products/hotas‐Warthog)和目标与操作系统进行接口。

    设计 任务包括在模拟的多功能显示器中选择一组5个目标(图20.22),并在单击它们后重新设置显示器。参与者使用多模态智能眼-注视跟踪(结合眼-注视跟踪和基于操纵杆的指向)和基于HOTAS的操纵杆。我们对这两种设备都使用了目标预测技术。我们还研究了用户的认知负荷和主观偏好,收集了每种模式的TLX评分和系统可用性量表(Brooke, 1996)得分。

    程序 参与者最初被简要介绍了任务。该任务涉及浏览菜单树以使目标可见,然后单击目标。目标会出现在屏幕上的任何地方。目标宽度和距离与之前的研究相同。一项试验包括选择至少20个指向和选择任务的5个目标。每个参与者使用每种方式进行两次试验。模型的顺序是随机的。在以一种方式完成试验后,参与者根据他们的平均表现填写TLX和SUS得分表。
    在这里插入图片描述
    结果 我们最初比较了两种输入模式的目标选择时间。从选择按钮的时刻到选择下一个按钮的时刻,计算选择时间。我们忽略了每个试验的第一次选择,因为系统在它之后开始了日志记录过程。一个设备(2)×会话(2)方差分析发现了显著影响设备(F(1153)= 26.07,p < 0.0001,η2 = 0.15)和会话设备(F(1153)= 4.99,p < 0.05,η2 = 0.03),尽管交互效应不显著(图20.23)。
    TLX评分(图20.24)在眼-注视跟踪中较低,尽管在t -‐测试中与操纵杆没有显著差异。然而,使用眼-注视跟踪的TLX挫败感评分明显低于使用操纵杆的TLX挫败感评分(p < 0.05)。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    图20.25总结了SUS问卷的结果。SUS使用了一个五点量表,从非常同意到非常不同意。我们比较了同意(强烈或仅仅同意)和不同意(强烈或仅仅不同意)每种设备的人数。我们发现更多的用户更喜欢基于眼睛注视跟踪的系统,而不是操纵杆,并感到有信心使用基于眼睛注视跟踪的系统。

    讨论 这项研究进一步证实,用户可以使用智能眼-注视跟踪系统进行现实军事任务的试验,其速度比现有的基于HOTAS的操纵杆要快。用户对眼睛-注视跟踪系统的认知负荷也比操纵杆小,这也反映在用户的主观偏好在SUS评分方面。本研究展示了另一个利用眼-注视跟踪增强现有交互设备的例子。该操纵杆可以配置基于不同的多功能显示器,但移动指针的大范围运动和精确的寻的运动可能是具有挑战性的,不仅对新手用户,也对高负载情况下的专家用户。使用眼-注视跟踪移动指针接近目标,甚至选择适当的显示器,然后切换到通常的操纵杆输入是一个有希望的解决方案,正如我们的研究证明。

    总结

    眼-注视控制界面主要是为严重残疾的人探索,最近,为了改善电脑游戏体验。本章的案例研究旨在扩展凝视控制界面的范围。案例研究从基本的指向和选择任务开始,然后转移到地图浏览、计算机新手用户、汽车和军用航空环境的应用程序。值得注意的是,我们的参与者在参与这些研究之前并没有使用注视控制界面,但注视控制界面要么得到了改进(在计算机新手用户和军用航空案例研究中),要么没有显著降低交互速度。我们强调,凝视控制界面不仅应该局限于特定的应用程序,而且可以扩展到大量的领域,即使是对于身体健康的普通用户。

    结论

    法雷尔和翟(2005)指出,“人类的眼睛天生是感知器官,而不是操纵器官。”眼球运动通常是无意识的,为了准确使用这些目标选择系统,在需要时仔细引导眼球运动是有压力的。“不过,也要注意的是,与任何图形用户界面的交互都涉及到视觉搜索,我们也可以利用这种视觉搜索来选择目标。”正如法雷尔所指出的,如果这个过程需要眼球运动的“仔细指导”,那将是有压力的,但在这一章中,我们提出了一个目标预测系统,并整合了其他可以减少指向和选择时间的模式,也需要对有意识的眼球注视运动进行不那么精确的控制。还有一些情况下,现有的指向设备不是最佳选择,或者使用起来很危险。例如,对于有严重运动障碍的人,或者航空和汽车环境中的操作人员,不能像他们身体健康的同行或桌面计算环境中的操作人员那样轻松地使用鼠标或触摸板。眼睛注视跟踪和扫描的结合将是一项有用的辅助技术,上述用户研究表明,智能眼睛注视控制界面也可以用于有能力的计算机新手用户。考虑到情景障碍的情况,航空和汽车用户界面不需要像桌面计算中的图形用户界面那样连续操作屏幕指针。除非驾驶员非常熟悉特定的交互(比如开车时伸手去拿变速箱),否则他必须看一眼用户界面。使用目标预测技术的精确注视跟踪可以利用这种注视进行指向。此外,相同的眼-注视跟踪器可用于检测认知负荷或驾驶或驾驶分心,这实际上可以提高驾驶或飞行的安全性。

    参考

    Bates, R. (1999). Multimodal eye‐based interaction for zoomed target selection on a standard graphical user interface. In Proceedings of INTERACT. London: British Computer Society.

    Biswas, P., & Langdon, P. (2011). A new input system for disabled users involving eye gaze tracker and scanning interface. Journal of Assistive Technologies, 5(2), 58–67.

    Biswas, P., & Langdon, P. (2015). Multimodal intelligent eye‐gaze tracking system. International Journal of Human‐Computer Interaction, 31(4), 277–294.

    Brooke, J. (1996). SUS: a “quick and dirty” usability scale. In P. W. Jordan, B. Thomas, B. A. Weerdmeester, & A. L. McClelland (Eds.), Usability evaluation in industry. London:
    Taylor & Francis.

    Evans, A. C., & Wobbrock, J. O. (2012). Taming wild behavior: The input observer for obtaining Text entry and mouse pointing measures from everyday computer use. In Proceedings of the ACM Conference on Human Factors in Computing Systems (CHI ‘12) (pp. 1947–1956). New York, NY: ACM.

    Farrell, S., & Zhai, S.(2005). US Patent No.20050047629A1.
    System and method for selectively expanding or contracting a portion of a display using eye‐gaze tracking. Washington,DC: U.S. Patent and Trademark Office.

    Fitts, P. M. (1954). The information capacity of the human motor system in controlling the amplitude of movement. Journal of Experimental Psychology, 47, 381–391.

    Kern, D., Mahr, A., Castronovo, S., Schmidt, A., & Müller, C. (2010). Making use of drivers’ glances onto the screen for explicit gaze‐based interaction. In Proceedings of the Second International Conference on Automotive User Interfaces and Interactive Vehicular Applications (pp. 110–116). New York, NY: ACM.

    Lank, E., Cheng, Y. N., & Ruiz, J. (2007). Endpoint prediction using motion kinematics. In Proceedings of the SIGCHI Conference on Human Factors in Computing Systems (CHI ‘07) (pp. 637–646). New York, NY: ACM.

    MacKenzie, I. S., Sellen, A., & Buxton, W. (1991). A comparison of input devices in elemental pointing and dragging tasks. In Proceedings of the CHI ‘91 Conference on Human Factors in Computing Systems (pp. 161–166). New York, NY: ACM.

    Poitschke, T., Laquai, F., Stamboliev, S., & Rigoll, G. (2011). Gaze‐based interaction on multiple displays in an automotive environment. In IEEE International Conference on Systems,Man, and Cybernetics (SMC) (pp. 543–548). doi:10.1109/ICSMC.2011.6083740.

    Shirley, P., & Marschner, S. (2009). Fundamentals of computer graphics. Boca Raton, FL: CRC Press.

    Tobii. (2015). Tobii EyeX Eye Tracker, Available at: http://www.tobii.com/xperience/.

    Tobii. (2013). Tobii TX2 Eye Tracker, Available at: http://www.tobii.com/en/eye‐tracking‐research/global/products/hardware/tobii‐x60x120‐eye‐tracker/.

    Vertegaal, R. (2008). A Fitts’ law comparison of eye tracking and manual input in the selection of visual targets. In Proceedings of the International Conference of Multimodal Interaction (pp. 241–248). New York, NY: ACM.

    Zandera T. O., Gaertnera M., Kothea C. & Vilimek, R. (2010). Combining eye gaze input with a brain–computer interface for touchless human–computer interaction. International Journal of Human‐Computer Interaction, 27(1), 38–51. doi:10.1080/10447318.2011.535752.

    Zhai, S., Morimoto, C., & Ihde, S.(1999). Manual and gaze input cascaded (MAGIC) pointing.Proceedings of the ACM SIGCHI Conference on Human Factors in Computing Systems (pp. 246 ‐–253). New York, NY: ACM.

    Ziebart, B., Dey, A., & Bagnell, J. A. (2012). Probabilistic pointing target prediction via inverse optimal control. In Proceedings of the 2012 ACM International Conference on Intelligent User Interfaces (IUI ‘12) (pp. 1–10). New York, NY: ACM.

    展开全文
  • 视线追踪技术的前世今生

    万次阅读 2018-01-09 09:36:28
    视线追踪,英文称为Eye tracking/gaze tracking,是测量人眼凝视点和相对于头部运动程度的技术。视线追踪主要关心的内容是:看哪里、看多久。 世界上第一非侵入式的眼动仪由“Guy Thomas Buswell in Chicago”1922...
  • 基于人工神经网络动态标定算法的低成本视线追踪系统.pdf
  • 视线追踪、目光检测的方法大致有两种:一种是基于头部,一种是基于眼球。 一、基于眼球 这种方法简单来说就是基于头部基准面的眼球中心到虹膜中心向量,这个研究方向可追溯到上个世纪,目前效果最好的还是基于深度...
  • 游戏常用算法1-视线追踪算法

    千次阅读 2014-07-09 22:21:18
    游戏常用算法1-视线追踪算法 在游戏中我们常常看到这样一种情况,敌人死死盯着目标不放。如在《三国无双》中,当角色进入敌人的领地之后,敌人就会想你奔袭而来,拦也拦不住。这是怎么做到的呢。有一种简答的算法是...
  • 本周工作内容依然是继续调整模型结构,试图优化结果。
  • camera 视线追踪/虹膜识别/眼纹识别 - www.deltavision.io
  • 毛云丰 沈文忠 滕童摘 要: 视线跟踪是人机互动技术中重要的组成部分,可以广泛地应用在机器人、手机、笔记本等设备中。针对传统方法在低分辨率图像上的准确率不高和设计步骤繁琐等问题,提出一种基于深度神经网络的...
  • python人眼追踪

    2020-10-10 11:35:34
    该脚本使用内置的前脸检测器来查找脸部,然后查找脸部的眼睛。本例程先用haar算子进行人脸识别,然后利用haar算子找到人脸中的眼睛,实现人眼追踪
  • 文章名称风格飘逸。这个是解决视线追踪任务的文章,第一次接触。因此做一下笔记。视线追踪任务很好理解,就是找出图中某个人物的视线焦点。
  • 按照频率从高到低,引用率最高的三十位 Park KR Bulling A Holmqvist K Ji Q Lee H Liu J Thaker GK Lee EC Lencer R Sugano Y Weiskopf D Eizenman M Moeller K Cabeza R Kurzhals K ...Cagiltay K...
  • 眼动 眼控 视线跟踪 开源软件 Gaze 开源视线跟踪软件 ITU GazeTracker.v2.0b-64bit.zip 远距桌面and头戴近距 The ITU Gaze Tracker is an open-source eye tracker that aims to provide a low-cost alternative to ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 2,744
精华内容 1,097
关键字:

视线追踪

友情链接: cc2592EM.zip