精华内容
下载资源
问答
  • 近来,迪士尼研究院(Disney Research)和雷伊·胡安·卡洛斯大学(Universidad ReyJuan Carlos)的科学家们提出了一种可以赋予软体机器人“本体感知能力”的方法,即利用他们的优化算法将多条细长的应变传感器以...

    来源:机器人大讲堂 

    导读

    软体机器人模仿章鱼,象鼻,海星等动物而设计,栩栩如生,他们由软材料(硅胶,橡胶)构成,有着天生优良的环境适应性以及安全交互性。但是相比于传统机器人,软体机器人的“感知”能力还远远不足。要真正做出“富有生命”的软体机器人,有效的传感是必不可少的。我们人类或者动物的肌肉纤维里缠绕着神经纤维,从而可以直接感知肌肉的变形,我们称之为“本体感知能力”。近来,迪士尼研究院(Disney Research)和雷伊·胡安·卡洛斯大学(Universidad ReyJuan Carlos)的科学家们提出了一种可以赋予软体机器人“本体感知能力”的方法,即利用他们的优化算法将多条细长的应变传感器以类似于神经纤维般的方式缠绕在软体机器人身体里,形成一种“拉伸型传感网络”。这样一来,为任意形状和尺寸的软体机器人增加“本体感受”的能力。 

    1. 软体机器人的传感

    软体机器人虽然适应性环境能力强,可以和人安全交互,但是为了能够真正在生活生产中应用,能感知外界环境实为关键,有了传感信息,机器人才能做出相应的对策,或者检验任务是否已经完成。毫不夸张的说,如果没有有效的可靠的传感方案,软体机器人只能被限制在实验室中做做展示了。

    传统机器人的关节编码器

    对于传统机器人来说,机器人是由刚性的杆件和旋转关节构成,用旋转编码器得到关节转角就可以计算出来当前机器人的姿态。

    软体机器人的传感

    但是软体机器人而言,材料柔软的特性让软体机器人本体的形状变得极难预测,尤其是受到外力影响的情况下。科学家们已经设计出多种有效的软体机器人传感器(例如液态金属,光纤,导电聚合物)。想要完全的表征一个软体机器人的形变信息,仅仅依靠一两条/片传感器是比较难实现的,需要更复杂更科学的传感器分布设计。目前的大多数研究都是根据经验人为的对传感器的分布进行设计,考虑到软体机器人的“多自由度特性”的复杂性,人为的设计传感器的尺寸和分布会越来越艰难。

    本体感知传感器的设计概览

    今天小编介绍的这篇文章就尝试解决软体机器人传感器分布及设计的问题。来自迪士尼研究院(Disney Research)以及雷伊·胡安·卡洛斯大学(UniversidadRey Juan Carlos)的科学家们尝试设计出一种传感器系统来重构软体机器人的本体,他们指出,传感器的数量,以及放置传感器的最佳位置是两个重要的问题。研究者们提出了一种算法技术,可以由软件自动地设计“拉伸型传感网络”的尺寸和分布,从而为任意形状和尺寸的软体机器人增加“本体感受”的能力。他们的方法已经能够让软体机器人感受自身的变形状态以及感受在外界交互下的形变。

    在该研究中给出了三个具有本体感知能力的应用实例,一个长方体的弹性棒,一个气动的软体机械手指,还有一章鱼触手(只有仿真)。我们先来欣赏一下这几种软体机器人例子。

    长方体棒展示

    软体手指展示

    章鱼触手(仿真)展示

    人体肌肉神经纤维和传感器网络

    我们的肌肉纤维上缠绕了一圈圈的神经纤维,它们可以检测肌肉的长度变化啊,从而让我们感知身体每一处的姿势。在这个研究中,科学家们采用了一种类似的设计方法,他们用一种常见的应变传感器单元,这种传感器是由弹性的空心硅胶管制成,在里面充满了共晶镓-铟(EGaIn,一种液态合金)。该传感器的建模相对比较简单,可以通过计算硅胶管长度/截面的变化来计算电阻的变化。该传感器的介绍可以参见文末的传感器网页链接。研究者们把大量的这种细长的传感器作为一个个类似于神经纤维的单元集成到软体机器人身体里(通常是用硅胶浇注法,在后文中的气动软体驱动器中有介绍具体制造方法)。

    弹性应变传感器

    2. 传感器网络优化的算法

    为了让大量的传感器最优化分布,研究者们提出了一种用于优化应变传感器分布和尺寸设计的算法。具体的算法涉及到一些方程和定义,读者们可以参照文末给出的参考文献链接,这里小编给一个概括性的描述。

    算法简介

    首先是要在计算机中设计出软体机器人弹性体的几何模型,然后利用这个模型进行一系列的不同形态的模拟交互训练。接下来研究者根据交互训练中弹性体的应变场分布(应变场分布有模拟交互得到)来生成一大组可以选择的合理的传感器路径,这些传感器路径对于外界的输入都非常敏感(研究者发现,在最开始集成200个候选传感器足以在各个不同的方向表示物体)。接着通过连续迭代优化算法来选出最优的一组传感器分布的方式,从而大量的减少传感器的数量。最终根据得到的传感器路径来制造样机进行测试。

    传感器路径的选择

    关于传感器路径的选择,研究者制定了三个约束:1. 选择的路径一定要是可以被加工的;2. 路径一定要有一定的随机性;3. 每一个传感器一定要跟随着应变场,从而能够最大化传感器的敏感度。

    传感器数量筛选算法

    为了从初始组合200个传感器中筛选出最好的一组传感器,研究者使用一阶优化约束算法来实现传感器最优组合的筛选。

    3. 本体感知传感器设计应用案例

    如前面动态图所展示的,作者通过两个实体的例子和一个仿真的例子来展示他们算法的可行性。

    首先是一个可以多向弯曲的弹性棒。弹性棒的一段被固定,另一端和外界有交互(用手指控制它朝着各个方向弯曲)。研究者利用算法把200个初始的传感器网络缩减到了只含有5个传感器的最优组网络分布。仅仅借助于这5个传感器的信息,就可以重构该弹性棒在相应的外界作用下的变形情况,重构效果有着惊人的准确度

    初始传感器组和优化的传感器组

    实体交互展示和对应的模型重构

    除了简单的实心的棒,有气腔的复杂的气动软体驱动器也可以用这种方式来实现本体感知的效果。针对于一个常见的半圆形截面的气动软体手指,研究者先用算法在气腔周围生成了200个可制造的传感器网络,然后用优化模型缩减到仅剩9到10个传感器网络。

    初始传感器分布和优化后的传感器分布

    为了均衡制造难度和精确性,研究者们最终采用了6个传感器的设计。下图给出了集成传感器的软体机器人的制造方式。3d打印出传感器网络的模具,用硅胶铸模的方式,在驱动器表明留下细小的凹槽,把空心硅胶管铸进去,然后再铸一层硅胶来固定空心硅胶管,最终在硅胶管里注入液态金属,接上导线,即可得到一个“本体感知”的软体驱动器。

    带有本体感知能力软体驱动器的加工

    研究者用两种不同的变形模式来检验本体感知的性能。一个是自由膨胀,另一个是在膨胀过程中受到圆柱体的阻挡。可以看出,图中显示了实体的变形和重构的模型有着良好的重叠性。

    自由充气形变和被阻挡的充气形变

    为了验证所提出的方法也适用于仿生机器人设计,研究者仿真了一个章鱼触手。优化后的结果能够准确的重构章鱼触手在复杂的外界接触的模型(颜色代表模拟值和重构值之间的误差)。

    章鱼触手传感器数量的优化

    仿真模型和重构模型对比

    4. 总结与展望

    集成本体感知能力让本来就具有众多优良性能的软体机器人变得更加强大。当一个软体机械手具有了本体感知能力,它不仅仅能够感知一个物体是否被抓起,更能够直接感知所抓起物体的形状。本研究中的科学家们提出的传感器的设计及优化的方法能够很好地重构软体机器人的状态,从而进一步提升了软体机器人的可靠性以及实用性。能够对于外界的交互进行感知,让软体机器人如虎添翼,相信在不久的将来,软体机器人会逐步走入大家的生活。

    本文的作者也指出,他们的研究目前还是有很大的约束以及发展前景,例如本研究中的模型重构暂时不是实时的,虽然实时重构也可实现,但是目前来说误差会相对较大。另外,研究者指出他们的方法也难以解决所有的软体机器人的本体感知问题。在未来的研究中,研究者们会着重解决这些问题,创造真正能够像生命体一样的软体机器人。

    原文的视频

    文章标题:

    Tapia,J., Knoop, E., Mutný, M., Otaduy, M. A., & Bächer, M. (2019). MakeSense:Automated Sensor Design for Proprioceptive Soft Robots. Soft Robotics.doi:10.1089/soro.2018.0162

    文章链接:

    https://la.disneyresearch.com/publication/makesense-automated-sensor-design-for-proprioceptive-soft-robots/

    或者

    https://www.liebertpub.com/doi/10.1089/soro.2018.0162

    传感器链接:

    https://softroboticstoolkit.com/book/egain-sensors

    未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。

    未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

      如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

    展开全文
  • MIT来源:IEEE电气电子工程师当机器人可以抓取薯片且不会压碎它的时候,这就意味着它们越来越先进了。为了做到这一点,需要赋予它们触觉和本体感知 -- 一种对它们在空间位置中的感知。这...


    MIT

    来源: IEEE电气电子工程师

    当机器人可以抓取薯片且不会压碎它的时候,这就意味着它们越来越先进了。为了做到这一点,需要赋予它们触觉和本体感知 -- 一种对它们在空间位置中的感知。这种感觉在大多数软体机器人中是不存在的,但是现在麻省理工学院的两个团队有了可以改变这种情况的解决方案。他们的研究可能使软体机器人能够更好地感知他们抓着的是什么物体,以及使用的力度有多大。

    其中一个研究小组的发现建立在麻省理工学院和哈佛大学先前的研究基础上,研究人员开发了一种软的锥形机器人抓取器,能够抓取100倍于其重量的物体。新的研究小组改进了“魔术抓球器(magic ball gripper)”,增加了传感器,使其能够捡起像薯片一样精细的物品,并对它们进行分类,以便抓球器在未来能够识别它们。

    研究小组增加了由latex bladders”制成的触觉传感器,aka气球,与压力传感器相连。一种算法利用反馈让抓取器知道要使用多少力。到目前为止,研究小组已经在从很重的瓶子到罐头、苹果、牙刷和一袋饼干等物品上测试了抓取传感器。

    与此同时,麻省理工学院的第二组研究人员发明了一种叫做“GelFlex”的软体机器人手指,它使用嵌入式摄像头和深度学习来创建触觉和本体感觉。抓取器看起来像一个两个手指的杯子夹持器,每个手指在指尖附近都有一个摄像头,另一个在手指中间。摄像头观察手指前表面和侧表面的状态,神经网络利用摄像头的信息进行反馈。这使得抓取器可以拾取各种形状的物体。

    “我们设计的软体机器人手指可以提供高精度的本体感觉和准确预测被抓取的物体,也可以承受相当大的冲击,而不会损害相互作用的环境和自身,”一篇关于GelFlex的新论文的主要作者Yu She说。

    这两个小组的研究论文将在2020年机器人和自动化国际会议(2020 International Conference on Robotics and Automation)上发表。

    未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

      如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

    展开全文
  • 本体感受和演讲能力

    2019-07-24 15:05:55
    一位女士,Marketing专家,站在演讲桌后演讲,用一只脚脱掉了另一只脚上的高跟鞋。对于这个小动作她自己浑然不觉 ⋯⋯ ...可是直到听众们纷纷离席罢听,他才感知到情况失控了 ⋯⋯ 即使走上演讲台,仍然有人对自...
    • 一位女士,Marketing专家,站在演讲桌后演讲,用一只脚脱掉了另一只脚上的高跟鞋。对于这个小动作她自己浑然不觉 ⋯⋯
    • 一位男士,身材略胖,演讲的时候把上半身压在演讲桌上,桌子吱吱嘎嘎地响,几乎要散架了,第一排的听众感到很惊讶 ⋯⋯
    • 一位学者,在企业里做分享报告,提出了一个理念,遭到听众的反感。可是直到听众们纷纷离席罢听,他才感知到情况失控了 ⋯⋯

    即使走上演讲台,仍然有人对自己的表现和周围地环境缺乏足够的感知。为什么会这样?

    本体感受

    在构成人的整个系统中,存在着一些自审自察的结构,它被称做本体感受(proprioception)或者“自我感觉”(self- perception)。以身体来说,当一个人移动身体的某个部位时,他可以立即发觉这一点。但实际生活和工作的场景要更为复杂,人们并不总是能够恰如其 分地进行“本体感受”。

    本体感受很大程度上决定了一个人的社交品质。尤其是社交场合表现出的弹性——能否在不同环境和场景下调整自己的表现。演讲能力与本体感受能力密切相关。

    缺乏本体感受,就难以对自己演讲形成真实客观的感受,这是提升演讲能力的一个主要的障碍。“我的演讲没有什么问题,不错的啊,还挺好的啊⋯⋯”,这 些想法如果是建立在自己一厢情愿的判断标准(本体感受不足)之上,会觉得自己是不需要专门去学习和训练的。可是,你的听众可不一定这么认为。

    相对而言,演讲教练和培训的过程,如果是一个足够细致的训练课程的话,会投入相当的精力来提升和改善学员在演讲过程中的本体感受。

    一个当众讲话的演讲者,如果缺乏本体感受会怎么样?

    总体上来说,他很难感受到自己的演讲是什么样子。虽然可以记住说话的内容,但是他很难感受到自己的语气、表情、神态、举手投足,以及这些对现场听众的影响。或者是只感受到了很少一部分,忽略了很多。或者即使在别人的提醒之下,也会顾此失彼。

    缺乏本体感受的演讲者,如果只依靠自己的观察和体会,很难发现自己的不足,也不能够审查这些表现与听众的认可度之间的关系。甚至有人会认为这些并不重要,认为只要说话的内容本身很有价值就可以了。而事实上这是掩耳盗铃。

    有数据表明,演讲的成效,70%在于演讲者的语气神情和肢体语言,内容反而居为次要。我无法确定这个数据是否科学和准确,但是这个结论是对的。如果我们仔细观察和体验演讲,就会认可这样的道理:

    你是什么样的人,往往比你说了什么话更为重要,它更能影响听众。

    你在台上当众讲话,“话题内容”本身总是在这场“竞赛”中得到第二名。而最先跑到听众那儿的,往往是被人叫做为“印象”的一个家伙 ——“印象”就是“你是一个什么样的人”。

    为什么会缺乏本体感受?

    先天不足:

    缺乏本体感受的原因有多种,有一部分是先天的。你不得不承认有人就是先天的“神经粗大”,是粗线条的。不过,这是可以改善的,通过训练来提升自我感 知程度。甚至说他娶了一个细心的太太,也可以帮他感受到。或者从事了某一项工作,工作环境有其他人能够给他反复提供反馈信息,他也会提升本体感受的灵敏 度。

    在实战中成长:

    就演讲来说,能不能通过大量的实战演练来提升本体感受呢?可以,事实上很多讲者都是“磨炼”出来的,是无数次实战炼就的。但是,如果你希望自己能“在实战中学习”,这里会存在这样的问题:

    • 效率不高,你需要好多次实战机会才能提升;
    • 当你遭遇失败的时候,你会浪费和糟蹋了那一个宝贵的演讲机会;
    • 演讲机会很少,一年也不过一两次而已,那么这个自我提升学习的体验就很不连续,进步很慢;
    • 最关键的,当你的精力集中于演讲的时候,你是很难再分神出来观察自己。自己对着镜子练习的时候,你就会发现这个现象。演讲现场的紧张和压力,使得你顾不得自我的本体感受。

    所以我的建议是,最好在一定的训练和学习之后再去实战。这样提升的效率更好,也对得起听众和宝贵的演讲机会。

    客观障碍:

    外在环境并不总是积极地鼓励增强本体感受,有时会相反,故意让人感受不到。比如,那些高管在台上讲话,一定会获得掌声,没有人提出批评建议,没有人 愿意说他讲的很不好,很别扭,不得体。这当然是“职场奉承”的现象,它障碍着演讲者的“本体感受”。不过这也恰恰说明了:所谓“本体感受”,更依赖你自己 的努力,而非别人。你自己不理它,别人更不会管闲事。

    此外,作为一个管理者,处在中层和基层管理职位的时候,就应该把“当众演讲”的能力培养好。否则,当荣升为高层,就不太容易听到客观的建议了,也不太可能和其他的下属一起去参加“演讲培训课”进行专门的训练。

    “本体感受”既包括态度的层面,也包括具体的行为。“吾日三省吾身”。一个有自我检查态度的人会拥有更好的本体感受。相反,骄傲狂妄之人,这方面肯定是要差些的。

    通过某种方式的学习来增强本体感受

    几乎所有演讲教练都会推荐学员使用录像设备摄录下自己的真实演讲或者是演练,并通过回看来检讨和修正。

    这是一个好方法,但是他也是个“残酷”的行为。因为很多人会因为自己的“糟糕表现”而灰心丧气,甚至他们都很难看完自己的录像。在观看自己录像的时候,人们表现出的惊愕会颠覆掉对自己的既往印象,恐惧甚至会熄灭学习演讲的热情。所以,我给学员的建议是:

    • 做好心理准备:你刚开始会很讨厌自己的表现;
    • 降低期望:当你看到自己的形象不感到厌烦了,你已经比99%的人都好了;
    • 录像不要过长:只录下5分钟自己的演讲即可,3分钟也行;
    • 看完马上着手准备第二次录像:第二次的改善会给你很多信心和兴致。

    录像机可以客观记录演讲者的表现,但是它不能完全揭示演讲成败的要素。成功演讲还需要其他方面的支持,比如:

    • 赋予演讲内容一个清晰的逻辑和结构;
    • 学会和听众互动的技巧;
    • 演讲(Presentation)中的视觉呈现(PPT幻灯片);
    • 观点的角度和强化方法;
    • ⋯⋯

    这时就需要有经验的教练和培训师来辅导了。教练和老师会解析演讲内在的机制,不仅仅是外在表现。一方面为学员提供新的视角和技能知识(这是学员容易 感受到的部分),也会与学员一起尝试“发现自己”和“了解自己”。这也是很有趣的部分,是需要细心体验的部分,也是让“本体感受”在演讲中发挥作用,从而 让学员可以自我观察体验、自我学习提升。

     

    转自:http://www.apple4.cn/2012/02/proprioceptive-and-presentation-skills/

    转载于:https://www.cnblogs.com/hnrainll/archive/2012/02/22/2363671.html

    展开全文
  • 我们认为,克服这些限制的一种方法是将OBDA扩展为具有分析能力,来源和成本意识。 在这项工作中,我们提出了这样的扩展。 特别是,我们为OBDA提出了一种本体,映射和查询语言,其中聚集和其他分析功能是一等公民。 ...
  • 步行速度对最佳和非最佳步调光流的知觉感知的影响... 另外,随着检测速度的阈值水平变化的本体感受能力,对最佳视力流的感知偏好预计会增加。 与较慢的步行条件相比,较快的(较熟悉的)视力流在较快的速度下显示出增强
  • 扩展OWL-S本体及其在博物馆导游系统中的应用,龚聪,刘厚泉,将OWL-S进行上下文感知能力的扩展并将其应用到博物馆导游系统的设计中。OWL-S本体是利用本体描述语言OWL对语义网中的服务进行描述,��
  • 足式机器人具有运动灵活、环境适应能力强和非连续地面支撑等特点,但是制约足式机器人发展的很多基础性理论研究目前还处于起步阶段,本文主要针对足式机器人的本体运动状态进行研究,提出了适用于足式机器人的基于...
  • 针对传统的语义网本体和上下文感知系统不适合处理现实世界中动态知识这一问题,借鉴了语用网在表达动态知识方面的优势,提出了语用网驱动的上下文感知系统,设计了语用网驱动的上下文感知系统框架。该系统采用了一种...
  • 代理的通用本体抽象层(COALA)有助于在MAS和ABM之间重用代理代码 COALA通过与代理和组织相关的通用概念,支持跨流行平台和中间件(多代理系统,应用服务器等)的可重用和可重现的行为(如何协商,学习,协调……)...
  • 几十万元的工业机器人一般只有光电编码器作为位置传感器,而能力风暴本体上有6种十几个传感器,还可扩展,对环境的感知能力比工业机器人强很多很多。感知环境的能力是产生智能行为的前提,因此能力风暴能产生许多...
  • 在灾害场景下,信息来源广泛、体量巨大、种类繁多且数据格式多样,阻碍决策人员快速收集信息、理解场景态势及制定相应处置方案。...本研究有助于提升灾害场景的态势感知能力,实现灾害应急的智能化水平。
  • 随着人工智能的飞速发展,全球机器人市场在持续扩大,机器人的能力从执行固定的操作发展到自主感知、理解和决策。但要实现机器人的大规模应用,需要机器人在有限功耗的限制下,具备强大的计算能力和低廉的部署成本。...
  • 情境感知技术的发展为提醒服务的改进提供了契机,将情境引入到提醒服务的设计中,采用OWL本体方法构建领域内情境与服务知识的语义模型,以提醒服务平台的方式集成领域内提醒相关的设备与服务,并结合本体模型采用...
  • 情境感知技术的发展为提醒服务的改进提供了契机,将情境引入到提醒服务的设计中,采用OWL本体方法构建领域内情境与服务知识的语义模型,以提醒服务平台的方式集成领域内提醒相关的设备与服务,并结合本体模型采用...
  • 计算机系统需要有足够的能力和智能与人进行通信。为此,他们必须能够解释或管理人们在人类交流中习惯于感知的某些类型的信息,如语音调制、面部表情等,并将人类情绪考虑在内。本文所提出的基于本体的平台试图支持...

    摘要

    计算机系统需要有足够的能力和智能与人进行通信。为此,他们必须能够解释或管理人们在人类交流中习惯于感知的某些类型的信息,如语音调制、面部表情等,并将人类情绪考虑在内。本文所提出的基于本体的平台试图支持需要考虑情感传递的资源的开发,特别是在用户和交互系统之间的通信中。为此,我们研究了与情感状态传递相关的因素,并将其纳入本体论。基于这种本体论,创建了一个平台来指导情感资源的开发,为用户提供更自然的界面。最后,建立了一个交互式多模式系统,验证了所提出的基于本体的平台,并将该研究应用于实际案例。
    索引项:情感计算、情感识别与综合、交互上下文建模、本体知识表示。

    1、介绍

    多模式交互是为了向用户提供满足其个人需求所需的多种交互模式。不幸的是,现在人们使用的许多设备的交流主要是通过口头交流(书面文本)和中立或不动感情的方式进行的。此外,隐式传输的非语言信息经常被忽略。这些信息在人类交流中是必不可少的,用来表达我们的情感。包含情感可以提高人们的理解水平,减少信息的模糊性,例如包括表情符号,从而改善互动。根据Mehrabian[1]的研究,人类交流中传递的信息约有90%是非语言的,而传递的语言信息仅占人与人之间交流信息量的10%左右。此外,据皮卡德[2]所述,与人际关系相关的这些特征也出现在与计算机的交流中。

    因此,人机交互系统应该能够解释来自人类的信息,并根据这些信息生成响应。这导致了情感计算领域的出现[2]–[4],该领域研究使用基于计算机的技术检测和响应用户的情绪。这项技术可以通过使智能系统在发出响应时自动与用户交互并做出自己的决定来完成智能系统的开发,而无需任何人工干预。因此,用户和智能系统的共同目标可以更有效地实现。

    目前,建模特定领域知识最广泛使用的机制之一是使用本体。本体论的主要目标是表示现实世界的概念,以及这些概念之间的关系。为此,必须达成共识,并指定共享此信息的常用词汇。因此,可以在人员(如设计师或开发人员)之间以及软件代理(如智能代理)之间共享知识,并向这些人员或软件代理提供与特定领域相关的概念和术语。此外,本体论有足够的机制,可以让需要它的开发人员重用这个领域的知识,而不必创建一个新的领域[5],并且它们允许对模型实例进行推论,从而产生其他方法不容易获得的假设。因此,作者利用本体技术创建了一个平台来指导情感资源的开发,同时考虑到用户周围的环境。在这方面,有必要研究和分析人类的情感和认知模型,以便了解他们的行为,并通过适应人们的个人需求和特征的互动来改进系统,继续进行[6]–[8]中的工作。

    在下面的章节中,我们将介绍一些相关的工作和受影响的模型。这些模型是那些已经在基于本体的平台中使用的模型。接下来,详细描述了这个平台。在此基础上,提出并评价了基于该平台的多模态交互系统,以验证该平台的有效性。最后得出了一些结论,并提出了今后的工作方向。

    2、相关工作和模型

    与情感或其他情感现象有关、产生或故意影响的计算是情感计算的形式描述,最初由picard[2]定义。其基本思想是,考虑到人的情感特征,可以显著改善与计算机系统的交互通信。根据皮卡德的观点,主要目标是赋予计算机情感智能,即识别、解释和产生情感的能力。

    但是,为什么计算机需要能够识别、解释和产生情感?有几个领域受益于情感计算系统,包括:电子学习,远程医疗,机器人和心理治疗。例如,在电子学习领域,系统可以确定学生的情感需求,从而激励用户学习,并通过使用情感来保持他们的注意力。

    另一个重要的问题是计算机如何识别、解释和产生情感?Peter Lang提出了一个模型,其中包括三种系统或通信方式。根据[9]所述,这些沟通方式涉及到情绪的表达,也可以作为检测用户情绪的指标:

    •口头信息:包含用户感知或传输的明确信息。

    •行为:面部和姿势表达、语言副语言参数等。

    •心理生理反应:如心率、皮肤电反应(GSR)和脑电图反应。

    例如,对于语音通信方式,必须考虑适当的参数(例如音量、音调和速度),以产生或识别情绪。这是为了能够模拟反映用户情感状态的不同情绪,或者在识别器的情况下,创建用于对用户传递的情绪进行分类的模式。

    因此,代表所有这些知识,特别是模拟情绪是至关重要的。认知心理学提出的情感理论是情感状态建模的一个有用的起点。人机交互(HCI)领域最常用的情绪分类理论是分类理论[10]、维度理论[11]和评价理论[12]。由于实际原因,情感分类模型在情感计算中的应用越来越频繁。例如,Odeyer[13]开发了一些基于语音参数的五种情绪生成和识别算法。一些理论家也提倡情感的维度方法,比如泰勒根[14]。情感维度是对情感状态基本特征的简化描述[15]。最常见的情感维度是配价、唤醒和支配[16]。价维度与感觉良好或不好有关,甚至给出正面或负面的标签[17]。激发维度衡量一个人有多兴奋或平静。最后,优势维度度量用户是否控制情况或他/她是否受情况控制。评价理论模型提供了一个描述情绪的框架,基于人在情绪状态的焦点处经历事件、事物或人的方式[12]。

    一个叫做sam(自我评估模型)[16]的工具可以用来表示或指示基于维度理论的情绪。Sam是一种非语言图像评估技术,由对应于三个维度的三个尺度组成:价、唤醒和支配。每个尺度由代表一个人的五个数字组成。这些刻度具有9个值的范围,从1到9编号。山姆的配价表从左到右描述了这种情绪是多么令人愉快或不愉快。唤醒范围从完全活动状态到平静状态。在优势等级中,最左边的数字代表一个自我意识的人,而最右边的数字则是最能传递控制感的人。

    由于认知过程对影响有着显著的影响,研究人员还必须考虑哪些过程涉及,它们如何工作以及它们如何影响人机交互。一些作者,包括Wickens[18],认为一个人的认知系统包含几个感觉系统。人与计算机之间的交互发生在信息交换时。计算机以物理的方式呈现信息,人必须通过他/她的感官系统来获取信息[19]。这些感官系统能够从环境中提取信息。感知过程分析通过感官系统接收到的信息,并对感官系统接收到的物理刺激赋予意义。接下来,感知到的信息存储在内存中,并有可能在以后被检索和使用。在这种情况下,用户使用从他/她的内存中检索到的信息生成响应,并对其进行分析、比较和解释。此响应由计算机的外围设备通过其通信通道接收。

    我们还必须提到万维网联盟(W3C)多模式交互工作组的努力,该工作组旨在制定开放标准,以扩展万维网,以允许任何人、任何地点、任何设备和任何时间的多种交互模式[20]。他们提出了几个与情感计算和多模态相关的W3C建议,例如情感标记语言(EmotionML)1.0[21]和可扩展多模态注释(Emma)标记语言1.0[22]。基于这些W3C标准,为了获得自然的用户界面,已经进行了一些开发[23]。

    除情感理论、沟通方式等外,还必须考虑其他外部因素,以描述一种导致人与互动系统之间产生情感互动的情况。可以分析一个人传递的刺激(例如生理信号),以检测产生的情绪。然而,在许多情况下,与周围环境相关的其他方面可能会引起兴趣,以便更好地了解这种情况。

    在这方面,göker和myrhaug [ 24 ] propose模型在用户上下文的定义。在这个模型的伙伴关系,从个人方面相关的用户,其他类型的元素的问题或是被视为在秩序,到了“上下文”的用户。这也是主要的上下文的五元素:

    •背景:环境,包括环境方面的数据,如相关的用户是一个地方(服务对象,噪声,光,天气,温度,等)。

    •个人:包括个人背景,生理(血压,脉搏,体重,等)和心理(情绪、专业知识、应力等)的数据。

    •任务上下文:个人介绍什么是做在这个用户的上下文(明确的目标、行动、活动等)。

    •社会环境:社会方面介绍当前用户上下文(相对于角色的邻居,朋友,敌人,等)。

    •时间:时空上下文的用户上下文的情况,介绍与之相关的时间和空间(时间,位置,方向,速度等)。

    这个模型和本节中解释的大多数模型已经用于描述提议的本体和基于它的平台,下一节将详细介绍。

    正如我们所看到的,有几个模型代表人类的情感,考虑到一个或多个上下文元素[25]。此外,还可以找到通过不同方式识别和产生情绪的系统[26]–[30]。其中很少有系统或平台能够为不止一种形式和上下文中的各种元素收集知识,并利用这些知识为情感资源的生成提供支持,这就是所提议平台的理念。

    3、基于本体的情感互动系统开发平台

    本文提出的基于本体的平台的主要目标是支持在用户和系统之间的交互中需要考虑情感传递的资源开发。

    让我们介绍一个场景来帮助描述用户和系统之间的情感交互(参见图1)。拟议工作的目标之一是能够用附属本体来表示这些类型的场景和情况。因此,可以为开发一个能够适应用户情况的情感系统提供知识基础。
    在这里插入图片描述
    图1:一种场景,表示一个人和一个系统之间的上下文感知的情感交互。

    图1中的场景显示了一个人在电子学习系统中的学习过程。该系统的开发是为了促进个人学习,将学生的情绪考虑在内。该系统使用虚拟化身来增强学生的学习动机。在这个例子中,一个与电子学习系统的交互作用使学生变得悲伤。图中还显示了围绕这种互动的上下文;也就是说,可能影响学生情感状态的因素和属性。还有其他可能对交互没有影响的因素,例如位置和附近的其他人。

    本节分为三个部分。首先,详细介绍了作为平台知识库的仿射本体。然后,描述了本体用于分析从类似情况(如图1所示)中提取的数据的方法。最后,描述了基于本体的平台。

    A.附属于本体论的描述

    附属本体定义了用户和系统之间的交互。图2显示了使用Protégé工具开发的本体。在设计本体论时,文献中发现的各种模型都被考虑在内。一些与用户相关的模型通常用于认知心理学领域。系统上下文模型也基于这些用户模型以非常相似的方式定义;即在给定的交互中,用户和系统都被视为对话者。

    此外,上下文通常被认为是用户外部的。然而,在本研究中,用户被视为上下文的一部分(包括他/她的个人特征)。因此,语境涵盖了人与系统之间情感互动的一切。

    这个本体可以应用于自动生成接口的系统。因此,本体可以提供用户和设备特性的信息,以便选择最合适的多媒体资源。此外,它还可以应用于多模态相互作用系统。在这种情况下,它可以建议系统应使用哪种通信方式与特定用户交互[7]。

    附属于本体论也提供了关于情感互动的知识,因为它被认为是必要的包括情感互动,以提高自然性。也就是说,虽然系统知道给定用户最合适的交互模式,但是如果系统不以自然和表达的方式与用户交互,那么交互对该用户来说仍然不够。

    这种上下文模型是情感交互定义的基础,因为它描述了生成和识别用户情感状态的不同因素。此外,该模型允许相关概念的连贯整合,因为当使用主题上下文时,可以描述认知过程。

    根据Göker和Myrhaug[24]提出的模型,可能影响交互作用的因素被分为五个上下文元素或属性(见图2中从1到5的属性)。然而,在本研究中,作者使用主题上下文概念,而不是使用个人上下文概念,以便也包括系统上下文,而不仅仅是人类上下文(参见图2方框4中的个人属性和系统属性)。
    在这里插入图片描述
    图2:附属于本体论。

    为了表示与情感互动相关的知识库,对这些上下文元素进行了建模。尽管如此,主题语境模型(同样,图2方框4)的意义还是最大的,它包括了主题的身体、认知和情感状态:

    •人们认为,与人类情感相关的传播模式是lang[9]提出的,它们是用户在个人环境中的身体状态的一部分(见图2框(a));

    •认知状态也包括在内(参见图2方框(b)),因为认知过程参与情感的理解和表达。从人类的角度来看,听觉、动觉和视觉的过程,除了语言和言语的感知和口头的过程。从系统的角度来看,这里包括音频提取、键盘鼠标输入、语音合成、视频提取过程、音频解析器、视频处理和对话系统。为了做到这一点,作者使用了Wickens提出的一般模型[18];

    •最后,情感状态也被表示出来(参见图2方框(c)),因为它们与人与系统之间的互动和交流,甚至与身体和认知状态都有很强的联系。用户体验情绪的方式或趋势应使用适当的词汇进行登记和分类。不同的情绪理论([10]–[12])可以用不同的方式表示相同的情绪(参见图2中的元素(d))。

    OWL语言[31]已经被用来开发这个本体。这种语言允许通过导入其他现有的本体来轻松地共享、重用、修改甚至扩展本体。

    让我们描述仿射本体的设计和结构。本体有五个主要概念,如图2所示:仿射交互上下文、上下文属性、蕴涵模式、刺激类型和理论。这五个概念定义如下。

    AfterInteractionContext表示围绕人与系统之间的情感交互的全局上下文。它由几个元素或属性组成,每个元素或属性属于上下文属性类。已创建一个对象属性来定义此关系(请参见公式1)。

    公式1:: AffInteractionContext → ∃ hasContextProperty some Context_property

    在交互上下文中的任何属性都被视为上下文属性;交互中涉及的每一个元素或细节,无论是噪音、手势、动作、记忆或任何刺激,都可能影响受试者及其情感状态。

    HasContextProperty关系用于定义在上下文中找到的每个属性;例如,图3显示了AfterActionContext类的一个会话上下文实例,该实例作为一个属性具有高级别的Noise实例,这些实例使用称为HasContextProperty的属性及其反向Pro相互关联。Perty是的ContextProperties。

    现在让我们看看上下文属性是如何定义的。如上所述,存在于交互中的每个刺激都被定义为上下文属性,并且它将至少属于一个上下文属性类型:环境、社会、时空、任务或主题属性。因此,人们可以收集信息,例如,关于用户在交互中经历的刺激或关于环境因素(如环境温度)的信息,以及关于合成器在特定情况下应具有的语音特征的信息。

    根据[24]的规定,标的财产又是环境背景下的一个子财产:

    ‘’…用户上下文的这部分[环境部分]捕获围绕用户的实体。例如,这些实体可以是事物、服务、温度、光、湿度、噪音或人。用户在当前用户上下文中访问的信息(例如文本、图像、电影、声音)都是环境上下文的一部分。….’’

    基于这个观点,参与情感互动的每一个主体都属于其他主体的环境语境,这些主体也参与了同样的互动。

    基于对不同类型上下文属性的这种分类,affinto还对对象属性进行分类(参见图4)。因此,研究人员应该使用一个更具体的对象,例如hasEnvironmentProperty或hasNoise,而不是图3中示例的hasContextProperty。
    在这里插入图片描述
    图3:名为hasContextProperty的对象属性将会话上下文实例与高级别的干扰实例连接起来;以及名为isContextPropertyOf的反向函数的对象属性。

    在这里插入图片描述
    图4:用于定义上下文属性的对象属性层次结构。

    也可以描述每个主题(个人或系统)的含义。有很多交互的可能性,例如:几个用户在同一个系统中分享经验;一个给定的用户在他/她的范围内拥有多个智能设备;或者有一些人不直接参与交互环境,但是他们发出的噪音正在影响一个情感交互环境。tion. 为此,Affinto使用了蕴涵模式概念(参见图2中的(e)平方),它由蕴涵的外部和内部模式组成。在内部模式的情况下,可以使用发送器或接收器等概念来确定哪个受试者正在发送刺激或谁正在接收刺激(或经历他/她/她的情感状态的一些变化)。在外部模式的情况下,那些不直接参与情感互动,但可能影响情感互动的元素可以在本体论中被指出。如图5所示,识别每个暗示模式的作用(其中有发送器主体、接收器主体和一些影响交互的外部主体)。
    在这里插入图片描述
    图5:两个内部对象(发送器和接收器)之间的情感互动和一些外部对象的影响。

    仓促的客体属性用来表示构成情感状态的情感,也就是说,利用这种属性,一种情感可以与不同的分类理论相联系。到目前为止,在afinto中定义了三种分类(分类、量纲和评价)。在每个分类中,可以使用称为引用的数据类型属性注册多个理论。例如,人们可以用快乐的情感价值来记录一个刺激,并表明他们使用了Ekman提出的分类理论来表示它。

    afinto的最后一个主要概念是刺激类型(参见图2中的元素(f))。情绪不仅受环境或社会因素的影响。显然,对话者传递的刺激对特定的人也有很大的影响。利用这个概念,我们可以描述一个已经发生的情况,并区分一个刺激是否作为另一个刺激的反应出现。交互通常是一个双向的过程,因此分析用户传输的刺激来确定他/她的情感状态是不够的。例如(回到图1中的示例),其他人、温度和时间刺激可以被视为动作刺激,而面部特征或生理信号(即导致使用者的悲伤)的变化可以被视为反应刺激。因此,分析可能影响交互的各种上下文属性很重要,以便理解用户以特定方式做出反应的原因。因此,这些概念有助于作者描述在用户中引起某些情感状态的情况。affinto包含hasstimulstype对象属性来表示属性的刺激类型。

    B.对所涉及的因素的分析

    为了确定影响给定情感状态的因素或属性,可以搜索该情感的所有用途(见图6)。
    在这里插入图片描述
    图6:与EmotionsP_000001实例(情感类实例)相关的属性。

    还可以识别与此情绪对应的情感互动语境实例(即情绪产生的语境),以分析互动中涉及的所有属性和刺激,以及它们以何种方式参与。可以使用反向函数的is_personalaffproperty_来标识这个实例(参见图6中突出显示的afinteractioncontext_000001)。图7显示了图1场景的情感交互上下文中涉及的属性。
    在这里插入图片描述
    图7:属于AfterInteractionContext类(包括EmotionsP_000001)的AffInteractionContext_000001实例的属性。

    关于环境背景,我们可以看到某些因素(如环境温度或另一个烦人的朋友)影响了互动。人们还可以看到时间可能会对人和系统中的噪音产生影响,这两者都是这种相互作用的环境背景的一部分。一个可以包括额外的信息,例如在这个交互中的人的角色(学生)或交互的两个主题正在执行的任务(电子学习)。

    C.基于本体的平台描述

    如前所述,本体的使用允许作者收集信息作为知识库,并分析这些信息,以便通过使用不同的资源或计算应用程序来识别、解释和生成情感状态。因此,基于仿射本体,已经创建了一个平台,使这些类型的应用程序的开发更加容易(参见图8)。
    在这里插入图片描述
    图8:基于本体的情感交互系统开发平台。

    本文提出的基于本体的平台的主要目标是支持在用户和系统之间的交互中需要考虑情感传递的资源的开发。

    这个平台由几个模块组成。在环境语境中,有两个主题(人和系统),其他语境类型也包括在内(社会文化、任务和时空语境)。

    根据要开发的交互系统的功能(即是否需要情感识别过程和/或情感合成过程),使用这些模块执行的过程将有所不同(取决于用户和系统之间的通信方向):

    1)第一阶段

    在情感识别过程中(当用户向系统发送信息时),模块的过程如下(有关该过程的更多细节将在下一节中介绍):

    步骤1.1(输入/输出设备模块):根据系统使用的通信信道,信息将被传输到相应的输入设备。

    步骤1.2:然后,信息提取和合成模块从消息中提取必要的数据(例如,面部或语音特征)。

    步骤1.3(解释/响应(I / R)引擎模块):执行与所使用的通信信道相对应的处理,以便分析所提取的数据。 例如,一些数据挖掘技术被应用于提取的特征以估计消息的情感状态。

    步骤1.4:为了分析这些数据并估计情感状态,I / R引擎使用在Repository中收集的信息,该信息主要由Affinto本体组成。

    步骤1.5:在交互是双向的情况下(即系统必须生成对用户的响应),必须使用合适的机制(例如对话系统)。 I / R引擎也管理这个过程。

    如果系统是多模式的,则在此识别过程中必须考虑多个通信信道(每个信道都有自己的百分比)。

    2)第二阶段

    在情感合成过程中(当系统生成要发送给用户的信息时):

    步骤2.1(I / R引擎模块):如前面在识别过程的步骤1.5中提到的,必须生成消息以便与用户交互。 因此,必须收集必要的数据以便撰写合适的消息。 该模块可以使用Affinto本体来识别合成器应该在特定消息中使用的合适信息或特征。

    步骤2.2:识别出合适的数据后,信息提取和合成模块组成消息。 也就是说,系统必须包括先前获得的信息作为合成器的参数。

    步骤2.3:将消息重定向到相应的通信信道,最后通过相应的输出设备发送给用户。

    在下一节中更详细地解释了这两个过程,因为已经开发了基于所提出的平台的多模态交互系统。 创建该系统的目的是验证由所提出的平台引导的情感资源的发展。

    4、用实证研究验证基于本体的平台

    平台的验证过程分两个主要步骤进行。在第一步中,仅针对一种通信模式开发了交互系统;特别是口头形态(书面文字)。该验证的结果发表在[6]中。在第二步中,开发了多模态交互系统。在本节中,将首先展示基于本体的平台如何指导这种多模式交互系统的开发;特别是它是一个名为AFFIN的情感对话系统。然后,解释了与创建的会话系统的实证研究。

    请记住,它是一个会话系统,它包括识别,解释和综合过程。为了使所有这些过程成为可能,系统使用非本体作者开发的软件来使用本体和存储在其中的信息。使用外部软件增强了本体和用于创建情感资源和/或系统的平台的有用性。

    A. AFFIN:多模式的情感对话系统

    会话系统,也称为对话系统,是允许用户与之交互的智能界面。 它们通常使用人类最常见的通信方式之一(语音),并代表人类计算机交互技术的重大进步。

    这些系统还集成了自动语音识别,自然语言处理,对话管理,语音合成等技术[32]。为了验证该平台作为开发情感计算应用程序的支持工具,并依次验证Affinto本体作为这些应用程序的知识库,作者开发了AFFIN:一个用于文本和语音的多模式会话系统,能够识别,解释和产生情感。该系统集成了上述技术。关于AFFIN的情感识别系统,所执行的过程是个性化过程。也就是说,为了识别由给定用户发送的情绪,执行识别的分类器使用先前由该相同用户存储的数据。以这种方式,如果收集每个用户的足够信息,则获得的结果比使用由许多用户特征组成的一般语料库获得的结果更准确。

    图9显示了为AFFIN系统开发而创建的体系结构。 可以看出,该体系结构的设计基于所提出的基于本体的平台,并且已经开发了一些模块用于实现会话系统的目标。 可以看出,系统用于与人交互的频道是口头的(用于通过书面语言传递口头信息)和语音(用于通过语音传递副语言特征)。
    在这里插入图片描述
    图9.:AFFIN系统的体系结构。

    系统通过其界面及其通信渠道提供的媒体资源不应该避免有关情绪的信息。 为此,通过使用Affinto本体,系统可以提取关于在情感上丰富界面所需特征的信息,以及要发送给用户的刺激。 相反,系统还可以提取关于某些用户的通信模态特征的信息,以便通过使用先前在本体中收集的信息来识别用户的情感状态。

    让我们再次将用户和系统之间的交互分为两部分:情感识别过程和情感合成过程。

    1)第一阶段

    AFFIN的情感识别过程。 区分两个一般步骤,每个步骤用于每个通信信道:(a)文本和(b)语音。

    步骤1.1(基于文本的情感识别器过程):关于基于文本的情感识别器(参见图9中的语言频道),已经选择了基于情感词典的方法。 在这种情况下,使用ANEW情感词典[33]。 ANEW中的每个单词都具有通过三个维度表示的情感价值:效价,唤醒和支配。 这些词中的每一个都在Affinto本体中被注册为一种互动,以及它的情感价值[6]。 一旦作者在本体中获得所有这些信息,基于文本的情感识别器执行的过程如下。

    首先,语言通道模块通过输入设备麦克风接收文本。 AFFIN使用名为Sphinx 4 [34]的语音识别器来提取用户发送的单词。 然后,语音通道模块将消息发送到信息提取和合成模块。 该模块对消息进行语法分析,使Verbal I / R模块能够用情感值标记名词,副词,形容词和动词。 由斯坦福自然语言处理小组[35]创建的解析器用于执行此操作。 解析器还检测与否定相关的单词以反转其情感值。 在I / R引擎中,因此通过使用存储库(即Affinto本体)来确定这些单词的情感值以获得给定文本的平均情绪值。 这样,作者获得了用户发送的文本的情感价值。

    众所周知,所发送的非语言信息比人类对话中的语言信息更重要[1]。 因此,根据Mehrabian的估计,当解释用户传输的情绪时,系统(参见图9中的全局I / R模块)将占基于文本的情感识别器获得的值的10%。

    步骤1.2(基于语音的情感识别器处理):剩余的90%是从基于语音的情感识别器获得的。关于这个语音识别器,过程如下:如在文本识别器中,语音识别器也使用Sphinx-4工具。在这种情况下,Sphinx-4在语音通道中记录传输的语音。信息提取和合成模块(在此过程中,对应于语音的模块)然后使用名为Praat [36]的工具提取语音的副语言特征。使用此工具,AFFIN系统从用户的声音中提取十一个功能。这11个特征分为三类:(1)语音或音高(也称为基频) - 平均值,最大值,最小值和标准差; (2)语音强度或音量 - 平均值,最大值,最小值和标准差; (3)Formants(声音谱中的强度峰值) - 以F1作为最低频率共振峰,然后是F2和F3。

    一旦系统执行了这些功能的提取,I / R引擎模块就会解释此信息。存储在Affinto本体中的信息用于此目的。当用户执行培训过程时收集该信息;即他们第一次使用会话系统。还可以收集在训练过程之后执行的交互。这些交互中的每一个都被存储并用用户发送的情绪值标记。有几种方法可以识别语音中的情绪[37],[38]。在这项研究中,K-Narest Neighbors(K-NN)算法[39]已被应用。因此,作者具有来自给定用户的交互的最近提取的特征集以及与该用户执行的若干交互相对应的特征集,包括情绪值。因此,语音I / R模块可以通过应用该算法仅基于语音特征在交互中获得该用户的情感状态。

    2)第二阶段(与AFFIN的合作合成过程)

    在识别出用户的情感状态之后,系统生成响应。 为此,它必须将用户的消息与其情感值一起解释。 I / R引擎模块使用由ALICE项目[40]开发的对话系统来完成此任务。 该系统使用AIML标记语言和该语言的解释器。 解释器在存储库中有一些AIML类别,用于根据文本输入创建消息,但已为此验证创建了更多类别。 创建新AIML类别的主要目标是将情绪作为输入信息包括在内,并根据这些情绪选择合适的反应。 此外,情绪信息也包括在口译员的回答中。 因此,再次区分两个通信渠道:

    步骤2.1(基于文本的情感合成过程):将上述响应消息发送到语言通信信道。

    步骤2.2(基于语音的情感合成过程):将一组合适的特征发送到语音信道,以便语音合成器(称为FreeTTS [41])可以通过输出设备产生情绪话语; 即发言者。 为了识别与合成器必须传输的情感相对应的特征,AFFIN再次使用本体。

    生成合成语音消息后,AFFIN现在准备好接收来自用户的下一条消息。

    B.与AFFIN系统的实证研究

    在以下小节中,介绍了验证AFFIN系统的实验研究(用一些实验对象进行)。 本研究的主要目的是证明使用基于本体的平台有助于开发情感计算应用程序,甚至使用外部开发的软件。 该研究还有助于证明Affinto本体作为这些类型应用程序的知识库。

    1)实验中的参与者

    14名志愿者参加了实验:9名男性(平均年龄32.22; sd = 9.00;年龄范围= 24-53)和5名女性(平均年龄32岁; sd = 8.07;年龄范围= 26-47)。 他们被要求用英语表明他们的水平。 其中五人回应良好,其余九人回应可以接受。

    考虑到通过三个维度表示参与者传递的情绪可能非常困难,进行了法官间的协议测试。 三名评估员必须听取培训过程中的所有录音。 在该测试中,测量了称为Kendall的Tau-b的相关系数,以便比较每个参与者表达他/她表达的内容与评估者对相同记录的看法。 Dominance维度测试的结果是,四名评委(参与者和三名评估员)之间的相关性对于14名参与者中的任何一名都不重要。 可以推断,对于参与者和法官来说,通过这个维度表达情绪是非常困难的。 对于其他两个方面,法官在Valence案件中比在Arousal案件中更多地达成一致。

    由于肯德尔的Tau-b系数非常低,因此丢弃了一致性较低的数据,只有那些显示出高度显着相关性(双侧预测p <0.05)的数据才被认为是有效的。 因此丢弃了14名参与者中的6名,并且使用剩余的8名参与者的结果进行了验证。 通过这种方式,作者确保参与者正确地进行了训练。

    2)材料和工具

    建立AFFIN系统是为了开始培训并使交互适应每个用户和他/她的特征。对于该研究,分析了AFFIN识别器的结果。

    与外部资源相关,IAPS(国际情感图片系统)图像[42]用于诱导参与者的情绪。

    一些用于Sphinx-4识别器的JSGF [43]语法和用于对话系统的一些AIML类别也被创建用于控制实验。

    此外,选择维度理论来表示用户的情绪。为此,使用了SAM测量工具(参见“相关工作和模型”部分),但对其进行了一些修改。

    最相关的是在系统的用户界面中,显示识别器的结果:不是使用不同的图像来显示三个刻度中的每一个的情感,而是将三个维度的值集成到单个中图像,以及系统结果的确切值。例如,如果系统想要表示Valence音阶中的’7’情绪,唤醒音阶中的’5’和Dominance音阶中的’9’,而不是使用三个音阶和每个音阶的分数其中一个刻度,系统显示图10(a)所示的图像。这种变化的目的是能够在单个图像中轻松直接地看到情绪的表现。
    在这里插入图片描述
    图10:将三个SAM比例集成到单个图像中的两个图像的示例。 它们代表的值分别是:(a)(7,5,9)和(b)(1,3,3)。

    3)实验设计

    该实验分为四个阶段。 前三个用于正确执行AFFIN的训练,最后一个用于实时进行情感识别。

    由于实验的主要目的是检查系统是否能够与参与者进行对话,并能够解释他们传递的情绪,在训练阶段,参与者必须指出他们真正想要传递的情绪, 为了检查准确性(虽然这不是实验的主要目的)。 因此,识别器具有用于识别交互中的情绪的基础,并且作者还可以确保存储在本体中用于后续识别的数据是正确的。

    实验的设计是一个主体内设计; 即所有受试者或参与者必须执行四个阶段。 受试者共发送了38个有效的话语。 实验中使用的语言是英语。

    4)实验程序

    实验者在一个房间里单独会见每个参与者。 首先,参与者收到了进行实验的一般和具体说明,他/她必须完成人口统计调查问卷。 之后,他/她开始了会议。 每次会议持续约一个小时。 参与者遵循的过程如下所述,逐步说明:

    a:第一阶段(基本训练)
    参与者必须用界面中指示的情绪发出18个句子。因此,作者获得了对应于不同情绪的语音特征(使用维度表示,例如hvalence = 1;唤醒= 1;支配度= 5i)。

    b:第二阶段(接触)
    系统以简单的问题或问候语开始对话,并且参与者做出响应。根据回应(传递的信息和情感),AFFIN继续提出不同的问题。在这个阶段,受试者可以表达自己的情绪,但如果AFFIN没有正确识别情绪,他们必须纠正这些价值观。在此阶段,参与者必须总共发出5个句子。

    c:第三阶段(不同情绪表达的反应)
    在这个阶段,已经创建了问题,由参与者回答表达特定情绪(基于维度值)。在这种情况下,参与者必须选择三个建议答案中的一个(他/她最能识别的答案)。为了帮助参与者感受和表达这些情绪,为每个句子显示了两个IAPS系统图像,这些图像旨在引起参与者的情绪。每个参与者在第三阶段发出9个句子。

    d:第四阶段(通过实时分类进行的有效识别)
    与第三阶段一样,参与者必须选择三个建议答案中的一个。然而,在这种情况下,他/她必须表达的情感是自由选择的(这更自然)。他/她不必纠正系统识别的情感值,因为这不是训练阶段。然而,他/她必须指出表达的真实情绪,以便稍后与情感识别器的结果进行比较。参与者必须在第四阶段传送6个话语。有了这个,实验就结束了。

    5)实验结果

    为了对实验中获得的结果进行分析,进行了法官间协议的评估。还计算了肯德尔的Tau-b相关系数。为此,分析了从第四阶段的AFFIN识别系统获得的结果与参与者指示的情绪值之间的相关性。

    结果证明,对于大多数参与者而言,相关性是积极的,但并不显着。这可能是由于样本数量较少(N = 6)。为了扩大样本量,Kendall的Tau-be系数已经计算了第四阶段所有参与者的整个数据集(虽然整个数据集同时进行评估,但这种方法评估了各种法官的一致性。相同的数据)。因此,样本大小变为N = 48(对于8个参与者中的每一个,6个交互)。

    在Dominance维度中获得最高系数,Kendall’s Tau-b = 0.368,N = 48,p = 0.02;然后,在Valence维度中,Kendall的Tau-b = 0.329,N = 48,p = 0.04;最后,在Arousal维度中,Kendall的Tau-b = 0.208,N = 48,p = 0.06。

    表1显示了每个参与者的平均误差(范围从0到8,因为SAM比例使用1到9的值)和情绪识别的准确度百分比。所有这些数据都基于第三阶段培训的情感维度和第四阶段的实时分类。
    在这里插入图片描述
    表1:在训练期间和之后情绪识别的误差差异和准确度百分比。Val. = Valence。 Aro. = Arousal。Dom. = Dominance; P1-P8 =参与者身份; %=情感识别的准确度百分比。

    其中一些准确度不是很高,但即使在人类中也几乎不可能达到100%。其中一个原因可能是实验中使用的语言不是参与者的母语。因此,与AFFIN进行的对话并不完全自然,参与者无法表达他们想要表达的情感。此外,在某些情况下,他们可能无意中表示不是真实情绪的情绪,从而错误地训练系统。这方面的证据是评估由三名评估员执行的法官间协议。分析肯德尔的Tau-b相关系数,认为他们很难表达他们想要的三维情绪。

    另一个原因可能是培训没有包含大量数据。大多数识别技术使用大型数据库来对从用户获得的特征进行分类,从而解释由它们表达的情感。在这种情况下,所执行的识别过程是个性化过程,其中参与者训练他/她自己的行为以及向系统表达情绪的方式。因此,可以使系统适应人。但是,在单个会话中,系统无法存储足够数量的数据来准确地解释与参与者保持的对话。

    6)关于实验的讨论

    法官间协议的第一次评估有助于确定哪些参与者正确地执行了培训过程,从而丢弃那些没有高度显着相关性的人(通过测量肯德尔的Tau-b系数,p <0.05)双边预测的水平)。

    K-NN归纳学习算法用于执行训练过程的每个参与者,以便将数据与不同的情绪相关联。如先前在表1中所示,识别系统获得的值与第四阶段的实时分类中参与者给出的值之间存在正相关。此外,这种相关性在Valence和Dominance的情况下是显着的(在水平p <0.05,双侧预测)。 Arousal的相关性不显着,但p值不是很高(p = 0.06)。

    关于在训练阶段获得的值,结果在第四阶段得到改善(参见表1)。作者可以通过向识别器添加更多信息来推断结果得到改善,但维度Dominance除外。虽然这个维度的结果是最优的,但在第四阶段,它们恶化而不是改善。此外,在与三位评估员的法官间协议的第一次评估中,Dominance维度的相关性并不显着。这可能是因为用户通常习惯使用诸如快乐,悲伤,恐惧等类别来表示情绪。由于该验证中使用的理论是维度理论,因此参与者发现更难以表明他们在每个话语中传递的情绪。

    对于未来的测试,作者计划包括专业演员作为实验的参与者,认为他们应该能够更准确地模拟所需的情绪。

    尽管如此,并且考虑到训练基础的数据集的大小不是很大,作者可以说结果非常好并且令人满意。

    5、结论

    在本文中,作者提出了一个本体论(Affinto),它定义了情感状态,以及人与系统之间的相互作用。使用这种本体论,可以评估引起某些情绪的情况以及从中产生的刺激或属性。通过这种方式,可以创建用于自动识别人类情绪的模式,并通过适当的响应来激励用户。

    此外,Affinto对情感交互的描述使得为多个领域(如电子教育,远程医疗等)开发情感计算应用程序的平台成为可能[6]和[8]。反过来,本体已成为情感多模态会话系统(AFFIN)的知识库。

    一些用户参与了该研究以验证该系统。其主要目的是通过AFFIN指导的对话和显示的图像分析参与者引起的情感反应,以诱发情绪。为了分析这些反应,系统从参与者的声音中提取副语言参数,并从他们的消息中提取语言信息。以这种方式,系统执行识别过程并获得对象的情感状态的估计。实验结果表明,识别系统获得的值与参与者指示的值之间存在正相关关系。必须强调的是,本文的主要目标不是提供一个能够在与用户交谈时识别人类情感的精确系统,而是提供一个充当知识库的本体论,并基于此本体论,提供一个平台。作为开发情感计算系统的指南。

    由于使用基于本体的方法,其他智能代理也可以通过将其用作信息库或以语义方式检索信息来访问存储在Affinto本体中的信息。此外,基于Affinto的平台还可以作为其他情感资源和/或应用程序开发的指南。

    而且,本体和平台都是模块化的。在这种情况下,已经开发了文本和语音模式,但也可以包括其他模态。作者目前正在研究生理信号(如GSR,ECG或EMG)的分析[44],以便检测行为模式并根据这些信号识别情绪。创建这些模式后,作者将能够在Affinto中包含这些生理信号的特征,并将它们与其他通信方式相结合。

    致谢

    作者要感谢参与者为验证系统而进行的实验。

    展开全文
  • 今日,城市居民的幸福感知能力,已不同往日。近百年未有之大变局,日新月异的自然、经济、社会发展,内外部频繁冲刷着生存与生活。时代在催问:如何让城市更健康、更安全、更宜居,让城市居民的生活更有品质,成就...
  • 知识图谱的基本知识: 1 数据表示:关键字的三元组value表示; 2 使用图数据表示;框架NEO4j; 知识表示: ...感知层 认知能力 服务能力 智能语音 语音识别 语义理解 智能搜索 聊天机器人 语音合成 ...
  • 今日,城市居民的幸福感知能力,已不同往日。近百年未有之大变局,日新月异的自然、经济、社会发展,内外部频繁冲刷着生存与生活。时代在催问:如何让城市更健康、更安全、更宜居,让城市居民的生活更有品质,成就...
  • 认知智能是计算机科学的一个分支科学,是智能科学发展的高级阶段,它以人类认知体系为基础,以模仿人类核心能力为目标,以信息的理解、存储、应用为研究方向,以感知信息的深度理解和自然语言信息的深度理解为突破口...
  • 认知智能是计算机科学的一个分支科学,是智能科学发展的高级阶段,它以人类认知体系为基础,以模仿人类核心能力为目标,以信息的理解、存储、应用为研究方向,以感知信息的深度理解和自然语言信息的深度理解为突破口...
  • 认知智能是计算机科学的一个分支科学,是智能科学发展的高级阶段,它以人类认知体系为基础,以模仿人类核心能力为目标,以信息的理解、存储、应用为研究方向,以感知信息的深度理解和自然语言信息的深度理解为突破口...
  • 认知智能是计算机科学的一个分支科学,是智能科学发展的高级阶段,它以人类认知体系为基础,以模仿人类核心能力为目标,以信息的理解、存储、应用为研究方向,以感知信息的深度理解和自然语言信息的深度理解为突破口...
  • 认知智能是计算机科学的一个分支科学,是智能科学发展的高级阶段,它以人类认知体系为基础,以模仿人类核心能力为目标,以信息的理解、存储、应用为研究方向,以感知信息的深度理解和自然语言信息的深度理解为突破口...
  • 认知智能是计算机科学的一个分支科学,是智能科学发展的高级阶段,它以人类认知体系为基础,以模仿人类核心能力为目标,以信息的理解、存储、应用为研究方向,以感知信息的深度理解和自然语言信息的深度理解为突破口...
  • 认知智能是计算机科学的一个分支科学,是智能科学发展的高级阶段,它以人类认知体系为基础,以模仿人类核心能力为目标,以信息的理解、存储、应用为研究方向,以感知信息的深度理解和自然语言信息的深度理解为突破口...
  • 译者注:本人所译文章(以及其中本人的所注、所编和所评,用绿色正体示出,仅供参考,阅读时可以略去),首先是出于自身研究工作的需要;同时也兼顾 作为同行们和学友们 的非正式参考。文中诸多错误和谬误,恳望读者...

空空如也

空空如也

1 2
收藏数 30
精华内容 12
关键字:

本体感知能力