【学术前沿】工作场所设计中使用物联网传感器的人类数据驱动交互评估

深度学习入门笔记

共 4385字,需浏览 9分钟

 ·

2021-01-26 16:34



声明:本文只是针对个人学习记录,侵权可删。本人自觉遵守《中华人民共和国著作权法》和《伯尔尼公约》等法律,其他个人或组织等转载请保留此声明,并自负法律责任。论文版权与著作权等全归原作者所有。







01

文章摘要


准确的面对面的交互评估是工作场所成功的数据驱动设计所必需的。在以往的研究中,已经开发了各种基于传感器的交互估计方法,利用邻近度和说话数据。然而,这些数据本身并不能确认交互的存在,因为没有交互的用户也参与了说话活动。

本研究旨在开发一种新的基于话轮转换模式的交互估计(即TIE)框架,将话轮转换与位置数据相结合。该框架通过三个步骤进行交互评估:1)使用蓝牙低能量信标进行协同定位评估;2)基于音量的说话人识别确定说话轮;3)基于轮话模式分析的交互群体识别。在三种不同的实验场景下,该框架的交互估计精度达到77.7%。在没有协同定位估计误差的情况下,交互估计精度提高到95.5%。实证结果表明,TIE框架具有在工作场所准确评估交互作用的潜力。



02

文章导读


最近,许多组织正在重新定位、重新设计和翻新他们的工作场所,以提高居住者的满意度和降低运营成本。最大化员工之间的互动也是设计新工作场所的重要原因之一,因为随着新工作方式(new Ways of Working, NWoW)的日益普及,通过互动实现知识共享和协作已成为提高生产率和创新的重要因素。在现代的工作场所,员工们使用先进的信息和通信技术,如电子邮件、在线信使和社交网络服务,相互交流。虽然这些交流方式使交互变得简单,但是日常面对面的交互在知识共享和协作中仍然发挥着重要的作用。由于面对面的交互(以下简称交互)需要物理环境,因此工作场所的设计与交互有着密切的关系。

因此,为了最大化互动,许多组织正试图通过采用诸如开放和共享办公室、flex办公室或基于活动的工作(ABW)办公室等概念来创建协作工作场所(以下简称CW)。目前的CWs设计的目的是简单地增加开放和共享的工作站和社交区域,这些区域基于建筑师的主观认识,即这些空间将促进交互,而没有考虑任何关于用户之间交互的客观数据。

由于每个用户的个性和工作类型不同,对交互的空间需求也不同,因此,通过基于客观数据的准确交互评估来了解这些用户特定的需求,对于CWs的成功设计是至关重要的。有各种各样的交互估计方法,包括调查、日记、摄像机和接近传感器。先进的传感器技术是近年来非常流行的一种技术,它可以通过收集客观的数据来准确地估计交互作用。通过捕捉用户图像来评估交互的相机经常被用于交互评估。可是,为了进行评估,需要在工作场所安装摄像头,这就涉及到了隐私问题。此外,由于用户在交互过程中会出现各种各样的姿态和姿态,估计精度有限。

因此,除了摄像机之外,许多先前的研究还使用了传感器,如射频识别(RFID)、蓝牙和红外来测量距离,从而估计用户之间的互动,因为当互动发生时,用户之间的距离通常很近。然而,基于邻近度数据的互动估计是不可靠的,因为它们没有考虑到伴随互动的说话活动。此外,用户可能会在近距离工作,即使是在没有相互交流的情况下从事个人任务。因此,为了准确地进行交互估计,有必要对同一位置用户的邻近数据和说话数据进行分析。

然而,在之前的几项研究中,只分析了基于情绪和参与度的互动情境,而不是对互动本身进行评估。因此,交互估计方法应该能够区分交互和其他说话活动。

因此,本研究试图建立一个基于话轮转换模式的交互评估框架(以下简称TIE框架),通过整合话轮转换数据和位置数据来评估用户的交互空间需求。为此,利用蓝牙低能信标(Bluetooth Low Energy, BLE)通过发送蓝牙信号来定位建筑物内的用户位置,并利用麦克风来确定用户的发言顺序。TIE框架通过三个步骤识别交互群体及其位置:1)共位置估计,2)说话轮确定,3)话轮转换模式分析。本研究以三个实验情境(非言语噪音、言语噪音及无噪音)为例,验证了工作环境噪音对互动预估的影响。最后,基于我们的研究结果,我们提出了一些建议,以加强TIE框架的应用,以评估交互作用,以设计高效的水战。




03

基于话轮转换模式(TIE)的交互估计框架


本研究开发了一个TIE框架(图1),通过检测对话来识别和定位互动群体。该框架通过三个步骤评估交互。首先,利用BLE信标估计用户的位置和接近度(即共同位置)。其次,利用基于音量的说话人识别技术确定同一位置用户的说话回合。第三,使用新开发的联网方法分析转弯模式,该方法可以识别位于同一位置的用户之间的交互组。

  • 协同定位平台

在TIE框架下,使用BLE信标来估计用户的共同位置。BLE信标是室内定位系统(IPS)的一部分,用于定位大楼内的物体。BLE信标不断发送信号,用户通过接收器检测到信号。BLE信标与接收机之间的距离决定了信号强度,用接收信号强度指示器(received signal strength indicator, RSSI)表示。因此,BLE信标可以根据RSSI估计用户位置。

  • 话轮确定

为了确定同一位置用户的说话回合,需要从语音流中识别出不同的说话者。在众多可用于此目的的技术中,基于模型的说话人识别实现得最频繁。它通过提取语音特征,并通过机器学习将每个特征与已知的语音模型的特征进行比较,从语音数据集自动推断出说话者。

基于音量的扬声器识别使用多个录音机(每个用户一台)来检测用户的语音。它在假定专用用户说话时音量最大的情况下分析说话数据的音量。这种技术有两个优点:首先,它可以在不收集任何训练数据的情况下为说话者建模,其次,即使有重叠的话语,它也可以识别其专用用户。基于这些原因,在TIE框架中采用了基于音量的说话人识别技术来确定说话轮次。

  • 话轮转换模式分析

为了在轮话模式分析的基础上识别同一位置用户之间的交互群体,我们提出了一种网络方法,定义了三个指标:说话时间(ST)、非重叠说话时间(NOST)和群体说话时间(GST)。ST为单个用户的说话时间,GST为组内所有用户的总说话时间,NOST为用户之间的非重叠说话时间。






04

系统演示


为了测试其准确性,我们在汉阳大学的一个小办公室里用三个实验场景演示了TIE框架。通过实验,从交互用户中采集了16200 s的语音数据和BLE信标估计位置数据。然后运用TIE框架来估计交互作用。


  • 系统框架建立

我们使用智能手机作为接收器,并使用Estimote公司提供的软件开发工具包(SDK)开发了一个协同定位应用程序。托管应用程序连接到基于web的实时数据库谷歌Firebase,以收集估计的位置数据和智能手机的标识符。考虑到相互作用范围理论和BLE信标的估计性能,我们将估计范围设为4 m。由于BLE信标的蓝牙信号是不稳定的,所以即使用户在估计范围内,也会暂时认为用户不在估计范围内,因此我们使用平滑处理来解决这种临时状态的变化。


为了确定用户的说话次数,我们使用Auditok进行了基于音量的说话者识别。Auditok是一种基于python的语音活动检测工具,当输入音频信号振幅的对数能量高于检测阈值时,可以实时检测语音活动,如图4所示。


为了识别给定的扬声器,需要一个定制的检测门限高到足以仅检测记录器所有者的声音。

由于Auditok将分析窗口中的平均信号对数能量与检测阈值进行比较,因此分析窗口对语音活动检测的影响显著。

在被检测到的说话活动中连续沉默的最长时间与说话后沉默的时间长短有关。如果沉默时间延长,即在话语结束后沉默过多,则会导致FP的增加,如表2所示。为了解决这个问题,考虑到用户话语之间的平均沉默时长,我们将该值设为0.2 s[82],在测试中准确率最高。

Auditok可以通过设置最小值和最大值来设置检测到的会话活动的持续时间。


  • 实验场景

在实验中,如图5所示,每个参与者都被要求佩戴一个针状麦克风来记录录音者的声音和背景噪音的明显差异。戴上麦克风后,参与者围坐在桌子旁,使用编写好的脚本进行2分钟的互动,桌子中央放置了一个BLE信标。



假设不存在共位估计误差,则情景A1和情景A3的交互估计精度为100%。此外,在场景A2中,一个交互组和一个非交互用户与个人说话活动同时位于同一张桌子上,产生了大量重叠的话语,TIE框架显示了86.7%的交互估计精度。因此,我们怀疑连接框架也可以成功地处理多个交互同时发生在近距离内,导致话语重叠的情况。




05

讨论


  • 与以往交互作用估计方法的比较的

为成功设计水战系统,交互估计方法应能够1)准确识别交互群,2)估计交互群的位置。与以往的交互估计方法相比,TIE框架是唯一一种同时满足这两个要求的方法。


  • 在工作场所实际应用的建议

可靠的共同位置估计对于提高相互作用估计的准确性是至关重要的。

空数据是由托管应用程序和数据库之间的连接问题导致的,这就突出了保护连接以减少空数据数量的必要性。

我们使用pin式麦克风尽可能大声地记录使用者的说话,从而能够以足够的准确性确定使用者的说话回合,从而估计交互作用。

除了这些建议,解决隐私问题也很重要。由于用户不希望他们的原始谈话数据包含私人消息被公开,TIE框架可能会引起对隐私的关注。



06

结论


本文提出了一种新的连续波结构设计方法。TIE框架通过将BLE信标获得的共位置数据与说话人话轮转换的模式分析相结合来估计交互作用。通过这种方式,TIE框架可以识别在同一地点的用户之间的交互组,并估计他们的办公桌位置。具体来说,TIE框架分为三个步骤来估计交互:1)共位置估计,2)说话轮的确定,3)轮流模式分析。在协同定位估计中,使用了BLE信标,因为它可以同时估计用户之间的距离和他们的位置。为了确定说话人的说话轮次,采用了基于音量的说话人识别技术,即使有重叠的话语也能识别说话人。对于交互群体识别,我们提出了一种基于轮话模式分析的网络识别方法。

由于现有的设计方法是基于主观的设计知识,而没有考虑到用户交互的客观数据,在很多情况下,传统的设计方法并不能促进交互。为了解决这一限制,TIE框架通过先进的信息技术,提供了关于组织中交互的客观和定量数据,例如交互的数量、交互组的大小和用户进行交互的位置。这些数据可以作为同一组织后续CW设计的参考,也可以通过多个项目案例的积累,为类似规模和类型的组织制定客观的CW设计指南。在未来,TIE框架,通过系统化,可以通过自动化交互估计(通常伴随着相当大的人为努力和错误)来促进CW设计过程的自动化。





 END

深度学习入门笔记

微信号:sdxx_rmbj

日常更新学习笔记、论文简述

浏览 16
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报