首页  思维导图  详情

TVCG2020_EmotionCues

2021-02-19 19:57:38   23  举报





AI智能生成

论文EmotionCues的阅读思维导图，文章发表在顶会TVCG2020，作者来自港中文的团队

论文

顶会

人工智能

毕业设计

作者其他创作

大纲/内容

摘要

※ 指出分析学生表情有助教师和家长快速掌握学生上课专注程度。
※ 高清相机的普及为记录课堂场景创造了机会。但是通过观察视频了解表情分布和异常表情非常耗时间。
※ 文章提出了EmotionCues视觉分析系统进行表情分析，有3部分：表情概略、个人表情、原视频路
※ 考虑到表情识别算法的一些不精确因素，系统也会展示face size和occlusion，辅助判断准确度。
※ 实验部分：执行了两种use cases，即end uses和domain experts，来说明提出系统的用途和高效性。

关键词

Emotion, Classroom videos, Visual summarization, Visual analytics

介绍

说明表情在教室分析中的意义：研究表明表情可以影响学生学习行为，包括注意力、学习动力、学习策略和自觉性

提问如何才能通过录制的课堂视频，帮助教师和家长快速了解学生的情绪状态

指出直接观看视频非常耗时，而现有的视频分析技术不适用于表情分析，并解释原因，凸显可视化交互分析系统的重要性

回到系统本身，实现可视化分析一节课中所有学生的表情变化并不容易，引出三大挑战，不再赘述

为了解决上述挑战，作者设计了EmotionCues系统，系统包括三种视角：the summary view、character view、video view，
同时，系统也考虑到了表情识别的不准确性，在交互设计时加入了可能的不稳定因素。

论文三大贡献：设计了表情可视化交互系统；加入了模型不稳定性；执行了两个真实案例说明实际效果

相关工作

Emotion Analysis in Learning Scenarios：再次叙述表情分析对掌握学生状态的重要性，细节处有参考文献。在此之前，
有很多方法被用于分析学生学习状态下的表情，文章将其分为两大类：self-report methods和non-self-report methods，
论文选择后者，并借助CV技术分析表情。另外，数据可视化更加有助于这一过程，通过文献举例说明现有可视化系统的短板
和缺陷，为后续引出提出系统的相应功能做准备。

Video Visualization：视频可视化的初衷是帮助快速了解视频内容，这一领域已经发展较为成熟。文章按照是否包含视频
关键帧，将这项技术分为两大类：image-based techniques和abstract techniques，前者是视频关键信息组成的更简短
视频，后者通常依据时间顺序非直接地给出视频的可视化属性，例如音频分析、人物轨迹图等。论文采用了后者，同时加入
了表情识别模型不确定性分析模块，这是文章主打的一大创新。

Temporal Data Visualization：首先引用具体文献，介绍了一些强关联的时序数据可视化方法，接着，从中受启发挑选了
系统将要使用的方法：the aggregation flow和storyline visualization techniques。此系统最终将提供全体学生的表情变化
分析，以及每个学生的表情状态跟踪线。

数据与
设计需求

Data Description：课堂视频数据来自合作方幼儿园，采用1K相机录制，每份时长约10分钟。为了对比，还会选择分析大学
实验室的组会讨论场景

Data Modeling and Processing：上图为视频数据处理流程。人脸检测使用的是MTCNN(SPL2016)，人脸识别使用的是
facenet(CVPR2015)，人脸表情识别使用的是ResNet-50，使用的数据集为FER2013。此外，系统还会考虑表情识别算法的
不准确性，加入了可能的影响因素，包括人脸尺寸、人脸遮挡程度，遮挡程度的深度检测算法来自TIV2017中的一篇文章。

Design Requirements：经过与4位系统用户的沟通，搜集整理他们的反馈，得到了以下5点需求：
1）Obtain the emotion status of all the people in a video. 2）Uncover emotion patterns of an individual in a video.
3）Compare emotion portraits of different people. 4）Reveal model uncertainty with influencing factors.
5）Provide context for video analysis.

SYSTEM OVERVIEW：按照之前的设计规划，一共包括三种视角，summary view；character view；video view

可视化
设计

Design Rationales：EmotionCues系统包括以下三种设计理念：Intuitive encoding and design，
Smooth interactions with prompt feedback，Multi-scale visual exploration.

Summary View：这是EmotionCues系统的前端界面，每个part所展示的含义，通过简单阅读说明，即可了解

Character View：该视角观察每个学生在整堂课中的表情变化，设计方式见上图中的子图C

Video View：该视角播放原课堂视频路，用户可以暂停查看每一帧的检测结果，并对不准确的结果进行纠查

用例

Case One: A kindergarten classroom video
受访对象是幼儿园教师，具体教室产场景如上图中的子图D。据教师使用系统之后反映，EmotionCues上手较为方便，能够在一定
程度上监测学生的听课状态，并帮助及时了解每个学生的情绪变化。反映的缺点是，表情识别算法的准确率很低。

Case Two: Seminar videos
受访对象为大学教授，场景是实验室组会讨论现场，如上图所示。教授觉得系统可以帮助其快速了解组会的讨论情况，有较大实用
价值，缺点是系统不能直接看到学生的专注度指标。

INTERVIEWS AND FEEDBACK：通过采访调查之前提到的4位用户使用感受，验证系统的有效性和可用性，并收集意见和建议。

结论

DISCUSSION AND LIMITATIONS：隐私问题需要注意；深度模型的应用性能问题；表情识别的准确性低；可扩展性；通用性

CONCLUSION AND FUTURE WORK：在重述并肯定了EmotionCues系统的贡献之后，作者觉得可以加入头部姿态估计来辅助
情绪判断，或者换用更好的更准确的表情识别算法。甚至将EmotionCues系统拓展到其他领域，如电影和演讲。