UbiComp2019_EduSense
2021-04-30 17:48:37 0 举报
AI智能生成
智慧课堂分析顶会论文
作者其他创作
大纲/内容
EduSenseUbiComp2019 CMU
Abstract
1) High-quality opportunities for professional development of university teachers need classroom data.span style=\"font-size: inherit;\
Key Words
Introduction
> 增加学生在课程中的投入度和参与度(engagement and participation)被证明可以有效提升学习产出;> 与K-12的教师相比,大学教师一般仅仅是领域专家(domain experts),而不擅长如何教学生
> EduSense是首个将之前所有众多单个教学场景特征融合在一起的系统> EduSense力求做到两件事:1)为教学者提供教育学相关的教室上课场景数据供其练习成长,2)成为一个可拓展的开放平台
Related Systems
> There is an extensive learning science literature on methods to improve instruction through training and feedback. > [15] [26] [27] [32] [37] [38] [77] [78] PS:好像全是CMU的文章
2.1 Instrumented Classrooms (仪器教室)> 使用一些传感器(如pressure sensors [2][58])收集课堂中学生的数据,或者使用仪器测量教室的物理结构。span style=\"font-size: inherit;\
EduSense System
Four key layers: Classrooms layer、Processing layer、Datastore layer、Apps layer
3.7 Automated Scheduling & Classroom Processing Instances> scheduler:SOS JobScheduler (技术路线不同,我们使用的是python平台下的开源调度器apscheduler)> FFMPEG instances:record the front and back camera streams (技术路线不同,我们使用的是opencv)
3.8 High Temporal Resolution InfillingEduSense包括两种数据处理模式:real-time mode(0.5FPS);infilling mode(15FPS的视频)> real-time模式,顾名思义需要在课程进行时同时出现各种分析指标,目前的效率是两秒钟一帧> infilling模式,是在课程同时进行或课后进行的非实时分析,提供了高时序分辨率(high temporal resolution),是实时处理系统的补充。另外,这种更精确的分析还可以用于后续的end-of-day reports或semester-long analytics
3.9 Privacy Preservation> 已经采取的措施:EduSense不专门存储课堂视频;如果需要infilling模式,会在临时缓存中暂存,并在分析完成后删除这些视频;控制用户分权限分角色访问教室数据,防止数据泄露;追踪学生个体,但是并没有使用私密信息,且每节课tacking分配的ID互相之间没有关联;暂存的用于后续发展的视频(包括测试、验证和标注后扩充数据集),将在使用后被及时删除> 未来将要采取的措施:仅仅只展示高阶抽象的课堂指标数据(class aggregates);
3.11 Open Source and Community Involvementhope that others will deploy the systemserve as a comprehensive springboardcultivate a community
Controlled Study
4.1 Overall Procedure> five exemplary classrooms> 5 instructors and 25 student participants> 参与者按照事先提供的“指令表格”,依次按照相应的要求做出动作,同时debug系统会同时记录下这些动作的时刻、类型、以及图像数据
Fig. 10. Histogram showing the percent of different body keypoints found in three of our experimental contexts.4.2 Body Keypointing> Openpose被用来做姿态估计,但其在教室场景下的效果并不鲁棒,因此作者调整了算法的一些参数,外加一些pose的逻辑判断,提升了算法的稳定性和准确度(和我改进openpose的思路差不多?)> 关于改进后openpose的效果,作者也没给出较严谨的测试结果,只是在少量数据集统计了关键点的效果(这种方式有道理吗?)> 如上图,作者又统计了9种人体关键点的检测准确度,显然上半身比下半身的准确率要高(但这些准确率是在多少数据下统计的不可知)
4.5 Phase C: Sit vs. Stand> 这里作者主要是区分站立和坐下两种姿势。> 同样按照前面的安排,学生参与者被要求在整个测试过程中,随机执行三次两种姿势,每个参与者共计6个实例;教师总是保持站立,本轮不参与> 站立和坐下的分类准确率约为84.4%(尽管作者还是没提是在多大的数据集上测试的结果,但从这一章节提供的错误率推断出,总样例数量约为143)> 由于只是依赖2D关键点检测的结果来分类,作者提到这种方法受到相机视角的影响很大。(那是当然,还是没有我们直接检测站立准确,且鲁棒性高)> 作者最后又提到,将来可以使用深度数据,改善这种情况。(我只能说深度相机也不见得有用,况且深度数据并不好采集和用来训练)
4.7 Phase E: Speech Procedure> 这里只是识别是否有说话,包括教师和学生> 实验方案是要求30个参与者分别说一次话,这样说说话语音段可以提取出30个5秒钟长的clips,非说话语音段同样可以提出30个段,再对这些语音段做分类。最终,no speech的识别100%正确,speech的识别仅有一个错误,准确率98.3%> 我只能评价说,这样的语音指标和处理流程太过简单,且测试数据量太少,很缺乏说服力
4.8 Face Landmarks Results> 人脸关键点检测直接使用了公共算法,如文献[4][13][44]。猜测大概率使用的是文献[13](CMU的Openpose)> 同样是在实验环境下,这一段展示了缺乏说服力的所谓关键点检测准确率> poor registration of landmarks was due to limited resolution (还是提到了低分辨率的问题)
4.9 Classroom Position & Sensing Accuracy vs. Distance> We manually recorded the distance of all participants from the camera using a surveyors’ rope> Computer-vision-driven modules are sensitive to image resolution and vary in accuracy as a function of distance from the camera.> 这里有个疑问:教师和学生的检测不会重复吗?换句话说双方不会出现在彼此的镜头里面吗?如果出现了,文中并没有考虑如何区分两者。
Real-world Classrooms Study
5.1 Deployment and Procedure> We deployed EduSense in 13 classrooms at our institution and recruited 22 courses for an \"in-the-wild\
5.3 Face Landmarking Results> 仍旧是在部分数据集上分别统计了学生和老师的人脸检测准确率,以及相应的人脸关键点定位准确率 (缺乏在大规模标注的数据集上的测试结果)> 作者提到尽管真实场景更复杂,人脸检测算法的结果还是相当鲁棒的(这是公共算法的功劳,这里提及的意义何在?)
5.4 Hand Raise Detection & Upper Body Pose Classification> Hand raises in our real-world dataset were exceedingly rare (font color=\"#f15a23\
5.5 Mouth Smile and Open Detection> Only 17.1% of student body instances had the requisite mouth landmarks present for EduSense’s smile detector to execute. (有效数据更少了) --(Student)smile vs. no smile classification accuracy was 77.1%> Only 21.0% of instructor body instances having the required facial landmarks. (font color=\"#f15a23\
5.7 Speech/Silence & Student/Instructor Detection> 关于Speech/Silence分类,作者分别选择了\"50段5秒长的有声\"和\"50段5秒长的无声\",用来测试准确率,最终结果是82%> 关于Student/Instructor Detection,作者的方法是选择”25段10秒长的教师声“和”25段10秒长的学生音“,结果只有60%的准确率能分别说话者(意料之中,接近50%的随机猜测概率)> 作者认为,现阶段的说话人识别受到教室的结构和麦克风采集位置的影响很大,而仅有两个语音采集设备也是不够的。想解决该问题只能引入更复杂的方法:说话人识别 speaker identification
5.8 Framerate & Latency> 详细的耗时分析参见Figure 15> We achieve a mean student view processing framerate of between 0.3 and 2.0 FPS. (现阶段线下视频的处理速度有这么快吗?)教师路2-3 times faster> 根据耗时分析,实时系统的处理延时为3~5秒,其中各个部分耗时长短依次是:IP cameras > backend proccessing > storing results > transmission (wired network)> 作者认为,未来更高端的 IP cameras将会减少时延,促进实时系统的大规模应用(5G + 高端嵌入式摄像头处理芯片?)
End-user Applications
Fig. 16. Preliminary classroom data visualization app.
span style=\"font-size: inherit;\
Discussion
Conclusion
0 条评论
下一页