logits蒸馏
2024-03-27 20:04:14 1 举报
知识蒸馏
作者其他创作
大纲/内容
soft lables
Loss2
Student model
Layer 2
hard prediction
Layer 1
soft predictions
......
Loss1
Softmax(T=1)
Softmax(T=t)
hard lable y
Teacher model
distillation loss
student loss
input x
Layer m
0 条评论
下一页