20170824硕士答辩
2017-09-01 15:50:42 0 举报
硕士答辩用图,描述研究内容和自然语言处理发展
作者其他创作
大纲/内容
目标:提取关键词特点:中文分词,较英文分词较难
topic/话题
文本分词
测试数据问题 + 问题描述;char_emb + word_emb;
问题到topic映射
2000万日活跃用户
特征工程信息提取
训练数据问题 + 问题描述;char_emb + word_emb;
辅助数据1单个字的编码 + 词语的编码
question_train_set.txt: question id + char_emb_id + word_emb_id +des_char_emb_id + des_word_emb_id; 共 2 999 967个问题
辅助数据2问题与topic映射 + topic自描述
特征提取
char_embedding:char_id + 256维向量;共11974条记录
topic_info.txt: 6维 topic_id + pid + char_emb_id + word_emb_id + des_char_emb_id + des_word_emb_id共 2000个topic
问题描述
要研究的内容
目标:将信息转化为知识方法:KNN;Boost;贝叶斯等
答案
生产数据
目标:将文本信息转化为计算机可理解信息方法:One-Hot等缺点:数据稀疏,忽略上下文的联系
文本表示
word_embedding:word_id +256维向量;共411271条记录
用户对话题\\问题\\人的关注
question_topic_train_set.txt:2维 question_id + topic_id
问题
question_eval_set.txt: question id + char_emb_id + word_emb_id + des_char_emb_id + des_word_emb_id; 共 217 360个问题
训练数据
知识
决定知识上限
浅层分类
重要:基于关注的推荐
目标:特征的选择和特征量权重的计算方法:频率;互信息;信息增益等
收藏
0 条评论
回复 删除
下一页