登录免费注册

首页  流程图  详情

20170824硕士答辩

2017-09-01 15:50:42   0  举报





硕士答辩用图，描述研究内容和自然语言处理发展

传统文本分类模型

作者其他创作

大纲/内容

目标：提取关键词特点：中文分词，较英文分词较难

topic/话题

文本分词

测试数据问题 + 问题描述;char_emb + word_emb;

问题到topic映射

2000万日活跃用户

特征工程信息提取

训练数据问题 + 问题描述;char_emb + word_emb;

辅助数据1单个字的编码 + 词语的编码

question_train_set.txt: question id + char_emb_id + word_emb_id +des_char_emb_id + des_word_emb_id; 共 2 999 967个问题

辅助数据2问题与topic映射 + topic自描述

特征提取

char_embedding:char_id + 256维向量；共11974条记录

topic_info.txt: 6维 topic_id + pid + char_emb_id + word_emb_id + des_char_emb_id + des_word_emb_id共 2000个topic

问题描述

要研究的内容

目标:将信息转化为知识方法:KNN;Boost;贝叶斯等

答案

生产数据

目标：将文本信息转化为计算机可理解信息方法：One-Hot等缺点：数据稀疏，忽略上下文的联系

文本表示

word_embedding:word_id +256维向量；共411271条记录

用户对话题\\问题\\人的关注

question_topic_train_set.txt：2维 question_id + topic_id

问题

question_eval_set.txt: question id + char_emb_id + word_emb_id + des_char_emb_id + des_word_emb_id; 共 217 360个问题

训练数据

知识

决定知识上限

浅层分类

重要:基于关注的推荐

目标:特征的选择和特征量权重的计算方法:频率；互信息；信息增益等

 收藏

立即使用

20170824硕士答辩

职业：master













评论

0 条评论

下一页

为你推荐

查看更多



大学知识毕业论文答辩话术

职场晋升管理-答辩-个人总结-个人成长

职场晋升管理-答辩-个人总结-个人成长

大学知识毕业论文答辩话术

北京大学应用心理硕士（347）参考书单

北京大学应用心理硕士（347）参考书单

硕士毕业论文框架直接用

答辩流程图

本科及硕士论文技术路线图

陈教授团队