tmt_nlp(短句分析_目标九五+)
2016-04-29 12:10:45 4 举报
tmt_nlp
作者其他创作
大纲/内容
暂无
[百度,百度无人车] 发布[腾讯,滴滴] 投资
95+的实体识别(基于word embedding)√
问题:没有能完全识别出机构/产品的NER1.目标:实体类型(机构名,人名,产品名)的机构名,产品名2.机构名识别:扫描每一个词
1.百度发布了百度无人车2.百度无人车由百度发布3.百度的百度无人车正在招募人才4.2014年初,腾讯投资滴滴5000万
1.360创始人周鸿祎2.周鸿祎作为360的创始人3.2014年初,马化腾投资滴滴5000万
前提1:每一类有种子关系句子结构模板(具有bootstrap性能)
95+的实体识别(基于规则)
产品名识别:
判断是否存在真实实体关系
1.识别出实体和关键词2.种子模板替换机制3.构造四元组特征向量VReference:《基于正反例训练的SVM命名实体关系抽取》4.优化特征向量结构(动词核心)5.机器学习(sklearn等)
创投圈实体识别极其重要!!!
实体关系分类
1.根据实体类型分类(正则)
[任正非,华为] 总裁[李一男,百度] 加入
模板匹配
1.种子模板完全替换短句2.确定短句向量3.确定分类后与该类的有限个模板匹配4.选取匹配程度最高的模板获取ER
句法分析引擎:fudannlp
需要考虑好产品名识别!!!(全自动化几乎不可能,只能人工辅助!)
前提1:提供种子模板前提2:九五+的实体识别待测试:该过滤掉哪些词
1.华为总裁任正非2.2013年,包凡出任华兴资本CEO3.李一男离开华为加入百度
[周鸿祎,360] 创始人[马化腾,滴滴] 投资
0 条评论
下一页
为你推荐
查看更多