产品大神《搜索的境界》
2023-09-06 08:30:05 0 举报
AI智能生成
俞军《搜索的境界》
作者其他创作
大纲/内容
搜索专家
熟悉某一领域内每一种资源,知道它们能做什么,不能做什么
独特的浏览器和收藏夹使用
丰富的搜索实践,能解决搜索过程中的常见挫折
检索串的三种成分:主题词、辅助词、外部特征限制
主题词:表达某种明确概念的词
主题词可以表达任何主题,表达某种概念但不限于名词。如行业、理论、地区、人物、时间、产品、企业、网站、事件、行为……
一个主题词通常有很多等同的表达方式。如缩写和全称、学名和俗名、简繁体、不同语言说法、不同地区说法(美语英语,港台大陆)、不同时代说法(古今、代差)、别称、全角半角、大写小写、错别字、网络通假字、敏感词通假……
辅助词:除主题词以外,跟主题相关的网页中可能存在的任何文字
辅助词通常是没有单独意义、随主题各异的动词、数词、量词、代词、形容词…如下载、试听、万、年、元、免费……
外部特征限制
对词的外部特征限制。如位置(标题、url),关系(near:),变化(通配符)……
对网页的外部特征限制。如site:,url层数,网页大小,域名,语言,时间,文件格式……
说明:主题词可以单独成为检索串、1个检索串中至少有1个主题词、1个检索串中可以有多个主题词
主题词的四种变化:等同词、上位词、下位词、同类词
等同词:某种明确概念不同的表达词,如”飘”、”乱世佳人”、”Gone with the wind”
上位词:指概念上外延更广的主题词,如”植物”是”花”的上位词,”王菲”的上位词可以是”歌星”、”女人”、”妈咪”、”女儿”、”香港”、”狮子座”
下位词:指概念上内涵更窄的主题词,如”鲜花速递”的下位词包括”上海鲜花速递” 、”深圳鲜花速递”、 ”网上鲜花速递”
同类词:指与主题词具有某种相同属性的词,与主题词有同一个上位词的,都是同类词,如 “yahoo sina sohu”是作为“中文门户”属性的同类词
能熟练鉴别信息质量
职业搜索者
系统的比较过各种搜索工具和信息源
在检索过程中观察、分析、学习自动成为一种习惯
知道信息从哪里来,往哪里去
对信息搜索的感觉和偏爱
如何提高查全率 ?
1. 优先使用最简单常用的主题词;
2. 逐渐减少不重要的检索词;
3. 加用多个等同词,用“或”(OR、|)语法;
4. 换用上位词;
5. 增加检索途径;
如何提高查准率?
1. 换用专指性更强的主题词;
2. 逐渐加用主题词;
3. 加用辅助词;
4. 利用词和网页的外部特征限制输出结果;
5. 观察不相关检索结果的特征,使用“减”(-)语法排除;
6. 使用下位词
不知道自己要搜什么?
1. 如果你不能描述它,至少在脑中形容它;
2. 把你的描述或形容文字化,写出来;
3. 从这些文字中捕捉概念,那就是你的主题词;
4. 用这(或这些)主题词试搜索;
5. 以这主题词为起点,考虑它的等同词、上位词、下位词、同类词;
6. 考虑辅助词和外部特征限制;
我的7条搜索准则(My Rules of Information -2002.1 -Marylaine Block)
准则一: 去信息应该在的地方
不同信息源的风格是互相不可代替的
了解每一种信息源风格的长处和短处
知道谁最可能制造不同类别的信息
有时最好的信息源正是普通的人
准则二: 你得到什么答案,取决于你怎么提问
在宽泛和狭窄的概念之间滑动调节
组合不同的关键词、不同的搜索方法、不同的搜索资源
总是想着还能找到其它什么内容
准则三: 答案必须迎合需求
不是为需求发现一个答案,而是为需求发现一个最佳答案
准则四:搜索是一个多步骤的过程
准则五: 信息本身是无意义的,只有人提问之后才有价值
你必须从一个问题开始,或者一个主题,最好有一个明确的陈述不仅让你明白什么信息是你需要的,而且让你明白什么信息对你是无用的
准则六: 向你的答案提问 ―― 信息可能是真的,但仍然是错的
所有我们的知识都是不完整的、临时的,会随着新的证据和理论的出现而变化
准则七: 问图书馆员
最好的专家资源之一是你家附近的图书馆管理员,他们受过专业训练,友好、专业,是博学的通才
搜索入门
知道有网站目录和网页搜索引擎之分
搜索引擎属于自动网站检索,一般不用考虑网站的分类问题
目录索引则完全依赖手工操作,用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站
了解关键词选择原理,会用二个以上关键词搜索
想去掉一些不想看到的搜索结果:『关键字』+『空格』+『减号』+『关键字/site:网址』@可用-baijiahao屏蔽搜索结果中的百家号内容
关键词的前面使用加号,实现多关键词查询:例如输入“+电脑+电话+传真”就表示要查找的内容必须要同时包含“电脑、电话、传真”这三个关键词
并行搜索逻辑,对于有同义词的关键词可省去多次搜索:例如输入“平板|pad”
知道目标网址搜索该网址下的所有内容:『关键字』+『空格』+『site:网址』
搜特定的文件格式:『关键字』+『空格』+『filetype:doc/pdf/ps/dwf/kml/kmz/xls/ppt/rtf/swf/all』
完全匹配搜索:『“』+『关键字』+『”』
在特定url链接中搜索,可以更准确地找到竞争对手:『关键字』+『空格』+『inurl:关键词』
在特定的网页标题中搜索,使用intitle 指令找到的文件是更准确的竞争页面:『关键字』+『空格』+『inurl:关键词』
空格能让搜索更加精准,与只使用单个查询词进行搜索相比,使用多个查询词搜索,不同词语之间用一个空格隔开,可以找到更精确的结果
搜索高手
了解搜索引擎原理,熟练掌握搜索关键词设计技巧
搜索引擎=搜集器+索引器+检索器+用户接口
搜集器:在互联网中漫游,发现和搜集信息
从一个起始URL集合开始,顺着这些URL中的超链(Hyperlink),以宽度优先、深度优先或启发式方式循环地在互联网中发现信息
将Web空间按照域名、IP地址或国家域名划分,每个搜集器负责一个子空间的穷尽搜索
索引器:理解搜集器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表
客观索引项:与文档的语意内容无关,如作者名、URL、更新时间、编码、长度、链接流行度(Link Popularity)等
内容索引项:反映文档内容,如关键词及其权重、短语、单字等
内容索引项分为单索引项和多索引项(或称短语索引项)两种。
单索引项对于英文来讲是英语单词,比较容易提取,因为单词之间有天然的分隔符(空格);对于中文等连续书写的语言,必须进行词语的切分
检索器:根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制
用户接口:输入用户查询、显示查询结果、提供用户相关性反馈机制
简单接口:只提供用户输入查询串的文本框
复杂接口:可让用户对查询进行限制,如逻辑运算(与、或、非)、相近关系(相邻)、域名范围(edu.com)、出现位置(如标题、内容)、信息时间、长度等
了解几个常用搜索引擎优缺点,知道它们能做什么,不能做什么
全文索引
目录索引
元搜索引擎
垂直搜索
门户搜索
搜索之前先思考的习惯,能根据搜索需求选择搜索方法
信息型:用户查询为了解某类信息
事务型:用户查询为了完成某件事,比如网上购物
导航型:为了寻找某个特定网站
访问型:为了访问某人或某地,移动端居多,比如发现附近的咖啡馆
0 条评论
下一页