搜索系统
2018-09-19 08:36:48 16 举报
AI智能生成
信息架构: 搜索系统
作者其他创作
大纲/内容
本章包含内容
确定你的产品是否需要搜索系统
搜索系统详解
什么是可搜索的
对检索算法的基本认识
如何呈现检索结果
搜索界面设计
到哪里进行深入学习
你的产品需要搜索系统么
在提交搜索系统前先考虑下面的问题
信息环境的内容数量
重要的是信息需求类型
关注更有用的导航系统
搜索系统不是浏览系统的创可贴
优化导航系统有利用搜索系统的运行
优化搜索系统的时间和技术
启动容易, 有效难
不要使用搜索引擎的默认安装设置
其他替代方案
索引可以是搜索引擎的替代方案
使用第三方搜索引擎
用户首选的交互方式
用户是来搜索的还是来浏览的
网站何时会需要搜索系统
当你有太多信息要浏览时
书店与雅虎的例子
搜索可以帮助片段化网站
搜索是一种学习工具
分析搜索日志可以看出用户的信息需求来
搜索应该在那里, 因为用户希望它在那里
用户不想浏览网站的结构, 他们想直达目的地
搜索可以驯服动态性
如果包含高动态的内容, 应该创建搜索
搜索引擎详解
搜索
输入并提交你的查询
搜索引擎对信息环境进行检索
检索方式取决于配置
通过算法将查询字符串处理成软件理解的内容
对结果排序
界面
查询界面
结果界面
查询改进
查询语言
查询生成器
改良查询字符串
无法被看到的搜索
不知道如何表述要查询的内容
迭代搜索
高级搜索
信息架构师关心的是影响信息检索效果的因素
选择要索引什么
概要
对所有内容建立索引不见得能为用户提供良好的服务
建立搜索区域认用户能够集中他们的搜索
利用文档结构中的内容
分析盘点并展示好的内容
确定搜索区域
搜索区域就是信息环境的子集, 其索引和其余内容是分开时行的
当搜索区域符合用户的信息需求, 会产生好的搜索体验
可以使用多种方工创建搜索区域
内容类型
用户
角色
主旨/主题
地理位置
年表
作者
部门/业务部门
以有用的方式切割大量的内容, 从而给用户提供风站的多个 "视角" 和内容
导航 vs 目标
两种网页: 导航网页和目标网页
很难在导航网页和目标网页之间划出一条线来
为特定用户建立索引
首先, 要对特定用户进行分类和定义
为每类用户建立各建立一个索引, 同时建立一个统一的索引
索引间重叠的减少会提高性能
按主题索引
索引最近的内容
以年表方式组织内容可能是最容易实现的的搜索区域
选择要建立索引的内容组件
可以让用户检索出更准确的结果
内容组件还可以让搜索变得更有意义
一个矛盾
即使用户可以从这些改进的搜索功能中受益, 但他们可能不会在早期的用户研究中自行要求它
搜索算法
概要
我们提这个话题是因为认识到搜索算法本质上只是一种工具的观念很重要
帮助我们解决特定的问题
搜索引擎不是万能的
模式匹配算法
查全率和查准率
概念
查全率
被检索的相关文档数量/系统中相关文档的总数
覆盖程度
查准率
被检索的相关文档的数量/被检索的文档总数
准确程度
不可兼得
两者只逆相关的
我们只能选择偏向那一方
例如
提取词干可以通过提扩展一个术语提高查全率, 但会降低查准率
考虑内容结构可以提高查准率但人降低查全率
其它方法
当你手上有好的文档的时候, 算法以将该文档转换为等价查询
文档相似度
抽取停用词
使用元数据建立索引
协同过滤和引文搜索
对文档进行扩展搜索
引用情况
活跃的参考文献
来自共同引用的相关文档
这里是要找出一个好的文档集合
查询生成器
拼写检查工具
语音工具
词干提取工具
受控词表和叙词表
显示结果
主要考虑两个问题
要显示哪此内容组件
如何列出或分组这些结果
要显示哪些内容组件
给那些知道他们正在查找什么的用户显示更少的信息, 给那些不确定自己在查长什以的用户显示更多信息
变通的做法, 给知道自己要找什么的用户显示具有代表性的内容组件
可以显示更多的信息让用户来区分显示字段
记住用户不会看第一页后面的结果
不要给每个结果提供太多的内容组件
显示什么取决于组件的可用性和内容的使用方式
如果不太强调结构, 或者搜索的是全文, 显示上下文且加粗检索词
要显示多少文档
取决于两个因素
显示信息多, 结果集就小
简单化, 多设置
让用户知道检索文档总数, 考虑提供导航系统
通过重查找缩小结果集
列出结果
概要
列出结果的方法有两种
排序
客观要素
排名
主观要素
当用户正在寻求做出决策或行动时, 排序尤其有用
应提供有意义的排序内容组件
需要理解信息或学习事物时排名更重要
显示相关性
按字母排序
按年表排序
排相关性排名
影响要素
检索文档中有多少查询词
这些词在文档中出现的频率有多高
这些词出现的位置有多近
这些词出现的位置 (文档结构中的位置)
查询词出现在其中的文档的受欢迎程度
不同的相关性排名方法对不同类型的内容有意义, 文档异质性越高, 就越要谨慎使用相关性排名
可以能过人工建立索引的方式建立相关性
投入专业知识和时间建立 "最佳匹配"
按受欢迎和度排名
谷歌的排名方法
小型网站或者彼此没有链接的独立网站集合, 以及大型的拥有多个用户的多网站环境都不需要用受欢迎度进行排名
按用户或者专家评价进行排名
按位置付费排名
将结果分组
当结果集过大时, 等于将理想结果活埋
按照某个共同面把检索结果聚集起来
分组为结果提供了情景
通过目录到一个相当小的结果集
对结果采取行动
号召行动
一些搜索结果可以直接采取行动
选择结果的子集
购物车
保存搜索
设计搜索界面
概要
影响搜索界面的变量
搜索专业的知识和动机
信息需求的类型
被搜索的信息类型
被搜索的信息数量
全面的搜索经验和专业知识降低的情况
考虑你的用户有没有专业的需求
搜索框
一个简单的搜索框
外框
输入框
提示词
搜索按钮
把用户当基础用户而非专业用户
找机会教育那些已经准备好要学习的用户
加入筛选
让搜索框和其它输入框有明显的区别
自动完成和自动建议
自动完成和自动建议的结果来自于
搜索索引
受控词表
手工配置的匹配列表
要据系统结构给出提示
高级搜索
通常是给专业人士使用的
所以并不常见
支持修改
在结果中重复搜索
说明结果来自何处
说明用户做了什么
让用户知道刚才发生了什么
重述查询
描述搜索了什么内容
描述所有合适的过滤器
显示隐式布尔或其它支算符
显示其他当前设置, 如排序方式
提及检索到的结果数
整合搜索与浏览
当用户被卡住时
提供指导建议
提供缩小结果集的方案
最后的手段
修改搜索方式
提供搜索技巧和其他建议
使用浏览方式
和人联系
本章回顾
搜索是查找信息的重要机制, 然而, 这并不代表你的信息环境需要搜索系统
虽然搜索看起来很简单, 但在后台会发生很多事
选择在你的信息环境中建立哪些索引是配置搜索系统时的重要部骤
有多种不同类型的搜索算法
还存在很多给用户显示结果的不同方式
所有这些因素 (搜索什么, 检索什么, 以及如何显示结果) 都要在搜索界面中整合起来
信息架构
我个人的公众号
张启震
张启震
0 条评论
下一页