微博在大规模、高负载系统中的典型问题
2015-08-20 17:03:40 4 举报
AI智能生成
中心主题是文本、讨论或研究的核心焦点,它贯穿始终并指导着整个内容的发展。无论是在写作中还是在对话中,明确的主题都有助于保持信息的一致性和相关性,使读者或听众更容易理解和记住主要信息。例如,如果中心主题是“环保”,那么所有的论点、证据和结论都应该围绕这个主题展开,强调其重要性,提出解决方案,或者探讨可能的影响。通过明确和坚持中心主题,作者或演讲者可以有效地传达他们的观点,同时也帮助读者或听众更好地理解和参与讨论。
作者其他创作
大纲/内容
微博在大规模、高负载系统中的典型问题
监控
系统状态展示 graphite
请求调用链路展示 分析节点异常(平均值、历史数据)
日志
信息完整
业务日志:包含关键路径与异常
性能日志:性能统计与分步耗时
容器日志、系统日志(gc.log /var/log)
分维度过滤
时间:出问题的时间点
级别:WARN/ERROR
集中检索
ELK记录关键信息(如链路信息和异常信息)
查看现场
快照分析
功能:观察程序当前状态
场景:程序当前处于整体异常状态
调用分析
功能:观察调用和调用栈
场景:请求出错、请求慢、偶发错误
聚合分析
功能:按某些维度采样、聚合和对比数据
场景:查找性能问题
问题观察、复现、分析、解决
tcp copy引流线上实际流量
使用perf查看系统调用
jstack查看java线程
strace查看系统调用处理时间
结果 内核低版本close问题
预防问题
高可用架构设计
服务隔离
按部署隔离
分机房部署
核心服务独立部署
服务独立化部署
按调用隔离
异步队列
快速失败
缩短超时时间
当某资源出现大量不可用时,进行自动降级
可靠的系统实现
耦合方式:同步/异步/丢弃(异步的堆积和崩溃问题)
异常处理的异常处理:不要让事情变得更糟
压测与演练
真实流量压测
模拟实际请求模型:TCPCopy
模拟后端资源异常:TouchStone(tc)
0 条评论
回复 删除
下一页