SlideShare a Scribd company logo
系统监控与日志分析 邓毅 youdao.com 2009.4
目录 网易有道简介 在线服务监控 离线日志分析
关于有道 有道的发起者是一群执着于搜索技术的年轻人,我们发现中文网络中的搜索还远未达到理想,所以希望通过我们现在和将来的努力,把设想中的服务一点点变成现实,分享给大家使用,让你 更快一秒 找到想要的好东西。
有道产品 搜索类
有道产品 翻译类 其他产品
在线监控与离线分析
设计原则 不影响正常服务 水表不能把水堵了 通用性 如果不够通用…
 
目录 有道产品简介 在线服务监控 离线日志分析
在线服务监控 访问控制系统 性能监控系统 异常报警系统
访问控制系统 主要目的:防止非用户抓取 冲击系统服务 影响访问统计 非法使用数据 挑战 灵活的控制规则 减小对产品服务的影响
访问控制规则 过���规则 Key: Header 字段, parameter Key:  正则表达式 例子: Ip=12345.*, agent=“firefox.*” 频度控制 统计时间( span ) 次数的阈值( threshold ) 例子: span:3600000 threshold:1000
访问控制系统 总体结构 旁路统计 规则封禁 访问控制服务器 维护规则库 按规则进行统计 为产品生成封禁列表 产品服务端 转发请求 同步封禁列表 实施访问控制
访问控制系统
性能监控系统 功能:实时统计服务中的性能参数 如处理时间、吞吐率等 特点 通用性 集中的数据分析与存储 直观的展现方式
性能监控的需求 通用性 各种产品不同的需求 自定的统计量 不同的编程语言 性能要求 减小对产品服务的影响 大数据量的分析与存储
监控系统的设计 松耦合 通过日志文件交换数据 文本格式 自定义统计量 < 产品名 ,  变量名 ,  取值 > 的三元组 大数据量 多分辨率压缩存储
监控系统结构图
 
 
异常报警系统 功能 自动筛查日志中的 Exception 发现问题自动发信报警 优点 通用性强 使用简单
目录 有道产品简介 在线服务监控 离线日志分析
离线日志统计 主要的目的 用户使用习惯 用户对产品的好感度 系统运行状态 市场推广情况
日志收集 集中的日志服务器 产品的服务器是分布式的,需要统一分析 所有产品公用,降低运营复杂度 大数据量存储 服务器建立本地缓存 最终保存在分布式文件系统中 压缩存储 防止日志丢失 支持备份服务器 分布式文件系统保证可靠性
日志收集系统
日志分析 主要的挑战 超大数据量 运算时间的要求 组合统计 解决方法 分布式计算
分布式分析程序
常规统计 访问量 时间 地域 用户 新用户:推广与传播的效果 老用户:真正使用这个产品 功能切换 页面切换 产品切换
一些有意思的统计规律 周末与非周末 什么时候流量更大?
周末与非周末 工具(网页搜索、海量词典) vs  娱乐(视频搜索、音乐搜索) 平时需要工具,周末需要娱乐
一些有意思的统计规律 不同的时段访问有区别吗? 搜索和吃饭的关系?
工具  vs  娱乐 白天需要工具,晚上需要放松
公网  vs  教育网 白领和中小学生要早睡,大学生都是夜猫子
更多的分析 《有道阅读的 12 个有趣的发现》 订阅博客范围,新老各有地盘 职业和阅读习惯 阅读真的变成快餐了 明星博客,各领风骚三两天  大部分人订阅不过 10 个,阅读不超 20 分钟 阅读还是很个人 …
总结 在线服务监控 保证服务正常运行 离线日志分析 了解用户,改进产品
谢谢! youdao.com 2009.4.

More Related Content

有道系统监控与日志分析