彭峰的博客
监控项目 监控项目
监控项目CPU采集项 cpu.idle:一个或多个CPU空闲且系统没有未完成的磁盘I / O请求的时间百分比。 cpu.busy:与cpu.idle相对,他的值等于100个cpu.idle。 cpu.guest:一个或多个CPU运行虚拟处理
2021-05-01
监控系统 监控系统
监控系统监控系统的实现监控系统大体分为两个部分:数据采集端(客户端)和数据存储分析警告展示部分(服务器端)数据采集的工作模式分为主动模式(客户端主动上报数据到服务器端)和被动模式(服务器到客户端收集数据)采集数据的协议分为两种:专用客户端采
2021-05-01
监控项目 监控项目
ZabbixZabbix连接方式Zabbix-Server 和 Zabbix-Proxy可以通过VPN,SSH,Stunnel连接 Zabbix监控配置流程Host Group(主机组) —> Hosts(主机) —-> App
2021-05-01
服务可靠度模型 服务可靠度模型
服务可靠度模型模型 产品设计 软件开发 容量规划 测试+发布 事后总结/问题根源分析 应急事件处理 监控监控系统大型监控系统的难点 大型系统中组件数量特别多,分析工作繁杂繁重 监控系统本身的维护要求必须非常低时序性监控(borgmon
2021-05-01
SRE实践 SRE实践
故障排查手段故障报告–> 定位问题 –> 检查 –> 诊断 –> 测试/修复 –> 治愈常见的问题主要集中在定位、检查和诊断环节上应该避免 关注了错误的系统现象,或者错误地理解了系统现象的含义 不能正确修改系
2021-05-01
SRE 方法论 SRE 方法论
SRE承担的职责:可用性改进,延迟优化,性能优化,效率优化,变更管理,监控,紧急事务处理,容量规划与管理 工作内容:开发监控系统,规划容量,处理紧急事件,确保事故根源被跟踪修复 核心方法论: 确保长期关注研发工作 将运维工作限制在50%以内
2021-05-01
2 / 2