彭峰的博客
运维的价值 运维的价值
运维的价值核心价值 保证业务高质量不间断的对外服务 既要服务的好,又要运营成本最低 又稳又快又安全地让业务进行自我更新 阶段价值 业务起步阶段:整个团队要的是快速迭代功能,快速发布.此时运维的重点在于快速.帮助团队搭建更好更敏捷的研发,测
2021-05-04
日志 日志
日志日志的重要性 运维:发现问题可以用来查原因 恶意攻击,恶意注册,刷单,恶意密码猜测日志的挑战 关注点多,任何一个点都有可能引起问题 日志分散再多个机器,出现问题,才发现日志被删 很多运维人员是消防员,哪里有问题就去哪里 日志管理 日志
2021-05-03
SRE 指导思想 SRE 指导思想
指导思想拥抱风险管理风险管理服务的可靠性很大程度上是通过管理风险来进行的。需要将运维风险和业务风险结合。提高一项服务的可靠性,但不会超过该服务的可靠性高昂的成本在于以下两个维度 冗余物理服务器/计算资源的成本投入冗余设备,能够进行更多的维
2021-05-01
监控项目 监控项目
监控项目CPU采集项 cpu.idle:一个或多个CPU空闲且系统没有未完成的磁盘I / O请求的时间百分比。 cpu.busy:与cpu.idle相对,他的值等于100个cpu.idle。 cpu.guest:一个或多个CPU运行虚拟处理
2021-05-01
监控系统 监控系统
监控系统监控系统的实现监控系统大体分为两个部分:数据采集端(客户端)和数据存储分析警告展示部分(服务器端)数据采集的工作模式分为主动模式(客户端主动上报数据到服务器端)和被动模式(服务器到客户端收集数据)采集数据的协议分为两种:专用客户端采
2021-05-01
监控项目 监控项目
ZabbixZabbix连接方式Zabbix-Server 和 Zabbix-Proxy可以通过VPN,SSH,Stunnel连接 Zabbix监控配置流程Host Group(主机组) —> Hosts(主机) —-> App
2021-05-01
服务可靠度模型 服务可靠度模型
服务可靠度模型模型 产品设计 软件开发 容量规划 测试+发布 事后总结/问题根源分析 应急事件处理 监控监控系统大型监控系统的难点 大型系统中组件数量特别多,分析工作繁杂繁重 监控系统本身的维护要求必须非常低时序性监控(borgmon
2021-05-01
SRE实践 SRE实践
故障排查手段故障报告–> 定位问题 –> 检查 –> 诊断 –> 测试/修复 –> 治愈常见的问题主要集中在定位、检查和诊断环节上应该避免 关注了错误的系统现象,或者错误地理解了系统现象的含义 不能正确修改系
2021-05-01
SRE 方法论 SRE 方法论
SRE承担的职责:可用性改进,延迟优化,性能优化,效率优化,变更管理,监控,紧急事务处理,容量规划与管理 工作内容:开发监控系统,规划容量,处理紧急事件,确保事故根源被跟踪修复 核心方法论: 确保长期关注研发工作 将运维工作限制在50%以内
2021-05-01
SRE 指导思想 SRE 指导思想
指导思想拥抱风险管理风险管理服务的可靠性很大程度上是通过管理风险来进行的。需要将运维风险和业务风险结合。提高一项服务的可靠性,但不会超过该服务的可靠性高昂的成本在于以下两个维度 冗余物理服务器/计算资源的成本投入冗余设备,能够进行更多的维
2021-05-01
1 / 2