工作职责:
1、负责多云管理平台和监控平台的架构模式以及非标准化的定制化工作。
2、负责多云监控和审查运维系统架构合理性、流程逻辑合理性,完善系统性能、稳定性等技术领域和指标,驱动业务团队解决问题。
3、引导SRE运维工作朝着自动化、平台化、智能化方向演进,设计及开发相关系统(如故障分析、容量管理等),提升整体运维管理效率。
4、负责云原生技术栈以及容器等运维开发工作,包括K8S维护和二次开发、对接公有云 / 私有云的容器服务,实现云资源的弹性调度等。
任职资格:
1、计算机或者相关专业,5年以上运维经验,2个以上中大型项目开发经验,go语言优先。
2、精通LINUX,掌握常用的系统命令、内核参数优化、网络协议等。
3、熟悉docker、k8s,有实际业务编排和公有云使用经验优先。
4、熟悉Prometheus、Thanos、Grafana、Ansible、Elk优先。
5、掌握常用组件redis、mysql、mongodb、lvs、nginx,并对大数据组件flink、hadoop,kafka、doris等熟悉。
6、熟悉公有云(如 AWS、阿里云、腾讯云等)及私有 IDC 的运维实践,具备跨云环境部署、管理和优化经验。
7、有丰富的应用稳定性建设经验,对常见的系统隐患、系统故障有系统性总结和实际处理经验优先。
8、在监控告警、故障演练、定位止损、稳定性评估方面,有一项精通且实际开发过相关系统优先。
9、优秀的逻辑思维能力和总结能力,沟通协作能力,主动规划能力。