System Engineer (4086)
面议研究方向
AI基础设施运维、AI模型运维、AIOps、云原生运维、GPU集群管理
工作经验要求
3年以上IT运维或DevOps工作经验,至少1-2年AI运维经验,具备大型GPU集群或AI平台运维经验
岗位职责
1.负责AI基础设施、AI模型及相关系统的全生命周期运维,保障AI平台(训练/推理)、GPU集群和云原生环境的高可用、高性能和高安全;
2.推动运维流程自动化和智能化升级,降低系统停机时间,提升运营效率和资源利用率;
3.负责GPU集群(含NVIDIA、华为昇腾系列等)和AI服务器的部署、配置、监控和日常维护,包括硬件状态监控、驱动适配、性能调优、故障诊断排查;
4.管理云原生环境(Docker、Kubernetes)全生命周期,优化容器网络和存储配置,支持AI应用容器化部署和弹性伸缩;
5.构建和维护AI基础设施配套的数据存储和网络环境,优化RDMA高性能网络配置,提升大模型分布式训练和推理效率;
6.负责AI模型训练和推理平台的部署、监控和维护,排查解决训练中断、推理延迟高、精度波动等问题;
7.构建和优化CI/CD流水线,实现AI模型的标准化版本管理、自动化部署、测试和回滚,对齐算法和业务团队提升交付效率;
8.实时监控模型运行状态和关键指标,建立模型性能基准体系,定期调优迭代保障服务质量;
9.基于AIOps理念构建全栈可观测系统,整合Prometheus、Grafana、ELK等监控工具,实现硬件、应用、模型层的全面监控、告警和日志分析;
1
0.开发和使用自动化运维脚本和工具,实现自动故障检测、恢复和弹性资源伸缩,推动运维模式从被动响应向主动预测转变;
1
1.采用机器学习算法进行运维数据的异常检测和根因分析,优化告警策略,降低误报率,提升故障处理效率和准确性;
1
2.制定和严格执行AI平台安全管理政策,包括访问控制、数据加密、漏洞扫描和应急响应,保障系统和数据安全;
1
3.建立AI平台的灾难恢复和备份机制,制定标准化应急预案并参与演练,保障系统快速恢复;
1
4.整理和规范运维文档,定义标准化操作流程,推动运维标准化和流程化,积累和共享运维知识;
1
5.与AI应用开发团队紧密协作,提供计算资源支持和技术协助,解决模型训练和部署中的技术障碍;
1
6.推动AI运维工具和工作流与整体IT架构集成,实现AI系统和业务系统的无缝互联;
1
7.跟踪前沿运维技术,开展技术研究和实践验证,持续优化运维框架。职位要求
1.本科及以上学历,计算机科学、人工智能、电子工程、数据科学等相关专业,硕士优先,有大模型研究背景者优先;
2.3年以上IT运维或DevOps工作经验,至少1-2年AI运维经验,具备大型GPU集群或AI平台运维经验;
3.熟练掌握Linux(CentOS/Ubuntu)系统管理,熟悉TCP/IP、VLAN、NAT等网络技术,具备扎实的网络排查能力;
4.熟练掌握至少一种脚本语言(Python、Shell),可独立开发自动化运维脚本,优先掌握Pandas、NumPy等数据处理库;
5.精通Docker和Kubernetes核心原理和运维方法,熟悉Helm、Kubeflow等工具,有AI应用容器化部署实践经验;
6.熟悉GPU(NVIDIA/华为昇腾)驱动安装和CUDA环境配置,了解GPU资源调度和优化方法,有GPU集群管理经验优先;
7.熟练掌握Prometheus、Grafana、ELK等监控工具,可独立构建监控面板和配置告警规则,具备较强的日志分析和根因诊断能力;
8.了解主流AI框架(TensorFlow、PyTorch),熟悉MLOps/AIOps理念,掌握常见机器学习算法(异常检测、时间序列预测等)优先;
9.熟悉Ansible、Terraform等自动化工具,了解AWS、Azure、阿里云等公有云平台的AI服务架构优先;
1
0.有大模型私有部署和性能优化经验,熟悉VLLM、SGlang等推理框架优先;
1
1.持有CKA、NVIDIA Certified Associate - AI Infrastructure等相关专业认证优先;
1
2.有开源项目贡献或运维与系统优化相关技术文章发表优先;
1
3.熟悉国内IT基础设施系统,有适配国内AI基础设施经验优先。



