System Engineer (4086)

面议

苏州

本科

其他

IT/Product Management

立即投递

职位介绍

专业要求

计算机科学、人工智能、电子工程、数据科学等相关专业

研究方向

AI基础设施运维、AI模型运维、AIOps、云原生运维、GPU集群管理

工作经验要求

3年以上IT运维或DevOps工作经验，至少1-2年AI运维经验，具备大型GPU集群或AI平台运维经验

岗位职责

1.负责AI基础设施、AI模型及相关系统的全生命周期运维，保障AI平台（训练/推理）、GPU集群和云原生环境的高可用、高性能和高安全；
2.推动运维流程自动化和智能化升级，降低系统停机时间，提升运营效率和资源利用率；
3.负责GPU集群（含NVIDIA、华为昇腾系列等）和AI服务器的部署、配置、监控和日常维护，包括硬件状态监控、驱动适配、性能调优、故障诊断排查；
4.管理云原生环境（Docker、Kubernetes）全生命周期，优化容器网络和存储配置，支持AI应用容器化部署和弹性伸缩；
5.构建和维护AI基础设施配套的数据存储和网络环境，优化RDMA高性能网络配置，提升大模型分布式训练和推理效率；
6.负责AI模型训练和推理平台的部署、监控和维护，排查解决训练中断、推理延迟高、精度波动等问题；
7.构建和优化CI/CD流水线，实现AI模型的标准化版本管理、自动化部署、测试和回滚，对齐算法和业务团队提升交付效率；
8.实时监控模型运行状态和关键指标，建立模型性能基准体系，定期调优迭代保障服务质量；
9.基于AIOps理念构建全栈可观测系统，整合Prometheus、Grafana、ELK等监控工具，实现硬件、应用、模型层的全面监控、告警和日志分析；
1
0.开发和使用自动化运维脚本和工具，实现自动故障检测、恢复和弹性资源伸缩，推动运维模式从被动响应向主动预测转变；
1
1.采用机器学习算法进行运维数据的异常检测和根因分析，优化告警策略，降低误报率，提升故障处理效率和准确性；
1
2.制定和严格执行AI平台安全管理政策，包括访问控制、数据加密、漏洞扫描和应急响应，保障系统和数据安全；
1
3.建立AI平台的灾难恢复和备份机制，制定标准化应急预案并参与演练，保障系统快速恢复；
1
4.整理和规范运维文档，定义标准化操作流程，推动运维标准化和流程化，积累和共享运维知识；
1
5.与AI应用开发团队紧密协作，提供计算资源支持和技术协助，解决模型训练和部署中的技术障碍；
1
6.推动AI运维工具和工作流与整体IT架构集成，实现AI系统和业务系统的无缝互联；
1
7.跟踪前沿运维技术，开展技术研究和实践验证，持续优化运维框架。

职位要求

1.本科及以上学历，计算机科学、人工智能、电子工程、数据科学等相关专业，硕士优先，有大模型研究背景者优先；
2.3年以上IT运维或DevOps工作经验，至少1-2年AI运维经验，具备大型GPU集群或AI平台运维经验；
3.熟练掌握Linux（CentOS/Ubuntu）系统管理，熟悉TCP/IP、VLAN、NAT等网络技术，具备扎实的网络排查能力；
4.熟练掌握至少一种脚本语言（Python、Shell），可独立开发自动化运维脚本，优先掌握Pandas、NumPy等数据处理库；
5.精通Docker和Kubernetes核心原理和运维方法，熟悉Helm、Kubeflow等工具，有AI应用容器化部署实践经验；
6.熟悉GPU（NVIDIA/华为昇腾）驱动安装和CUDA环境配置，了解GPU资源调度和优化方法，有GPU集群管理经验优先；
7.熟练掌握Prometheus、Grafana、ELK等监控工具，可独立构建监控面板和配置告警规则，具备较强的日志分析和根因诊断能力；
8.了解主流AI框架（TensorFlow、PyTorch），熟悉MLOps/AIOps理念，掌握常见机器学习算法（异常检测、时间序列预测等）优先；
9.熟悉Ansible、Terraform等自动化工具，了解AWS、Azure、阿里云等公有云平台的AI服务架构优先；
1
0.有大模型私有部署和性能优化经验，熟悉VLLM、SGlang等推理框架优先；
1
1.持有CKA、NVIDIA Certified Associate - AI Infrastructure等相关专业认证优先；
1
2.有开源项目贡献或运维与系统优化相关技术文章发表优先；
1
3.熟悉国内IT基础设施系统，有适配国内AI基础设施经验优先。

职位来源：https://career15.sapsf.cn/career?career%5fns=job%5flisting&company=xjtlu&navBarLevel=JOB%5fSEARCH&rcm%5fsite%5flocale=en%5fUS&career_job_req_id=4086&selected_lang=en_US&jobAlertController_jobAlertId=&jobAlertController_jobAlertName=&browserTimeZone=Asia/Shanghai&_s.crb=95HRUNGeVS5p7uUiKakl9oRpHxogkp7b%2bTba%2feOfmHI%3d

工作单位

西安交通利物浦大学

苏州

在招职位

江苏省苏州市