Senior SRE/DevOps Engineer

About

• 모레는 대규모 AI 모델과 GPU/NPU 클러스터 시스템을 위한 AI 소프트웨어 스택을 개발하고 있습니다.
• 모레는 자체 데이터센터에 수 백 노드 규모의 GPU 클러스터를 운영하고 있으며 다양한 고객에게 인프라를 공급하고 관리합니다.
• 모레의 Senior SRE/DevOps 엔지니어는 다양한 시스템의 하드웨어와 소프트웨어 구성 요소 설치, 통합/배포, 관리하는 역할을 담당합니다.

Responsibilities

1. 대규모 AI가속기 클러스터 아키텍처 설계 및 구축
• 이기종 AI 가속기(NVIDIA, AMD, Tenstorrent 등) 기반의 GPU 클러스터 인프라를 총괄 관리합니다.
• 서버 스펙 산정, GPU 클러스터 Rack 구조 설계, 전력 및 냉방 용량 산정을 통해 안정적이고 효율적인 데이터센터 인프라를 구축합니다.
• LLM 및 생성형 AI 모델 아키텍처에 따른 대규모 Token 처리 용량을 산정하고 인프라에 반영합니다.

2. 인프라 최적화 및 고성능 컴퓨팅(HPC) 튜닝
• GPU 클러스터의 성능 극대화를 위한 Linux 커널 및 서버 하드웨어 성능을 최적화 합니다.
• GPU 간 초고속 통신을 위한 대규모 RDMA 네트워크 및 가속기 드라이버/라이브러리를 최적화 합니다.

3. 클라우드네이티브 기반 DevOps 및 모니터링 체계 구축
• GPU 기반의 대규모 Kubernetes 클러스터를 설계, 배포 및 운영합니다.
• Terraform, Ansible 등 IaC 도구를 활용하여 인프라를 코드화하고 관리 효율성을 극대화합니다.
• 가속기 및 클러스터 상태를 실시간으로 추적하는 고도화된 GPU 클러스터 모니터링 시스템을 구축합니다.
• 효율적인 가속기 인프라 활용을 위한 효율적인 CI/CD 파이프라인 및 Git 형상 관리를 리드합니다.

4. 고성능 네트워크 및 분산 스토리지 관리
• InfiniBand, RoCEv2 및 차세대 Ultra Ethernet 기반의 초고속·저지연 네트워크망을 설계하고 관리합니다.
• Ceph, Vast Data 등 분산 스토리지를 안정적으로 운영합니다.

Requirements

• 컴퓨터공학 혹은 관련 전공 학부 졸업, 혹은 이와 동등한 경력이 있으신 분
• 7년 이상의 SRE/DevOps, Infra Engineer 경력이 있으신 분
• "성능이 잘 안 나오는데요"라는 한 줄 리포트에서 PCIe lane, NUMA boundary, NIC affinity까지 끝까지 파고드는 분
• 단일 벤더에 갇히지 않고 이기종 가속기 시대의 인프라를 함께 설계해보고 싶은 분
• 인프라를 코드로 관리하는 것에 익숙하고 수작업을 자동화로 바꾸는 데 보람을 느끼는 분
• 벤더 매뉴얼을 그대로 따르기보다 워크로드에 맞게 최적값을 직접 찾아내는 것을 즐기는 분
• 오픈소스 도구를 깊이 이해하고 내재화한 경험이 있으며, 영문 기술 문서를 읽고 적용할 수 있는 분
• 팀워크를 중시하고, 긍정적인 태도로 동료들과 적극적으로 협력할 수 있으신 분
• 해외여행 결격 사유가 없는 분

Preferred

• GPU 또는 대규모 클러스터 시스템 구축 등 프로젝트 리딩 경험
• On-premise Bare-metal 서버 및 데이터센터 인프라 운영 경험
• Incident Management, Postmortem, SLO/SLI 기반 운영 경험
• GPU, RDMA, HPC, AI/ML 인프라 운영 경험
• LGTM, PLG, ELK 등 IT 인프라의 모니터링 솔루션 개발 경험
• Ansible, Terraform 등 IaC 도구 사용 경험
• Python/Go/Shell 등 스크립트 언어를 활용한 운영 자동화 경험

Benefits

• 복지포인트 연간 200만 원
• 입사 시 장비지원금 지원
• 유연출근제&재택근무
• 연 1회 종합건강검진 (본인 및 직계가족 1인)
• 생일 반차 휴가
• 장기근속 휴가
• 사내 동호회 지원 (보드게임, 클라이밍 등)
• 오피스 간식 제공 (과자, 음료수 등)
• 연말 오피스 클로징 (매년 12/28-12/31 유급휴가 제공)
• 중소기업 청년 소득세 감면 (연간 최대 200만 원)

Senior SRE/DevOps Engineer

About

Responsibilities

Requirements

Preferred

Benefits

Similar jobs

Senior System Engineer (AI/GPU Infrastructure)

👉 Senior AWS and Azure DevOps Engineer (SRE) with AI

Senior Software Engineer, Full Stack - Applications

Senior SRE Engineer - San Francisco

Senior AI Engineer (AI Agents / OpenAI)

Senior Software Engineer