Backend Engineer (Runway Platform)

About

‍‍함께하게 될 ​PD본부 ​플랫폼팀을 ​소개합니다!
• Runway Platform은 ​Runway(AI OS)의 근간이 되는 ​Kubernetes ​기반 멀티테넌트 ​AI/ML 플랫폼입니다. 플랫폼팀은 ​이 위에서 ​애플리케이션과 ​머신러닝 모델을 ​개발하는 ​개발자, ​그리고 이를 사용하는 ​엔드 ​유저가 복잡한 인프라를 ​직접 ​다루지 ​않고 각자의 목적에 ​집중할 수 ​있는 ​플랫폼 경험을 ​설계합니다.
• 이를 위해 ​워크스페이스 ​컨트롤 플레인, 통합 ​인증·인가, 서비스 ​메시, GPU 자원 할당/관리, Data·MLOps 스택, 관측성 등 다양한 도구와 통합 기능을 제품처럼 제공하고 운영합니다.
• 수많은 오픈소스 시스템을 단일 제품처럼 동작하도록 통합하고, 멀티테넌시·격리·확장성·안정성을 고려해 Kubernetes Operator와 컨트롤 플레인을 직접 구현합니다. 선언적(Declarative) 아키텍처와 GitOps 기반의 자동화를 통해, 온프레미스/사설망을 포함한 다양한 환경에 안정적으로 배포하고 운영하는 것을 지향합니다.

Responsibilities

• Kubernetes기반 멀티테넌시 & 인증·인가 플랫폼을 개발합니다.
• 사용자가 Kubernetes에서 애플리케이션을 개발·운영할 때 필요한 도구들을 설계·개발·큐레이션하고, 통합을 자동화합니다.
• 한정된 클러스터 자원을 효율적으로 할당·관리하고 모니터링하는 체계를 구축합니다.
• GPU 분할·멀티 노드·멀티 GPU 환경 지원 등 사용자 워크로드가 GPU 자원을 효율적으로 활용할 수 있도록 합니다.

Requirements

• 10년 이상의 관련 경력 또는 그에 준하는 역량을 갖추신 분
• 여러 사용자·조직이 안전하게 격리된 채 공유하는 AI/ML 플랫폼을 Kubernetes 위에서 직접 설계·구현해 보신 분
• Go 언어로 Operator·CRD·Admission Webhook을 설계·개발한 경험이 있는 분
• Keycloak(OIDC/OAuth2), OPA, OpenBao(Vault) 등을 활용해 SSO·세분화된 권한·시크릿 관리 등 플랫폼 전반의 ID·보안 체계를 통합한 경험이 있는 분
• Helm·ArgoCD(GitOps) 기반으로 배포 자동화와 안정적인 딜리버리 파이프라인을 구축할 수 있는 분 (사설·오프라인 레지스트리 등 폐쇄망 환경 경험 포함)

Preferred

• Istio 서비스 메시와 Gateway API 기반의 트래픽·보안 정책을 설계하고, 플랫폼 전역의 인증·인가 흐름을 구축 경험이 있으신 분
• DataOps, MLOps, LLMOps 스택에 대한 기술 이해도가 높으신 분
• 로그·메트릭 등 클러스터 운영 데이터를 수집·분석·시각화하는 체계를 구축해 플랫폼에 통합·운영해 보신 분
• GPU 분할·멀티 노드·멀티 GPU 환경 지원 등 GPU 자원 활용 관련 경험이 있거나 기술적 이해도가 높으신 분

Benefits

[Culture & Life]
• Core Time(10시~16시) 운영
• 야근시 저녁식사 지원
• 다양한 간식와 음료 구비된 스낵바 제공
• 연 1회 종합검진 지원 (30만원 상당)
• 업무 관련 도서/강의 수강 지원
• 사내 소모임 활동 지원