AIOps 엔지니어 팀장급
About
“Design-to-Manufacturing AI Platform”
위즈코어는 ‘Design-to-Manufacturing AI Platform’을 비전으로 국내외 제조기업의 데이터 기반의 디지털화를 견인하고 있습니다.
제조업 고객의 디지털 혁신을 위한 가이드가 되어 솔루션을 제공하고, 데이터의 가치를 새롭게 창출하고 고객과 함께 성장할 수 있도록 인도하고자 합니다. 현재는 열정 가득한 120여 명의 구성원들이 서울 본사(가산), AI Factory Division(성수), 베트남(VINA)에서 근무하며 함께 성장하고 있습니다.
■ 채용절차
서류전형 – 1차 면접 – 2차 면접 및 레퍼런스 체크(필요 시) - 최종합격
■ 참고사항
입사 후 3개월은 시용계약 기간이 적용됩니다.
직원은 회사를, 회사는 직원을 알아가기 위한 시간입니다.
3개월 후 서로의 의사를 존중하여 정직원 계약이 진행됩니다.
Responsibilities
1. AIOps 파이프라인 아키텍처 설계
- 데이터 정제·레이블링 학습 검증 배포 모니터링 재학습으로 이어지는 AI 모델 생애주기 자동화 파이프라인 설계
- 임계치 기반 자동 재학습 트리거 및 AutoML 연계 학습·최적화 파이프라인 구성
- 데이터 드리프트·모델 성능 저하에 실시간 대응하는 운영 체계 수립
2. AI 모델 레지스트리 및 모델 거버넌스 (자체 구축)
- 자체 호스팅(Self-hosted) MLflow 기반 AI Registry 구축 (모델 버전 · 학습 파라미터 · 사용 데이터셋 · 성능 이력 통합 관리)
- 검증·승인된 모델만 자동 로딩·서빙되도록 하는 배포/롤백 통제 체계 설계
- 정확도 · F1-Score · 처리속도(FPS) · 오차(RMSE) 등 운영 성능지표 실시간 추적 및 성능 변화 원인 분석 리포트 체계 구축
3. 모델 서빙 및 온프레미스 추론 인프라 설계·구축
- Docker 컨테이너 기반 REST/GraphQL API 모델 서빙 체계 구축
- TensorFlow Serving · TorchServe 기반 추론 서버 구성 및 Batch Size · Thread 최적화
- 온프레미스 GPU 자원 풀(Pool) 기반 고성능 추론 및 GPU Pooling/Slicing을 통한 물리 자원 효율 최적화
- 고정 하드웨어 용량 기반 로드밸런싱 · 오토스케일링(클러스터 내) 설계로 추론 지연 최소화 및 무중단 서비스(HA) 보장
4. AI 운영 자동화 및 통합 관제
- 모델 서빙·인프라·데이터 파이프라인 상태에 대한 실시간 모니터링·관제 체계를 자체 구축 (Self-hosted Prometheus · Grafana · Elastic Stack 등)
- 장애 유형 분류·보고 체계 및 24×7×365 무중단 대응·안정화 거버넌스 수립
- 운영 매뉴얼·SLA 기준 정의 및 운영 조직 인계 체계 구축
5. 온프레미스 클라우드 네이티브 인프라 운영
- 자체 관리형(Self-managed) Kubernetes · Docker 기반 온프레미스 컨테이너 플랫폼 구축 및 운영
- 자동 확장(Autoscaling) · 자가 복구(Self-healing) 가능한 고가용 분산 처리 구조 설계 (고정 자원 풀 기반 용량 산정 포함)
- 폐쇄망 대응 프라이빗 컨테이너 레지스트리(Harbor 등) 및 오프라인 패키지·이미지 배포 체계 구축
- 온프레미스 객체 저장소(MinIO) 및 데이터 파이프라인(Edge Kafka Spark Lakehouse)과 AI 운영 환경 연동
- 인프라(서버 · 네트워크 · GPU) 동시 구축 일정에 따른 협업 및 GPU 자원 할당 체계 수립
Requirements
• AIOps / MLOps / ML 플랫폼 분야 경력 7년 이상 (Senior) / 10년 이상 (Lead)
• MLOps 파이프라인 구축·운영 경험 (모델 학습·배포·서빙·모니터링·재학습 전 주기)
• 온프레미스 환경에서의 자체 관리형(Self-managed) Kubernetes · Docker 구축·운영 경험
• 모델 서빙 프레임워크(TensorFlow Serving, TorchServe 등) 및 REST/GraphQL API 기반 서비스 구축 경험
• 자체 호스팅 MLflow 등 모델 레지스트리·실험 관리 도구 활용 경험
• Python 기반 개발 역량 (FastAPI/Flask/Django 등) 및 Git 기반 형상관리·CI/CD 이해
Preferred
• 제조업 AI 도메인 경험 (스마트팩토리, 예지보전, 품질 이상 탐지, 비전 검사 등)
• 온프레미스 GPU 클러스터 구축·운영 경험 (NVIDIA GPU Operator, CUDA, GPU 드라이버 관리 등)
• GPU Pooling/Slicing(MIG, MPS 등) 자원 최적화 경험
• 폐쇄망(Air-gapped) 환경 시스템 배포·운영 경험 (오프라인 이미지·패키지 관리, Harbor 등 프라이빗 레지스트리)
• 온프레미스 객체 저장소(MinIO) 및 분산 스토리지 운영 경험
• 실시간 스트리밍 처리(Kafka, Spark) 및 데이터 레이크/레이크하우스 연동 경험
• 시계열 예측 · 이상 탐지 · Computer Vision(객체 탐지·결함 검출) 모델링 이해
• AI Feature Store 및 학습 데이터셋 버전 관리·피처 엔지니어링 경험
• AutoML · 데이터 드리프트 탐지 · 모델 모니터링 자동화 경험
• 정부·공공 프로젝트 CBD SW 표준 산출물 작성 경험
• 산업현장 네트워크 분리(폐쇄망 · DMZ · VPN) 및 보안 표준(IEC 62443 · ISO 27001) 적용 경험
• 온프레미스 모니터링 스택(Prometheus, Grafana, Elastic Stack 등) 자체 구축·운영 경험
• 정보처리기사, 빅데이터분석기사, 클라우드(CKA/CKAD) 등 관련 자격증
Benefits
■ 직원들의 성장을 지원합니다
• 외부 유료 교육 및 세미나 지원
• 사내 도서관 운영, 읽고 싶은 도서 구입 적극 지원
• 우수사원 및 장기 근속자 포상제도
• 성과에 따른 인센티브제도
■ 편안한 환경에서 일할 수 있습니다
• 자율과 책임을 중요시하는 사내 문화
• 자유복장
• 자유로운 연차사용
• 건강검진 지원
• 유류비 / 통신비 지원
• 점심식사 지원(지정식당 이용)
■ 슬픈 일, 기쁜 일을 함께합니다
• 생일 축하합니다! 생일 선물 지원
• 설/추석 명절 선물 지원
• 경조사 지원