LLM Serving Engineer(Py/GPU/vLLM AI Infra 개발)

About

㈜세타온(ThetaON)은 AI 인프라의 물리적 한계를 소프트웨어 지능으로 돌파하는 AI 인프라 최적화 솔루션 기업입니다. 회사는 설립 이후, GPU/NPU 자원 효율화와 AI 추론 최적화를 핵심으로 하는 독자 엔진 '세타엔진(Theta-Engine)'을 개발해왔습니다.
세타온은 핵심 원천기술 6건을 특허 출원(1건 등록, PCT 진행 중)했으며, 아이티센그룹, 인텔코리아, 쎄르띠실리콘, 테라텍 등과 PoC 및 파트너십을 진행하고 있습니다. 사업 영역은 데이터센터 전력효율을 높이는 그린 AIDC, AI PC 온디바이스 최적화, 영구기억 기반 엔터프라이즈 AI 에이전트(SaaS) 세 가지로, 글로벌 AI 인프라 최적화 시장 안에서 성장하고 있습니다.

Responsibilities

• 세타엔진(Theta-Engine) 핵심 알고리즘 연구 및 AI 엔진 개발
• AI 추론 최적화: GPU/NPU 자원 효율화, KV 캐시 최적화, Attention 연산 경량화 등 모델·하드웨어 단의 성능 개선
• LLM, 바이오 AI(Evoformer, ESM-2 등) 등 다양한 도메인으로의 기술 적용 및 검증(PoC)
• 중.대형 파트너사와의 공동 PoC 환경 구축 및 성능 측정·분석(vLLM, HuggingFace Transformers 등 활용)
• 특허 기반 원천기술의 실제 제품/솔루션 구현

Requirements

• AI/딥러닝 모델 또는 GPU·NPU 하드웨어 최적화 경험이 있는 분.
• Python 기반 개발 역량, vLLM·PyTorch·HuggingFace 등 AI 프레임워크 활용 경험.
• Linux/CLI 능숙: SSH·tmux·bash·프로세스/GPU 관리.
• LLM 추론 기본기: 토큰·KV cache·배치·처리량/지연 개념. vLLM이나 HuggingFace를 직접 구축 경험.
• GPU 운영: nvidia-smi, CUDA 환경, GPU 메모리. 커널을 못 짜도 되지만 서빙 환경은 혼자 세팅 가능.

Preferred

• 동료와 팀워크를 기반으로 함께 기술적으로 성장하고자 하는 마인드를 가진 분
• 단순히 주어진 개발을 해내는 것보다, 주도적으로 문제를 발견하고 분석해 솔루션을 제안할 수 있는 분
• 새로운 것을 배우는 것에 대한 주저함이 없는 분

Benefits

• 근무시간 탄력근무제 운영 (월~금 주 5일 근무)
• 업무 효율을 낼 수 있는 최고 스펙 노트북 장비 제공
• 32” 듀얼모니터 제공
• 쾌적한 업무 환경 제공 (일조량, 환기, 가습 최적)
• 자유로운 연차 사용
• 자유로운 세미나, 컨퍼런스 참여
• 점심식대 지원
• 커피 및 간식(스낵바) 무제한 제공
• 명절 선물 지급
• 경조사 발생 시 근조화환 및 경조 휴가, 경조금 지원