본문 바로가기

분류 전체보기27

AWS Secrets Manager 기반 폴백 검증 설계 시작하며;최근 사내 보안 취약점 대응의 일환으로 '토큰 관리 체계 개선' 업무를 살펴 보고 있다. 단순히 설정 몇 개 바꾸고 끝날 일이 아니다. 키 하나 잘못 건드렸다가 서비스 전체가 멈추거나 사용자가 튕겨 나가는 대참사를 막기 위해, '어떻게 하면 사고 없이 안전하게 되돌릴지(롤백)' 와 '우리 유저들이 로그아웃되는 일은 없을지' 를 끝까지 고민해야 하는 꽤나 까다로운 작업이었다. 본격적인 작업에 앞서, 관련 로직을 작은 스케일로 축소하여 사이드 프로젝트에 선제적으로 적용하며 메커니즘을 손에 익히는 과정을 거쳤다. 마침, 사이드 프로젝트도 마찬가지로 JWT 시크릿 키를 환경 변수에 하드코딩하여 관리하고 있었다. 작업 시작 전, 관련 업무에 대해 전달받은 참고 자료와 피드백에 이러한 리스크를 방지하기 위.. 2026. 1. 22.
FSR vs Warm Pool 1. 배경: AMI 베이킹과 콜드 스타트의 불가피한 딜레마;1.1. 초기 문제점 및 AMI 베이킹 결정;우리가 직면했던 초기 문제는 안정성이었다. 이미지 생성 모델에 필요한 수십 GB 에 달하는 모델 파일이 있었고, 기존에는 컨테이너 실행 시마다 S3 에서 다운로드해야 했다.치명적인 위험: 다운로드 과정 중 발생하는 네트워크 불안정은 곧바로 서비스 장애로 이어진다.해결: 이 위험을 제거하고자 모델을 인스턴스 디스크에 포함하여 AMI(Amazon Machine Image) 를 생성했다. 이는 EBS 스냅샷을 기반으로 하는 베이킹(Baking) 전략이었다.1.2. FSR 도입의 근거: 길어진 디스크 초기화 시간;AMI 베이킹으로 안정성은 확보되었지만, 부작용이 발생했다. 수십 GB 의 데이터가 포함된 EBS.. 2025. 11. 20.
생성형 AI 모델 배포 최적화: 서버 역할 분리 아키텍처 개선 시작하며;최근 생성형 AI 워크플로우를 운영하면서 ComfyUI 기반 서버 구조를 개선하는 작업을 진행했다. 구조적으로는 프롬프트를 전달하는 Proxy 서버와 실제 모델을 실행하는 ComfyUI 서버로 분리되어 있다. 그러나 기존 AI/ML 엔지니어께서 구성한 배포 파이프라인에서는 ComfyUI 모델을 Proxy 서버에서 관리하고 있었고, 이는 역할 분리 관점에서 불필요한 결합이라고 판단했다. 일정 내 마무리를 위해 직접 뛰어들어 구조를 단순화하고 배포 효율을 높이는 개선 작업을 마무리했다.기존 구조의 문제;Proxy 서버는 원래 요청을 받아 ComfyUI 서버로 전달하는 역할만 담당한다.기존 배포 프로세스는 Proxy 가 모델 다운로드와 관리까지 수행했다.Proxy 와 ComfyUI 는 본질적으로 역할.. 2025. 8. 24.
Terraform 으로 만든 비공개 인프라: 외부는 막고 내부는 연다 시작하며;미국에서 먼저 서비스를 시작하기로 결정됐다. 하지만 단순히 기존 한국 리전의 AI 추론 서버를 옮기는 수준이 아니었다. 아예 처음부터, 미국 리전에 완전히 새로운 추론 인프라를 구축해야 했다. 한국 리전은 이미 갖춰진 네트워크, 보안, ECS 환경 위에 서비스를 얹는 일이었다. 기반 인프라가 있었기 때문에 상대적으로 수월하게 진행할 수 있었다. 하지만 미국 리전은 달랐다. VPC 부터 시작해 서브넷, 라우팅 테이블, 보안 그룹, ALB, ECS, 도메인 구성까지 — 모든 걸 처음부터 직접 설계해야 했다. 완전한 제로베이스에서 시작했다. 이 모든 과정을 Terraform으로 코드화하기로 했다. 목표는 단순했다."외부에 노출하지 않고, 내부 서비스 간 통신만 가능하게 하자." AWS 의 제약, Te.. 2025. 7. 27.