본문으로 건너뛰기

릴리즈 검증 시나리오

배포 직후 "일단 지켜보자"로 끝나면 회귀가 뒤늦게 드러나고 복구 비용이 커집니다. 이 가이드는 배포 전후 WhaTap으로 무엇을 언제 확인해야 하는지, 롤백을 결정할 기준은 무엇인지 정리합니다.

이 가이드가 맞는 사람
  • 배포 주기가 일·주 단위로 빠른 팀
  • CI/CD 파이프라인에 품질 게이트를 붙이고 싶은 엔지니어
  • 카나리·블루그린 등 점진 배포를 운영하는 팀
  • 배포 후 "뭔가 이상한데" 싶을 때 기준 없이 판단하는 상황을 줄이고 싶은 팀

사전 준비

  • 팀 대시보드 / 알림 운영 중 → Quick Wins 3종 완료
  • 배포 시점 기록 가능 (Jenkins, GitHub Actions, ArgoCD 등 CI/CD 로그 또는 팀 위키)
  • 롤백 절차가 팀 내 합의되어 있음 (최소한 "누가 롤백을 결정하는가")

릴리즈 검증 타임라인

  배포 전        배포 직후 10분     배포 후 1일        배포 후 1주
↓ ↓ ↓ ↓
① 베이스라인 ② 급성 회귀 ③ 지연 회귀 ④ 추세 검증
확보 감지 감지 & 회고

① 배포 전 — 베이스라인 확보

목표: "정상"의 기준값을 배포 직전에 캡처

배포 직전 최근 30분~1시간의 다음 값을 기록해두면, 배포 후 비교가 명확해집니다.

  1. 대시보드에서 다음 지표를 스냅샷으로 저장하세요.
    • TPS (평균·피크)
    • 평균 / 최장 응답 시간
    • 에러율
    • 활성 트랜잭션 수
  2. 히트맵 패턴 스크린샷을 저장하세요 (회귀 후 비교용).
  3. 기록 방식 3가지 중 하나를 선택하세요.
    • CI/CD 파이프라인 단계에 자동 캡처
    • 팀 릴리즈 노트 템플릿에 수치 필드
    • Flexboard URL + 배포 시각을 팀 채널에 남김
베이스라인이 있어야 회귀가 보입니다

"느려진 것 같아요"보다 "배포 전 180ms → 배포 후 260ms, 45% 증가"가 의사결정에 훨씬 유용합니다.

② 배포 직후 10분 — 급성 회귀 감지

목표: 명확한 즉각 회귀가 있으면 10분 안에 감지 → 필요시 롤백

사용 메뉴: 애플리케이션 대시보드 + 해당 제품 Flexboard

지켜볼 지표 (우선순위 순)

표 | 릴리즈 직후 지켜볼 지표
지표회귀 신호즉시 대응 후보
에러율1% 이상 급증, 특히 5xx롤백 강하게 고려
평균 응답 시간베이스라인 대비 30%↑ 지속원인 분석 병행, 임계 초과 시 롤백
TPS비정상적 급락(의존 서비스 호출 실패 가능성)로그·트레이스 확인
에이전트 연결Inactive 발생프로세스 기동 실패 확인

절차

  1. 배포 완료 알림을 받은 시점부터 10분 타이머를 시작하세요.
  2. 대시보드를 30초~1분 간격으로 리프레시하세요 (자동 갱신이 빠르면 수동 리프레시는 불필요합니다).
  3. 이상 지표 발견 시:
    • 히트맵 트랜잭션에서 패턴 확인 → 배포 전 대비 점 분포 변화 여부
    • 트랜잭션 트레이스로 1개 샘플 들여다보기
    • 필요시 장애 대응 시나리오 흐름으로 전환
  4. 롤백 결정은 사전에 합의한 트리거 기준을 따름 (다음 섹션)

롤백 트리거 기준 예시

팀이 사전에 합의해둘 만한 객관적 기준:

  • 에러율 1% 초과 5분 지속 → 자동 롤백 또는 즉시 롤백 결정
  • 평균 응답 시간 50%↑ 10분 지속 → 롤백 검토
  • 새 예외 클래스의 5xx 에러 발생 → 원인 확인 후 판단
직감과 기준을 구분하세요

"느낌이 안 좋은데"는 회피의 사유일 수는 있어도 판단 기준이 되지는 않습니다. 트리거 기준이 있어야 사람이 아니라 숫자가 롤백을 결정합니다. 감정적 부담도 줄어듭니다.

③ 배포 후 1일 — 지연 회귀 감지

목표: 즉각 회귀는 없었지만 시간 흐른 뒤 나타나는 문제 포착

대표 지연 회귀 유형

  • 메모리 릭: 배포 후 1~12시간에 힙 메모리 점진적 증가
  • 커넥션 누수: DB 커넥션 풀 소진 증가 추세
  • GC 빈도 증가: 워밍업 후에도 정상으로 돌아오지 않음
  • 특정 시간대만 이상: 배치 작업, 정기 스케줄과의 상호작용

절차

  1. 배포 후 24시간이 지나면 대시보드에서 이틀 범위로 조회하세요.
    • 배포 전 24시간과 배포 후 24시간을 직접 비교하세요.
  2. 힙 메모리·커넥션 풀·GC 추이를 확인하세요. 관련 문서: 힙 메모리 경고 알림, DB 커넥션 풀.
  3. 일간 보고서에서 에러 유형 목록을 확인하세요.
  4. 트래픽 시간대별로 성능 변화를 점검하세요 (피크 시간대 재현성).

④ 배포 후 1주 — 추세 검증 & 회고

목표: "이 배포가 장기적으로 좋은 변화였나" 판단

확인 항목

  1. 보고서에서 주간 보고서로 배포 전 주와 배포 후 주를 비교하세요.
    • Apdex, 에러율, TPS, 응답 시간 평균/p95/p99
  2. 해당 주 이벤트 기록을 검토해 새 이벤트 규칙 발동 빈도가 증가했는지 확인하세요.
  3. 사용자 피드백(있다면)과 기술 지표가 일치하는지 교차 검증하세요.

배포 회고 기록 (팀 위키)

릴리즈 ${버전} 회고 — ${YYYY-MM-DD}

## 배포 개요
- 목적: (기능 / 개선 / 수정)
- 범위: (영향받는 서비스)

## 성능 변화 (배포 전후 1주 비교)
- TPS: X → Y (+Z%)
- 평균 응답: X ms → Y ms
- p99 응답: X ms → Y ms
- 에러율: X% → Y%

## 이벤트
- 회귀로 판단한 이벤트: (있다면)
- 새로 발동된 이벤트 규칙: (있다면)

## 판단
- 성공 / 경과 관찰 / 부분 회귀 / 롤백

## 다음 배포에 반영할 것
- (체크리스트 보강, 새 이벤트 규칙, 테스트 케이스 등)

점진 배포(카나리·블루그린) 운영 팁

  • 에이전트 이름을 버전·배포 타입으로 구분 (예: svc-v1.2-stable, svc-v1.3-canary) → Flexboard·이벤트 태그로 버전별 비교 용이
  • 카나리 비율이 작을 때는 지표 변화가 묻히지 않도록 카나리만 필터한 대시보드 별도 유지
  • 트래픽이 카나리로 옮겨가는 동안 에러율·응답시간을 자동 비교하는 Flexboard 설계

자동화로 끌어올리기

배포 파이프라인에 품질 게이트 연결

  • 배포 직후 5분 에러율 1% 초과 시 자동 롤백 훅을 CI/CD에 추가
  • WhaTap Open API로 최근 n분 지표를 조회해 게이트 판단

MCP로 배포 회고 초안 자동 생성

WhaTap MCP를 활용하면 AI 에이전트에게 "지난 배포 전후 1주 지표 비교 리포트 만들어줘"라고 요청해 회고 초안을 자동으로 작성할 수 있습니다. 수치 수집 시간을 크게 줄여줍니다.

결과 확인

  • 배포 직전 베이스라인이 기록된다 (어디에든)
  • 배포 후 10분 / 1일 / 1주 세 시점에 누가 무엇을 보는지 명확하다
  • 롤백 결정은 사전 합의된 수치 기준에 따라 이뤄진다
  • 배포 1주 후 팀 위키에 회고 기록이 남는다

릴리즈 검증 루틴이 자리잡으면 "배포 후 막연한 불안"이 "체계화된 검증 단계"로 바뀝니다. 회귀 감지 속도가 빨라지는 만큼 배포 주기도 안전하게 단축할 수 있습니다.

다음 단계