2026-01-18
MediaPipe란?
MediaPipe는 Google에서 개발한 실시간 멀티모달 인식 프레임워크로,
카메라 입력을 기반으로 얼굴, 손, 자세, 신체 움직임 등을 빠르고 가볍게 추적할 수 있는 도구이다.
머신러닝 모델을 직접 학습하지 않아도,
이미 학습된 경량화된 파이프라인을 통해 실시간 인식이 가능하다는 점이 가장 큰 특징이다.
MediaPipe의 주요 특징
- 실시간 처리에 최적화
- CPU 환경에서도 안정적인 FPS 확보 가능
- 사전 학습 모델 제공
- 별도의 데이터 수집·학습 없이 바로 사용 가능
- 랜드마크 기반 결과 제공
- 좌표(x, y, z) 형태로 정밀한 포인트 추출
- AI 사용 여부를 선택적으로 분리 가능
- 모델 추론이 아닌 규칙 기반 판단도 가능
주요 솔루션 종류
1. Face Mesh
- 얼굴의 468개 랜드마크를 추적
- 활용 예:
- 눈 깜빡임 감지
- 졸음 탐지
- 표정 분석
- 아바타 표정 동기화
2. Pose
- 전신 관절(33개 포인트) 추적
- 활용 예:
- 자리 이탈 감지
- 자세 분석
- 스트레칭/운동 자세 인식
3. Hands
- 손의 21개 랜드마크 추적
- 활용 예:
- 손동작 인식
- 제스처 기반 인터랙션
MediaPipe와 AI 모델(YOLO 등)의 차이
| 구분 | MediaPipe | YOLO |
|---|---|---|
| 방식 | 랜드마크 + 규칙 기반 | 객체 탐지(딥러닝) |
| 데이터 필요 | ❌ | ⭕ |
| 실시간성 | 매우 우수 | 환경 의존 |
| 정확도 튜닝 | 규칙 조정 | 재학습 필요 |
| 활용 예 | 졸음, 자세, 표정 | 사람/물체 존재 여부 |
👉 졸음, 자리비움, 자세 판단과 같이
명확한 기준이 있는 경우에는 MediaPipe가 더 적합하다.
오늘 배운 핵심 포인트
- MediaPipe는 AI 모델을 직접 학습하지 않아도 실시간 인식이 가능하다.
- 단순 탐지(졸음, 자리비움)는 MediaPipe 단독으로도 충분히 구현 가능하다.
- 복잡한 분류·객체 인식이 필요할 경우에만 YOLO 같은 딥러닝 모델을 고려하면 된다.
- 규칙 기반 판단과 결합하면 AI 의존도를 낮춘 안정적인 서비스 설계가 가능하다.
활용 아이디어 (프로젝트 관점)
- 졸음 감지:
- 눈 종횡비(EAR) 기반 눈 감김 시간 측정
- 자리비움 감지:
- Pose 랜드마크 미검출 시간 기준 판단
- 아바타 연동:
- Face Mesh 랜드마크 → 표정 값 매핑
느낀 점
MediaPipe는
“AI를 써야만 할 것 같은 문제”를 비교적 단순한 구조로 해결할 수 있게 해주는 도구라는 점에서 인상 깊었다.
특히 실시간성이 중요한 서비스에서는
무거운 모델보다 MediaPipe + 규칙 기반 로직이 더 현실적인 선택이 될 수 있음을 느꼈다.