2026-01-18

MediaPipe란?

MediaPipe는 Google에서 개발한 실시간 멀티모달 인식 프레임워크로,
카메라 입력을 기반으로 얼굴, 손, 자세, 신체 움직임 등을 빠르고 가볍게 추적할 수 있는 도구이다.

머신러닝 모델을 직접 학습하지 않아도,
이미 학습된 경량화된 파이프라인을 통해 실시간 인식이 가능하다는 점이 가장 큰 특징이다.

MediaPipe의 주요 특징

실시간 처리에 최적화
- CPU 환경에서도 안정적인 FPS 확보 가능
사전 학습 모델 제공
- 별도의 데이터 수집·학습 없이 바로 사용 가능
랜드마크 기반 결과 제공
- 좌표(x, y, z) 형태로 정밀한 포인트 추출
AI 사용 여부를 선택적으로 분리 가능
- 모델 추론이 아닌 규칙 기반 판단도 가능

주요 솔루션 종류

1. Face Mesh

얼굴의 468개 랜드마크를 추적
활용 예:
- 눈 깜빡임 감지
- 졸음 탐지
- 표정 분석
- 아바타 표정 동기화

2. Pose

전신 관절(33개 포인트) 추적
활용 예:
- 자리 이탈 감지
- 자세 분석
- 스트레칭/운동 자세 인식

3. Hands

손의 21개 랜드마크 추적
활용 예:
- 손동작 인식
- 제스처 기반 인터랙션

MediaPipe와 AI 모델(YOLO 등)의 차이

구분	MediaPipe	YOLO
방식	랜드마크 + 규칙 기반	객체 탐지(딥러닝)
데이터 필요	❌	⭕
실시간성	매우 우수	환경 의존
정확도 튜닝	규칙 조정	재학습 필요
활용 예	졸음, 자세, 표정	사람/물체 존재 여부

👉 졸음, 자리비움, 자세 판단과 같이
명확한 기준이 있는 경우에는 MediaPipe가 더 적합하다.

오늘 배운 핵심 포인트

MediaPipe는 AI 모델을 직접 학습하지 않아도 실시간 인식이 가능하다.
단순 탐지(졸음, 자리비움)는 MediaPipe 단독으로도 충분히 구현 가능하다.
복잡한 분류·객체 인식이 필요할 경우에만 YOLO 같은 딥러닝 모델을 고려하면 된다.
규칙 기반 판단과 결합하면 AI 의존도를 낮춘 안정적인 서비스 설계가 가능하다.

활용 아이디어 (프로젝트 관점)

졸음 감지:
- 눈 종횡비(EAR) 기반 눈 감김 시간 측정
자리비움 감지:
- Pose 랜드마크 미검출 시간 기준 판단
아바타 연동:
- Face Mesh 랜드마크 → 표정 값 매핑

느낀 점

MediaPipe는
“AI를 써야만 할 것 같은 문제”를 비교적 단순한 구조로 해결할 수 있게 해주는 도구라는 점에서 인상 깊었다.

특히 실시간성이 중요한 서비스에서는
무거운 모델보다 MediaPipe + 규칙 기반 로직이 더 현실적인 선택이 될 수 있음을 느꼈다.

results matching ""

No results matching ""