2025-11-12
1일 1아티클
요즘IT
gpt-realtime
배경
- OpenAI에서 3개월 전 공개
- 기존 음성 에이전트 구축 방식 : 여러 개의 개별 모델 연결 파이프라인
- 음성 to 텍스트 모델 (ex.
Whisper) → 텍스트 추론 및 판단 모델 (LLM) → 모델 텍스트 출력을 재생하기 위한 변환 모델(TTS) 사용 - 요청 전송 후 응답 대기하는 구조 (Latency 발생), 실제 음성 대화에서 미세한 끊김 발생
- 상호 작용형 대화에는 미흡
- 음성 to 텍스트 모델 (ex.
Realtime API:Speech-to-Speech모델 및 한번의 API 호출로 오디오 직접 처리 및 생성
차이점
- 단계 축소 → 획기적 지연 감소, 자연스러운 대화 경험 형성
- 오디오 직접 처리 및 생성 → 발화의 비언어적 신호(감정, 강세, 억양 등) 보존 및 표현력 높은 응답 생성
성능
- 향상된 오디오 품질 및 자연스러운 발화
- 사용자가 직접 상세한 지침으로 모델의 발화 스타일 제어 가능
- 최상의 어시스턴트 음성 품질을 위한 2가지 새로운 성우 캐릭터 음성 추가
- 강력한 지침 준수 및 추론
- 이전 모델 대비 지침 준수 및 추론 성능이 10% 이상 향상 → 보다 자연스러운 대화
- ex. 고객이 에이전트의 말을 끊고 자신의 이야기를 일방향으로 진행 시, 에이전트는 발화를 즉시 중단 후 경청으로 전환
- 프로그래밍 방식 함수 호출 기능
- 비동기 함수 호출 기능 기본 탑재 → 길게 실행되는 함수 호출 중에도 자연스러운 대화 가능
개선된 프로덕션 기능
- API 구조 업데이트 및 마이그레이션
- 긴 대화 및 컨텍스트 관리
- 세션 30분 → 60분
- 컨텍스트 윈도우 및 최대 입력 토큰 증가
- 자동 길이 조정(오래된 메시지 자동 절단), 캐시 친화적인 길이 조정
- 멀티 모달 및 이기종 시스템 통합 기능 확장
- 이미지 입력, SIP 지원, 원격 MCP 서버 지원
- 개발자 편의 기능 및 안정성
- 비동기 함수 호출, 대화 유휴 시간 초과, 호스팅 프롬프트 및 재사용, 추적 기능, EU 데이터 상주
오늘 배운 것
- 스프링 MVC