2025-09-26
1일 1아티클
데보션
Tyche
배경
- Java 환경에서 실시간 음성 서비스의 품질 향상 필요
- 실시간 스트리밍, 대화형 인터페이스 등 빠른 반응성 및 정확도가 요구됨
- 안정적인 음성의 전처리 구축 어려움
음성 처리 모듈
Speex- 음성 신호의 압축을 위해 CELP 알고리즘 사용
- 입력된 PCM 데이터를 프레임 단위로 나누고, 정보를 최대한 압축하여 저장
- 실시간 처리와 파일 기반 인코딩 모두에 적합
EPD- 입력 음성 신호 스트림에서 실제 발화 구간의 시작/종료 시점 판정 기술
- 프레임의 에너지, Zero-Crossing Rate, 주파수 대역 특성, VAD 결과 등 바탕으로 음성/무음 상태 판별
- 모델 추가 적용한 미세조정 가능, 로깅 및 이벤트 출력으로 결과 즉시 확인 가능
Tyche
- 실시간 음성 전처리용 네이티브 엔진 라이브러리
- 빠른 지연, 안정성에 초점을 맞춘 기능 제공
구성요소
- EPD : 발화 시작/종료를 시퀀스와 출력 버퍼 조회로 처리
- Speex : 저비트레이트 음성 인코딩 파이프라인화
- Wakeup : 키워드 감지 및 이벤트 관리
검증된 네이티브 품질 및 저지연 제공, 모듈화된 API 구조로 필요한 기능만 선택적 연동 가능
오늘 배운 것
- Java Application → Backend MVC 구조 변경