2025-09-26

1일 1아티클

데보션

Tyche

배경

  • Java 환경에서 실시간 음성 서비스의 품질 향상 필요
  • 실시간 스트리밍, 대화형 인터페이스 등 빠른 반응성 및 정확도가 요구됨
  • 안정적인 음성의 전처리 구축 어려움

음성 처리 모듈

  1. Speex
    • 음성 신호의 압축을 위해 CELP 알고리즘 사용
    • 입력된 PCM 데이터를 프레임 단위로 나누고, 정보를 최대한 압축하여 저장
    • 실시간 처리와 파일 기반 인코딩 모두에 적합
  2. EPD
    • 입력 음성 신호 스트림에서 실제 발화 구간의 시작/종료 시점 판정 기술
    • 프레임의 에너지, Zero-Crossing Rate, 주파수 대역 특성, VAD 결과 등 바탕으로 음성/무음 상태 판별
    • 모델 추가 적용한 미세조정 가능, 로깅 및 이벤트 출력으로 결과 즉시 확인 가능

Tyche

  • 실시간 음성 전처리용 네이티브 엔진 라이브러리
  • 빠른 지연, 안정성에 초점을 맞춘 기능 제공

구성요소

  • EPD : 발화 시작/종료를 시퀀스와 출력 버퍼 조회로 처리
  • Speex : 저비트레이트 음성 인코딩 파이프라인화
  • Wakeup : 키워드 감지 및 이벤트 관리

검증된 네이티브 품질 및 저지연 제공, 모듈화된 API 구조로 필요한 기능만 선택적 연동 가능

오늘 배운 것

  1. Java Application → Backend MVC 구조 변경

내일 할 일

참고자료

results matching ""

    No results matching ""