AI 실습 특강
오늘 배운 것
자연어 처리
토큰화 방식 비교:
- 단어 : 직관적이지만 한계 명확
- 문자 : OOV 문제는 해결되지만 비효율적
- 서브워드 ( 현재의 표준 ) : jumping → jump+##ing=jumping
하지만 한국어 토큰화는 어렵다.
→ 단어와 조사의 끝없는 결합인 ‘교착어’ 특성 때문
→ 해결 방안: 한국어 특화 토큰화 3대 전략
- 형태소 분석 기반 토큰화
- 통계 기반 서브워드 토큰화
- 자소 단위 토큰화
BART (Biderectional and Auto-Regressive Transformers)
- BART는 양방향 transformer encoder와 자기회귀 디코더를 결합한 Seq2Seq 모델임
ROUGE 지표
- Rouge-1은 unigram, 단어 하나
- Rouge-2는 bigram, 단어 두 개
- Rouge-L은 Longest Common Subsequence
전이 학습(Transfer Learning)
- 이미 만들어진 거대 모델을 활용해 시간, 비용, 데이터를 획기적으로 절약함
- 적은 양의 데이터, 저비용으로 높은 성능을 보임
내일 할 일
경제 IT 기사 스크랩, AI 특강 실습 진행하기