2025-10-16
오늘 배운 것
지도학습(Supervised Learning)의 개념과 구성
주제: AI & 기계학습 기초 (2) — 지도학습이란 무엇인가?
출처: 「AI & 기계학습 기초 2 - 지도학습은 무엇인가」 AI__기계학습_기초_2_-_지도학습은_무엇인가
1️⃣ 지도학습의 개념
● 정의
- 지도학습(Supervised Learning) 은 입력(특성, Feature)과 정답(라벨, Label)이 쌍으로 주어지는 데이터를 기반으로 학습한다.
- 목표는 새로운 입력에 대해 올바른 정답을 예측할 수 있는 규칙을 학습하는 것.
● 지도학습의 두 가지 유형
| 구분 | 예측값 형태 | 예시 |
|---|---|---|
| 회귀(Regression) | 연속적인 수치 | 가격, 점수, 온도 |
| 분류(Classification) | 범주형 값 | 스팸/정상, 질병 유무 |
2️⃣ 주요 용어
| 용어 | 설명 | 예시 |
|---|---|---|
| Feature (x) | 예측에 사용되는 설명 변수 | {지역, 평수, 방수, 연식} |
| Label (y) | 모델이 맞춰야 하는 정답 | {집값, 스팸 여부} |
| Prediction (ŷ) | 모델이 출력한 예측값 | 예측된 가격 |
| Error (E) | 실제값과 예측값의 차이 | ŷ - y |
3️⃣ 회귀(Regression)
● 회귀 문제란?
입력으로부터 숫자형 결과를 예측하는 문제.
예) 광고비(입력) → 매출액(출력)
● 평균제곱오차(MSE)
MSE=1n∑(yi−yi^)2MSE = \frac{1}{n} \sum (y_i - \hat{y_i})^2
MSE=n1∑(yi−yi^)2
- 큰 오차에 더 큰 패널티를 주는 오류 측정 방식
- 단위가 커서 비교가 어려울 때는 RMSE (제곱근 MSE) 사용
● 결정계수(R²)
- 라벨의 분산 중 모델이 설명할 수 있는 비율
- 0~1 사이의 값으로 표현 (1에 가까울수록 좋음)
- 단, 예측값이 평균값보다도 못하면 R² < 0 가능
4️⃣ 분류(Classification)
● 개념
입력으로부터 범주형 결과를 분류하는 문제.
예) 메일 내용/보낸이 → 스팸 or 정상
● 정확도(Accuracy)
Accuracy=맞춘 데이터전체 데이터Accuracy = \frac{맞춘\ 데이터}{전체\ 데이터}
Accuracy=전체 데이터맞춘 데이터
- 단점: 불균형 데이터에서는 신뢰하기 어려움
- 예: 양성 1%, 음성 99%일 때 → 전부 음성으로 예측해도 99% 정확도
● 혼동행렬(Confusion Matrix)
| 실제\예측 | 양성 | 음성 | | — | — | — | | 양성 | TP (정탐) | FN (누락) | | 음성 | FP (오탐) | TN (정음) |
- 정밀도 (Precision) = TP / (TP + FP)
- 재현율 (Recall) = TP / (TP + FN)
- F1-score = 2 × (Precision × Recall) / (Precision + Recall)
5️⃣ 학습의 목적: 일반화 (Generalization)
- 모델의 성능은 새로운 데이터(테스트 데이터)에서 평가해야 함.
- 학습 데이터에서만 성능이 좋다면 실전에서는 실패할 수 있음.
- 즉, “훈련 오류 ↓ + 테스트 오류 ↓” 를 동시에 목표로 해야 함.
6️⃣ 오버피팅(Overfitting)과 언더피팅(Underfitting)
| 구분 | 원인 | 증상 | 해결책 | | — | — | — | — | | 오버피팅 | 모델이 너무 복잡함 | 훈련 오류 ↓, 테스트 오류 ↑ | 데이터 확장, 교차검증, 정규화 | | 언더피팅 | 모델이 너무 단순함 | 훈련/테스트 오류 모두 높음 | 모델 복잡도 증가, 학습 강화 |
-
오버피팅 오해: 분포 변화(distribution shift)로 인한 성능 저하는 오버피팅과 다름.
(예: 환경 변화, 계절, 센서 교체 등)