2025-10-19
오늘 배운 것
선형 회귀 (Linear Regression)
1) 선형회귀란 무엇인가
- 정의: 입력(X)과 출력(Y) 사이의 관계를 직선 형태로 근사하여 예측하는 통계적 방법
- 성격: 지도학습의 가장 기초이자 실무에서도 매우 자주 사용
- 질문에 답한다
- 광고비와 매출은 선형관계가 있는가?
- 어느 요인이 매출에 영향을 주는가?
- 미래 매출 예측은 가능한가?
2) 단순선형회귀 (Simple Linear Regression)
- 설명변수 X가 하나일 때 Y와 직선 관계를 추정
- 최적 직선은 최소제곱법(Least Squares) 로 찾음
-
목표:RSS=∑(yi−yi^)2 를 최소화
RSS=∑(yi−yi^)2 를 최소화RSS = \sum (y_i - \hat{y_i})^2 \ \text{를 최소화}
-
- 단순하지만 직관적이며, 관계 해석이 명확
3) 다중선형회귀 (Multiple Linear Regression)
- 설명변수 X가 여러 개일 때 사용
-
모형:Y=β0+β1X1+⋯+βpXp+ϵ
Y=β0+β1X1+⋯+βpXp+ϵY = \beta_0 + \beta_1X_1 + \cdots + \beta_pX_p + \epsilon
- 목적: 여러 요인을 동시에 고려하여 Y를 설명하고 예측
4) 선형회귀에서의 주의사항
(1) 성능 검증은 반드시 “훈련 외 데이터”로
- 훈련 데이터 적합 = 테스트 성능 보장 아님
- 교차검증/홀드아웃 필수
- 선형회귀도 과적합 가능
(2) 회귀 계수 해석 주의
- 변수들 간 상관이 높으면(다중공선성) 계수 해석 왜곡
- 선형관계 = 인과관계 아님
- 아이스크림 소비량 ↗ — 상어 공격사건 ↗ (공동원인 = 여름/온도)