반응형
결론: 시계열에서 비정상성을 제거하려는 목적이라면 ‘잔차(residual)’ 대신 ‘편차(deviation)’를 사용하면 안됩니다.
이유는 편차는 비정상성을 제거하지 못하고, 잔차는 비정상성의 원인을 제거한 후 남는 신호이기 때문입니다.
1) “편차(deviation)”는 무엇인가?
편차 = 각 값에서 “전체 평균”을 뺀 값
문제는 이것입니다:
✔ 편차는 **평균이 일정한 데이터(정상성)**라는 전제를 필요로 한다
- 비정상 시계열은 보통 시간에 따라 평균이 변합니다(트렌드, 계절성).
- 그런데 편차는 단지 “전체 평균” 한 번 빼줄 뿐이기 때문에, 시간에 따라 바뀌는 패턴을 제거해 주지 못합니다.
즉,
편차는 트렌드도, 계절성도 제거하지 못합니다. 시계열이 비정상이라면 편차를 써도 비정상은 그대로 남습니다.
2) “잔차(residual)”는 무엇인가?
잔차 = 모델이 설명한 부분을 제거한 후 남은 값
✔ 잔차는 데이터에서 비정상성(트렌드·계절성)을 제거한 상태가 된다
즉,
잔차는 평균이 일정하고 분산이 비교적 안정된 정상 시계열을 얻기 위한 방법입니다.
3) 편차는 언제 사용하는가?
편차(평균 중심화)는 회귀나 PCA 같은 일반 머신러닝 전처리에서 쓰는 개념이지, 시계열 비정상성 제거 용도는 아닙니다.
- 단순히 스케일링을 위해 사용하는 것일 뿐
- 시간에 따른 패턴 제거 기능은 없음
4) 잔차를 쓰면 좋은 점
- 시계열 분해(STL, X11 등) → 잔차 = 비정상 요소 제거
- ARIMA 학습 시 필수인 “정상성”을 만족시키기 쉬움
- 외생변수 영향 제거(회귀 후 잔차 사용)
- 계절성 제거 필수 분석(매출, 트래픽 등에서 매우 중요)
5) 핵심 결론
편차는 전체 평균만 제거하므로 비정상성 제거에 효과가 없다.
잔차는 트렌드·계절성·구조적 패턴을 제거하여 정상성에 근접한 데이터를 만든다.
그래서 시계열의 정상화를 목표로 한다면 반드시 **잔차(residual)**를 사용해야 합니다.
반응형
