[Hos] 시계열 데이터

정의

시계열(time series) 데이터는 관측치가 시간적 순서를 가진 데이터이다.

이 데이터는 변수간의 상관성(correation)이 존재하는 데이터를 다루며, i.i.d, 연속(continous)하거나 불규칙적(irregular)데이터는 다루지 않는다.

시게열 데이터는 과거의 데이터를 통해서 현재의 움직임 그리고 미래를 예측하는데 사용된다.

일반적인 label데이터는 input과 label간의 상관관계를 다루는 반면에 시간에 따라 어떻게 움직이는 과거의 자료를 가지고 예측하게 된다.

즉, 시계열 데이터의 분석 목적은 시계열이 갖고 있는 법칙성을 발견해 이를 모형화하고, 추정된 모형을 통해 미래값을 forecasting하는 것.

위의 데이터는 AirPassengers 라는 데이터로 R에 기본적으로 내장되어있는 데이터이다.

x축은 Time이고, y축은 고객의 수를 의미하는 것으로 볼 수 있다. 여기서 label 데이터처럼 시간과 고객의 수 관계를 확인해보려는 것이 아니라 과거의 특정 시간(구간)의 데이터를 통해 미래를 예측한다.

그래서 시계역을 통해 추세(Trend), 계절성(Seanality), 랜덤(random)데이터 등 을 분석하고 앞으로 어떻게 될 것인지 예측해 볼 수 있다.

POS 구매자료 (불규칙적인 시차)
일일 코스피 주식 가격
월별/분기별/연도별 특정 사건의 수치 (규칙적인 시차) 등 일어나 사건의 데이터 값을 모은 데이터셋.

시계열 자려를 볼 때 유의해야할 점은 y축 노이즈 값의 영향력이라고 생각한다. 주기가 길 수록 영향을 많이 많으면 데이터로 부터 예측하기 힘들기 떄문이다.