정의
시계열(time series) 데이터는 관측치가 시간적 순서를 가진 데이터이다.
이 데이터는 변수간의 상관성(correation)이 존재하는 데이터를 다루며, i.i.d, 연속(continous)하거나 불규칙적(irregular)데이터는 다루지 않는다.
시게열 데이터는 과거의 데이터를 통해서 현재의 움직임 그리고 미래를 예측하는데 사용된다.
일반적인 label데이터는 input과 label간의 상관관계를 다루는 반면에 시간에 따라 어떻게 움직이는 과거의 자료를 가지고 예측하게 된다.
즉, 시계열 데이터의 분석 목적은 시계열이 갖고 있는 법칙성을 발견해 이를 모형화하고, 추정된 모형을 통해 미래값을 forecasting하는 것.
데이터
위의 데이터는 AirPassengers 라는 데이터로 R에 기본적으로 내장되어있는 데이터이다.
x축은 Time이고, y축은 고객의 수를 의미하는 것으로 볼 수 있다. 여기서 label 데이터처럼 시간과 고객의 수 관계를 확인해보려는 것이 아니라 과거의 특정 시간(구간)의 데이터를 통해 미래를 예측한다.
그래서 시계역을 통해 추세(Trend), 계절성(Seanality), 랜덤(random)데이터 등 을 분석하고 앞으로 어떻게 될 것인지 예측해 볼 수 있다.
시계열 자료의 종류
POS 구매자료 (불규칙적인 시차)
일일 코스피 주식 가격
월별/분기별/연도별 특정 사건의 수치 (규칙적인 시차) 등 일어나 사건의 데이터 값을 모은 데이터셋.
추세(Trend) : 추세라는 것은 말 그대로 경향을 의미한다.
시계열의 장기간에 걸친 점진적이고 지속 적인 변화 상태를 나타낸 것을 의미하며 시간의 흐름에 따른 시계열 자료들의 상승경향이나 하강경향의 상태를 의미한다.
세부적인 데이터를 다빼고 전체적으로 보았을 때 주식이 감소 하는지 증가하는지 대략적인 정보를 보여준다.
계절성(Seasonality) : 특정한 기간마다 어떤 패턴을 가지고 반복하는지 확인 할 수 있는 특성이다.
과측된 시계열 자료들을 일년 당위 혹은 더 짧은 기간의 주기로 기록했을 때 기후 등과 같은 자연의 조건, 사회적 관습, 혹은 제도등의 영향을 받아서 계절적인 차이를 나타내는 것이며 시계열 자료에서 주기적인 패턴을 갖고 반복적으로 나타나는 주기변동을 말한다.
보통 분기별, 월별 자료에서 나타난다.
이 데이터를 통해 앞으로 어떻게 변화할 것인지 예측할 수 있다.
랜덤(Random) : 노이즈(noise)라고도 불리는 이 데이터는 추세, 계절성 등으로 설명되지 않은 데이터를 의미한다. 이러현 데이트럴 가지고 예측하게 된다면, 예측의 오차가 커지기 때문에 전처리를 통해서 최대한 예측하는데 관여하지 않도록 하는 것이 중요하다.
시계열 자려를 볼 때 유의해야할 점은 y축 노이즈 값의 영향력이라고 생각한다. 주기가 길 수록 영향을 많이 많으면 데이터로 부터 예측하기 힘들기 떄문이다.