진박사의 일상

ADsP 3과목 - 3 본문

프로그래밍/ADsP

ADsP 3과목 - 3

진박사. 2021. 8. 22. 01:04

통계 분석의 이해

 

1. 통계 - 특정 집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현.

 

2. 통계자료 획득 방법

-1)총조사/전수조사 : 모두 조사 / 비용+시간 많이 소모 특별한 경우에만 사용

-2) 표본조사 : 모집단의 샘플을 추출해서 진행. 모집단(대상 집단 전체), 원소(모집단 구성 개체), 표본(추출한 모집단의 일부 원소), 모수(모집단에 대한 정보). 모집단 정의, 표본 크기, 조사 방법, 조사 기간, 표본 추출 방법 명시

 

3. 표본 추출 방법 4가지(N개의 모집단에서 nr개 추출) (**)

-1)단순랜덤 추출법 - 임의의 n개 추출, 선택될 확률 동일. (복원, 비복원 추출)

-2) 계통 추출법 - K(=N/n)개의 구간으로 나누고 구간별 마지막 항목을 선택하는 방법, 임의 위치의 k번째 항목을 추출하는 방법.

-3) 집락 추출법 - 군집(Cluster)를 구분하고 구닙별 단순 랜덤 추출법을 수행한 후 모든 자료를 활용하거나 샘플링(지역 표본 추출, 다단계 표본 추출)

-4) 층화 추출법 - 이질적인 원소로 구별된 모집단에서 각 계층을 고루 대표할 수 있도록 표본을 추출하는 방법. 유사한 원소끼리 몇개의 층(Stratum)으로 나눠 각 층에서 랜덤 추출.(비례 층화 추출법, 불비례 층화 추출법)

-5) 비확률적 추출 - 판단추출(전문 지식이 있는 연구자의 판단으로 표본 선택), 할당추출(모집단을 여러 집단으로 나눠 필요한 개수를 선택하되 연구자 판단에 따라 선택), 편의추출(연구자의 편의대로 추출)

 

4. 측정

-1)표본조사나 실험을 실시하는 과정에서 추출된 원소들이나 실험 단위로부터 주어진 목적에 적합하도록 관측해 자료를 얻는것

-2) 측정 방법(척도), 자료의 종류(***)

질적척도(범주형자료, 숫자의 크기 차이가 계산되지 않는 척도)

--명목척도 : 측정 대상이 어느 집단에 속하는지 분류할 때 사용 (성별, 출생지 등)

--순서 척도 : 측정 대상의 서열 관계를 관측하는 척도 (만족도, 선호도, 학년, 신용등급 등)

양적척도(수치형자료, 숫자의 크기 차이를 계산할 수 있는 척도)

--구간 척도 : 측정 대상이 갖고 있는 속성의 양을 측정하는 것, 구간과 구간의 간격이 의미 있는 자료 (온도, 지수 등)

--비율 척도 : 간격에 대한 비율이 의미를 가지는 자료, 절대적 기준(0)이 존재하고 사칙 연산이 가능하며, 제일 많은 정보를 가지는 척도 (무게, 나이, 시간, 거리 등)

 

5. 통계분석

-정의 : 불확실한 현상을 대상으로 자료 수집해 정보를 구하고 적절한 통계 분석 방법을 이용해 의사결정을 하는 과정

-기술통계 : 주관을 배재하고 통꼐 집단의 특성을 수량화하여 객관적 데이터로 나타내는 통계 방법론. 샘플 특성인 평균, 표준편차, 중위수, 최빈값, 그래프, 왜도, 첨도 등을 구하는 것.

-통계적추론(추론통계학) : 모수추정(표본집단으로부터 모집단의 특성인 모수를 분석하여 모집단을 추론) -> 가설검정(대상집단에 대한 가설을 설정후 그 가설이 옳은지 그른지에 대한 채택여부를 결정하는 방법론) -> 예측(미래의 불확실성을 해결해 효율적 의사결정을 하기 위해 활용)

 

6. 확률

확률 : P(사건) = n(사건)/n(표본공간) / 표본공간(Ω) : 모든 결과의 집합, 사건 : 표본공간의 부분집합, 원소 : 개별의 결과

확률변수 : 특정값이 나타날 가능성이 확률적으로 주어지는 변수 (정의역=표본공간, 치역=0~1), 연속형 확률변수와 이산형 확률변수로 구분.

확률변수의 기대값 : E(x) /  k차 적률 : (Ex^k) / k차 중심적률 : E[(X-평균)^k)]

특징 : E(aX+b) = aE(X) + b / Var(aX+b) = a^2Var(X)

모분산 = 2차 중심적률 = 2차적률 - 1차적률^2

A와 B가 동시 발생 가능시

덧셈정리(배반사건X) - P(A합B) = P(A) + P(B) - P(A교B) / 조건부확률(P(A|B)) = P(A교B)/P(B)

덧셈정리(배반사건) - P(A합B) = P(A) + P(B)

A와 B가 독립사건일 시

곱셈정리 : P(A교B) = P(A)P(B) / 조건부확률(P(A|B)) = P(A)

 

7. 확률분포

1)이산형 확률분포 : 0이 아닌 확률갓ㅂ을 갖는 확률 변수를 셀수 있는 경우(확률질량함수)

-1. 베르누이 확률분포 : 결과가 2개만 나오는 경우 / P(X=x) = p^x(1-p)^x / E(x)=p, var(x) = p(1-p)

예) A가 안타를 칠 확률

-2. 이항분포 : 베르누이 시행을 n번 반복했을 때 k번 성공할 확률 / P(X=k) = nCkP^k(1-p)^k / x~Bn,p), E(x) = np, var(x) = np(1-p) / 성공확률 p가 0이나 1 근처가 아니고 n이 충분히 크면 정규분포에 가까워짐 -> 종모양

예) A가 5번의 타석에서 3번의 안타를 칠 확률(n=5, k=3, p=타율)

-3. 기하분포 : 성공확률이 p인 베르누이 시행에서 첫번째 성공이 있기까지 x번 실패할 확률

예) A가 5번의 타석에서 3번째에 안타를 칠 확률

-4. 다항분포 : 이항분포를 확장해서 세가지 이상의 결과를 가지는 반복 시행에서 발생하는 확률

예) 가위바위보를 5번 해서 3번 비길 확률(p=0.5)

-5. 포아송분포 : 시간과 공간 내에서 발생하는 사건의 발생횟수에 대한 확률 분포

p(y) = 람다^y/y! * e^(-람다) / 람다 : 정해진 시간 안에 어떤 사건이 일어날 횟수에 대한 기대값, y : 사건이 일어난 수

예) 책에 오타가 5page 당 10개씩 나온다고 할 때 한 페이지에 오타가 3개 나올 확률, A가 최근 5경기에서 10개의 홈런을 쳤을 경우 이번 경기에서 홈런을 칠 확률

 

2)연속형 확률분포 : 가능한 값이 실수의 어느 특정구간 전체에 해당하는 확률변수(확률밀도함수)

-1. 균일분포 : 모든 확률변수 X가 균일한 확률을 가지는 확률 분포 (ex 다트)

-2. 정규분포 : 표준밀도함수가 특정한 함수. 종모양. 표준편차가 클 경우 퍼져보임.

표준정규분포는 평균=0, 표준편차=1인 정규분포 -> 정규분포를 표준정규분포로 바꾸려면 Z=(X-평균)/표준편차 이용

-3. 지수분포 : 어떤 사건이 발생할 때까지 결과 시간에 대한 연속확률분포 f(x) = e^(-람다)

ex) 전자레인지 수명 시간, 버스가 올 때까지의 시간

-4. T분포 : 표준정규분포같이 평균이 0 중심으로 좌우가 동일한 분포. 표본수가 적으면 표준정규분포를 눌러 놓은 것 같은 형태지만 표본이 커지면(30개 이상)/자유도가 커지면 거의 같은 분포가 됨. 데이터가 연속형일때 활용. 두 집단의 평균이 동일한지 알고자 할 때 검정통계량으로 활용.

-5. x²-분포(카이제곱분포) : 모평균과 모분산이 알려지지 않은 모집단의 모분산에 대한 가설 검정에 사용되는 분포. 두 집단 간의 동질성 검정에 활용

-6 F-분포 : 두 집단간 분산의 동일성 검정에 사용되는 검정통계량의 분포. 확률변수는 항상 양의 값만을 갖고 카이제곱분포와 달리 자유도를 2개 가지고 있으며 자유도가 커질수록 정규분포에 가까워진다.

 

8. 추정

1)확률표본 : 특정 확률분포로부터 독립적으로 반복해 표본 추출. 각 관찰값들은 독립적이며 동일한 분포

2)추정 / 좋은 추정량이 되기 위한 조건(***) :

추정이란 미지의 모수를 추정하는 것.

(1)불편성 : 추정량의 기댓값이 모수의 값과 같아야 한다 (불편 추정량)

(2)효용성 : 추정량의 분산이 될 수 있는 대로 작아야 한다 (최소분산 추정량)

(3)충족성 : 표본자료에 내재된 모든 정보를 활용할 수 있도록 정의된 추정량. 충족성은 효율성의 필요조건

(4)일관성 : 표본의 크기가 커짐에 따라 표본오차가 작아져야 한다.

3) 점추정 : 모수가 특정한 값인 추정, 표본의 평균, 중위수, 최빈값 등을 사용

4) 구간추정 : 일정한 크기의 신뢰 수준으로 모수가 특정한 구간에 있는 것이라고 선언하는 것. 항상 추정량의 분포에 대한 전제가 주어지며 구간 내 모수가 있을 가능성의 크기(신뢰수준)이 주어져야 함. ex)신뢰수준 95%

 

9. 가설검정

모집단에 대한 어떤 가설을 설정한 뒤 표본 관찰을 통해 그 가설의 채택여부를 결정하는 분석방법

귀무가설이 옳다는 전제하에 검정통계량 값을 구한 후 이 값이 나타날 가능성 크기에 의해 채택 여부 결정

-귀무가설 : 비교하는 값과 차이가 없다, 동일하다를 기본으로 한 가설

-대립가설 : 뚜렷한 증거가 있을 때 주장하는 입증하려는 가설.

-검정통계량 : 관찰된 표본으로부터 구하는 통계량, 검정 시의 가설의 진위를 판단하는 기준

-유의수준 : 귀무가설을 기각하게 되는 확률의 크기. 1종 오류의 최댓값.

-유의확률 : 관측된 검정통계량의 값보다 대립가설을 지지하는 검정통계량이 더 나올 확률

-기각역 : 귀무가설이 옳다는 전제 하의 검정통계량의 분포에서 확률이 유의수준 a인 영역. (반대는 채택역) 계산된 검정통계량의 유의성을 판정하는 기준

-1종 오류(alpha error) : 귀무가설 H0이 옳은데 틀렸다고 판정하는 오류

-2종 오류(beta error) : 귀무가설 H0이 틀린데 맞다고 판정하는 오류

--일반적으로 1종 오류와 2종 오류는 상충관계라서 1종 오류의 최대 허용치를 특정값(0.1, 0.05 등)으로 정해둔 후 2종 오류가 최소가 되도록 기각역을 선정

ex) 'S사의 남자 사원 평균키(182cm)는 대한민국 남성 평균 키(172cm)보다 크다' 의 가설 검정일 때

귀무가설H0 = '평균=172' / 대립가설H1 = '평균>172', 모집단은 표준편차가 5인 정규분포

유의수준(0.05)에서 임계값은 N(172,5)~Z 표준정규분포에서 95%인 180.2 -> 182>180.2 이므로 귀무가설은 기각 -> 따라서 가설을 채택

 

10. 비모수 검정(**)

1) 모수적 방법 : 검정하고자 하는 모집단의 분포에 대한 가정을 하고 그 가정하에 검정통계량과 그 분포를 유도해 검정을 실시. 표본평균, 표본분산 등을 이용해 검정.

2) 비모수적 방법 : 추출된 모집단의 분포에 대한 아무런 제약을 가하지 않고 검정을 실시하는 방법. 관측 자료가 특정 분포를 따른다고 가정할 수 없는 경우, 관측 자료수가 많지 않거나(30이하), 자료가 개체간의 서열관계를 나타내는 경우 이용. 가정된 분포가 없으므로 분포의 형태에 대해 설정. 관측값의 순위나 두 관측값 사이의 부호 등을 이용해 검정.

3)비모수 검정의 예 : 부호검정, 윌콕슨의 순위합검정, 윌콕슨의 부호순위합검정, 만-위트니의 U 검정, 런 검정, 스피어만의 순위상관계수

 

 

기초 통계분석

1. 기술통계 : 자료의 특성을 표, 그림, 통계량 등을 사용해 쉽게 파악할 수 있도록 정리/요약 하는 것.

2. 통계량에 의한 자료 정리 -

중심위치의 측도

-자료, 표본평균, 중앙값

산포의 측정

-분산, 표준편차, 사분위수법위(IQR), 사분위수, 백분위수

-변동계수(V=표준편차/표본평균), 평균의 표준오차(SE(X)=S/root(n))

분포 형태에 관한 측도

-왜도(분포의 비대칭정도. m3(>0:좌밀집(평균<중앙<최빈), =0:대칭(최빈=중앙=평균), <0:우밀집(최빈<중앙<평균)

-첨도(분포 중심의 뾰족한 정도. 표준정규분포보다 뾰족하면 +, 완만하면 -, 유사하면 0)

3. 그래프를 이용한 자료정리

1) 히스토그램 : 도수분포표를 그래프로 나타낸 것, 계급의 수와 간격(=(최대-최소)/계급수)이 변하면 모양 변화

2) 막대그래프 vs 히스토그램 : 막대그래프는 범주형 데이터 표현하고 순서를 의도에 따라 변경 가능, 히스토그램은 연속형 데이터 표현하고 순서대로 나타내고 막대간격X

3) 상자그림(박스플롯) : 사분위수범위(Q3-Q1), Inner fence(Q1-1.5*IQR, Q3+1.5*IQR)(outer는 1.5대신 3), 보통이상점(inner와 outer 사이 자료), 극단이상점(outer 밖 자료)

 

4. 인과관계

1)종속/독립 변수 : 영향을 받는/주는 변수

2) 산점도 : 두 변수간의 상관관계를 보는 그래프. 선형관계 성립 여부, 함수관계(곡선 포함) 성립 여부, 이상값 존재 여부, 집단 구분 여부 확인. 

3) 공분산 : 두 확률변수 X, Y의 방향의 조합(선형성), 공분산이 +이면 양의 방향성, -이면 음의 방향성, 0이면 독립

 

5. 상관분석

두 변수간의 관계의 정도를 알아보기 위한 분석 방법

상관계수 r(-1~1)이 1에 가까울수록 양의 상관관계, -1에 가까울수록 음의 상관관계, 0이면 무관계(선형 관계X)

유형 - 피어슨 vs 스피어만

피어슨 : 등간척도 이상으로 측정된 두 변수들의 상관관계 측정 방식, 연속형변수, 정규성 가정, 피어슨 상관계수(감마)

스피어만 : 서열척도두 변수들의 상관관계 측정 방식, 순서형변수, 비모수적, 순위상관계수(로우)

상관계수 검정(상관분석의 가설검정) : 귀무가설 : 상관계수=0이다, 대립가설 : 0이 아니다

 

6. 회귀분석

1)정의 : 하나나 그 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계 기법. 독립변수의 개수에 다라 단순선형-, 다중선형- 

 

2) 영향을 받는 변수(y) = 반응변수, 종속변수, 결과변수 / 영향을 주는 변수(x) = 설명변수, 독립변수, 예측변수

 

3)선형회기분석의 가정

-선형성 : 입력, 출력 관계가 선형

-등분산선 : 오차의 분산이 입력 변수와 무관하게 일정. 산점도 활용해 잔차와 입력 변수간에 관련석이 없이 무작위

-독립성 : 입력변수와 오차는 관련 X. 자기상관(독립성) 알아보기 위해 Durbin-Watson 통계량 사용(시계열)

-비상관성 : 오차들끼리는 상관이 없다

-정상성(정규성) : 오차의 분포는 정규분포를 따른다.

 

4)단순선형회귀분석

yi = β0 + β1xi + εi (i=1,2,...n)

yi, xi = i번째 종속변수 값, 독립변수 값

β0, β1 = 선형 회기식의 절편과 기울기값

εi = 오차항. 독립적이며 N(0,σ^2)의 분포를 이룸

 

5)회귀 분석에서 검토할 사항

-회귀계수들이 유의미한가? - 회귀계수의 t값의 유의확률(p-value)가 0.05보다 낮다면 유의미하다

-모형이 얼마나 통계적으로 유의미한가? - F분포값과 유의확률로 확인한다.

-모델이 얼마나 설명력을 갖는가? - 결정계수(R^2 / 0~1 사이값)를 확인. 높을수록 설명력이 높다

-모델이 데이터에 잘 적합하고 있는가? - 잔차 통계량을 확인하고(잔차 그래프로 그리고) 회귀 진단을 한다.

 

6) 회귀계수의 추정, 검정

추정(최소제곱법, 최소자승법) - 측정값을 기초로 적당한 제곱합을 만들고 그것을 최소로 하는 값을 구하여 측정 결과를 처리하는 방법. 잔차제곱이 가작 작은 선을 구하는 것을 의미함.

검정 - 회귀계수β1이 0이면 x,y 인과관계 없고 추정식은 의미가 없게 됨.

 

7)결정계수(R^2)

전체제곱합(SST), 회귀제곱합(SSR), 오차제곱합(SSE)

R^2 = 회귀제곱합/전체제곱합(SSR/SST)(0~1) / 단순회귀분석에서는 상관계수의 제곱

 

8) 회귀분석 종류

단순선형회귀 - 독립변수 1개, 종속변수와 관계가 직선

다중선형회귀 - 독립변수 k개, 종속변수와 관계가 직선

로지스틱 회귀 - 종속변수가 범주형(2진변수)일 경우 적용, 단순로지스틱, 다항로지스틱으로 구별

다항회귀 - 독립변수와 종속 변수와의 관계가 1차함수 이상인 관계

곡선회귀 - 독립변수가 1개이며 종속변수와의 관계가 곡선

비선형회귀 - 회귀식의 모양이 미지의 모수들의 선형관계로 이뤄지지 않은 모형(ex 지수꼴 함수)

 

9) 다중공선성

다중회귀분석에서 예측변수 사이에 선형관계가 존재하면 회귀 계수의 분산을 증가시켜 정확한 추정이 곤란해짐. vif함수로 VIF 값을 구해서 값이 10을 넘으면 다중공산성이 존재한다고 봄. -> 해결방안 : 높은 상관관계까 있는 예측 변수를 모형에서 제거

 

10) 예시

 

> set.seed(2)
> x=runif(10,0,11)
> y=2+3*x+rnorm(10,0,0.2)
> dfrm <- data.frame(x,y)
> dfrm
           x         y
1   2.033705  8.127599
2   7.726114 25.319934
3   6.306590 20.871829
4   1.848571  7.942608
5  10.382233 33.118941
6  10.378225 33.218204
7   1.420749  6.458597
8   9.167937 29.425272
9   5.148204 17.236677
10  6.049821 20.505909
> lm(y~x, data=dfrm)

Call:
lm(formula = y ~ x, data = dfrm)

Coefficients:
(Intercept)            x  
      2.213        2.979

(임의의 선형 관계를 가지는 x, y를 생성해서 단순 선형 분석 예시)

> u<-runif(10,0,11)
> v<-runif(10,11,20)
> w<-runif(10,1,30)
> y=3 + 0.1*u + 2*v -3*w + rnorm(10,0,0.1)
> dfrm<-data.frame(u,v,w,y)
> dfrm
           u        v         w         y
1  0.1145598 19.83555  1.206162  39.13797
2  1.8110647 13.67310  1.426123  26.28083
3  8.9121136 12.03576 20.818699 -34.38576
4  9.5574714 12.46881 27.961886 -55.02071
5  5.6570994 19.49638  8.986635  15.52089
6  6.8991592 18.15377 24.543931 -33.69389
7  9.2887190 19.77219 23.790488 -28.07081
8  3.1335763 14.14180 29.678163 -57.52780
9  7.3394821 15.51773 18.804634 -21.70040
10 1.6551673 18.29358 21.595386 -25.05814
> lm(y~u+v+w,data=dfrm)

Call:
lm(formula = y ~ u + v + w, data = dfrm)

Coefficients:
(Intercept)            u            v            w  
    3.32894      0.09613      1.98409     -3.00434

(임의의 선형 관계를 가지는 x, y를 생성해서 다중 선형 분석 예시)

> m<-lm(y~u+v+w,data=dfrm)
> summary(m)

Call:
lm(formula = y ~ u + v + w, data = dfrm)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.06635 -0.04480 -0.01438  0.03646  0.09493 

Coefficients:
             Estimate Std. Error  t value Pr(>|t|)    
(Intercept)  3.328942   0.146079    22.79 4.68e-07 ***
u            0.096127   0.008004    12.01 2.02e-05 ***
v            1.984093   0.007632   259.96 2.19e-13 ***
w           -3.004337   0.002705 -1110.63  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.06771 on 6 degrees of freedom
Multiple R-squared:      1,	Adjusted R-squared:      1 
F-statistic: 7.241e+05 on 3 and 6 DF,  p-value: < 2.2e-16

(위의 다중회기분석을 검정한 결과. p값이 0.05보다 낮으므로 유의미하고, 결정계수는 1이 나와 데이터를 적절하게 설명하고 있다.)

plot(m)으로 잔차그래프(모델진단그래프)를 볼 수 있다. Residuals vs Fitted는 잔차(기울기 0인 직선이 이상적), Normal Q-Q는 잔차의 정규분포 따르는지에 대한 여부, Scale-Location은 y축이 표준화잔차를 나타냄, Cook's Distance는 1값이 넘어가면 관측치를 영향점으로 판별.

 

10. 최적회귀방정식

1) 설명변수 선택 : 필요한 변수만 상황에 따라 타협. y에 영향을 미칠 수 잇는 모든 설명변수 x들을 y 값 예측에 참여하되 x가 많아지면 관리에 노력이 요구되므로 최소한의 수 포함

2) 모형 선택 : 분석 데이터에 가장 잘 맞는 모형을 찾기 위해 모든 가능한 독립변수들의 조합에 대한 회귀모형을 고려해 AIC나 BIC가 최소가 되는 가장 적합한 회귀 모형을 선택.

3) 단계적 변수선택

전진선택법(절편만 있는 상수 모형에서 시작해 중요하다고 생각하는 설명변수부터 차례로 추가)

후진제거법(독립변수 후보 모두를 포함한 모형에서 출발해 가장 적은 영향을 주는 변수부터 하나씩 제거해나감)

단계선택법(전진선택법에 의해 변수를 추가하며 추가한 변수 때문에 기존 변수 중요도 약화시 제거)

-> F통계량 및 p값이 유의수준 5% 아래일 때 통계적으로 유의하고 설명변수가 유의하므로 그렇게 될 때까지 유의확률이 높은 순서대로 제거해준다.

 

11. 정규화 선형회귀(*)

1) 정규화(***) : 좋은 모델이란 학습데이터를 잘 설명하고(MSE가 최소), 훈련데이터에 대한 에측 성능이 우수한 모델, MSE의 기댓값=error + Bias^2 + Variance 이므로 Bias랑 Variance를 감소시키는 것이 관건 -> but Bias랑 Variance는 trade off관계임. 회귀분석의 최소제곱법은 bias를 줄이는 모델이므로 Variance가 커짐(overfitting) -> variance를 줄이기 위한 방법

-> 베타계수에 제약을 주어 모델 변화를 줌. 정규화 모형을 조정하는 하이퍼파라미터인 람다 값이 작으면 제약이 적어 overfitting, 커지면 제약이 많아져 underfitting(선형회귀화)이 된다.

2) 패널티 크기를 조절하는 람다와 패널티 함수

-릿지회귀 - L2Norm, 변수 선택 불가능, 변수간 상관관계가 높은 상황에서 좋은 예측 성능

-라쏘회귀 - L1Norm, 변수 선택 가능,변수간 상관관계가 높은 상황에서 릿지보다 상대적으로 예측 성능 떨어짐

-엘라스틱넷 - L1+L2Norm, 변수 선택 가능, 상관 관계까 큰 변수를 동시에 선택/배제하는 특성

 

12. 시계열 분석

1) 시계열 자료 종류

-비정상성 시계열자료 - 시계열 분석을 실시할 때 다루기 어려운 자료로 대부분이 이에 해당

-정상성 시계열 자료 - 비정상 시계열 자료를 핸들링해 다루기 쉬운 시계열 자료로 변환한 것

2) 정상성

- 정의 : 시계열의 수준과 분산에 체계적인 변화가 없고 엄밀한 주기적 변동이 없다는 것으로, 미래는 확률적으로 과거와 동일하다는 것

- 정상성의 조건(정상화 방안) :

(1) 평균값이 시간 t에 관계없이 일정 (일정하지 않으면 차분을 통해 정상화)

(2) 분산값이 시간 t에 관계없이 일정 (일정하지 않으면 변환을 통해 정상화)

(3) 공분산은 시간 t에 의존하지 않고 오직 시차에 의존한다.

3) 시계열자료 분석방법

-방법 : 회귀분석, Box-Jenkins 방법, 지수평활법, 시계열 분해법 등

-자료 형태에 따른 분석 방법

(1) 일변량 시계열 분석 - Box-Jenkins(ARMA), 지수평활법, 시계열분해법 등

(2) 다중 시계열 분석 : 계량경제 모형, 전이 함수 모형, 개입 분석, 상태공간 분석, 다변량 ARIMA 등

-이동평균법의 개념/특징 : 일정기간별 이동평균을 계산하고 추세를 파악해 다음 기간을 예측/간단하고 쉽게 예측 가능(자료 많고 안정된 패턴일 경우 품질 높음), 적절한 기간을 사용하는 것이 중요

-지수평활법의 개념/특징 : 모든 시계열 자료를 사용해 평균으르 구하며 시간의 흐름에 따라 최근 시계열에 더 많은 가중치를 부여하여 예측/단기간 발생하는 불규칙 변동을 평활, 지수평활계수(과거로 갈수록 작아짐)는 불규칙변동이 작으면 큰 값을 적용

4)시계열 모형

-1. 자기회귀모형(AR) : 자기 자신의 과거 값을 사용(p 시점 전의 자료가 현재 자료에 영향을 주는 모형)

현시점의 시계열 자료에 몇 번째 전 자료까지 영향을 주는지에 따라 AR(1) - 직전 자료만 영향, AR(2) - 연속 3시점 자료 영향. 자기상관함수(ACF)는 빠르게 감소, 부분자기함수(PACF)는 어느 시점에서 절단점을 가짐.

-2. 이동평균모형(MA) :최근 데이터의 평균을 예측치로 활용하는 방법. 몇개의 데이터로 평균을 내는지에 따라 MA(1), MA(2) 등으로 나뉨. 유한 개수의 백색잡음의 결합이므로 언제나 정상성 만족

-3. 자기회귀누적이동평균모형(ARIMA) : 비정상시계열 모형이라 많은 시계열 자료에 이 모형을 따름. 차분이나 변환을 통해 AR, MA, ARMA 모델로 정상화 가능. p(AR모형 관련),d,q(MA모형 관련)의 모수를 가지며 d번 차분하면(d=0) ARMA모델(정상성 만족) / p=0이면 IMA(d,q)모형이고 이를 d번 차분하면 MA(q) / q=0이면 ARI(p,d) 모형, d번 차분하면 AR(p) 모형.

-4. 분해 시계열(**) - 시계열에 영향을 주는 일반적 요인을 시계열에서 분리해 회귀분석으로 분석

(1)추세요인 - 자료가 오르내리는 형태 / (2)계절요인 : 계절 등 고정된 주기에 따라 변화할 경우 / (3) 순환요인 : 이유를 알수 없는 주기를 따라 자료가 변환할 때 / (4) 불규칙요인 : 1~3으로 설명할 수 없는 요인

-5. ARIMA 모델 적합 및 결정 : 자기상관함수와 부분자기상관함수를 통해 ARIMA 모형을 적합한 후에 최종 모형을 결정. acf 함수와, pacf 함수를 이용해 절단점을 찾음(점선을 벗어나는 점)

-> 후보 모델 : ARMA(0,acf함수의 절단점-1) = MA(acf함수의 절단점-1) / ARMA(pacf함수의 절단점 -1, 0) = AR(pacf함수의 절단점-1) / ARMA(p,q) =AR+MA -> forecaste package의 auto.arima() 함수로 적절한 모형 찾기 -> 예측

 

13. 다차원척도법(*)

정의 : 객체간 근접성을 시각화하는 통계 기법 / 군집분석과 같이 개체의 변수를 측정해 유사성/비유사성을 측정해 2차원 공간 상에 점으로 표현.

목적 : 데이터 속 잠재 패턴, 구조 찾기. 그 구조를 기하학적으로 표현 . 데이터축소 목적으로 활용.

방법 : 개체간 거리는 유클리드 거리행렬 활용. 정확도 높이기 위해 적합 정도를 스트레스 값으로 나타냄.

종류 : 계량적 MDS(구간척도나 비율척도인 경우 활용) / 비계량적 MDS(순서척도인 경우 활용)

 

14. 주성분분석(***)

1)정의 : 여러 변수의 변량을 "주성분"이라는 서로 상관성이 높은 변수들의 선형 결합으로 만들어 상관성이 높은 변수를 요약, 축소하는 기법

2)목적 : 소수의 주성분으로 차원 축소->관리 쉽게 / 다중공선성이 있으면 상관성 없는 주성분으로 변수 축소해 모형 개발에 활용. / 차원 축소 후 군집분석하면 결과와 연산속도 개선

3) 주성분분석 vs 요인분석 : 공통점-데이터 축소에 활용. 차이점-생성변수의 수(무한정/대개1~3), 생성 변수의 이름(요인분석은 요인 이름 명명, 주성분분석은 제n주성분으로 표현), 생선 변수간 관계, 분석 방법의 의미

4) 주성분의 선택 기준 (몇개를 고를지 중요)

-성분들이 설명하는 분산의 비율(주성분이 설명하는 총 분산 비율(누적기여율)이 70~90% 사이인 것을 고름)

-고윳값을 이용해 주성분 수 결정 가능.(고윳값 1 이상만 사용) Scree plot 사용해 고윳값 순서로 정렬해 선택

 

 


하... 많네... 이해 안되네 끙 ㅠㅠ

'프로그래밍 > ADsP' 카테고리의 다른 글

ADsP 3과목 - 4  (0) 2021.08.24
ADsP 3과목 - 2  (0) 2021.08.10
ADsP 3과목 - 1  (0) 2021.08.08
ADsP 2과목 정리(마지막)  (0) 2021.08.06
[TIL] 21.08.03 - ADsP 공부  (0) 2021.08.03