728x90

SBA아카데미 4

[Python] 상관 분석(산점도, 상관계수) - Pearson, Spearman, Kendall

상관분석(Correlation Analysis) 상관분석은 쉽게 말하면 직선(선형)의 관계가 있는지 분석하는 것이다.상관분석에서 알아야 할 점은 [산점도], [상관계수] 이다. 상관 분석의 핵심은 Y를 예측하는 것이고 X 들에 대해 얼마나 선형 관계가 강하고 약한지 파악한다. (featuring) 예를 들어 X_1의 자료가 질적자료이고 A와 B가 있을 때는 Two sample test를 진행하여 Y와의 관계를 파악해 볼 수 있고, A,B,C,D, 등의 질적자료가 있을 때는 분산분석(ANOVA)를 이용할 수도 있을 것이다. X와 Y라는 양적자료가 있을 때 대부분 더 중요한 양적 자료를 Y로 둔다. 분산분석에는 "일원배치 분산분석" 이라는 것이 있다. 질적인 자료 하나를 가지고 양적인 자료와 차이가 있는지 ..

[Python] 분산 분석(ANOVA) : feat.크루스칼-왈리스 순위합 검정- (2)

이전 게시물에 이어서 만약 등분산이었을 때의 분산분석을 해보자. stats.f_oneway(iris.loc[iris.species == "setosa", "petal_length"], iris.loc[iris.species == "versicolor", "petal_length"], iris.loc[iris.species == "virginica", "petal_length"]) ------------------------------------------------------------------------- F_onewayResult(statistic=1180.161182252981, pvalue=2.8567766109615584e-91) 등분산 일 때의 분산분석은 stats.f_oneway() 를 사..

[Python] 분산 분석(ANOVA) : feat.(SST,SSE,SSB) - (1)

분산 분석(ANOVA : Analysis of Variance) k 개의 집단을 비교하여 다름을 판단하는 것. (k : 3개 이상의 유한한 개수) 분산 분석의 대립가설은 많은 경우의 수를 가지고 있다. 그래서 최소한 2개의 집단은 차이가 있을 것으로 판단한다. 일표본 검정 -> 독립 2표본 -> 분산분석 -> 회귀분석으로 확장된다. 모집단 A, B, C 가 있고 모두 정규분포를 따른다고 가정한다. 각각의 모집단에서 표본을 추출하는데 데이터 2개씩 가져온다고 가정해보자. 우리는 뽑아낸 표본들의 데이터들에 대해 Y의 다름이 얼마나 되는지 측정하고 싶다. 하지만 데이터에서 전체 평균을 빼고 모두를 더하면 무조건 0 이 나온다. 그래서 그 편차를 제곱을 한다. SST = SSE(Sum of Square Erro..

[Python] 카이제곱 검정(교차분석)

# 카이제곱 검정(Chi-square : χ2) 질적자료와 질적자료간에 서로 통계적으로 관계가 있는지 판단하는 검정 카이제곱 분포를 기반으로 관찰된 빈도와 기대되는 빈도와 의미있게 다른지 여부를 검증한다. 예시를 통해 알아보자. - 예제 데이터 수집 귀무가설 : 성별과 사람이 안경을 쓰는 것은 관련성이 없다. 대립가설 : 성별과 사람이 안경을 쓰는 것은 관련성이 있다. 만약 합계는 변하지 않는다고 가정했을 때 귀무가설이 맞다면 예상할 수 있는 값이 있을 것이다. 그것이 바로 기대값(Expected Value) 이다. 그래서 관찰된 값과 기대값 사이의 차이가 거의 없으면 귀무가설을 따를 수 있다. 하지만 관찰된 값과 기대값 사이의 차이가 많다면 대립가설을 따를 수 있다. 이 때, 기대값을 모두 더한 값은 ..