728x90

기초통계 6

[Python] 상관 분석(산점도, 상관계수) with Python

이전 게시물에 이어서 이번에는 상관 분석을 파이썬을 통해 알아보자. 귀무가설 : 꽃잎의 길이와 꽃받침의 길이 간에는 관련성(직선의 관계)이 없다.대립가설 : 꽃잎의 길이와 꽃받침의 길이 간에는 관련성(직선의 관계)이 있다. 1. Pearson stats.pearsonr(x = iris.petal_length, y = iris.sepal_length)---------------------------------------------------------------(0.8717537758865832, 1.0386674194497525e-47) Person 방법은 stats.pearsonr() 을 사용한다. 0.872 : 표본의 상관계수(r)0.000 : 유의확률 유의확률이 0.000 이므로 유의수준 0.05에..

[Python] 상관 분석(산점도, 상관계수) - Pearson, Spearman, Kendall

상관분석(Correlation Analysis) 상관분석은 쉽게 말하면 직선(선형)의 관계가 있는지 분석하는 것이다.상관분석에서 알아야 할 점은 [산점도], [상관계수] 이다. 상관 분석의 핵심은 Y를 예측하는 것이고 X 들에 대해 얼마나 선형 관계가 강하고 약한지 파악한다. (featuring) 예를 들어 X_1의 자료가 질적자료이고 A와 B가 있을 때는 Two sample test를 진행하여 Y와의 관계를 파악해 볼 수 있고, A,B,C,D, 등의 질적자료가 있을 때는 분산분석(ANOVA)를 이용할 수도 있을 것이다. X와 Y라는 양적자료가 있을 때 대부분 더 중요한 양적 자료를 Y로 둔다. 분산분석에는 "일원배치 분산분석" 이라는 것이 있다. 질적인 자료 하나를 가지고 양적인 자료와 차이가 있는지 ..

[Python] 분산 분석(ANOVA) : feat.크루스칼-왈리스 순위합 검정- (2)

이전 게시물에 이어서 만약 등분산이었을 때의 분산분석을 해보자. stats.f_oneway(iris.loc[iris.species == "setosa", "petal_length"], iris.loc[iris.species == "versicolor", "petal_length"], iris.loc[iris.species == "virginica", "petal_length"]) ------------------------------------------------------------------------- F_onewayResult(statistic=1180.161182252981, pvalue=2.8567766109615584e-91) 등분산 일 때의 분산분석은 stats.f_oneway() 를 사..

[Python] 분산 분석(ANOVA) : feat.(SST,SSE,SSB) - (1)

분산 분석(ANOVA : Analysis of Variance) k 개의 집단을 비교하여 다름을 판단하는 것. (k : 3개 이상의 유한한 개수) 분산 분석의 대립가설은 많은 경우의 수를 가지고 있다. 그래서 최소한 2개의 집단은 차이가 있을 것으로 판단한다. 일표본 검정 -> 독립 2표본 -> 분산분석 -> 회귀분석으로 확장된다. 모집단 A, B, C 가 있고 모두 정규분포를 따른다고 가정한다. 각각의 모집단에서 표본을 추출하는데 데이터 2개씩 가져온다고 가정해보자. 우리는 뽑아낸 표본들의 데이터들에 대해 Y의 다름이 얼마나 되는지 측정하고 싶다. 하지만 데이터에서 전체 평균을 빼고 모두를 더하면 무조건 0 이 나온다. 그래서 그 편차를 제곱을 한다. SST = SSE(Sum of Square Erro..

[Python] 카이제곱 검정(교차분석)

# 카이제곱 검정(Chi-square : χ2) 질적자료와 질적자료간에 서로 통계적으로 관계가 있는지 판단하는 검정 카이제곱 분포를 기반으로 관찰된 빈도와 기대되는 빈도와 의미있게 다른지 여부를 검증한다. 예시를 통해 알아보자. - 예제 데이터 수집 귀무가설 : 성별과 사람이 안경을 쓰는 것은 관련성이 없다. 대립가설 : 성별과 사람이 안경을 쓰는 것은 관련성이 있다. 만약 합계는 변하지 않는다고 가정했을 때 귀무가설이 맞다면 예상할 수 있는 값이 있을 것이다. 그것이 바로 기대값(Expected Value) 이다. 그래서 관찰된 값과 기대값 사이의 차이가 거의 없으면 귀무가설을 따를 수 있다. 하지만 관찰된 값과 기대값 사이의 차이가 많다면 대립가설을 따를 수 있다. 이 때, 기대값을 모두 더한 값은 ..

[Python] 대응 2표본 검정(Paired test) - (2)

♪ 대응 2표본 검정 - (1) Paired t-test - (2) Wilcoxon's signed rank test 이전 게시물에서는 대응 2표본 t 검정(Paired t-test) 에 대해서 알아봤다. 하지만 정규성이 만족했을 때의 이야기이므로 이번에는 정규성 가정이 깨졌을 때를 이야기해보자. Wilcoxon's signed rank test 사전(pre)과 사후(post)가 함께 있으니 두 집단처럼 보이지만 사전 - 사후 이니 결국 한 집단이다. 결국 D(difference) 만 본다면 일표본 검정과 같아진다. 그래서, 사전의 양적 자료와 사후의 양적 자료를 뺀 값이 정규성 가정을 만족하지 않을 때 사용한다. [가설검정] 귀무가설 : 다이어트는 몸무게를 줄이는 것에 효과가 없다. (사전 몸무게 = ..