728x90

상관계수 2

파이썬 - Pandas 기초 정리(DataFrame - 2)

이전 게시물에 이어서 학습을 진행한다. 데이터를 분석하여 예측을 하기 위해서는 예측하는 데이터와 어떤 컬럼이 관계가 깊은지 알아야 한다. 이런 경우에 알아보는 것 중 하나가 "상관계수" 이다. 상관계수는 -1 ~ 1 사이의 숫자이다. 예를 들어 A 컬럼과 B 컬럼의 상관계수를 알아봤을 때 1에 가깝다면 A가 증가할 때 B 가 증가하는 형태를 이룬다고 볼 수 있고, -1 에 가깝다면 A가 증가할 때 B는 감소하는 추세를 보인다고 볼 수 있다. 만약 0에 가깝다면 A 와 B는 별로 관계가 없다는 것을 깨달을 수 있다. 1. 상관계수 알아보기 import pandas as pd import matplotlib.pyplot as plt import seaborn as sns %matplotlib inline 상..

[Python] 상관 분석(산점도, 상관계수) - Pearson, Spearman, Kendall

상관분석(Correlation Analysis) 상관분석은 쉽게 말하면 직선(선형)의 관계가 있는지 분석하는 것이다.상관분석에서 알아야 할 점은 [산점도], [상관계수] 이다. 상관 분석의 핵심은 Y를 예측하는 것이고 X 들에 대해 얼마나 선형 관계가 강하고 약한지 파악한다. (featuring) 예를 들어 X_1의 자료가 질적자료이고 A와 B가 있을 때는 Two sample test를 진행하여 Y와의 관계를 파악해 볼 수 있고, A,B,C,D, 등의 질적자료가 있을 때는 분산분석(ANOVA)를 이용할 수도 있을 것이다. X와 Y라는 양적자료가 있을 때 대부분 더 중요한 양적 자료를 Y로 둔다. 분산분석에는 "일원배치 분산분석" 이라는 것이 있다. 질적인 자료 하나를 가지고 양적인 자료와 차이가 있는지 ..