728x90

결측치 2

파이썬 - Pandas 기초 정리(DataFrame - 2)

이전 게시물에 이어서 학습을 진행한다. 데이터를 분석하여 예측을 하기 위해서는 예측하는 데이터와 어떤 컬럼이 관계가 깊은지 알아야 한다. 이런 경우에 알아보는 것 중 하나가 "상관계수" 이다. 상관계수는 -1 ~ 1 사이의 숫자이다. 예를 들어 A 컬럼과 B 컬럼의 상관계수를 알아봤을 때 1에 가깝다면 A가 증가할 때 B 가 증가하는 형태를 이룬다고 볼 수 있고, -1 에 가깝다면 A가 증가할 때 B는 감소하는 추세를 보인다고 볼 수 있다. 만약 0에 가깝다면 A 와 B는 별로 관계가 없다는 것을 깨달을 수 있다. 1. 상관계수 알아보기 import pandas as pd import matplotlib.pyplot as plt import seaborn as sns %matplotlib inline 상..

[Kaggle] Bike Sharing Demand (1)

Bike Sharing Demand Forecast use of a city bikeshare system www.kaggle.com Kaggle 를 통해 처음 공부해볼 것은 "Bike Sharing Demand" 이다. train.csv 데이터를 이용해 학습하고 test.csv 를 활용하여 count 를 예측하는데에 목적을 둔다.. Data Fields datetime : 날짜 season : 1 = spring | 2 = summer | 3 = fall | 4 = winter holiday : 휴일인지 여부 workingday : 근무일인지 여부 weather : 1, 2, 3, 4 종류별로 다름 temp : 온도 atemp : 체감온도 humidity : 습기 windspeed : 풍속 casual..