728x90

판다스 3

파이썬 - Pandas 기초 정리(DataFrame - 3) : inner join / outer join

이제 정말 유용하게 사용되는 Groupby 에 대해 알아볼 차례이다. 이 게시물은 이전 게시물들과 이어진다. (타이타닉 데이터 사용) # groupby df.groupby('Pclass').groups --------------------------------- {1: Int64Index([ 2, 4, 7, 12, 24, 28, 31, 32, 35, 36, ... 854, 857, 858, 863, 868, 872, 873, 880, 888, 890], dtype='int64', name='PassengerId', length=216), 2: Int64Index([ 10, 16, 18, 21, 22, 34, 42, 44, 54, 57, ... 849, 855, 862, 865, 866, 867, 875,..

파이썬 - Pandas 기초 정리(DataFrame - 2)

이전 게시물에 이어서 학습을 진행한다. 데이터를 분석하여 예측을 하기 위해서는 예측하는 데이터와 어떤 컬럼이 관계가 깊은지 알아야 한다. 이런 경우에 알아보는 것 중 하나가 "상관계수" 이다. 상관계수는 -1 ~ 1 사이의 숫자이다. 예를 들어 A 컬럼과 B 컬럼의 상관계수를 알아봤을 때 1에 가깝다면 A가 증가할 때 B 가 증가하는 형태를 이룬다고 볼 수 있고, -1 에 가깝다면 A가 증가할 때 B는 감소하는 추세를 보인다고 볼 수 있다. 만약 0에 가깝다면 A 와 B는 별로 관계가 없다는 것을 깨달을 수 있다. 1. 상관계수 알아보기 import pandas as pd import matplotlib.pyplot as plt import seaborn as sns %matplotlib inline 상..

파이썬 - Pandas 기초 정리(DataFrame - 1)

Pandas 모듈에서 가장 많이 사용되는 것이 DataFrame 이라 해도 과언이 아니다. 저번 게시물에서는 Series(1차원)을 다루었지만 이번에는 DataFrame(2차원)을 다룬다. DataFrame 2차원(row, column) 으로 구성되어 있음 일반적인 데이터(csv 등)가 이런 형식으로 되어 있음 1. DataFrame 만들기 일반적으로 DataFrame 은 key 와 value 로 이루어져 있다. data = {10:['a', 'e', 'f'], 20:['b', 'o', 'q'], 30:['c', 'z', 's']} data_frame = pd.DataFrame(data, index=np.arange(1,4)) data_frame --------------------------------..