728x90

데이터 분석 2

파이썬 - Pandas 기초 정리(Series)

파이썬을 사용했을 때 데이터 분석에 빠질 수 없는 부분이 Pandas 모듈이다. 외부 파일을 읽어 분석하는데 주요한 기능들이 많이 저장되어 있다. import pandas as pd 모듈을 불러올 때 "pd" 를 가장 많이 사용하기 때문에 위와 같이 선언한다. 1. Series 기초 1차원 배열을 나타내며, numpy의 ndarray 를 기반으로 함. 0개 이상의 데이터를 가질 수 있다. index 는 0 부터 시작. # 데이터 입력하기 pd.Series([1,2,3,4,5]) --------------------------------- 0 1 1 2 2 3 3 4 4 5 dtype: int64 데이터 [1,2,3,4,5] 라는 1차원 배열을 선언하였더니, 각각의 index 가 같이 출력되는 모습을 볼 ..

파이썬 - 정규표현식 알아보기 (기초)

데이터 중에 문자를 분석하는 경우가 있을 것이다. 복잡한 문자열을 처리할 때 빠질 수 없는 것이 "정규 표현식" 이다. 정규 표현식에 대해 알아보자. 정규표현식을 제대로 들어가기 전에 어떤 기능을 사용하는지 예시를 살펴보자. # 주민등록번호 뒷자리를 * 로 변경하기 minsu = '950213-1390192' 한 명의 주민등록번호가 있다고 가정할 때 뒷자리(7개)를 '*' 로 변경하고 싶다고 하자. 정규표현식을 사용하지 않는다면 꽤 긴 코드가 나올 것이다. 하지만 정규표현식을 사용한다면? import re setting = re.compile("(\d{6})[-]\d{7}") print(setting.sub("\g-*******", minsu)) --------------------------------..

데이터 분석 2020.12.02