728x90

정규표현식 2

자연어 처리 기초 - 정규표현식 알아보기(정리, 실습편)

Regular Expression 데이터 정제에 필요한 기술 중에 하나가 정규식(정규표현식)이다. 이전 게시물에 보았던 전각문자를 반각문자로 바꾸는 데에도 주로 사용되는 기술이다. Regular Expression 을 사용하는 방법은 크게 두가지가 있다. Text Editor (VSCode, Sublime Text...) Python 등을 활용한 모듈 사용 이제 정규식의 첫 걸음을 시작해보자. [ ] 대괄호이다. 정규식에서 가장 많이 쓰이는 기호 중에 하나이다. 대괄호 안에 있는 문자(숫자 등)를 매칭해준다. 만약 정규식이 [ab279] 라고 설정 되어있을 때 'a', 'b', '2', '7', '9' 중에 하나라도 들어가있는 문장은 매치에 성공한다. 대괄호 안에 문자 및 숫자들만이 아니라 기호들이 다양..

파이썬 - 정규표현식 알아보기 (기초)

데이터 중에 문자를 분석하는 경우가 있을 것이다. 복잡한 문자열을 처리할 때 빠질 수 없는 것이 "정규 표현식" 이다. 정규 표현식에 대해 알아보자. 정규표현식을 제대로 들어가기 전에 어떤 기능을 사용하는지 예시를 살펴보자. # 주민등록번호 뒷자리를 * 로 변경하기 minsu = '950213-1390192' 한 명의 주민등록번호가 있다고 가정할 때 뒷자리(7개)를 '*' 로 변경하고 싶다고 하자. 정규표현식을 사용하지 않는다면 꽤 긴 코드가 나올 것이다. 하지만 정규표현식을 사용한다면? import re setting = re.compile("(\d{6})[-]\d{7}") print(setting.sub("\g-*******", minsu)) --------------------------------..

데이터 분석 2020.12.02