728x90

자연어 처리 3

4. 자연어 처리 - Word Embedding(WordNet)

Word Sense 한글 단어들은 동음이의어가 참 많다. '차' 를 예로 들어보자. 잎이나 뿌리 등을 우려 마시는 것 바퀴가 달린 운송수단 짐을 실어 그 분량을 세는 단위 장기 말 중 '車' 빼기의 다른 말 몇 주차... 등의 기간을 나타내는 말 etc... 이 때문에 우리는 다의어(Polysemy)와 동형어(Homonym)를 알아야 한다. 다의어(Polysemy) : 근본의미 이외에도 다른 뜻으로도 쓰는 단어 동형어(Homonym) : 단어의 형태만 같을 뿐 서로 전혀 다른 의미를 지님 이런 경우를 처리하기 위해 필요한 것이 Word Sense Disambiguation(WSD) 이다. WordNet 어휘 분류 사전 상위어(Hypernym)나 하위어(Hyponym)에 대한 것이 잘 정리되어 있는 것이 ..

자연어 처리 기초 - 정규표현식 알아보기(정리, 실습편)

Regular Expression 데이터 정제에 필요한 기술 중에 하나가 정규식(정규표현식)이다. 이전 게시물에 보았던 전각문자를 반각문자로 바꾸는 데에도 주로 사용되는 기술이다. Regular Expression 을 사용하는 방법은 크게 두가지가 있다. Text Editor (VSCode, Sublime Text...) Python 등을 활용한 모듈 사용 이제 정규식의 첫 걸음을 시작해보자. [ ] 대괄호이다. 정규식에서 가장 많이 쓰이는 기호 중에 하나이다. 대괄호 안에 있는 문자(숫자 등)를 매칭해준다. 만약 정규식이 [ab279] 라고 설정 되어있을 때 'a', 'b', '2', '7', '9' 중에 하나라도 들어가있는 문장은 매치에 성공한다. 대괄호 안에 문자 및 숫자들만이 아니라 기호들이 다양..

1. 자연어 처리(NLP, NLU, NLG) - 수집, 정제, tokenization

# 자연어(Natural Language)란 무엇일까. 위키피디아에 따르면 사람들이 일상생활에 쓰는 언어를 인공적으로 만들어진 언어와 구분하여 쓰는 말이라고 되어있다. # 그렇다면 NLP(Natural Language Processing) 은 무엇일까. NLP 에는 크게 NLU 와 NLG 로 이루어져 있다. NLU : 자연어를 컴퓨터가 이해할 수 있는 값으로 바꾸는 과정 NLG : 컴퓨터가 이해한 값을 사람이 이해할 수 있도록 바꾸는 과정 내가 공부하는 자연어 처리는 딥러닝을 기반으로 한다. 자연어 처리 과정은 다음과 같다. 자연어 처리에서 흔히 아는 것 중 하나는 "감정 분석" 이다. 문제 정의 단계에서는 무엇을 할 것인지에 대해서 정하는 단계인데 '나는 감정 분석을 구현해보겠다.' 라고 생각한다면 그..