'자연어처리' 태그의 글 목록

3. 자연어 처리 - 텍스트 유사도(n-gram, 코사인 유사도)

각 문장 간의 의미가 유사한지 컴퓨터는 어떻게 계산할까요? 여기에서 사용되는 개념은 "텍스트 유사도"라고 합니다. n-gram 유사도 n-gram 유사도에서 "n-gram" 이란 기존 문장이 있을 때 n 개의 연속적인 단어 나열을 의미합니다. n 개의 토큰들이 있다는 의미와 같습니다. 이전 게시물인 Subword Segmentation 과 비슷한 양상이라고 볼 수 있습니다. pair 별 빈도를 이용하여 유사도를 계산합니다. 만약 "12월 철수는 패딩을 구입하러 상점으로 이동했다" 라는 문장과 "12월 철수는 패딩을 환불하러 백화점으로 이동했다" 라는 문장의 유사도를 알고 싶다면 단어별로 분절하여 pair 별로 빈도를 확인합니다. 그리고 비교하고자 하는 문장과 같은 pair 가 있는지 확인하고 그 개수를 ..

데이터 분석/자연어처리 2021.01.18

Jerry StoryWalk

자연어처리 2

티스토리툴바