IT/도서추천 알고리즘
텍스트 전처리: 2.정제와 정규화
앞으로 알아보기 쉽게 코퍼스를 텍스트 데이터라고 칭하겠다. 정제: 얻어낸 텍스트 데이터중에 쓸모없는 노이즈 데이터를 제거하는 작업이다. 토큰화 전, 후로 사용하며 노이즈 데이터를 완전히 없앨 수는 없기 때문에 적당한 선에서 타협한다. 정규화: 의미는 같지만 표현방법이 다른 단어들을 같은 단어로 묶는다. ex) USA US , ex example ... 정규 표현식(Regular Expression) 얻어낸 텍스트 데이터에서 노이즈데이터의 특징을 잡아낼 수 있다면 정규표현식을 이용해 제거할 수 있다. 예를들어 HTML로 긁어온 문서는 내부에HTML태그가 있다. 이것을 정규표현식을 사용해 제거할 수 있다.
텍스트 전처리: 1.토큰화
추천 알고리즘을 설계하기 전에 관련 개념을 짚고 넘어가고자 한다. 바로 주먹구구식으로 구현하려 하니 이해도 안되고 내가 원하는 방식으로 구현할 수 있는지도 모르겠다. 그래서 딥러닝을 이용한 자연어 처리 입문 이라는 책을 참조하여 책 내용을 여기다 정리하면서 복습하고 코딩을 하려한다. 토큰화(Tokenization) 크롤링으로 수집한 텍스트 데이터가 전처리 되지 않은 상태라면 해당 데이터를 용도에 맞게 토큰화, 정제, 정규화 하는 일을 한다. 단어 토큰화 토큰화란 주어진 코퍼스(=말뭉치)에서 토큰이라 불리는 단위로 나누는 작업이다. 토큰의 뜻은 보통 의미있는 단어를 의미한다. 의미있는 단어란 단순히 단어별로 나누는 것이 아닌 특수문자, 숫자등을 고려해서 하나의 단어로 보는 것이다. 그게 단어별로 나누는거랑..