반응형
앞으로 알아보기 쉽게 코퍼스를 텍스트 데이터라고 칭하겠다.
정제: 얻어낸 텍스트 데이터중에 쓸모없는 노이즈 데이터를 제거하는 작업이다. 토큰화 전, 후로 사용하며
노이즈 데이터를 완전히 없앨 수는 없기 때문에 적당한 선에서 타협한다.
정규화: 의미는 같지만 표현방법이 다른 단어들을 같은 단어로 묶는다. ex) USA US , ex example ...
정규 표현식(Regular Expression)
얻어낸 텍스트 데이터에서 노이즈데이터의 특징을 잡아낼 수 있다면 정규표현식을 이용해 제거할 수 있다. 예를들어
HTML로 긁어온 문서는 내부에HTML태그가 있다. 이것을 정규표현식을 사용해 제거할 수 있다.
반응형
'IT > 도서추천 알고리즘' 카테고리의 다른 글
텍스트 전처리: 1.토큰화 (0) | 2020.08.06 |
---|