텍스트 전처리: 2.정제와 정규화

앞으로 알아보기 쉽게 코퍼스를 텍스트 데이터라고 칭하겠다.

정제: 얻어낸 텍스트 데이터중에 쓸모없는 노이즈 데이터를 제거하는 작업이다. 토큰화 전, 후로 사용하며

노이즈 데이터를 완전히 없앨 수는 없기 때문에 적당한 선에서 타협한다.

정규화: 의미는 같지만 표현방법이 다른 단어들을 같은 단어로 묶는다. ex) USA US , ex example ...

정규 표현식(Regular Expression)

얻어낸 텍스트 데이터에서 노이즈데이터의 특징을 잡아낼 수 있다면 정규표현식을 이용해 제거할 수 있다. 예를들어

HTML로 긁어온 문서는 내부에HTML태그가 있다. 이것을 정규표현식을 사용해 제거할 수 있다.

텍스트 전처리: 1.토큰화 (0)	2020.08.06