본문 바로가기

Text Mining

(2)
[텍스트 전처리] Stopwords Removal (불용어 제거) Zipf's Law 지프의 법칙 Zipf’s law는 어떠한 자연어 말뭉치 표현에 나타나는 단어들을 그 사용 빈도가 높은 순서대로 나열하였을 때, 모든 단어의 사용 빈도는 해당 단어의 순위에 반비례함을 나타낸다. 다시 말해, 가장 사용 빈도가 높은 단어는 두번째 단어보다 빈도가 약 두배 높으며, 세번째 단어보다는 빈도가 약 세배 높다는 것이다. Zipf’s law에 따르면, 문헌집단에 나타나는 단어들의 빈도수를 시각화 하면 long tail distribution이 나타나고, 이때 highly rank된 단어들 즉 고빈도 단어들 중에는 전치사가 대부분이다. 이러한 단어의 frequency와 단어의 rank의 곱이 constant 즉 일정하다는 Zipf’s law에 기반하여 Luhn은 단어의 출현 빈도 및..
[텍스트 전처리] Stemming (어간 추출) & Lemmatization (원형 복원) 단어의 형태 변화 (lexical variations of term ; term variation) 에 따라 같은 단어라도 다른 단어인 것처럼 취급되는 문제를 해결하기 위해 사용되는 보편적인 방법으로 어간 추출 (Stemming) 과 원형 복원 (Lemmatization) 이 있다. Stemming 어간 추출 Stemming이란 어형이 변형된 단어로부터 접사 등을 제거하고 그 단어의 어간을 분리해내는 것을 의미한다. 이때 어간이 반드시 어근과 같아야 하는 것은 아니며, Stemming의 목적은 어근과 차이가 있더라도 관련이 있는 단어들이 일정하게 동일한 어간으로 매핑되게 하는 것이다. 이러한 역할을 하는 것을 Stemming Algorithm 또는 Stemmer라고 한다. stemming은 정보검색 분야..