[DeepLearning] 자연어 전처리(2)
이전 포스팅에 이이서 자연어 전처리 방법에 대해 조금더 알아보겠습니다. 5. 정규표현식 정규표현식을 사용하여 자연어를 전처리하는 방법입니다. 정규표현식을 통하여 자연어의 필요한 부분만 필터링할 수 있습니다. 예를들어 정규표현식 "ab*"를 사용한다고 가정하면, "a", "b" 의 값들은 모두 필터링 시켜버립니다. 필요없는 것들을 제거하기 위해 정규표현식만 잘 사용한다면, 손쉽게 필터링할 수 있습니다. 6. 정수로 인코딩 컴퓨터는 모든 것들을 숫자로 처리합니다. 그렇기 때문에 자연어 전처리를 하더라도 끝내 숫자로 처리를 해야됩니다. 이 방법은 문장, 즉 단어를 정수화시켜 처리해 버립니다. 예를 들어 I like to study deeplearning이 있으면 { "I" : 1, "like" : 2, "to..