[NLP] Word2Vector

728x90

Korean Word2Vec

ABOUT 이곳은 단어의 효율적인 의미 추정 기법(Word2Vec 알고리즘)을 우리말에 적용해 본 실험 공간입니다. Word2Vec 알고리즘은 인공 신경망을 생성해 각각의 한국어 형태소를 1,000차원의 벡터 스페이

word2vec.kr

>> 한국어 단어(word)로 벡터 연산을 해볼 수 있는 사이트

단어들로 벡터연산한 결과를 볼 수 있는데, 위 예시를 풀이해 보자면

한국의 수도는 서울 이고, 일본의 수도는 도쿄 라는 사실을 먼저 알고 들어가자

한국-서울+도쿄=? 의 식으로 생각할 때, 도쿄를 우변으로 넘기면 -도쿄가 되버린다.

그럼 한국-서울=?-도쿄 의 식이 나오게 되는데 좌변과 우변이 같을 때, 물음표에 들어갈 단어는 상식적으로 일본이 되는 것을 알 수 있다.

> 컴퓨터가 단어의 의미를 가지고 연산하는 것일까? 그런 것보다 각 단어를 벡터화 했을 때 벡터들 간의 유사도를 계산하여 유사한 벡터를 도출해낸 것이다.

희소 표현 (Sparse Representation)

거의 모든 요소가 0으로 이루어져 있는 벡터들의 집합.

더 와닿게 설명하자면, 원핫인코딩을 하면 특정요소를 제외하고 나머지 요소는 모두 0으로 처리된다.

(특정요소는 1로 처리됨)

대부분 0으로 이루어져 있다는 말이 굉장히 모호해서 처음에는 이해되지 않았다. 예를 들어 80프로가 0으로 이루어져 있다거나 등 정확한 수치로 희소행렬인지 아닌지 나누는 게 아니어서 애매하다고 생각했다.

근데 그냥 원핫인코딩 벡터의 집합으로 생각하니까 이해가 되는 것 같기도 하다..ㅎ

밀집 표현 (Dense Representation)

728x90

알려줄수 없어 내 머리