728x90
반응형
>> 한국어 단어(word)로 벡터 연산을 해볼 수 있는 사이트
단어들로 벡터연산한 결과를 볼 수 있는데, 위 예시를 풀이해 보자면
한국의 수도는 서울 이고, 일본의 수도는 도쿄 라는 사실을 먼저 알고 들어가자
한국-서울+도쿄=? 의 식으로 생각할 때, 도쿄를 우변으로 넘기면 -도쿄가 되버린다.
그럼 한국-서울=?-도쿄 의 식이 나오게 되는데 좌변과 우변이 같을 때, 물음표에 들어갈 단어는 상식적으로 일본이 되는 것을 알 수 있다.
> 컴퓨터가 단어의 의미를 가지고 연산하는 것일까? 그런 것보다 각 단어를 벡터화 했을 때 벡터들 간의 유사도를 계산하여 유사한 벡터를 도출해낸 것이다.
희소 표현 (Sparse Representation)
거의 모든 요소가 0으로 이루어져 있는 벡터들의 집합.
더 와닿게 설명하자면, 원핫인코딩을 하면 특정요소를 제외하고 나머지 요소는 모두 0으로 처리된다.
(특정요소는 1로 처리됨)
대부분 0으로 이루어져 있다는 말이 굉장히 모호해서 처음에는 이해되지 않았다. 예를 들어 80프로가 0으로 이루어져 있다거나 등 정확한 수치로 희소행렬인지 아닌지 나누는 게 아니어서 애매하다고 생각했다.
근데 그냥 원핫인코딩 벡터의 집합으로 생각하니까 이해가 되는 것 같기도 하다..ㅎ
밀집 표현 (Dense Representation)
728x90
반응형
'Natural Language Processing' 카테고리의 다른 글
[ChatGPT] Prompt Engineering (0) | 2023.08.03 |
---|---|
[NLP] Transformer 트랜스포머 모델 (0) | 2023.08.01 |
[NLP] Sequence to Sequence 모델 (0) | 2023.08.01 |
[NLP] Transfer Learning 전이학습 (0) | 2023.07.31 |
[NLP] 정규표현식 (0) | 2023.07.25 |