본문 바로가기
728x90
반응형

분류 전체보기100

[NLP] Transformer 트랜스포머 모델 Transformer 모델 ; 기존의 seq2seq의 구조인 인코더-디코더를 따르면서도, RNN은 사용하지 않고 attention만으로 구현한 모델 Seq2Seq 모델과 다르게 컨텍스트 벡터를 사용하지 x 인코더의 출력되는 값이 하나의 벡터로 압축되는데 이때 생기는 정보의 손실을 보완하기 위해 나온것이 attention 구조이다. > LSTM모델을 사용하지 않고 Attention 구조를 사용한다. > 입력과 출력의 길이가 다른 경우에 특히 유용 attention만으로 인코더와 디코더를 만든 모델이다. 트랜스포머는 RNN을 사용하지 X 이전 Seq2Seq 구조에서는 인코더와 디코더에서 각각 하나의 RNN이 t개의 시점(time step)을 가지는 구조였다면 이번에는 인코더와 디코더라는 단위가 N개로 구성되.. 2023. 8. 1.
[NLP] Sequence to Sequence 모델 Sequence-to-Sequence ; 입력 시퀀스가 인코더에 들어가면 컨텍스트 벡터 형태로 나와 디코더에 들어가고 그에 따른 디코더의 출력이 출력 시퀀스가 된다. Encoder와 Decoder내에 각 LSTM셀이 들어있고, 이 LSTM셀은 각 입력과 출력을 한다. 예시코드를 보면서 Sequence to Sequence 모델의 구조를 이해하려고 한다. 영어로 된 문장을 한글로 번역하는 모델을 만들어 보자. import pandas as pd import tensorflow as tf from tensorflow.keras.preprocessing.sequence import pad_sequences from tensorflow.keras.utils import to_categorical df= pd.r.. 2023. 8. 1.
[NLP] Word2Vector Korean Word2VecABOUT 이곳은 단어의 효율적인 의미 추정 기법(Word2Vec 알고리즘)을 우리말에 적용해 본 실험 공간입니다. Word2Vec 알고리즘은 인공 신경망을 생성해 각각의 한국어 형태소를 1,000차원의 벡터 스페이word2vec.kr>> 한국어 단어(word)로 벡터 연산을 해볼 수 있는 사이트단어들로 벡터연산한 결과를 볼 수 있는데, 위 예시를 풀이해 보자면한국의 수도는 서울 이고, 일본의 수도는 도쿄 라는 사실을 먼저 알고 들어가자한국-서울+도쿄=? 의 식으로 생각할 때, 도쿄를 우변으로 넘기면 -도쿄가 되버린다.그럼 한국-서울=?-도쿄 의 식이 나오게 되는데 좌변과 우변이 같을 때, 물음표에 들어갈 단어는 상식적으로 일본이 되는 것을 알 수 있다. > 컴퓨터가 단어의 의.. 2023. 8. 1.
[NLP] Transfer Learning 전이학습 전이학습 (Transfer Learning); 한 작업에서 학습한 지식을 다른 관련작업에 이전하여 학습 성능을 향상시키는 기술.    새로운 모델을 생성할 때, 충분한 양의 데이터가 없거나 학습에 많은 비용이 들어가는 경우가 많다.이러한 문제를 해결하기 위해 이미 학습된 모델이나 그 모델의 일부를 새로운 작업에 활용하는 방식을 전이학습 이라고 한다.이전 모델에서 일부 또는 전체 파라미터를 조정하여 새로운 모델에 적합하도록 만든다. 적은 양의 데이터로도 높은 성능을 달성할 수 있다는 장점이 있다.  사전학습 (Pre-trained); 대규모 데이터셋으로 미리 학습된 모델. 사전학습된 모델들은 일반적이고 추상화된 특성들을 학습하도록 설계되었다. 위 전이학습에서 필요한 사전학습된 모델이 이에 해당한다. 파인튜.. 2023. 7. 31.
728x90
반응형