본문 바로가기
728x90
반응형

Natural Language Processing23

[Goorm] 딥러닝을 이용한 자연어 처리 4 (RNN & LSTM) 시퀀스 배열로 다루는 순환 신경망 (RNN)  이전까지는 단어와 단어 간의 관계나 연관으로 임베딩값이 결정되었다. (NN)하지만 이는 문장 전체의 의미를 이해할 수 없다.이를 해결하기 위해 '순환신경망' 방법이 고안됨 ❗ RNN (Recurrent Neural Network, 순환신경망)순환 신경망은 여러개의 데이터가 순서대로 입력되었을 때, 앞서 입력받은 데이터를 잠시 기억해 놓는 방법기억된 데이터가 얼마나 중요한지 판단하여 별도의 가중치를 부여모든 입력 값에 이 작업을 순서대로 실행하므로 다음 층으로 넘어가기 전에 같은 층을 맴도는 것 처럼 보임 → 순환신경망 예를 들어,  ' 오늘 주가가 몇이야? ' 라고 묻는다고 가정해보면토큰 단위로 모델에 입력된다고 했을 때, 앞에 들어가는 입력에 따라 뒤로 전.. 2024. 7. 5.
[Goorm] 딥러닝을 이용한 자연어 처리 3 (IMDB + GloVe 이용) 사전 훈련된 단어 임베딩 사용하기  훈련데이터가 부족하다면 작업에 맞는 단어 임베딩을 학습할 수 없음대신 미리 계산된 임베딩 공간에서 임베딩 벡터를 로드할 수 있음 ( pre-trained 불러오기)단어 임베딩은 일반적으로 단어 출현 통계를 사용하여 계산됨word2vec의 차원은 성별처럼 구체적인 의미가 있는 속성을 잡아냄케라스의 Embedding층을 위해 내려 받을 수 있는 미리 계산된 단어 임베딩 데이터베이스가 여럿있음그 중 하나가 word2vec 임인기 있는 또 다른 하나는 GloVe(Global Vectors for Word Representation) 임이 기법은 단어의 동시 출현(co-occurrence)12 통계를 기록한 행렬을 분해하는 기법을 사용함데이터에서 가져온 수백만 개의 영어 토큰에.. 2024. 7. 5.
[Goorm] 딥러닝을 이용한 자연어 처리 2 (IMDB 이용) IMDB 셋을 가져와 텍스트 데이터 다루기; Internet Movie DataBase 영화에 대한 리뷰가 담긴 텍스트 데이터  심화 실습 1. 데이터준비import osac_dir= '/content/aclImdb'train_dir = os.path.join(ac_dir,'train')test_dir = os.path.join(ac_dir,'test')texts = []labels = []for label in ['neg','pos']: txts_dir= os.path.join(train_dir,label) for fname in os.listdir(txts_dir): if fname[-4:] == '.txt': with open(os.path.join(txt.. 2024. 7. 5.
[Goorm] 딥러닝을 이용한 자연어 처리 1 (토큰화 & 임베딩) 텍스트의 토큰화# 주어진 문장을 단어로 토큰화 하기# 케라스의 텍스트 전처리와 관련한 함수 중 text_to_word_sequence 함수를 불러온다from tensorflow.keras.preprocessing.text import text_to_word_sequence# 전처리할 텍스트를 정합니다.text= '해보지 않으면 해낼 수 없다.'# 해당 텍스트를 토큰화result= text_to_word_sequence(text)print('원문', text)print('토큰화',result)# 결과"""원문 해보지 않으면 해낼 수 없다.토큰화 ['해보지', '않으면', '해낼', '수', '없다']"""> ★ text_to_word_sequence : 문장에서 단어 단위로 토큰화( Tokenizer()를.. 2024. 6. 23.
728x90
반응형