728x90 반응형 분류 전체보기100 [Goorm] 딥리닝을 이용한 자연어 처리 5 (LSTM 이용) LSTM을 이용한 로이터 뉴스 카테고리 분류하기 : 입력된 문장의 의미를 파악하는 것은 단어간의 관계를 파악한다기 보다 모든 단어를 종합하여 하나의 카테고리로 분류하는 작업이라고 할 수 있다. 1. 데이터 로드import numpyimport tensorflow as tffrom tensorflow.keras.datasets import reuters# seed값 설정seed= 0numpy.random.seed(seed)tf.random.set_seed(seed)(x_train, y_train), (x_test, y_test) = reuters.load_data(num_words=1000, test_split=0.2)# 데이터 확인하기category= numpy.max(y_train)+1print(c.. 2024. 7. 6. [Goorm] 딥러닝을 이용한 자연어 처리 4 (RNN & LSTM) 시퀀스 배열로 다루는 순환 신경망 (RNN) 이전까지는 단어와 단어 간의 관계나 연관으로 임베딩값이 결정되었다. (NN)하지만 이는 문장 전체의 의미를 이해할 수 없다.이를 해결하기 위해 '순환신경망' 방법이 고안됨 ❗ RNN (Recurrent Neural Network, 순환신경망)순환 신경망은 여러개의 데이터가 순서대로 입력되었을 때, 앞서 입력받은 데이터를 잠시 기억해 놓는 방법기억된 데이터가 얼마나 중요한지 판단하여 별도의 가중치를 부여모든 입력 값에 이 작업을 순서대로 실행하므로 다음 층으로 넘어가기 전에 같은 층을 맴도는 것 처럼 보임 → 순환신경망 예를 들어, ' 오늘 주가가 몇이야? ' 라고 묻는다고 가정해보면토큰 단위로 모델에 입력된다고 했을 때, 앞에 들어가는 입력에 따라 뒤로 전.. 2024. 7. 5. [Goorm] 딥러닝을 이용한 자연어 처리 3 (IMDB + GloVe 이용) 사전 훈련된 단어 임베딩 사용하기 훈련데이터가 부족하다면 작업에 맞는 단어 임베딩을 학습할 수 없음대신 미리 계산된 임베딩 공간에서 임베딩 벡터를 로드할 수 있음 ( pre-trained 불러오기)단어 임베딩은 일반적으로 단어 출현 통계를 사용하여 계산됨word2vec의 차원은 성별처럼 구체적인 의미가 있는 속성을 잡아냄케라스의 Embedding층을 위해 내려 받을 수 있는 미리 계산된 단어 임베딩 데이터베이스가 여럿있음그 중 하나가 word2vec 임인기 있는 또 다른 하나는 GloVe(Global Vectors for Word Representation) 임이 기법은 단어의 동시 출현(co-occurrence)12 통계를 기록한 행렬을 분해하는 기법을 사용함데이터에서 가져온 수백만 개의 영어 토큰에.. 2024. 7. 5. [Goorm] 딥러닝을 이용한 자연어 처리 2 (IMDB 이용) IMDB 셋을 가져와 텍스트 데이터 다루기; Internet Movie DataBase 영화에 대한 리뷰가 담긴 텍스트 데이터 심화 실습 1. 데이터준비import osac_dir= '/content/aclImdb'train_dir = os.path.join(ac_dir,'train')test_dir = os.path.join(ac_dir,'test')texts = []labels = []for label in ['neg','pos']: txts_dir= os.path.join(train_dir,label) for fname in os.listdir(txts_dir): if fname[-4:] == '.txt': with open(os.path.join(txt.. 2024. 7. 5. 이전 1 ··· 10 11 12 13 14 15 16 ··· 25 다음 728x90 반응형