본문 바로가기
728x90
반응형

Natural Language Processing23

[Goorm] 딥러닝을 이용한 자연어 처리 10 (BERT vs GPT) 트랜스포머의 인코더와 디코더를 활용한 응용그림에서 알 수 있듯이 BERT모델은 Transformer구조의 인코더만을 활용한 예시이고, GPT모델은 Transformer구조의 디코더를 활용한 예시이다.    BERT (Bidirectional Encoder Representations from Tramsformers)2018년에 공개된 구글의 pre-trained Model 이다.위키피디아와 BooksCorpus와 같은 레이블이 없는 텍스트 데이터로 사전 훈련된 언어모델이다.다른 모델들과 마찬가지로 fine-tuning이 가능하다. 레이블이 없는 사전훈련된 모델을 가지고, 레이블이 있는 다른 작업에서 추가 훈련과 함께 하이퍼파라미터를 재조정하여 높은 성능을 얻는 BERT모델을 만들 수 있다.또한, Subw.. 2024. 8. 6.
[Goorm] 딥러닝을 이용한 자연어 처리 9 (Transformer) 트랜스포머 (Transformer) ; Transformer는 자연어 처리 (NLP)분야에서 혁신을 가져온 모델 기존의 순환 신경망(RNN)과 LSTM, GRU 등은 시퀀스 데이터를 처리하는데 강력한 도구였지만, 긴 시퀀스를 처리할 때 효율성과 성능문제가 발생하곤 했다.Transformer는 이러한 문제를 해결하기 위해 설계되었으며, RNN을 사용하지 않고도 시퀀스 데이터를 병렬로 처리할 수 있다.  어텐션 메커니즘 (Attention Mechanism): Transformer의 핵심. 시퀀스의 각 요소가 다른 요소와 얼마나 관련이 있는지를 계산(셀프 어텐션)하여 중요한 정보를 집중할 수 있게 한다. 이로 인해 모델은 긴 시퀀스를 효과적으로 처리할 수 있다.  셀프 어텐션 메커니즘 (Self- Atten.. 2024. 8. 6.
[SeSac] LangChain 6 - RAG(Retrieval-Augmented Generation) !pip install -q pypdf!pip install -q langchain_community!pip install chromadbimport osos.environ['OPENAI_API_KEY'] = 'OPENAI_API_KEY'문서 로드from langchain_community.document_loaders import PyPDFLoaderpdf_filepath = 'disable.pdf'loader = PyPDFLoader(pdf_filepath)pages = loader.load()# document 객체의 개수len(pages)  텍스트 분리from langchain.text_splitter import RecursiveCharacterTextSplittertext_splitter = .. 2024. 7. 15.
[SeSac] LangChain 5 - Output Parser CSV Parser : 모델의 출력 형태를 csv 형태로 변환한다.from langchain_core.output_parsers import CommaSeparatedListOutputParseroutput_parser = CommaSeparatedListOutputParser()format_instructions_text = output_parser.get_format_instructions()print(format_instructions_text)# Your response should be a list of comma separated values, eg: `foo, bar, baz`> 모델이 출력을 생성할 때 쉼표로 구분된 형식을 반환하라는 지침을 프롬프트에 추가한다.from langchain_c.. 2024. 7. 14.
728x90
반응형