본문 바로가기
728x90
반응형

전체 글110

[DL] rnn 과 lstm (수정중) RNN: 순환신경망하이퍼볼릭탄젠트 > 손실이 적음분류 > 소프트맥스tanh대신 relu사용 상관xBut 시퀀스가 길수록 많은 손실을 야기한다. > tanh 사용    LSTM 모델>>링크All gates use the same inputs and activation functions, but different weightsOutput gate: How much of the previous output should contribute?     GRU    Time Seriesdbtkeh-> 딥러닝 시 추세, 계절성 등을 고려하지 않아도 ㄷ된다(복잡한 패턴을 포착) 2023. 8. 10.
[DL] CNN_2 DEPTH를 길게 사이즈를 빨리줄이는게 목표  원본이미지224X224X3convolution 거치면 224x224x64max pooling 거치면 down sampling 됨 > 112x112x128... max pooling...depth를 길게 하기 위해 flatten  이미지 transfer learning(전이학습)을 많이 사용 > 성능이 좋음!사이즈를 줄이고 activation map?을 ~       semi-지도학습 : 비지도학습먼저, 나중에 지도학습을 한다     텐서형태의 입력값을 줄여(인코더를 통해?)디코더를 통해 generative learning 하여 reconstructed data로 변환> 미세하게 변화 O (laternt?? vector 2023. 8. 10.
[DL] CNN - data synthesize : 데이터를 더 생성시킴?- data augment: 원본이미지를 변형시켜 다양한 데이터를 확보- 미니 배치- 피처 스케일링(stand~, normal~, minmax)- dropout >>노드수에 맞게 일정노드를 제거함, 가중치도 약간 조정하는 역할도 한다- data shuffling: 배치가 순서대로 되어있으면 학습할때 연관해서 학습하기 때문에 순서에 관계없이 학습하도록 순서를 바꿔줌 batch normalization (배치정규화): dropout보다 좋은 효과를 냄, 학습시간이 짧음 layer build시 사용early stopping: 에러가 변화없는 경우, 가중치가 변하지 않는경우 > 학습이 다 되었다고 생각하고 model con 관찰 optimum 되는 지점을.. 2023. 8. 9.
[DL] 딥러닝 개요_2 각 레이어의 노드 수: 입출력의 노드의 수는 차원을 가리킨다. 활성화 함수 x값이 0이상이 되면 1에 급격하게 가까워진다. RNN구성시 활성화함수를 사용한다. ReLU함수를 가장 많이 사용 >> 성능이 잘나와서..ㅎㅎ 확률이 낮을수록 정보량은 높아진다. KL 다이버전스 우도함수: 이유- 모델이 파라미터를 결정할때, 최대우도 추정함. 그래서 함수를 허용 세타가 정해져있을때, 최대값을 정하기 위해 함수 사용 이때 엔트로피 개념 사용 값이 너무 커서? 로그를 취함 -(마이너스) 도 엔트로피개념에서 나옴 엔트로피는 정보이론에서 파생됨 자주 발생하는 것은 확률 높음 드물게 발생하는 사건이 정보량이 높음 > 결과적으로 -log (kl은 참고만) 두개의 확률(p와 q) >> 교차 엔트로피= 크로스 엔트로피 네거티브 .. 2023. 8. 8.
[DL] 딥러닝 개요_1 data science의 경우 가장 중심 -> 모든 조건을 고루 갖춰야 한다 지도학습과 비지도학습, 강화학습 teacher-student ; 선생님 모델이 승계시켜 학생모델이 사용할수 있도록 함 전이학습 시 사용 - dataset ~ - model ~ : 이미 학습된 모델 - 정형데이터 (EX. 엑셀, 스프레드시트) - 반정형데이터 ; KEY. VALUE 형태로 나타남. 반정형데이터를 parsing(규칙화)하면 정형데이터/ 텍스트데이터가 됨 - 비정형데이터 (EX. 이미지, 영상, 음성, 텍스트(문자열) ) ==> 딥러닝 이용! - 메타데이터 3차원 이미지 데이터 이미지 데이터는 3차원 데이터 >> 가로방향의 너비(Width), 세로방향의 높이(Height), 색상채널(Channel)로 구성 색상채널 >.. 2023. 8. 7.
[선형대수학] 4주차 0805 예고편.. Least Square 두 점을 어떻게 샘플링 해서 직선으로 연결할 것인가 모든 등식을 만족하는 해는 없다.(No solution to satisfy the all equality!) > 하나의 해가 나오지 않는다? 이 과정을 ' 리스트 스퀘어 ' 라고 한다. ( Least Square Error/Estimate : 최소 자승법(제곱법)/ 최소 제곱 추정법 ) Pseudo-Inverse ; 일반적으로 역행렬은 정방행렬에서만 구할 수 있는데, 슈도역행렬?(유사 역행렬) 을 이용하면 정방행렬이 아니어도 역행렬을 구할 수 있다. 본편..! over constrained 시스템 ; 여러 방정식이 하나의 해를 가리키고 있지 않다. 해가 없거나 해가 여러개 여서 하나의 해를 가리키지 않는다. pseudo.. 2023. 8. 7.
[ChatGPT] 프롬프트 이용하여 시스템 만들기 코어 수, RAM, GPU, SSD(용량), 크기, 무게, 브랜드, 가격, 목적 등 원하는 사양을 적어주세요 코어수: 4, RAM: 16, SSD: 256이상, 크기: 13~14, 무게: 1.2kg 이하, 브랜드: 삼성, 가격: 100만원 내외, 목적: 인공지능 특화 Task AI 특정 태스크에 제한된 사용 고정된 입출력 인터페이스 투자대비 성능 보장 힘듦 자동화/무인화 체계가 마련되어 있지 않다면 적용이 힘듦 대규모 언어모델 (ex. chatGPT) 자연어 처리 기반 대량의 데이터셋으로 기 학습됨 업무효율화에 바로 사용가능 할루세이션 문제?? 에이전트 (특화 테스크 AI + 대규모 언어모델) 특화 테스크 AI + 대규모 언어모델 연동 멀티유저, 방문기억, 이미지 import gradio as gr # .. 2023. 8. 4.
[ChatGPT] Prompt Engineering Dropout ( 드롭아웃 ) ; 뉴런을 임의로 삭제하면서 학습하는 방법. 훈련 때 은닉층의 뉴런을 무작위로 골라 삭제한다. > 주로 과적합데이터에 대해 사용하는데, 데이터의 일부를 날리면 과적합결과에 비해 데이터가 느슨해진다. 내부적으로는 정확도가 떨어지겠지만, 더 많은 데이터를 학습한 것과 같은 효과가 나타난다. RAG 기법 외부틀을 이용해 연동된 지식을 가져옴 ZAPIER: 업무수강용 자동생성화 프롬프트 엔지니어링 기법 - 프롬프팅 : 인공지능에 일련의 지시(프롬프트)를 내리는 과정 지시문 : 인공지능에게 특정한 행동을 수행하도록 명령하는 가장 간단한 방법 AI가 지시문을 정확하게 이해하고, 그에 따라 적절한 결과를 출력할 수 있어야 한다. >> AI에 지시문을 제공할 때는 가능한 명확하고 구체적으.. 2023. 8. 3.
[NLP] Transformer 트랜스포머 모델 Transformer 모델 ; 기존의 seq2seq의 구조인 인코더-디코더를 따르면서도, RNN은 사용하지 않고 attention만으로 구현한 모델 Seq2Seq 모델과 다르게 컨텍스트 벡터를 사용하지 x 인코더의 출력되는 값이 하나의 벡터로 압축되는데 이때 생기는 정보의 손실을 보완하기 위해 나온것이 attention 구조이다. > LSTM모델을 사용하지 않고 Attention 구조를 사용한다. > 입력과 출력의 길이가 다른 경우에 특히 유용 attention만으로 인코더와 디코더를 만든 모델이다. 트랜스포머는 RNN을 사용하지 X 이전 Seq2Seq 구조에서는 인코더와 디코더에서 각각 하나의 RNN이 t개의 시점(time step)을 가지는 구조였다면 이번에는 인코더와 디코더라는 단위가 N개로 구성되.. 2023. 8. 1.
728x90
반응형