728x90 반응형 분류 전체보기110 [Machine Learning] SMOTE SMOTE( Synthetic Minority Oversampling Technique) 는 오버샘플링의 일종. 타겟변수의 범주별 비율이 맞지 않을 때? 사용했다. y값 y.value_counts() y.value_counts(normalize=True) normalize=True 를 넣어주면 비율로 확인할 수 있다. 아 팀프로젝트로 파산데이터 분석을 진행했었는데 타겟변수가 파산했는가 에 대한 여부였다. 파산 한 경우 : 1, 파산하지 않은 경우 : 0 거의 96% 이상이 타겟변수 0으로 쏠려 있는 것을 볼 수 있다. 이런 경우에는 0으로 과적합 될 가능성이 있다. 음.. 그러니까 독립변수가 어떠하더라도 대부분의 예측 결과로 0이 나올수도 있다 이 말..! 임의로 8:2의 비율로 오버샘플링 하였다. 굳이.. 2023. 7. 23. [Machine Learning] Hyper Parameter 하이퍼 파라미터 파라미터는 모델 내부에서 결정되는 변수이다 각 파라미터는 데이터를 통해 구해지며 모델 내부 자체적으로 결정되는 값이기 때문에, 사용자가 임의로 설정할 수는 없다. ## 파라미터 VS 하이퍼파라미터 하이퍼 파라미터는 모델링 시 사용자가 직접 결정할 수 있는 변수이다. 각 파라미터는 최적의 값이 정해져 있지 않아서 사용자의 경험이나, 필요 조건에 따라 결정해야 한다. 만약 하이퍼 파라미터를 수동으로 결정하지 못하겠다면 그리드 서치( Grid Search) 나 베이지안 최적화( Bayesian Optimization) 방법을 사용해도 좋다. >>>https://data-yun.tistory.com/4 [Machine Learning] Grid Search 그리드 서치 그리드 서치(Grid Search) : 좋.. 2023. 7. 23. [선형대수학] 2주차 0722 x와 y를 벡터로 AX = b => UX = C nxn nx1 nx1 벡터들로 닫혀있는집합= space set{ vectors } + operation V: vector space x1 ⊂V x2⊂V 일때 x1+x2 ⊂ V kx1⊂ V => 벡터 스페이스의 닫혀있는 모양(k=0 or x1= -x2 -> 0EV ) 0벡터는 반드시 벡터스페이스에 포함된다. 평균벡터 하나를 가지고 모든 벡터를 빼면 평균기준으로 분포하게 된다. 2차원 벡터공간의 원소 ⊂ R^2 A(mxn) ∈ R^mn subspace 부분집합-> U(mxn) ⊂ R(mxn) 원점으로 지나는 r공간\ C(A) = [시그마] CiXi 선형조합으로 두 벡터의 연산을 만들어 낼 수 있다. 당수배( 스칼라배/실수배 )를 곱하거나 ⭐a라는 행렬의 컬럼스.. 2023. 7. 23. [알고리즘] 시간복잡도 l= [3,5,2,6,1] #제거하기 l.pop[1] -> 리스트로 구현 시 시간이 많이 걸리고 비싼 연산임.. n번 계산 하는 알고리즘이다 ( Order n) 리스트 내 요소 개수만큼 탐색하는 시간과 연산이 걸림 from collections import deque queue= deque([1,2,3]) ## 요소삽입 queue.append(5) # > [1, 2, 3, 5] ## 요소 삭제 queue.popleft() # > [2, 3, 5] # > 반환값은 1 ## 리스트 처럼 접근도 가능 queue[0] # > 2 # > 0번째만 가능? - > 리스트의 pop연산 보다 FIFO(First In First Out) 사용에 더 유용하고 연산 속도나 갯수가 적다. (deque는 popleft 사용) 코.. 2023. 7. 22. 이전 1 ··· 24 25 26 27 28 다음 728x90 반응형