본문 바로가기
728x90
반응형

Python11

[Python] LabelEncoder VS OrdinalEncoder 데이터 분석을 공부하거나 프로젝트에 적용할 때, 그리고 빅데이터 분석기사를 준비할 때string타입의 범주형 변수를 보면 습관적으로 labelencoder를 쳤다. 그럴때마다 종종 train데이터 셋에서 fit_transform한 encoder를 test데이터셋에 transform할 때면,train데이터셋에서 없었던 범주(class)가 나와 오류가 뜨곤 했다.뭐 당연히 split하기 전에 먼저 encoding 했으면 좋았겠지만,처음부터 train과 test가 따로 제공되기도 하고 test에는 target 변수가 없는 상태로 주어지기에각각의 파일로 제공이 된다.그래서 가끔 이런 오류를 보면 답답했다. 왜 예외값을 처리하는 옵션은 없는가!(우물 안 개구리였다.) LabelEncoder https://scik.. 2024. 11. 6.
[Python] 함수 내 함수 def A(): x = 10 # A의 지역 변수 x def B(): print(x) B() A()> 10: 해당 함수 호출시 동일 지역이었던 변수는 가져와서 쓰기 ok  def A(): x = 10 # A의 지역 변수 x def B(): x = 20 # x에 20 할당 B() print(x) # A의 지역 변수 x 출력 A()> 10: A함수에서 정의하는 x와 B함수에서 정의하는 x가 다름.각각의 지역변수 (다른 두 지역의 변수)  def A(): x = 10 # A의 지역 변수 x def B(): nonlocal x # 현재 함수의 바깥쪽에 있는 지역 변수 .. 2024. 10. 4.
[Python] 파이썬 기초 자료형 Tuple, Set 비교 Tuple (튜플) 자료형tuple_a= (1, 2, 3)위와 같이 소괄호로 표현하며,한번 정의된 튜플 변수의 원소 추가, 제거, 변경이 불가능하고,각 원소의 순서가 정해져있다. (변경불가)  Set (셋) 자료형set_a= (1, 3, 5)다음과 같이 소괄호로 표현하며,세트 변수의 원소 추가, 제거, 변경이 가능하고 순서가 없지만중복 원소를 허용하지 않는다. 2024. 8. 20.
주피터 실행결과 출력문 생략 주피터에서 셀 실행 시, 출력 결과가 길어서 종종 생략되거나 잘리는 경우가 있다.특히 데이터프레임 출력시 많이들 잘리곤 한다. pd.set_option('display.max_columns', None) ## 모든 열 출력pd.set_option('display.max_rows', None) ## 모든 행 출력pd.set_option('display.max_colwidth', None) ## 모든 내용 출력> 위의 코드 중 잘리는 부분, 즉 필요한 코드만 가져다 써도 좋을 것 같다   df.columns를 출력할 때도 출력 결과가 생략되는 경우가 많은데pd.set_option('display.max_seq_items', None)> 이때는 이 코드를 사용해보길 바람!  pandas 자체의 옵션을 수정하는.. 2024. 8. 1.
728x90
반응형