AI/Machine Learning & Deep Learning

정형 데이터와 비정형 데이터 정형데이터 - 어떤 구조로 되어 있다 - CSV, Excel에 저장하기 쉬움 랜덤 포레스트 '랜덤'으로 선택된 샘플, 특성 사용 → 훈련 세트 과대적합 막음(기본 매개변수 설정만으로도 좋은 결과를 내기도 함) import numpy as np import pandas as pd from sklearn.model_selection import train_test_split wine = pd.read_csv('https://bit.ly/wine_csv_data') data = wine[['alcohol', 'sugar', 'pH']].to_numpy() target = wine['class'].to_numpy() train_input, test_input, train_target..
현재까지 진행된 훈련방법 및 모델 평가의 문제점 테스트 모델의 평가 점수를 보고 실전의 성능을 기대하기 때문에 세트스 세트로 성능을 확인할수록 점점 테스트 세트에 맞추게 됨 따라서 일반화 성능을 올바르게 예측하려면 모델을 만들고 마지막에 딱 한번만 테스트 세트를 사용해야 한다. 그렇다면 max_depth 매개변수를 사용한 하이퍼파라미터 튜닝은 어떻게 하는 걸까? 검증 세트 기존 훈련세트로 할당한 데이터를 또 나눠 검증세트에 할당하는 방법을 사용하면 된다. 이때 나눈 데이터가 검증 세트이다. * 훈련에 따라 다르지만 보통 20~30%정도를 테스트 세트와, 검증 세트에 할당한다. 다만 훈련 데이터가 아주 많다면 조금만 할당해도 괜찮다. 그래서 순서는 다음과 같이 진행됟ㄴ다. 훈련 세트에서 모델 훈련 → 검증..
import pandas as pd wine = pd.read_csv('https://bit.ly/wine_csv_data') 이번에도 샘플로 사용할 데이터셋을 가져왔다. wine.head() head() 메서드로 처음 5개의 샘플을 확인할 수 있다. 차례대로 알코올 도수, 당도, pH를 뜻하며 마지막 class는 타깃값으로 0이면 레드와인, 1이면 화이트 와인을 나타낸다. 이때 화이트 와인이 양성 클래스이기 때문에 전체 와인 데이터에서 화이트 와인을 골라내는 문제라고 볼 수 있다. info() 메소드 wine.info() *wine은 데이터프레임 => 누락된 값 없음 확인! 누락된 값 있으면 버리거나 평균값으로 채우기 describe() 메소드 wine.describe()​ 평균, 표준편차, 최소, 1..
보호되어 있는 글입니다.
suntall
'AI/Machine Learning & Deep Learning' 카테고리의 글 목록