-
Scikit-Learn의 GridSearchCV 사용법pandas 2025. 2. 17. 23:29728x90
1. GridSearchCV란?
GridSearchCV는 Scikit-Learn에서 제공하는 하이퍼파라미터 튜닝 도구로, 주어진 하이퍼파라미터 값의 조합을 탐색하여 최적의 모델을 찾는 데 사용됩니다. 여러 개의 파라미터를 조합하여 반복적으로 모델을 학습시키고, 교차 검증을 통해 성능을 평가하여 최상의 하이퍼파라미터를 선택할 수 있습니다.
2. GridSearchCV 사용 방법
2.1 필요한 라이브러리 불러오기
from sklearn.model_selection import GridSearchCV from sklearn.ensemble import RandomForestClassifier from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score
2.2 데이터 준비
data = load_iris() X = data.data y = data.target X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
2.3 하이퍼파라미터 설정 및 GridSearchCV 적용
# 탐색할 하이퍼파라미터 정의 param_grid = { 'n_estimators': [50, 100, 200], 'max_depth': [None, 10, 20, 30], 'min_samples_split': [2, 5, 10], 'min_samples_leaf': [1, 2, 4] } # 모델 정의 rf = RandomForestClassifier(random_state=42) # GridSearchCV 적용 grid_search = GridSearchCV(estimator=rf, param_grid=param_grid, cv=5, n_jobs=-1, verbose=2) grid_search.fit(X_train, y_train)
2.4 최적의 하이퍼파라미터 및 성능 확인
# 최적의 하이퍼파라미터 출력 print("최적의 하이퍼파라미터:", grid_search.best_params_) # 최적의 모델로 예측 수행 best_model = grid_search.best_estimator_ y_pred = best_model.predict(X_test) # 모델 성능 평가 accuracy = accuracy_score(y_test, y_pred) print("테스트 세트 정확도:", accuracy)
3. GridSearchCV의 주요 매개변수
- estimator: 사용할 모델 객체 (예: RandomForestClassifier())
- param_grid: 탐색할 하이퍼파라미터 값의 딕셔너리
- cv: 교차 검증의 폴드 수 (기본값: 5)
- n_jobs: 병렬 처리에 사용할 CPU 코어 수 (-1은 모든 코어 사용)
- verbose: 실행 과정의 출력 정도 (0: 없음, 1: 최소, 2 이상: 상세 정보 출력)
4. GridSearchCV 사용 시 주의할 점
- 탐색할 하이퍼파라미터 공간이 너무 크면 실행 시간이 길어질 수 있음
- RandomizedSearchCV를 사용하면 일부 조합만 샘플링하여 탐색 속도를 높일 수 있음
- 교차 검증을 적절히 설정하여 과적합을 방지해야 함
5. 마무리
GridSearchCV는 모델의 성능을 극대화하는 데 매우 유용한 도구입니다. 적절한 하이퍼파라미터를 탐색하면 모델의 일반화 성능을 향상시킬 수 있으며, 이를 통해 보다 신뢰할 수 있는 예측 결과를 얻을 수 있습니다. 실전 프로젝트에서도 이를 적극적으로 활용하여 최적의 모델을 구축하는 것이 중요합니다.
728x90'pandas' 카테고리의 다른 글
OLS get_influence 활용 방법 (0) 2025.02.16 편향 표준편차와 불편 표준편차 그리고 Pandas/Numpy의 `std` 차이점 (0) 2025.02.11 다양한 머신러닝 알고리즘 비교 및 하이퍼파라미터 튜닝 (0) 2025.01.31 Pandas와 Scikit-Learn을 활용한 머신러닝 모델 만들기 (0) 2025.01.30 Pandas를 활용한 실전 데이터 분석 예제 (0) 2025.01.30