pandas
-
Scikit-Learn의 GridSearchCV 사용법pandas 2025. 2. 17. 23:29
1. GridSearchCV란?GridSearchCV는 Scikit-Learn에서 제공하는 하이퍼파라미터 튜닝 도구로, 주어진 하이퍼파라미터 값의 조합을 탐색하여 최적의 모델을 찾는 데 사용됩니다. 여러 개의 파라미터를 조합하여 반복적으로 모델을 학습시키고, 교차 검증을 통해 성능을 평가하여 최상의 하이퍼파라미터를 선택할 수 있습니다.2. GridSearchCV 사용 방법2.1 필요한 라이브러리 불러오기from sklearn.model_selection import GridSearchCVfrom sklearn.ensemble import RandomForestClassifierfrom sklearn.datasets import load_irisfrom sklearn.model_selection impor..
-
OLS get_influence 활용 방법pandas 2025. 2. 16. 21:40
statsmodels는 파이썬에서 회귀 분석을 수행할 때 널리 사용되는 라이브러리다. 특히 OLS(Ordinary Least Squares) 회귀 분석을 수행할 때 get_influence() 메서드를 활용하면 데이터 포인트가 회귀 모델에 미치는 영향을 분석할 수 있다. 이번 포스팅에서는 get_influence()의 사용법과 활용 방법을 정리해본다.1. get_influence()란?get_influence()는 statsmodels.regression.linear_model.RegressionResults 객체에서 제공하는 메서드로, 회귀 모델을 학습한 후 각 데이터 포인트가 모델에 얼마나 영향을 주는지 평가하는 데 사용된다. 이 메서드는 잔차 분석, 레버리지 점수, Cook’s Distance 등 ..
-
편향 표준편차와 불편 표준편차 그리고 Pandas/Numpy의 `std` 차이점pandas 2025. 2. 11. 22:37
데이터 분석을 할 때 표준편차(Standard Deviation)를 계산하는 방법에는 **편향 표준편차(Biased Standard Deviation)**와 불편 표준편차(Unbiased Standard Deviation) 두 가지 방식이 있다. 또한, pandas와 numpy에서 std() 함수를 사용할 때 결과가 다르게 나올 수 있으므로 그 차이를 정확히 이해하는 것이 중요하다.1. 편향 표준편차(Biased Standard Deviation)편향 표준편차는 모집단 전체(N)를 기준으로 표준편차를 계산하는 방식이다. 일반적으로 모집단(population)의 표준편차를 구할 때 사용한다.공식은 다음과 같다. 이 방식은 모집단 전체를 분석할 때는 정확하지만, 표본(Sample)에서 모집단의 표준편차를 추..
-
다양한 머신러닝 알고리즘 비교 및 하이퍼파라미터 튜닝pandas 2025. 1. 31. 22:28
머신러닝 모델의 성능을 최적화하려면 여러 알고리즘을 비교하고, 각 모델의 하이퍼파라미터를 튜닝하는 과정이 필요합니다.이번 글에서는 Scikit-Learn을 활용하여 여러 알고리즘을 비교하고, 최적의 모델을 찾는 방법을 소개하겠습니다.1. 라이브러리 설치 및 불러오기먼저 필요한 라이브러리를 설치합니다.pip install pandas scikit-learn seaborn matplotlib이제 라이브러리를 불러옵니다.import pandas as pdimport seaborn as snsimport matplotlib.pyplot as pltfrom sklearn.model_selection import train_test_split, cross_val_score, GridSearchCVfrom sklea..
-
Pandas와 Scikit-Learn을 활용한 머신러닝 모델 만들기pandas 2025. 1. 30. 22:36
Pandas와 Scikit-Learn을 활용한 머신러닝 모델 만들기이번 포스팅에서는 Pandas로 데이터를 정리한 후 Scikit-Learn을 활용하여 머신러닝 모델을 구축하는 과정을 살펴보겠습니다.예제 데이터셋으로 타이타닉 데이터를 사용하여 생존자를 예측하는 머신러닝 모델을 만들어보겠습니다.1. 라이브러리 설치 및 불러오기먼저 필요한 라이브러리를 설치합니다.pip install pandas scikit-learn seaborn matplotlib이제 필요한 라이브러리를 불러옵니다.import pandas as pdimport seaborn as snsimport matplotlib.pyplot as pltfrom sklearn.model_selection import train_test_splitfro..
-
Pandas를 활용한 실전 데이터 분석 예제pandas 2025. 1. 30. 22:34
이번 포스팅에서는 실제 데이터셋을 활용하여 데이터 분석을 진행해보겠습니다.예제로 타이타닉(Titanic) 데이터셋을 사용하여 생존자 분석을 수행하겠습니다.1. 데이터 불러오기타이타닉 데이터는 Seaborn 라이브러리에서 제공하는 데이터셋 중 하나입니다.import pandas as pdimport seaborn as sns# 타이타닉 데이터셋 불러오기df = sns.load_dataset("titanic")# 데이터 확인print(df.head()) # 상위 5개 행 출력print(df.info()) # 데이터 정보 확인출력 결과: survived pclass sex age sibsp parch fare embarked class ...0 0 ..
-
Pandas를 활용한 데이터 분석 및 시각화pandas 2025. 1. 30. 22:31
데이터를 정리한 후에는 이를 분석하고 시각화하는 과정이 필요합니다.Pandas는 기본적인 데이터 분석 기능을 제공하며, Matplotlib 및 Seaborn 라이브러리와 함께 사용하면 강력한 시각화를 수행할 수 있습니다.1. 데이터 분석 기초(1) 기본 정보 확인import pandas as pd# 예제 데이터 생성data = {'이름': ['홍길동', '이순신', '강감찬', '김유신', '유관순'], '나이': [25, 35, 45, 40, 22], '도시': ['서울', '부산', '대구', '광주', '서울'], '연봉': [5000, 7000, 8000, 7500, 5500]}df = pd.DataFrame(data)# 데이터 기본 정보 확인print(df...
-
Pandas를 활용한 데이터 전처리 및 정리pandas 2025. 1. 30. 22:28
데이터 분석을 하기 전에 데이터 전처리(Data Preprocessing) 과정이 필수적입니다.Pandas는 결측값 처리, 중복 제거, 데이터 변환 등의 기능을 제공하여 데이터를 정리하는 데 유용합니다.1. 결측값 처리 (Missing Values)데이터셋에는 종종 비어있는 값(NaN, null)이 포함되어 있습니다. 이를 처리하지 않으면 분석에 오류가 발생할 수 있습니다.(1) 결측값 확인하기import pandas as pd# 예제 데이터 생성data = {'이름': ['홍길동', '이순신', '강감찬', '김유신'], '나이': [25, 30, None, 40], '도시': ['서울', None, '대구', '부산']}df = pd.DataFrame(data)# 결측값 확인..