분류 전체보기
-
Pandas를 활용한 데이터 전처리 및 정리pandas 2025. 1. 30. 22:28
데이터 분석을 하기 전에 데이터 전처리(Data Preprocessing) 과정이 필수적입니다.Pandas는 결측값 처리, 중복 제거, 데이터 변환 등의 기능을 제공하여 데이터를 정리하는 데 유용합니다.1. 결측값 처리 (Missing Values)데이터셋에는 종종 비어있는 값(NaN, null)이 포함되어 있습니다. 이를 처리하지 않으면 분석에 오류가 발생할 수 있습니다.(1) 결측값 확인하기import pandas as pd# 예제 데이터 생성data = {'이름': ['홍길동', '이순신', '강감찬', '김유신'], '나이': [25, 30, None, 40], '도시': ['서울', None, '대구', '부산']}df = pd.DataFrame(data)# 결측값 확인..
-
Pandas로 데이터 불러오기 및 저장하기pandas 2025. 1. 30. 22:25
1. 데이터 불러오기Pandas에서는 다양한 파일 형식의 데이터를 쉽게 불러올 수 있습니다. 대표적으로 CSV, Excel, JSON, SQL 데이터베이스 등이 있습니다.(1) CSV 파일 불러오기CSV(Comma-Separated Values) 파일은 가장 일반적인 데이터 파일 형식 중 하나입니다.import pandas as pd# CSV 파일 불러오기df = pd.read_csv("data.csv")# 데이터 출력print(df.head()) # 상위 5개 행 출력추가 옵션:sep=";": 구분자가 ,가 아닌 ;일 경우 지정 가능encoding="utf-8": 인코딩을 명시적으로 지정할 수 있음 (예: 한글 파일은 encoding="cp949")(2) Excel 파일 불러오기Pandas는 Exce..
-
Python Pandas 기초: 데이터 분석의 시작pandas 2025. 1. 30. 22:19
Pandas란?Pandas는 Python에서 데이터를 효율적으로 처리하고 분석할 수 있도록 도와주는 라이브러리입니다. 행과 열로 구성된 DataFrame과 Series 객체를 제공하여 엑셀이나 SQL과 유사한 방식으로 데이터를 다룰 수 있습니다.Pandas는 데이터 분석 및 머신러닝에서 필수적인 라이브러리로, 데이터를 정리하고 변환하는 데 매우 유용합니다.Pandas 설치하기Pandas를 사용하려면 먼저 라이브러리를 설치해야 합니다. 다음 명령어를 사용하면 쉽게 설치할 수 있습니다.pip install pandas설치 후에는 다음과 같이 라이브러리를 불러올 수 있습니다.import pandas as pdPandas의 주요 데이터 구조Pandas에는 크게 두 가지 핵심 데이터 구조가 있습니다.Series:..
-
pd crosstab 사용python 기초 2024. 10. 20. 17:59
In [1]: from IPython.core.display import display, HTMLdisplay(HTML("<style>.container {width:90% !important;}</style>")) In [2]: import seaborn as snsimport pandas as pdpd.crosstab? Signature:pd.crosstab( index, columns, values=None, rownames=None, colnames=None, aggfunc=None, margins=False, margins_name='All',..
-
pandas dataframe index, column 가져오고 변경하기python 기초 2024. 8. 27. 21:40
pandas dataframe의 index와 column을 가져오고, 변경하는 방법은 아래와 같다 import numpy as npimport pandas as pdimport sklearn In [3]:A=np.random.sample(10)*5+2B=np.random.sample(10)*2+3C=np.random.sample(10)*3-1df=pd.DataFrame({'A':A, 'B':B, 'C':C})df Out[3]: ABC06.1616204.609621-0.18678613.9376654.9367750.96905523.8826884.0345691.48339035.8576423.1078701.66543344.7283883.322217-0.49469154.8714714.8591520.8019..
-
sklearn standard scalerpython 기초 2024. 8. 27. 21:19
데이터 표준화 적용시, sklearn의 standard scaler를 사용하는 경우, ddof=0의 편향 표준편차 를 사용한다.https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html StandardScalerGallery examples: Release Highlights for scikit-learn 1.5 Release Highlights for scikit-learn 1.4 Release Highlights for scikit-learn 1.2 Release Highlights for scikit-learn 1.1 Release Highlights ...scikit-learn.org 아래와 ..
-
pandas read_csv sep 옵션python 기초 2024. 8. 25. 16:06
pandas에서 read_csv 사용시 sep 옵션을 파일의 양식에 맞춰줘야한다대표적으로 콤마, 공백, tab 으로 나눠진 파일을 읽어오는 방식을 정리하려 한다.각각 sep 옵션에 ',', ' ', '\n' 을 넣으면 해결. In [1]:from IPython.core.display import display, HTMLdisplay(HTML(""))import pandas as pdimport seaborn as sns In [2]:df=pd.DataFrame({'A':[0,1,2,3],'B':[4,3,2,1],'C':['1','2','3','4']},index=[0,1,2,3])df Out[2]: ABC0041113222233314 In [3]:# 구분자 종류별로 저장df.to_csv('da..
-
pandas dadtaframe 수치형 / 범주형 분리python 기초 2024. 8. 24. 21:22
Data frame 처리를 하다보면 수치형과 범주형 데이터를 따로 처리하고 싶을 때가 있다.데이터 프레임을 분류하는 몇가지 방법이 있다.1. data frame에 _get_numeric_data 함수가 있어서 이를 써도 된다. : 편한 장점이 있는데, 범주형엔 별도의 함수가 없는 듯하다.2. select_dtypes 함수를 이용, 원하는 데이터 type만 가져올수 있다.3. dtypes를 보고 해당 dtype에 해당되는 column만 선택한다. : 약간 불편하지만, 데이터 타입들을 확인하고 갈수 있어서 더 안심이 되는 느낌이다. In [1]:from IPython.core.display import display, HTMLdisplay(HTML(""))import pandas as pdimpo..