데이터 사이언스/데이터 분석

<예제로 보는 Pandas> 02. DataFrame

수학과인데 공대생 2023. 7. 10. 21:00
728x90

DataFrame

2차원 데이터 (Series 들의 모음)

 

Series와 2차원 데이터에 대한 내용은 이전 포스팅을 참고해 주시기 바랍니다.

https://math-love.tistory.com/16

 

<예제로 보는 Pandas> 01. Series

Pandas란? pandas란 파이썬에서 사용하는 데이터 분석 라이브러리 입니다. 쉽고 직관적이어서 데이터 작업을 할 때 많이 사용되는 라이브러리 입니다. pandas는 라이브러리이니 import를 해주어야겠습

math-love.tistory.com

 

Data 준비

우선 2차원 데이터이기 때문에

비교적 다루기 편한 dictionary로 자료를 구성해봅시다.

 

이번에도 세모고등학교 3학년 3반 학생들의 정보를 가져와 보겠습니다.

data = {
    '이름' : ['홍길동', '김태희', '아이유', '손흥민', '김신욱'],
    '키' : [180, 163, 165, 187, 200],
    '국어' : [90, 40, 80, 40, 15],
    '수학' : [100, 50, 70, 70, 10],
    '영어' : [85, 35, 75, 60, 20],
    '직업' : ['Thief', 'actress', 'Singer', 'Football Player', 'Football Player']    
}
data

 

DataFrame 객체 생성

이제 pandas에 내장되어 있는 DataFrame() 함수를 통해 dataframe을 만들어 봅시다.

 

-> code : pd.DataFrame(data)

import pandas as pd
df = pd.DataFrame(data)
df

각각의 데이터에 대한 접근은 dictionary와 유사합니다.

다만 dataframe은 Series들의 모음이기 때문에 하나의 데이터에 대한 접근은 Series 출력과 동일합니다.

df['이름']

두 개 이상의 column에도 접근할 수 있습니다.

df[['이름', '키']]

이처럼 두 개 이상의 column에 접근하려면 list로 감싸주어야합니다.

 

그러고보니 이번에도 마찬가지로 index가 pandas 내부에서 자동으로 지정되었습니다.

index를 지정해봅시다.

 

DataFrame Index 지정

df = pd.DataFrame(data, index = ['1번', '2번', '3번', '4번', '5번'])
df

 

DataFrame Column 지정

일부 column만을 지정할 수도 있습니다.

예를 들어 학생들의 이름과 키, 수학 점수만 알고 싶은 경우는 다음과 같은 코드로 작성할 수 있습니다.

 

df = pd.DataFrame(data, columns = ['이름', '키', '수학'])
df

 

물론 순서를 바꿔 출력하는 것도 가능합니다.

df = pd.DataFrame(data, columns = ['수학', '이름', '키'])
df

 

728x90