<예제로 보는 Pandas> 02. DataFrame
DataFrame
2차원 데이터 (Series 들의 모음)
Series와 2차원 데이터에 대한 내용은 이전 포스팅을 참고해 주시기 바랍니다.
https://math-love.tistory.com/16
<예제로 보는 Pandas> 01. Series
Pandas란? pandas란 파이썬에서 사용하는 데이터 분석 라이브러리 입니다. 쉽고 직관적이어서 데이터 작업을 할 때 많이 사용되는 라이브러리 입니다. pandas는 라이브러리이니 import를 해주어야겠습
math-love.tistory.com
Data 준비
우선 2차원 데이터이기 때문에
비교적 다루기 편한 dictionary로 자료를 구성해봅시다.
이번에도 세모고등학교 3학년 3반 학생들의 정보를 가져와 보겠습니다.
data = {
'이름' : ['홍길동', '김태희', '아이유', '손흥민', '김신욱'],
'키' : [180, 163, 165, 187, 200],
'국어' : [90, 40, 80, 40, 15],
'수학' : [100, 50, 70, 70, 10],
'영어' : [85, 35, 75, 60, 20],
'직업' : ['Thief', 'actress', 'Singer', 'Football Player', 'Football Player']
}
data
DataFrame 객체 생성
이제 pandas에 내장되어 있는 DataFrame() 함수를 통해 dataframe을 만들어 봅시다.
-> code : pd.DataFrame(data)
import pandas as pd
df = pd.DataFrame(data)
df
각각의 데이터에 대한 접근은 dictionary와 유사합니다.
다만 dataframe은 Series들의 모음이기 때문에 하나의 데이터에 대한 접근은 Series 출력과 동일합니다.
df['이름']
두 개 이상의 column에도 접근할 수 있습니다.
df[['이름', '키']]
이처럼 두 개 이상의 column에 접근하려면 list로 감싸주어야합니다.
그러고보니 이번에도 마찬가지로 index가 pandas 내부에서 자동으로 지정되었습니다.
index를 지정해봅시다.
DataFrame Index 지정
df = pd.DataFrame(data, index = ['1번', '2번', '3번', '4번', '5번'])
df
DataFrame Column 지정
일부 column만을 지정할 수도 있습니다.
예를 들어 학생들의 이름과 키, 수학 점수만 알고 싶은 경우는 다음과 같은 코드로 작성할 수 있습니다.
df = pd.DataFrame(data, columns = ['이름', '키', '수학'])
df
물론 순서를 바꿔 출력하는 것도 가능합니다.
df = pd.DataFrame(data, columns = ['수학', '이름', '키'])
df