본문 바로가기
데이터 사이언스/데이터 분석

<예제로 보는 Pandas> 01. Series

by 수학과인데 공대생 2023. 7. 10.
728x90

Pandas란?

pandas란 파이썬에서 사용하는 데이터 분석 라이브러리 입니다.

쉽고 직관적이어서 데이터 작업을 할 때 많이 사용되는 라이브러리 입니다.

pandas는 라이브러리이니 import를 해주어야겠습니다.

import pandas as pd

 

그 첫번째 구조인 1차원 Series에 대해 살펴보겠습니다.

 

Series

Series1차원 데이터를 말합니다.

예를 들어, 1월부터 4월까지 평균 온도의 데이터가 다음과 같이 주어졌다고 해봅시다.

1월 :  -10도

2월 :    -5도

3월 :     5도

4월 :   20도

1월, 2월, 3월 그리고 4월이라는 인덱스 하나에 하나의 값만 대응되기 때문에 1차원 데이터의 형태입니다.

 

그럼 2차원 데이터는 어떤 형태일까요?

예를 들어,  세모고등학교 3학년 3반 학생들의 기말고사 점수 데이터가 주어졌다고 해봅시다.

짱구 :  [수학 : 90점, 영어 : 30점]

진구 :  [수학 : 10점, 영어 : 10점]

루피 :  [수학 : 0점, 영어 : 100점]

각 인덱스 하나에 수학 점수와 영어 점수 2개 이상의 값에 대응되는 것을 볼 수 있습니다.

우리는 이러한 데이터 형태를 2차원 데이터 형태라고 부릅니다.

 

Series에서는 1차원 데이터를 다루게 됩니다.

 

 

Series 객체 생성

이제 Series가 어떤 것인지 알았으니 Series를 한 번 생성해봅시다.

우선, 1차원 데이터가 주어져야 겠지요.

예를 들어, 세모고등학교 3학년 3반 학생들의 수학 점수가 다음과 같이 주어졌다고 해봅시다.

01번 학생 :   80점

02번 학생 : 100점

03번 학생 :   30점

이것을 리스트로 표현하면 다음과 같습니다.

data = [80, 100, 30]

 

-> code : pd.Series([data])

score = pd.Series([80, 100, 30])
score

우리가 data에 입력한 [80, 100, 30] 잘 출력이 되었습니다.

 

그런데 왼쪽에 0, 1, 2의 column으로 되어있는 배열은 무엇일까요?

이것은 pandas에서 자동으로 index를 부여한 것입니다.

 

우리가 index를 지정하기 위해서는 좀 더 특별한 작업이 필요로 합니다.

 

 

Series Index 지정하기

 

-> code : pd.Series([data], index = [설정하고자 하는 index])

score = pd.Series([80, 100, 30], index = ['01번 학생', '02번 학생', '03번 학생'])
score

 

만약 02번 학생의 점수를 알고싶다면

score['02번 학생']

pandas의 Series는 우리가 Python에서 알고 있는 dictionary와 상당히 유사하다는 걸 알수 있습니다.

728x90