본문 바로가기
728x90

파이썬5

Ch 5. 데이터 전처리 1. 누락 데이터 처리 1). 누락 데이터 확인 from google.colab import drive drive.mount('/content/drive') 코랩에서 google drive를 불러오고 첨부파일을 google drive에 저장한다. 이후, 파일 경로를 복사한다. import pandas as pd file_path = '/content/drive/MyDrive/Colab Notebooks/data_preprecessing1.csv' # 파일 경로 복사 df = pd.read_csv(file_path, encoding = 'cp949') df 자전거 대여 정보를 담은 csv파일임이 확인되었다. 데이터프레임을 살펴보면 NaN으로 표시된 누락된 데이터들이 보인다. (1). 누락 확인하기 위 데이.. 2023. 7. 7.
Ch 4. Pandas 1. Pandas 개요 Panel Datas의 약자로 패널 자료를 처리한다는 뜻 월스트리트 금융 분석 전문가 가 개발 데이터 핸들링 분야에서 가장 인기있는 패키지로 numpy 및 matplotlib과 함께 사용됨 단, 선형회귀 및 다중회귀 외의 다양한 모델 기능은 제공하지 않음 !pip install pandas # 판다스 설치 import pandas as pd 2. 시리즈 (Series) 인덱스를 가지고 있는 1차원 배열 형식의 데이터 구조 행 또는 열 하나만 추출한 것 딕셔너리와 구조가 유사하여 바로 데이터 변환 가능 1). 생성 Dictionary -> Series List -> Series Tuple -> Series 딕셔너리, 리스트, 튜플 -> 시리즈화 가능 sr = pd.Series([값,.. 2023. 7. 6.
Ch 3. Numpy 1. Numpy 개념 (1). Numpy 특징 처리 속도가 빠르며, 유연한 연산 제공 배열 내용을 한번에 디스크에 저장 및 불러오기 기능 제공 C / C++로 작성한 코드와 연결 가능 pandas, OpenCV 등 유명한 라이브러리가 numpy를 기반으로 작성 (2). Numpy 설치 pip install numpy (3). import import numpy as np np를 통상적으로 이용한다. (4). 생성 np.array(list) : 리스트를 넘파이 배열로 변환 np.arange(start, stop, step_size) : 연속된 값 생성, range와 유사 np.ones(size) : 1로 구성된 배열 생성 np.zeros(size) : 0으로 구성된 배열 np.empty(size) : 빈 .. 2023. 7. 5.
Ch 2. 파이썬 자료구조 1. 리스트 (List) 여러가지 자료를 저장할 수 있는 데이터 구조체 Link to list 요소(value) : 리스트 내 데이터를 의미 인덱스(index) : 리스트 내 데이터의 주소 (1). 일차원 리스트 li = [1, 2, 3, 4, 5] print(li) # [1, 2, 3, 4, 5] (2). 다차원 리스트 matrix = [[1, 2, 3, 4, 5], [5, 6, 7, 8, 9], [10, 11, 12, 13, 14, 15], [16, 17, 18, 19, 20]] print(matrix) # [[1, 2, 3, 4, 5], [5, 6, 7, 8, 9], [10, 12, 13, 14, 15], [16, 17, 18, 19, 20]] (3). 슬라이싱 (데이터 접근) array[index.. 2023. 7. 4.
728x90