728x90 데이터 사이언스20 Ch 1. ML 실습을 위한 환경 1. 환경 설정 import matplotlib import matplotlib.pyplot as plt import numpy as np import pandas as pd # 임의값 속성 정의 np.random.seed(42) # 그래프 속성 정의 plt.rcParams['axes.labelsize'] = 14 plt.rcParams['xtick.labelsize'] = 12 plt.rcParams['ytick.labelsize'] = 12 plt.rcParams['font.family'] = 'serif' plt.rcParams['font.serif'] = ['Times New Roman'] + plt.rcParams['font.serif'] # 구글 드라이브 연동 from google.colab .. 2023. 7. 10. Ch 5. 데이터 전처리 1. 누락 데이터 처리 1). 누락 데이터 확인 from google.colab import drive drive.mount('/content/drive') 코랩에서 google drive를 불러오고 첨부파일을 google drive에 저장한다. 이후, 파일 경로를 복사한다. import pandas as pd file_path = '/content/drive/MyDrive/Colab Notebooks/data_preprecessing1.csv' # 파일 경로 복사 df = pd.read_csv(file_path, encoding = 'cp949') df 자전거 대여 정보를 담은 csv파일임이 확인되었다. 데이터프레임을 살펴보면 NaN으로 표시된 누락된 데이터들이 보인다. (1). 누락 확인하기 위 데이.. 2023. 7. 7. Ch 4. Pandas 1. Pandas 개요 Panel Datas의 약자로 패널 자료를 처리한다는 뜻 월스트리트 금융 분석 전문가 가 개발 데이터 핸들링 분야에서 가장 인기있는 패키지로 numpy 및 matplotlib과 함께 사용됨 단, 선형회귀 및 다중회귀 외의 다양한 모델 기능은 제공하지 않음 !pip install pandas # 판다스 설치 import pandas as pd 2. 시리즈 (Series) 인덱스를 가지고 있는 1차원 배열 형식의 데이터 구조 행 또는 열 하나만 추출한 것 딕셔너리와 구조가 유사하여 바로 데이터 변환 가능 1). 생성 Dictionary -> Series List -> Series Tuple -> Series 딕셔너리, 리스트, 튜플 -> 시리즈화 가능 sr = pd.Series([값,.. 2023. 7. 6. Ch 3. Numpy 1. Numpy 개념 (1). Numpy 특징 처리 속도가 빠르며, 유연한 연산 제공 배열 내용을 한번에 디스크에 저장 및 불러오기 기능 제공 C / C++로 작성한 코드와 연결 가능 pandas, OpenCV 등 유명한 라이브러리가 numpy를 기반으로 작성 (2). Numpy 설치 pip install numpy (3). import import numpy as np np를 통상적으로 이용한다. (4). 생성 np.array(list) : 리스트를 넘파이 배열로 변환 np.arange(start, stop, step_size) : 연속된 값 생성, range와 유사 np.ones(size) : 1로 구성된 배열 생성 np.zeros(size) : 0으로 구성된 배열 np.empty(size) : 빈 .. 2023. 7. 5. 이전 1 2 3 4 5 다음 728x90