728x90 데이터 과학2 2. 데이터 세트 분리 데이터 세트 분리는 말 그대로 데이터를 분리하는 것이다. 2개의 데이터로 분리할 수 있는데 하나는 train데이터, 나머지 하나는 test데이터이다. train데이터는 말 그대로 훈련 데이터인데, 우리가 학습을 할 때 사용할 데이터이다. test데이터는 말 그대로 모델의 성능을 테스트 하는 데이터인데, train데이터를 통해 학습된 모델의 성능을 테스트 하는 데이터이다. 여기서 주의 할 점은 train데이터로 모델 학습을 진행하기 때문에 train데이터가 test데이터 보다 중요하다고 생각할 수 있다. 그러나 학습에 사용되지 않은 test데이터의 척도가 모델의 성능을 평가하기 때문에 중요한 것은 train데이터로 학습된 모델이 test데이터를 얼마나 잘 맞추는가 이다. 일반적으로 데이터가 주어지면 8:2.. 2023. 6. 30. 1. Linear Regression (선형 회귀) 머신러닝의 목적은 데이터의 알려진 속성들을 학습하여 예측 모델을 만드는데 있다. 이때 잘 찾아 낼 수 있는 가장 직관적이고 간단한 모델은 선(line)이다. 즉, 선형 회귀는 정돈된 데이터들을 가장 잘 표현한 직선을 찾는 과정을 말한다. 위 그래프에서 다음 데이터들을 가장 잘 표현한 선은 무엇일까? 3번 그래프 임을 쉽게 알 수 있다. 3번 그래프는 일차함수 그래프이며, 이는 일차 함수(y = ax + b)의 형태로 나타난다. 기울기와 y절편을 찾는 과정은 최소제곱문제로서 찾아낼 수 있다. cf) https://math-love.tistory.com/7 선형대수학 최소제곱분석 임의의 연립일차방정식 Ax = b는 해를 갖는 경우와 해를 갖지 않는 경우로 나누어 진다. 최소제곱문제는 연립방정식이 해를 갖지 .. 2023. 6. 29. 이전 1 다음 728x90