본문 바로가기
Machine Learning

4. Supervised Learning - Regression 표현

by 대소니 2016. 7. 3.


이제 한걸음 들어가게 됩니다.

앞에서 공부했던 Supervised Learning에서 regression 에 대한 예시를 가지고 이것을 수학적인 표현식으로는 어떻게 표현이 되는지를 보겠습니다.


집의 사이즈에 따라서 집의 매매가격의 변화하는 데이터를 그래프로 표현하면 아래와 같습니다.

사이즈가 커지면 가격이 높아지니 선을 하나 그어볼 수 있을 것입니다.

이 직선은 사이즈와 가격에 대한 변화를 아주 잘 나타내는 그래프이자 수학적으로는 일차방정식으로 표현이 됩니다.





데이터셋의 실제 데이터들을 하나씩 열어보면 아래와 같이 사이즈와 가격으로 구성이 된 정보들을 볼 수 있습니다.

저기 지역에서는 사이즈가 2104 피트인 집이 460,000달러인가 봅니다.


DataSet의 크기, 즉 데이터의 수량을 m으로 표현을 하고

집의 사이즈를 x로 표현을 하고

집의 가격을 y로 표현하기로 했습니다.


그래서 첫번째 데이터인 x1이 2104를 표현하게 되고, y1는 460달러를 표현하게 되었습니다.

쉽게 우리가 가장 잘 아는 일차방정식과 동일합니다. ( y = Ax + B )


이 직선이 무엇이였죠? 사이즈에 따른 집의 가격들이였습니다. 이 직선을 알면 우리는 무엇을 할 수 있게 되는걸까요? 사이즈만 알면 집값을 예측할 수 있게 될 것입니다. 

그러면 우리가 알고자 하는 것은 저 직선을 만드는 것일까요? 네 맞습니다. 그런데 이것을 우리가 찾는게 아니라 알고리즘(머신)이 학습해서 찾아줄 것입니다.




개념을 도식화해서 보면 아래 왼쪽의 그림과 같이 dataset이 알고리즘을 통해서 수행이 되는데 h라고 표현이 되어 있는 Hypothesis(가설)을 세우기만 하면 x라는 입력값에서 y라는 우리가 원하는 집값을 예측하는 결과 값이 도출되게 될 것입니다.


여기서 h가 그 직선의 함수가 되고

h = Ax + B인데 아래 교수님은 조금 유식하게 세타(θ)로 표현하셨습니다. 오른쪽 녹색 보이시죠?

세타 zero가 B가 되고 세타 one이 A와 동일합니다.



이번 예제에서는 직선 형태의 regression이라 이를 Linear regression이라고 호칭합니다.

그리고 x라는 입력값(feature)이 하나이기 때문에 one variable 혹은 Univariable이라고 합니다.

이를 합치면 Univariate linear regression 이라고 하고 우리가 배운 것을 표현하는 멋진 용어가 됩니다.




댓글