본문 바로가기

Error Analysis2

39. 이상(사기) 탐지 : Anomaly Detection System 만들기 머신 러닝 알고리즘을 평가하는 방법으로 실제 숫자로 나타내어 평가하는 방법에 대해서 이전 시간에도 알아보았습니다. Anomaly Detection System을 만들때도 이러한 방법이 유용하게 사용됩니다.지금까지 살펴본 anomaly data들은 unlabeled data 였습니다만, labeled data가 될 수 있다면 평가하는 것이 가능할 겁니다. 그래서 만약 특정 data가 anomaly data라면 y=1로 정의하고, 그렇치 않다면 즉, 정상적인 normal data라면 y=0으로 하여 label을 생성할 것입니다. 이를 위해서 data set을 분리하고 어떻게 label을 만드는지 알아보겠습니다. 비행기 엔진을 예를 들어서 아래와 같이 설명을 할 수 있습니다. 10,000개의 정상적인 엔진이 .. 2016. 8. 28.
27. 머신러닝 시스템을 디자인 하는 방법 (Machine Learning System Design) 지금까지 머신러닝에 대한 중요한 내용들을 배웠습니다. 이번에는 조금 다른 방향으로 생각해보려고 합니다. 스팸 메일을 분류하는 시스템을 만든다고 생각해 보겠습니다.이 시스템은 분류(classification)에 대한 내용임으로 Supervised Learning에 속하는 문제가 됩니다.이메일의 features를 x라고 하고 스팸인지 아닌지 여부를 y라고 합시다. (스팸은 1, 정상은 0)이중에서 100개의 단어를 선택하여 이메일과 대조를 해보면서 각 features가 이메일 내용에 포함이 되어 있으면 1과 그렇치 않으면 0으로 표현을 할 수 있습니다. 아래 그림과 같이 x는 각 단어를 포함하는지 여부에 대한 vector가 될 것입니다. 100의 기본 단어로 시작을 했지만 점차적으로 5만여개까지 늘어날 수도.. 2016. 8. 6.