본문 바로가기

이상탐지2

40. 이상(사기) 탐지 : 또 다른 탐지 알고리즘 (Multivariate Gaussian Distribution) 지금까지 배운 Anomaly Detection Algorithm은 Original Model 입니다. 가장 많이 사용되는 모델이지요이번에는 비슷하지만 조금 다른 Multivariate Gaussian Distribution에 대해서 알아보겠습니다. variate의 의미는 허용이 가능한 어떤 집합이나 데이터의 그룹내에서 어떤 확률에 따라 데이터가 자유롭게 변수로 사용되는 것을 말합니다. 다시 이야기해보면 multivariate라는 의미는 어느 집합데이터 내에서만 추출이 되는 멀티 변수들이라고 생각하면 될 것 같습니다. 이에 대해서 하나씩 알아보겠습니다.아래 그림과 같은 dataset이 있습니다. x1 에 대해서 오른쪽 상단의 그래프와 같이 정규분포를 형성하고 있습니다. 또 x2로 오른쪽 하단의 그래프와 같.. 2016. 8. 29.
39. 이상(사기) 탐지 : Anomaly Detection System 만들기 머신 러닝 알고리즘을 평가하는 방법으로 실제 숫자로 나타내어 평가하는 방법에 대해서 이전 시간에도 알아보았습니다. Anomaly Detection System을 만들때도 이러한 방법이 유용하게 사용됩니다.지금까지 살펴본 anomaly data들은 unlabeled data 였습니다만, labeled data가 될 수 있다면 평가하는 것이 가능할 겁니다. 그래서 만약 특정 data가 anomaly data라면 y=1로 정의하고, 그렇치 않다면 즉, 정상적인 normal data라면 y=0으로 하여 label을 생성할 것입니다. 이를 위해서 data set을 분리하고 어떻게 label을 만드는지 알아보겠습니다. 비행기 엔진을 예를 들어서 아래와 같이 설명을 할 수 있습니다. 10,000개의 정상적인 엔진이 .. 2016. 8. 28.