통계적 기법으로 이상 탐지하기

Statistical method

Parametric → 가우시안 분포, 정규 분포

이러한 상황처럼 불량 강아지가 있을 확률을 통하여 무사히 집에 갈 수 있었다. →Gaussian density estimation

하지만 정규분포가 하나밖에 없다면 아래와 같이 복잡한 형태를 표현하기는 어렵다. 그래서 Mixture of gaussian density estimation 방법이 아래와 같다.

3-sigma rule이라는 용어에서 가우시안 분포에서 평균으로부터 3 표준편차(sigma) 범위 내에 거의 모든 값이 들어간다는 경험적인 규칙이다. 이때 3 표준편차마저 벗어나는 데이터를 보기 드문 사건(anomaly)이라고 해석하는 것이 이상 탐지에서의 Gaussian density estimation이다. 반드시 해당 규칙을 적용할 필요는 없으며 아래의 그림에서 세로 축의 값(확률)을 기준으로 탐지하는 것도 가능하다.

Non-parametric

방금 상황은 관측 데이터들이 우리가 미리 정해준 확률 분포에서 나왔다고 가정하는 것이지만 미리 정해준 확률 분포에 의해 결과가 크게 달라지며, 확률 분포를 정하는 것도 어렵다는 단점 존재.

그래서 고안된 방법으로 데이터의 실제 확률 분포에 대해서는 사전에 가정하지 않으며 오직 관측 데이터 그 자체만을 보는 방법인 <히스토그램과 **kernel-density estimation>**이 대표적인 예시이다.

히스토그램이 간격을 정해 놓고 그 구간에 들어오는 데이터의 개수를 세는 방법이라면 kernel-density estimation은 데이터 하나하나에 확률 분포를 적용하는 방법입니다. Mixture of gaussian density estimation을 데이터마다 적용했다고 이해하시면 될 것 같다.

단점 : 적절한 확률 분포 찾는 것이 어려우며, 다차원 데이터에서는 잘 동작하기 어렵다.

가우시안 분포가 아무리 세상을 잘 설명한다지만 모든 것을 설명하지는 않습니다. 위에서 강아지들이 가우시안 분포를 따를지, 균등 분포를 따를지는 아무도 모르는 일입니다. 적절한 확률 분포를 찾더라도 분포의 평균, 분산 등 고려해야 할 파라미터는 여전히 남아 있습니다.

https://meetup.nhncloud.com/posts/366