데이터에서 반복적 패턴을 찾는 것이 분석
패턴이 나오면 분석이 자동화될 수 있다
빅데이터라는 단어가 매우 심각한 오해를 불러일으키고 있는 것이 사실이다. 데이터만 있으면 그 자체로 모든 것이 끝난다는 오해 말이다. 빅데이터라는 단어 뒤에 분석이라는 단어가 없더라도 당연히 분석이라는 단어는 붙어있는 것이라는 점을 기억해야한다.
빅이라는 수식어 보다는 오히려 분석이라는 단어가 더 중요하다.
문제는 분석이라고 읽고 쓰고 말하고 있으나 무엇이 분석인지를 잘 모르는 사람이 대부분이라는 점이다. 분석은 패턴이나 모델을 찾아내는 것이다. 패턴이나 모델을 만들어 내지 못한다면 데이터를 이해하지 못했다는 의미이다. 우리가 일상적으로 사용하는 패턴이라는 단어는 반복해서 나타나는 모양을 말한다. 반복이 많지 않더라도 일정한 구조가 보이면 그냥 패턴이라고 부른다. 날씨가 흐리면 잠시 후에는 비가 오는 것이 이러한 패턴의 대표적인 예이다. 패턴은 일상에서 흔히 보이는 것이지만 반드시 반복된다는 보장은 없다. 날씨가 흐리기만 할 수도 있기 때문이다.
반면 모델은 패턴보다는 반복적으로 일어나는 것을 수학공식처럼 형식을 갖춰 정리한 것이다. 키는 몸무게와 몇 배의 관계를 가진다는 것이 비록 오차가 크기는 해도 하나의 모델의 예가 될 수 있다. 사례만 충분하다면 간단한 통계분석이 이런 공식을 자동으로 만들어 준다. 이 공식만 있으면 새로운 학생의 몸무게만으로 키를 추측할 수 있다.
의사결정나무는 경우의 수 내지는 확률을 그림으로 표현한 것으로, 데이터로부터 자동으로 만들어진다. 사고가 1000번에 10번 난다고 할 때, 그 사고들이 어떤 경우에 집중되는지를 가능한 변수들을 모두 대입해보고 확률이 높은 쪽으로 자동으로 가지쳐 나무구조로 만든다. 예에서 보면 사고가능성은 외곽지역에서 두 배로 높고, 다시 기온이 5도 이하이면 더 높아 진다. 이렇게 가능성이 높은 영역은 다양한 변수가 데이터로 존재하면 모두 대입해보면 항목이 수 백개라도 자동으로 찾을 수 있다. 이 것이 빅데이터에서 실제 사용되는 대표적 모델 만들기이다. 미래에 대한 예측도 이 방식으로 가능하다. 예측대상만 미래로 바꿔놓으면 된다.
'빅 데이터 > 빅 데이터 자료' 카테고리의 다른 글
매쉬업 Mashup, 데이터 가치가 증폭 된다 (0) | 2016.03.08 |
---|---|
빅데이터는 대상에 딱 맞는 대책을 찾는다 (0) | 2016.03.07 |
빅데이터의 가장 큰 효과는 예측에서 온다 (0) | 2016.03.03 |
빅데이터와 가치, 그리고 창조 (0) | 2016.03.02 |
빅데이터, 결국 예측을 위한 분석이다. (0) | 2016.03.01 |