아카이브/ICT

▶ICT노트 :: 탐색적 데이터 분석(Exploratory Data Analysis)을 이루는 다섯 가지 원칙

비주얼라이즈 2015. 2. 12. 01:59






▶ICT노트 :: 탐색적 데이터 분석(Exploratory Data Analysis)을 이루는 다섯 가지 원칙


이번 글에서는 Coursera에서 다루고있는 탐색적 데이터 분석(Exploratory Data Analysis)의 기본적인 개념과, 그에 따르는 "EOA를 이루는 다섯가지 원칙"이라는 내용을 정리해보고자 한다.





첫 번째 원칙 : 연관 있는 다른 어떤 것들과 비교해라






연관있는 다른 어떤 것들과 비교해라


우선, 우리가 데이터를 이리저리 만지고, 들여다보는 이유가 무엇인지 생각해 볼 필요가 있다. 사람마다 목적은 다르겠지만, 큰틀에서 본다면 "누군가에게 이야기를 전달하고 싶어서"라는점에서만큼은 같으리라고 생각한다. 이것으로 이루고자하는 것이  프리젠테이션이 되었든, 제안서가 되었든, 아니면 논문이되었든. 우리는 앞으로 할 이야기에 대한 근거를 열심히 만들어보고 찾는 중인 것이다. 


첫 번째 원칙인 '연관있는 다른 어떤 것과 비교하기'란 것은 이와 관련된 것이다. 우리가 탄탄하게 다지고자하는 근거는은 대개 "또 다른 가설"과 경쟁하는 틈에서 많이 생겨나곤한다. 뭔가 말이 어렵지만, 이에 대해 다음과 같이 아주 심플하게 표현할 수 있다.


always as "Compared to what?"







두 번째 원칙 : 당신이 가지고 있는 "질문"에 대한 프레임워크를 보여줘라 




당신이 가지고 있는 "질문"에 대한 프레임워크를 보여줘라


이것은 내가 제시한 가설에 따르는 인과관계, 메커니즘, 설명 등을 포함하는 구조를 보여주어야 한다는 뜻이다. 여기서는 '인과관계'라는 표현이 사용되었지만, 필수조건은아니다. 다만, 자신이 제시하고있는 주장에 대한 근거로 데이터시각화를 제시하는 경우라면 '인과관계'의 메커니즘을 구체적으로 드러내는 것이 중요하다. 이는 다음과 같은 한 문장으로 요약할 수 있다.


당신이 가지고 있는 "질문"에 대한 인과관계 프레임워크는 무엇인가?








세 번째 원칙 :  다변량 데이터를 표시하라


국어사전에 '다변량 데이터'는 "어떤 개체에 관한 관측값이 여러 개 일때, 이것을 수학적으로 처리하여 대상의 성질이나 변량 상호 간의 관계를 구명하는 통계적 해석법"이라고 정의되어있다.[각주:1]


앞서 국어사전에서 "다변량 데이터"를 정의한 내용을 살펴보았지만, 데이터시각화 또는 데이터분석 분야에 관심을 갖고있는 사람이라면 여기서 조금만 더 세부적으로 들여다볼 필요가 있다. 조금만 더 쉽게 생각해보자면, 다변량 데이터를 활용해서 분석해보고, 표현하라는 것은 "변수들 간의 인과관계를 분석하라"라는 말이 된다. 특정 데이터 또는 주제에 대하여 다양한 변수를 함께 놓고 분석해봄으로써 상관관계가 있는 데이터들만 분류하는 등의 정제과정을 할 필요가 있다. 


쉽게말해 크고 복잡하기만한 데이터에서 관련성을 보이는 변수들만 뽑아보자는 것이다.







네 번째  원칙 :  자신이 가지고있는 근거들을 통합하라


여기서 말하는 "근거들"이란 글과, 숫자, 이미지, 영상 등 다양한 것들을 가리킨다. 보다 논리적인 구조를 갖추기 위해서는 이러한 다양한 근거들을 적절하게 통합하는 것이 중요하다. 이미 경험해본사람이라면 알겠지만, 이것은 매우 단순하면서도 쉽게 되지않는 부분이다. 항상 관련정보는 여기저기 널려있는채로, 자료를 마무리하는 그날까지 어지럽게 널려있는 경우가 많다.




+ Data Graphics는 반드시 여러가지 모드의 data presentation을 만들어야한다.


여기서 한가지 포인트는, 그동안 축적한 다양한 형태의 자료들을 '한장의 데이터 그래픽'안에 우겨넣지 않아도 된다는 점이다. 즉, 주제를 넘어서지않는 선에서 가지고있는 자료를 다양한 형태의 시각화를 구성해보는 것이 좋다. 

(**단, 지금하는것이 "탐색적 데이터분석"이라는 점을 명심하자. 다양한결과물을 뽑아내라는 것이 아니다, 우리는 가지고있는 다양한 근거들을 가지고 새로운것을 보려고하는 것이다.)





 유연함은 난이도에 비례한다 - 직접 데이터를 들여다보자


R, Python등 다양한 언어를 접하기 시작하면 그 전에는 알지못하는 새로운 세계를 마주하게된다. 우리가 PC에서 사용하는 대부분의 프로그램들은 오랜시간 축적된 개발자들의 노력에 의해 만들어진 것이며, 각 프로그램의 인터페이스는 일반사용자를 위한 개발자의 "문장표현"이었음을 뒤늦게 깨닫게 되는 것이다. 



이러한 개발자들 덕분에 우리는 엑셀이나, 파워포인트, 한글등의 프로그램을 이용하여 다양한 형태의 데이터편집, 문서제작등을 해왔다. 그러나 이러한 프로그램은 "누구나 쉽게"접근할 수 있도록 하는 것에 방점이 찍혀있다보니, '접근성'은 높지만, '유연성'은 떨어지게된다. 다시말해 우리가 하고자하는 탐색적 데이터 분석(Exploratory Data Analysis)과정에는 기존의 딱딱한 프로그램들은 적합하지 않다고 할 수 있다. 간단한건 해보겠지만, 그이상은 어쩔 수 없는 상황을 맞이하는 것이다.



R, Python과 같은 새로운 언어 환경에 적응한다는 것은 쉬운일이 아니다. 그럼에도불구하고 수 많은 사람들이 붙잡고 어렵다면서도 언어를 공부하는 이유에 대해서 생각해보면, 답은 간단해진다. "어렵지만 유연해서"이기 때문이다. 주어진데이터로 상용툴을 활용해 결과만뽑아서 사용하는 방식이 좋지 않다는 말을 하는 것이 아니다. 









다섯번 째 : 근거를 문서화하는 작업을 하라. 


만약 데이터그래픽이 자체적으로 적절한 라벨, 크기 등을 갖추지 못한다면 신뢰를 잃는것은 시간문제다.



가시적으로 보이는 요소가 아닌 것들조차 결과물의 신뢰도에 영향을 미친다. 


'자료의 출처'가 그런 예라고 할 수 있다. 이 데이터가 어디에서 왔으며 어떤 특징이 있는지, 그리고 데이터그래픽을 보는데 있어서 주의해야할 점이 있는지에 대해서 표시해주는 것역시 위에서 설명한 것과 마찬가지로 매우 중요하다. 










  1. 국어사전, '다변량 데이터'검색, "http://krdic.naver.com/detail.nhn?docid=8403900", 2015년 2월 12일 검색 [본문으로]