아카이브/ICT

▶ ICT노트 : 빅데이터 이해하기

비주얼라이즈 2014. 5. 9. 20:07









ICT 트렌드 - 빅데이터이해하기



이제는 '빅데이터'라는 개념이 어색하지않을만큼

빅데이터가 많은 분야에서 다양하게 사용되고 있습니다.





[자료: 네이버트렌드]




네이버에 '빅데이터'가 유의미하게 검색되기 시작한 시점은

2011년 5월 이후라고 볼 수 있습니다.







[사진 : 인터넷 교보문고]



 대형서점의 경제/경영분야에서도 

빅데이터를 주제로하는 서적들이 꾸준히 이름을 올리고 있습니다.






그러면 이쯤에서 빅데이터에 대해서

다시한번 정리해야할 필요가 있을 것 같습니다.











빅데이터, 단순히 덩치가 큰 데이터 일까요?













이렇게 다양한 분야에서 '빅 데이터'라는 개념을 이야기하고 있는 만큼,

빅데이터를 단순하게 "덩치가 큰 데이터"라고 이해해서는 안되겠습니다.








아직 빅데이터를 명확히 정의한다는 것이 어렵지만,

빅데이터의 3가지 특징에 대해서 살펴봄으로써

대략적인 내용을 이해할 수 있습니다.









빅데이터의 3가지 특징은 규모, 다양성 ,속도를 말하며,

이는, 미국 IT컨설팅업체 가트너[Gartner]가 정립한 개념입니다.










[사진 : GE PINTEREST ]


빅데이터의 3가지 특징 - 규모

 3가지 특징 중에서 가장먼저 살펴볼 것은 '규모'입니다.




많은 경우에 '빅데이터 = 큰 규모의 정보'로 이해합니다.

이렇게 이해하는 것보다는, 빅데이터의 특성을 중심으로 넓게 이해야합니다.













빅데이터의 특징이 규모라면,

얼마나 커야 빅데이터 일까요?













이러한 물음에 명쾌하게 답변할 만한 정의는 아직없습니다.

그러나, 우리가 빅데이터를 이해하기 위해서

 대략적으로 가늠해볼 수는 있습니다.









빅데이터의 규모



일반적으로 전문가들은 데이터 집합의 크기가

[적게는 수 테라바이트에서 많게는 수 페타바이트][각주:1]

일때, 빅데이터라고 지칭한다고 합니다.













크기만하다고 빅데이터일까요?

앞서 소개한 빅데이터의 특징 '크기'는 이미 많은분들이

알고계셨던 내용이라면 이제부터는 정말 꼼꼼히 살펴보아야할 부분입니다.






빅데이터의 3가지 특징 - 다양성

빅데이터의 3V 중, 두 번째 특징은 다양성입니다.




이 다양성이라는 특징을 이해하기 위해서

과거 우리가 정보를 어떻게 저장하고, 처리했었는지 생각해볼까요?








과거에는 각각의 정보들을 특정한 양식에 맞게 저장해두었습니다.

도서관에서는 대출장부를 썼었고, 사무실에는 노란색 파일홀더로 빽빽했었지요


컴퓨터가 보급된 후에도

혼글, 엑셀등의 문서들이 일정행태의 서식을 갖추고

저장되어왔습니다.



이러한 형태의 데이터들을 정형적데이터, 또는 구조적 데이터라고 말합니다.




이와 반대로 통일된 구조로 정리하기 어려운 데이터들을

 비정형 데이터, 또는 비구조적 데이터라고합니다.



이렇게 빅데이터의 관점에서 데이터의 형태는

구조적(정형)/ 비구조적(비정형) 데이터로 나뉩니다.




[엄청난 비정형 데이터를 만들어내는 SNS들]


2009년 이후, 전체 데이터 생성량은 매년 2배가량 성장하고 있으며[각주:2]

전문가들은 앞으로 전체데이터 중

 비정형데이터의 비중이 90%에 이를 것으로 보고 있습니다.



이러한 비정형데이터의 존재로

빅데이터의 가치는 '제2의 원유'로 비유될 만큼 높습니다.





 비정형 데이터 분석, 주로 웹문서 검색에 적용된 기법을 사용


최근, 이미지 정보로부터 직접 패턴을 추출하여 의미를 분석해내는 기법도 소개되고 있기는 하나,

아직까지는 텍스트를 중심으로 의미를 찾아내는 분석을 중점적으로 발전중입니다.[각주:3]

















[사진 : http://businesstech.co.za/]


빅데이터의 3가지 특징 - 속도


빅데이터의 규모, 다양성까지 살펴보았습니다.

마지막으로 살펴볼 내용은 바로 '속도'입니다.



우리나라처럼 네트워크환경이 잘 구축된 경우에는

'속도'라는 부분을 쉽게 공감하실 수 있으실텐데요




[사진 : KT 올레 공식블로그]



 LTE네트워크의 속도는 초당 약 40메가바이트라고하는데요

과거 모뎀의 전송속도가 초당300바이트라는 점을 생각해보면,

우리나라의 네트워크환경은 엄청난 발전을 해왔다는 것을 알 수 있습니다.




이렇게 엄청난 속도의 네트워크환경을 바탕으로

엄청난 양의 정보들이 빠르게 생산되고, 유통되고있습니다.



이러한 부분에서 빅데이터를 이해하는 마지막 특징, 속도를 이해할 수 있습니다.











  1. 함유근, 채승병, 『빅데이터, 경영을 바꾸다 』, 2012, 삼성경제연구소 [본문으로]
  2. The Digital Universe in 2020, IDC, 2012 [본문으로]
  3. 비정형 데이터 활성화의 정치, 경제, 문화적 함의, 박대현, 송동현, INTERNET & SECURITY FOCUS February 2014, p.6 [본문으로]