아카이브/ICT

▶ICT노트 :: 빅데이터 분석 프로세스 - 다음의 빅 데이터 분석 프로세스 살펴보기

비주얼라이즈 2014. 7. 8. 12:57



▶ICT노트 :: 빅데이터 분석 프로세스 - 다음의 빅 데이터 분석 프로세스 살펴보기


오늘은 빅데이터 분석 서비스중 다음 소셜매트릭스를 중심으로

분석 프로세스에 대하여 살펴보고자 합니다.




다음 소셜매트릭스는 한국어 분석을 수행하고 있습니다.

위 사진은 다음 소셜매트릭스에서 '빅데이터'를 검색한 화면입니다.


검색을 하면 최근 한 달 동안의 '빅데이터'에 대한 소셜그래프를

바로바로 확인할 수 있습니다.







빅데이터를 검색해본 결과


최근 한 달 간 트위터와 블로그에서 '빅데이터'연관내용을 언급한

횟 수는 총 9,157건 입니다.(트위터 7695건, 블로그 1,462건)

*2014년 7월 8일 기준


조금 더 다양한 정보를 확인하고자하면 유료회원으로 전환해야하지만

검색횟 수나 검색 키워드에 제한이 없기때문에, 개인적으로 흐름을

살펴보고자 하는 정도라면 유용하게 사용할 수 있습니다.



그런데 이용하다보니 '한글을 어떻게 분리를 해서 통계를 내는 것일까?'라는

궁금증이 생기게 되었습니다.


그 해답은

다음 소프트 송길영 부사장님의 서적을 통해서 알 수 있었습니다.



자 이제 본격적으로 

다음 소셜매트릭스의 분석 프로세스에 대해서

살펴보도록 하겠습니다!



















다음 소셜매트릭스의 빅데이터 분석 프로세스 살펴보기






[사진 : 플리커/mariusb]





다음 소셜매트릭스에서 사용하는 정보


웹상의 모든 데이터가 수집 대상이며, SNS는 물론이며

포털, 쇼핑몰, 미디어, 공공기관, 커뮤니티의 정보가 여기에 포함된다.








1. 스팸 걸러내기


'오빠 오늘 밤..'등의 스팸은 의미가 없는 메시지 이기 때문에,

 걸러내는 작업을 수행









2. 정보 구조화를 위한 3단계 분석과정[각주:1]


1단계 : 인터넷에 자연어로 표현되어 있는 사용자의 의견 수집

2단계 : 고품질 자연어 처리(NLP: Natural Language Processing)기술과

     정교한 텍스트 마이닝(Text mining)기술을 통해 분석 수행

3단계 : 제품 또는 서비스의 모델, 항목, 세부 속성에 대한 긍정, 부정 등의

           평가 도출










예시문장 : "내가 케옥이를 샀는데, 디자인은 맘에 드는데 승차감이 영 좋지 않네요."










첫 단계 : 절 분리


'내가 케옥이를 샀다.' / '디자인은 맘에 든다', / '승차감이 영 좋지 않다'









두 번째 단계 : 품사 표시


'내+가 / 케옥이+를 / 사+았+는+데' 식으로 문장성분을 분석.

*내가 : 주어, '케옥이'는 고유명사 / 이처럼 스크(SK), 이효리폰 등 각종 별칭도 파악해두어야 함.










세 번째 단계 : 페러프레이징(Paraphrase)수행


표현 방식이 무한대이기 때문에, 이것들을 적절한 틀로 바꿔야 통계를 낼 수 있다.

(예를 들어 '좋지 않다'를 '나쁘다'로 바꾸는 것과 같이 특정 표현을 대표 표현으로 바꾸는 것)










네 번째 단계 : 구문 분석


예시문장에서 좋은 것은 디자인이고 나쁜 것은 승차감.

잘못하면 K5가 좋다는 것인지 디자인이 나쁘다는것인지 승차감이 좋다는 것인지 알 수가 없게 됨.

*다음소프트에는 이 분야를 전공한 박사급 연구원이 11명











[과정소개 이미지 / 여기에 당신이 욕망이 보인다 자료 재가공.]



  1. 송길영, "여기에 당신의 욕망이 보인다 - 빅데이터가 찾아낸 70억 욕망의 지도", 쌤앤파커스, 2012, p.94 [본문으로]