시각화/R

▶R로하는 데이터시각화 :: 데이터불러오기

비주얼라이즈 2015. 1. 29. 14:46



▶R로하는 데이터시각화 :: 데이터불러오기


이번글에서는 데이터를 Rstudio에 불러오는 방법과 그에 관련된 함수에 대해서 살펴보고자 한다.



read.csv()함수 사용하기


개인적으로 가장 자주 활용하는 기능이다. read.csv()는 데이터를 R로 불러들이되, 지금 사용중인 컴퓨터 메모리(주기억장치)에 저장하는 것은 아니다.


sample <- read.csv("데이터이름.csv", sep=",", header=TRUE);의 형태로 사용


.csv 는 데이터의 형식을 의미한다.csv는 콤마로 구분된 데이터파일을 의미하며, tsv는 탭으로 구분된 파일을 의미한다.

sep=","은 데이터의 구분자를 나타내는 부분으로서 위 예시에서는  ","(콤마)로 구분되어있음을 나타내고있다.

header=TRUE는 데이터의 제목줄(header)의 존재여부를 설정하는 것이다. 데이터가 제목줄을 가지고 있으면 TRUE, 없으면 FALSE로 설정한다.





이와 같은 에러가 나는것은 불러오고자하는 데이터파일이 R STUDIO에서 설정한 작업디렉토리 경로에 위치하지 않았기 때문이다. 




이것은 R STUDIO에서 작업디렉토리를 설정하는 방법이다.


Session > Set Working Driectory > Choose Directory 또는 Ctrl + Shift + K를 입력하면된다.




데이터로드 - 요인(Factor)과 벡터(Vector)형식


R에서는 기본적으로 데이터파일안에 들어있는 문자열(Strings)를 요인(Factor)로 취급하는 것이 기본이다. 만약 요인으로 설정하지 않고 불러오고 싶다면 readCSV()함수내에 stringsAsFactors=FALSE; 를 추가한다. 




위 사진에서는 임의의 CSV파일을 가지고 readCSV()함수로 불러온 결과이다. 여기서는 staringsAsFactor설정을 해주지 않았기 때문에, 데이터속의 문자열을 요인(Factor)형태로 불러오고 있다.




이번에는 read.csv()함수안에 stringsAsFactor=FALSE설정을 해준 후 str()함수로 데이터의 형태를 살펴본 모습이다. 앞서 살펴본 사진에서와달리 데이터들이 요인형태가 아니라 char로 표시되어있는 것을 확인할 수 있다.