시각화/R

▶R로만드는 데이터시각화 : 기본예제 - Data import

비주얼라이즈 2014. 4. 26. 12:15






R로만드는 데이터시각화 :: 기본예제

- data import [ 데이터파일 로드하기 ]


오늘 살펴볼 것은 R에서 데이터를 불러오는 과정입니다.

csv, xlsx, spss등 다양한 형식에 맞추어 데이터를 불러오는 과정에대해서

꼼꼼하게 정리해두는 것이 좋을 것 같습니다^^



data import




구획문자로 구분된 텍스트 데이터파일 불러오기

exampleCSV <- read.csv("examplefile.csv", sep=",", header=TRUE)


# sep 인자 : 구획문자를 설정할 수 있다. 

예를들어 공백으로 구분되었다면 sep=" "을, 탭으로 구분되어있다면 sep="\t"를 사용한다.


# header 인자 : 데이터파일의 첫행에 헤더가 있는경우 TRUE, 없는 경우 FALSE를 입력한다.



[import된 데이터파일의 모습]


위 사진에서 빨간색 테두리 표시가 되어있는 부분이 header부분입니다.

이 데이터에는 header가 있기때문에 header=TRUE로 불러왔습니다.



 수동으로 헤더이름을 바꾸는 방법

names(exampleCSV) <- c("Rank", "Team", "Game", "W", "D", "L")


# 변경된 모습 확인



[names()함수를 이용하여 한글로 되어있던 header부분을 영문으로 바꿔주었습니다.]





▶ R에서 문자열(Strings)와 요인(Factor)


R에서 데이터에 들어있는 문자열(Strings)는 요인(factor)로 취급되는 것이 기본설정이다.

문자열과 요인을 구별하기 위해서 stringsAsFactors=FALSE로 설정한다.


▶ 문자열을 요인으로 변환하기

exampleCSV$W <- factor(example$W)


▶ 엑셀에서 데이터파일 불러오기

# xlsx패키지는 java소프트웨어를 필요로 합니다. install.packages("xlsx") libarary(xlsx) exampleXLSX <- read.xlsx("examplefile.xlsx", 1)



첫 번째 시트가 아닌 다른 시트를 불러오려면,

# exampleXLSX <- read.xlsx("examplefile.xlsx", sheetIndex=2) 에서

sheetIndex=" "사이의 숫자를 변경해주면 됩니다.



▶ 구버전의 엑셀 파일을 읽으려고할 때

: gdata package의 read.xls()함수


# gdata패키지는 Perl소프트웨어를 필요로 합니다.

install.packages("gdata") library(gdata) exampleXLS <- read.xls("examplefile.xls")






#이런 방식들이 귀찮다면, 데이터를 엑셀로 열어서

[다른이름으로 저장하기]에서 csv형식으로 저장해서 이용하시면 됩니다^^.

SPSS파일의 데이터불러오기

install.packages("foreign") library(foreign) exampleSPSS <- read.spss("examplefile.sav")