01. R 시작하기
1-1. R 이해하기
- R 이란?
- 뉴질랜드의 오클랜드대학교 통계학과 교수인 로스 이하카와 로버트 젠틀맨이 만든 무료 소프트웨어
- R은 데이터 분석가들이 가장 많이 사용하는 데이터 분석 전문 도구
1-2. R 어디에 사용되나?
- 통계분석
- 기초통계분석에서부터 고급통계분석까지 다양한 통계분석 기법 활용 가능
- 머신러닝 모델링
- 다량의 데이터를 이용해 특정 변수를 예측할 수 있는 예측 모형을 만드는 기법
- R을 이용하여 SVM(Support Vector Machine), Deep Learning 등 최신 머신러닝 알고리즘을 쉽게 활용할 수 있음.
- 텍스트 마이닝
- 문자로 이루어진 데이터를 분석할 수 있음.
- 예 : 문장에서 자주 등장하는 단어를 찾거나 어떤 감정을 나타낸 단어가 자주 사용되는지 분석할 수 있음.
- 지도 시각화
- 위도, 경도 등의 지리 정보와 지역 통계를 활용해 국가별 GDP, 시군구별 범죄율 등 지역별 특성을 지도로 표현할 수 있음.
- 사운드분석
- 소리데이터에서 음량, 진폭 등의 속성을 추출해 데이터로 변환하거나 시각화할 수 있음.
- 추출한 데이터는 음성 인식 등 사운드 처리 알고리즘을 개발하는데 사용할 수 있음.
- 연구자들이 사용하는 R
1-3. R 이 강력한 이유
- 무료로 사용할 수 있는 오픈 소스
> 데이터 분석의 대중화
- 다양한 패키지, 최신 분석 기법
- 전 세계 전문가들이 패키지를 만들어 온라인에 공개하고 있음.
- 공유 사이트(cran.r-project.org)에 1만 개가 넘는 패키지가 공개.
- 한 해에 수천 개가 넘는 패키지가 새롭게 업로드 되고 있음.
- 다양한 교육 재료
- 사용자가 많은 만큼, 온라인 강의, 온라인 문서 등 R을 다루는 다양한 교육 컨텐츠가 개발되어 있음.
- 다양한 그래프 구현
- 타 프로그램에 비해 멋진 그래프를 만드는 다양한 기능이 있다.
- 프로그래밍 방식
- 엑셀이나 SPSS 와 같은 GUI 방식이 아니라 SAS 처럼 키보드로 명령어를 입력하면서 작업을 하는 '프로그래밍 방식' 이다.
- 조작이 GUI 방식 보다는 까다롭지만 데이터의 크기가 크고 데이터 변형 및 전문적인 데이터 분석 작업을 할 수 있는 장점이 있다.
> 재현성(Reproducibility)이 확보
> 오류가 줄어든다.
> 공동작업이 가능하다.
1-4. R 프로젝트 및 스크립트 파일 만들기
- 데이터 분석을 하기 전에 프로젝트를 만들어 놓으면 수많은 소스코드, 외부 자료 등 여러 파일들을 효율적으로 관리할 수 있다.
- 여러 가지 분석을 동시에 진행할 때도 파일들을 프로젝트 폴더 별로 관리하면 편리하다.
1. 우측 상단의 Project (None)을 클릭 -> New Project 선택
2. New Directory 선택
3. Empty Project 선택
4. Directory_name 에 새로 만들 프로젝트 이름을 입력하고 저장위치를 지정한다.
5. Create Project 버튼을 누르면 프로젝트 폴더위치와 프로젝트 파일이 생성된다.
6. New File -> R Script 를 누른다. 스크립트 파일이름을 지정하고 확장자는 .R로 한다.
1-5. 워킹 디렉터리 (Working Directory)
- 분석 결과를 저장하거나 외부에서 파일을 불러올 때 사용하는 폴더
- 프로젝트를 만들면 프로젝트 폴더가 워킹 디렉터리로 지정
- 지금은 'C:/Users/gy2/Desktop' 폴더가 워킹 디렉터리 이므로
> 파일을 불러오는 코드를 실행하면 'C:/Users/gy2/Desktop' 폴더에 있는 파일을 불러오고
> 이미지 파일이나 엑셀 파일 등 작업물을 파일로 저장하는 코드를 실행하면 'C:/Users/gy2/Desktop' 폴더에 저장된다.
- 워킹 디렉터리 변경하기
- getwd( ) : 현재 워킹 디렉터리의 위치를 알려 준다.
- 톱니바퀴 모양의 Set As Working Directory를 선택하면 우측의 점 세개(...)로 이동한 폴더를 워킹 디렉터리로 지정한다.
- setwd( ) : ( )안의 경로에 해당하는 폴더를 워킹 디렉터리로 지정한다.