김종원
포스텍 산업경영공학과
R 프로그램은 통계 및 데이터분석 도구로서 전세계적으로 가장 범용적으로 사용되는 오픈소스이며, 데이터사이언스(Data Science) 및 데이터분석(Data Analytics)에서 필수적인 프로그래밍이다. R 프로그램은 데이터시각화, 선형모형, 기계학습, 딥러닝, 텍스트마이닝 등 모든 분석기법의 툴을 갖고 있다. 생명/화학, 신소재, 기계, 화공 등 모든 이공계 연구에서 실험데이터를 분석하는데는 통계분석툴이 필요하다. 본 강좌는 R 프로그램의 기초 스크립트부터 그래픽, 기초통계분석, 데이터마이닝, 기계학습기법을 학습하고, 실제 데이터를 이용하여 프로그램밍을 직접 수행하여 데이터 분석능력을 키우는 것을 목적으로 한다.
[미리보기] |
R 설치 (W1-1) 강좌 미리보기 |
R 데이터생성 (W3-1) 강좌 미리보기 |
주차 | 주차 | ||
---|---|---|---|
1 | Ⅰ. R의 기초와 기본 스크립트 (Rstudio 설치) | R 소개 및 설치 | |
Rstudio 레이아웃과 실행 | |||
기본 스크립트와 함수 | |||
R 추가 패키지 사용 | |||
주차별 질문 관련 공지사항 | |||
2 | Ⅱ. 벡터, 행렬의 연산 및 함수 | 벡터 및 행렬 생성 | |
객체이름정의와 데이터프레임 | |||
벡터와 행렬의 연산 | |||
간단한 함수생성 및 루프(for, while) | |||
3 | Ⅲ. R 데이터구조 (생성, 추출) | R 데이터생성 (불러들이기) | |
R 데이터 활용 I (subset, 내보내기) | |||
R 데이터 활용 II | |||
여러형태의 DB다루기(SQL, DBF 등) | |||
4 | Ⅳ. R 그래픽 Ⅰ | R 그래픽: 히스토그램 | |
R 그래픽: 상자그림, 파이차트 | |||
R 그래픽: 산점도 | |||
그래픽과 레이아웃 | |||
5 | Ⅴ. R 그래픽 Ⅱ | R 그래픽: lattice와 gglpot2 | |
R 그래픽: ggplot2의 활용 | |||
R 그래픽: 3D와 히트맵 | |||
R 그래픽: 공간지도 분석 | |||
6 | Ⅵ. 데이터 탐색 | 데이터 다루기 | |
데이터 기술통계치 요약 | |||
그래프를 이용한 데이터 탐색 | |||
데이터의 정규성검정과 신뢰구간 | |||
7 | Ⅶ. R을 이용한 통계분석 | 두 그룹간 평균비교 (t-test) | |
짝을 이룬 그룹간 비교 | |||
분산분석 (ANOVA) | |||
이원분산분석 (two-way ANOVA) | |||
중간고사 | |||
8 | Ⅷ. 상관분석과 회귀모형 | 상관분석 | |
데이터핸들링(dplyr 활용) | |||
선형회귀모형 | |||
회귀분석의 진단과 평가 | |||
9 | Ⅸ. 데이터 마이닝 기초 | 다중 회귀 분석 I | |
다중 회귀 분석 II | |||
데이터 마이닝과 분류 | |||
학습 데이터와 검증 데이터 | |||
10 | Ⅹ. k-인접기법과 판별분석 | k-인접기법 (k-nearest neighbor) | |
k-인접 기법 (k-nearest neighbor)-가중치 | |||
판별분석 I | |||
판별분석 II | |||
11 | Xl. 서포트벡터머신 | 서포트벡터머신I | |
서포트벡터머신ll | |||
서포트벡터머신lll | |||
12 | XII. 의사결정나무와 랜덤 포레스트 | 의사결정나무 I | |
의사결정나무 II | |||
랜덤 포레스트 | |||
13 | XIII. 군집분석 | 군집분석과 유사성 척도 | |
계층적 군집분석 | |||
비계층적 군집분석 | |||
14 | XIV. 연관규칙과 로지스틱 회귀분석 | 연관규칙 분석 Ⅰ | |
연관규칙 분석 Ⅱ | |||
로지스틱 회귀분석 | |||
기말고사 |
포스텍 산업경영공학과
포스텍 산업경영공학과 교수
경북대학교 통계학과 박사
코넬대학교 통계학과 석사
서울대학교 소비자학과 학사
경력 : 시카고대학교 경제연구소, 미국국립여론조사연구소, UC샌디에고 의과대학