홈 > 강의소개
통계방법론
김용태 교수
단국대학교 대학원 통계학과 석사과정
단국대학교 대학원 정보통계학과 박사졸업
단국대학교 대학원 통계학과 석사과정
단국대학교 대학원 정보통계학과 박사졸업
단국대학교
한국외국어대학교
을지대학교
현) 유니와이즈 전임교수
AI가 이끄는 스마트한 학습 경험, AI 튜터와 함께 더 빠르고, 더 깊게 학습하세요.
긴 강의 내용을 AI가 핵심만 요약하여 복습 시간을 단축시킵니다.
강의에서 가장 중요한 키워드와 개념을 자동으로 추출해 제공합니다.
학습한 내용을 바탕으로 AI가 생성한 퀴즈를 풀며 이해도를 점검합니다.
모르는 부분을 24시간 언제든 AI 튜터에게 질문하고 답변을 받습니다.
총 10개 챕터, 77강으로 구성되어 있습니다.
| 제목 | 강의시간 | 상세내용 |
|---|---|---|
|
[1강] 통계방법론 오리엔테이션
|
0:
30:
34
|
|
|
통계적 방법론 개론: R을 활용한 자료 분석
• 통계적 방법론: 표본으로 모집단을 추정·예측하는 원리를 배우고 R을 활용한 실제 데이터 분석 능력 배양 • R 프로그래밍 환경: 통계 엔진 R과 통합 개발 환경 RStudio의 관계 및 상용 패키지(SAS, SPSS)와의 비교 분석 • 핵심 통계 분석 기법: 기초 통계, 모수 추론(T검정, 분산분석), 관계 분석(회귀분석), 범주형 자료분석 등 주요 방법론 학습 |
||
| 0장. R 프로그램 | ||
|
[2강] R 프로그램 (1)
|
0:
58:
49
|
|
|
R 프로그램 기본 사용법: 환경, 데이터 유형, 객체
• R 작업 환경: 명령어 즉시 실행(Console), 코드 수정·저장·일괄 처리(Script), 통합 관리(RStudio)의 기능 및 차이점. • R 데이터 처리 기초: 수치형·논리형 등 데이터 유형과 객체 생성을 위한 할당 연산자(`<-`, `=`) 사용법. • R 기본 문법 규칙: 대소문자를 구별하는 객체 이름 생성 규칙과 주석(`#`) 사용법. |
||
|
[3강] R 프로그램 (2)
|
0:
56:
49
|
|
|
R 프로그램의 데이터 객체 유형: 벡터, 행렬, 데이터 프레임
• 벡터(Vector): 동일 속성의 원소로 구성된 R의 기본 데이터 구조로, `c()` 함수로 생성하며 `factor` 등 특수 유형을 포함. • 행렬(Matrix)과 데이터 프레임(Data Frame): 행렬은 동일 데이터 타입의 2차원 구조이며, 데이터 프레임은 열마다 다른 타입을 허용하는 핵심 분석 구조. • 리스트(List): 벡터, 행렬 등 서로 다른 유형의 R 객체들을 하나의 원소로 저장할 수 있는 유연한 데이터 컨테이너. |
||
|
[4강] R 프로그램 (3)
|
1:
01:
00
|
|
|
R 객체 다루기와 외부 데이터 불러오기
• R 객체 인덱싱: 벡터[], 행렬[,], 리스트[[]], 데이터 프레임[,] 등 각 객체 유형별 원소 추출 및 제거 방식 • 텍스트/CSV 파일 불러오기: read.table(), read.csv() 함수와 header, sep 등 주요 인수를 활용한 데이터 프레임 변환 • 패키지 활용 데이터 불러오기: foreign, readxl 등 패키지를 설치하여 SPSS, Excel 등 특정 형식의 외부 파일을 R로 로드하는 절차 |
||
|
[5강] R 프로그램 (4)
|
1:
01:
05
|
|
|
R 프로그래밍: 연산자, 함수, 제어문 및 사용자 정의 함수
• R 연산자와 기본 함수: 산술·비교·논리 연산자의 종류와 원소별 연산 규칙, 주요 산술 및 행렬 연산 함수의 기능 정의 • R 제어문: for·while 반복문과 if·else 조건문을 활용한 프로그래밍 로직 구성 방법 • R 사용자 정의 함수: function 키워드를 이용한 함수 정의, 인수 설정, return을 통한 결과 반환 구조 및 코드 재사용 원리 |
||
|
[6강] R 프로그램 (5)
|
1:
04:
29
|
|
|
통계자료의 수치 요약과 R을 이용한 기초통계량 계산
• 대표값·산포도·위치척도: 평균·중앙값·최빈값·절사평균과 범위·IQR·분산·표준편차·변동계수·공분산, 사분위수·백분위수로 자료의 중심·퍼짐·상대적 위치를 수치 요약하는 개념과 공식 정리 • 분포 형태 진단: 왜도·첨도로 분포의 비대칭성과 뾰족함·꼬리 두께를 평가하고, 정규분포(왜도 0, 첨도 3)와의 비교로 데이터 형상 해석 • R을 활용한 기초통계량 계산: mean·median·var·sd·cov·IQR·quantile·summary와 moments 패키지의 skewness·kurtosis, cut·table 함수로 통계량 계산·도수분포표·빈도표·교차표 작성 절차 구현 |
||
|
[7강] R 프로그램 (6)
|
1:
01:
22
|
|
|
그래프를 이용한 자료 요약과 R 함수 정리
• 자료 유형과 그래프 선택: 질적 자료 vs 양적 자료 구분에 따른 원도표·막대도표(범주형), 줄기-잎 그림·상자그림·히스토그램·산점도(수치형) 선택 기준과 기능 정리 • 주요 그래프와 통계 요약: 줄기-잎 그림, 상자그림(다섯 수치 요약·IQR·이상치), 히스토그램(계급·계급폭·면적=상대도수), 산점도·산점도 행렬(변수 간 관계) 정의와 구조·해석 포인트 정리 • R 시각화 함수 체계: table·pie·barplot·stem·boxplot·hist·plot 함수와 breaks·include.lowest·right·horizontal·legend.text·pch 등의 핵심 인자를 이용한 Satisfaction 예제 데이터 시각 요약 절차 정리 |
||
| 1장. 확률이론과 통계적 추론의 기초 | ||
|
[8강] 확률변수와 확률분포 (1)
|
0:
40:
00
|
|
|
확률변수와 확률분포 기본 개념 정리
• 표본공간·사건과 확률변수: 표본공간과 사건 위에 실수 값을 대응하는 실함수로서 확률변수를 정의하고, 이산형·연속형 확률변수로 구분해 통계적 추론의 대상이 되는 확률 모형을 설정함 • 확률분포·PMF·PDF: 확률변수 값들과 그 확률의 규칙을 확률분포로 표현하고, 이산형에서는 확률질량함수 f(x)=P(X=x)와 전체 합 1 조건을, 연속형에서는 확률밀도함수와 적분을 통해 구간 확률 및 전체 면적 1 조건을 규정함 • 누적분포함수(CDF): F(t)=P(X≤t)로 정의되는 누적분포함수를 이산형·연속형 공통의 0~1 사이 비감소 함수로 정리하고, PMF·PDF와의 관계 및 구간 확률 계산 절차(합·적분)를 구조적으로 제시함 |
||
|
[9강] 확률변수와 확률분포 (2)
|
0:
59:
34
|
|
|
결합확률분포, 주변·조건부분포 핵심 정리
• 결합확률분포: 이산형 결합확률질량함수·연속형 결합확률밀도함수 정의, 전체 합/적분 1과 비음수 성질, 결합누적분포함수 구조 정리 • 주변분포: 결합분포에서 다른 변수에 대해 합(이산형)·적분(연속형)해 얻는 주변확률질량함수·주변확률밀도함수 정의와 계산식 정리 • 조건부분포: 결합분포를 해당 주변분포로 나눈 조건부확률질량함수·조건부확률밀도함수 정의, 단면밀도 해석과 조건부확률 적분 계산 구조 정리 |
||
|
[10강] 확률변수와 확률분포 (3)
|
0:
56:
02
|
|
|
확률변수의 기대값과 분산의 정의 및 성질
• 확률변수 기대값(E(X)): 분포의 중심 경향(모평균)을 나타내는 척도로, 이산형은 합산(Σxf(x)), 연속형은 적분(∫xf(x)dx)으로 계산. • 확률변수 분산(Var(X)): 분포의 흩어진 정도(산포도)를 나타내며, E[(X-μ)²]의 정의 또는 E(X²) - [E(X)]² 공식을 이용해 산출. • 기대값과 분산의 선형 변환: 확률변수 Y=aX+b에 대해 E(Y)=aE(X)+b, Var(Y)=a²Var(X)의 성질이 성립. |
||
|
[11강] 확률변수와 확률분포 (4)
|
0:
52:
10
|
|
|
확률변수의 공분산, 상관계수, 그리고 독립성
• 공분산(Covariance): 두 확률변수 간 선형적 관계의 방향성을 나타내는 측도로, 값의 크기는 변수 단위에 종속됨. • 상관계수(Correlation Coefficient): 공분산을 표준화하여 단위와 무관하게 선형관계의 방향과 강도를 -1에서 1 사이 값으로 측정하는 지표. • 독립성과 무상관의 관계: 두 변수가 독립이면 공분산은 0(무상관)이지만, 공분산이 0이라도 비선형 관계가 존재하면 독립이 아닐 수 있음. |
||
|
[12강] 확률변수와 확률분포 (5)
|
0:
41:
46
|
|
|
이산형 확률분포: 베르누이 분포와 이항분포
• 베르누이 분포: 단일 시행에서 성공(1)과 실패(0) 두 가지 결과만 갖는 이산형 확률분포로, 확률질량함수, 평균(p), 분산(p(1-p))으로 정의. • 이항분포: 독립적인 베르누이 시행을 n번 반복했을 때의 총 성공 횟수를 나타내는 확률분포이며, 평균(np)과 분산(np(1-p))으로 계산. • R 이항분포 함수: dbinom, pbinom 등을 사용하여 특정 성공 횟수의 확률(확률질량함수)과 누적 확률(누적분포함수)을 계산하는 기능. |
||
|
[13강] 확률변수와 확률분포 (6)
|
1:
12:
41
|
|
|
정규분포의 정의, 표준화 및 이변량 정규분포
• 정규분포: 평균(μ)과 분산(σ²)에 의해 결정되는 좌우대칭의 종 모양 연속확률분포. • 표준화: 정규분포를 평균 0, 분산 1의 표준정규분포로 변환하는 절차(Z = (X-μ)/σ)로, 확률 계산을 용이하게 함. • 이변량 정규분포: 두 확률변수의 결합분포를 정의하며, 각 변수의 평균·분산 및 상관계수(ρ)로 모수가 구성됨. |
||
|
[14강] 표본분포 (1)
|
1:
01:
37
|
|
|
표본분포의 개념: 표본평균과 표본분산의 분포
• 표본분포: 모집단에서 추출한 표본 통계량(표본평균, 표본분산)이 따르는 확률분포. • 중심극한정리: 모집단 분포와 무관하게 표본 크기가 충분하면 표본평균의 분포가 정규분포에 근사하는 핵심 원리. • 카이제곱분포: 정규모집단에서 통계량 (n-1)S²/σ²이 따르는 분포로, 모분산 추론의 이론적 근거. |
||
|
[15강] 표본분포 (2)
|
0:
43:
53
|
|
|
t-분포와 F-분포의 정의, 특징 및 활용
• t-분포: 모분산을 모를 때 모평균을 추론하기 위해 사용되는 표본분포로, 자유도에 따라 형태가 결정됨. • F-분포: 두 정규모집단의 분산이 같은지 비교하기 위해 표본분산의 비를 사용하는 분포로, 두 개의 자유도를 가짐. • t-분포와 F-분포의 관계: 자유도가 n인 t-분포 확률변수를 제곱한 값은 자유도 (1, n)의 F-분포를 따르는 수학적 관계. |
||
|
[16강] 추정
|
0:
55:
11
|
|
|
통계적 추론: 점추정과 구간추정의 개념 및 방법
• 점추정: 모수를 단일 값으로 추정하는 방법으로, 좋은 추정량은 불편성·유효성·일치성을 만족. • 구간추정: 특정 신뢰수준 하에서 모수가 포함될 범위를 신뢰구간으로 제시하는 방법. • 모수별 구간추정 방법: 모평균은 정규분포 또는 t-분포를, 모분산은 카이제곱분포를 이용하여 신뢰구간을 계산. |
||
|
[17강] 가설검정 (1)
|
1:
03:
16
|
|
|
통계적 가설검정의 기본 원리와 용어
• 가설검정 기본 개념: 표본 정보로 가설의 진위를 판단하기 위해 상호 배반적인 귀무가설(H₀)과 대립가설(H₁)을 설정하는 통계적 추론 절차. • 가설검정 의사결정: 유의수준(α)을 기준으로 설정된 기각역을 이용, 검정통계량 값에 따라 귀무가설 기각 여부를 결정하며 1종·2종 오류 발생 가능성 내포. • p-값(유의확률): 귀무가설 지지 증거의 강도를 나타내는 확률로, 유의수준(α)과 비교하여 가설을 기각하며 대립가설에 따라 단측·양측검정으로 구분. |
||
|
[18강] 가설검정 (2)
|
0:
54:
48
|
|
|
모평균과 모분산의 가설검정: Z-검정, T-검정, 카이제곱 검정
• Z-검정과 T-검정: 모분산 인지 여부에 따라 각각 정규분포와 t-분포를 이용하여 단일 표본의 모평균을 검정하는 방법 • 카이제곱 검정(χ²-test): 표본분산을 이용하여 모분산에 대한 가설을 검정하며, 비대칭인 카이제곱 분포를 따르는 검정통계량 사용 • 정규성 검정: 가설검정의 신뢰도를 위해 Shapiro-Wilk 검정이나 Q-Q Plot을 통해 데이터의 정규분포 가정을 먼저 확인하는 절차 |
||
|
[19강] 가설검정 (3)
|
0:
50:
09
|
|
|
모비율의 추정과 가설검정 방법론
• 모비율 추정 및 검정: 표본비율(p̂)을 추정량으로 사용하며, 정규분포 근사를 통해 통계적 추론을 수행하는 방법론 • 모비율 신뢰구간 추정: 표준오차 계산에 표본비율(p̂)을 사용하여 모비율의 범위를 추정하는 절차 • 모비율 가설검정: 검정통계량의 표준오차 계산에 귀무가설의 모비율(p₀)을 사용하여 가설의 기각 여부를 판단 |
||
| 2장. 두 모집단의 비교 | ||
|
[20강] 두 모집단의 비교 (1)
|
0:
48:
43
|
|
|
두 독립 정규모집단의 모평균 차이 비교: 모분산을 아는 경우
• 표본평균 차이 분포: 독립 정규모집단에서 $\bar{X}_1 - \bar{X}_2$는 평균 $\mu_1 - \mu_2$와 분산 $\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}$를 갖는 정규분포. • 모평균 차이 신뢰구간: Z-통계량을 기반으로 $(\bar{X}_1 - \bar{X}_2) \pm z_{\alpha/2} \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}$ 공식을 이용해 $\mu_1 - \mu_2$를 구간 추정. • 독립 2표본 Z-검정: 귀무가설 $H_0: \mu_1 - \mu_2 = \delta_0$에 대한 검정통계량 $Z_0$을 계산하여 통계적 유의성을 판정하는 절차. |
||
|
[21강] 두 모집단의 비교 (2)
|
0:
56:
18
|
|
|
두 모집단 평균 비교: 모분산을 모르는 경우
• 이분산 가정 t-검정: 모분산이 서로 다를 때, Satterthwaite 근사자유도를 이용해 두 모평균의 차이를 추론하는 방법. • 등분산 가정 t-검정: 모분산이 서로 같을 때, 합동추정량(Sp²)을 사용해 두 모평균의 차이를 검정하는 절차. • R t.test() 함수: `var.equal` 인자로 분산 가정을, `alternative` 인자로 가설 형태를 지정하여 t-검정을 수행하는 기능. |
||
|
[22강] 두 모집단의 비교 (3)
|
0:
51:
50
|
|
|
두 모집단 비교: 비정규모집단과 대표본 Z-검정
• 중심극한정리 기반 대표본 추론: 비정규·모분산 미지 모집단에서 표본 크기가 충분히 클 때(n≥30), 표본평균 차의 분포를 정규분포로 근사하는 원리 • 두 모평균 차 검정통계량(Z): 표본평균 차를 표준화한 확률변수로, 모분산 대신 표본분산을 사용하여 계산하며 근사적으로 표준정규분포를 따름 • 대표본 Z-검정 및 신뢰구간: 검정통계량 Z를 이용해 두 모평균 차에 대한 가설을 검정하고, 특정 신뢰수준에서 모평균 차의 범위를 추정하는 통계적 방법 |
||
|
[23강] 두 모집단의 비교 (4)
|
1:
04:
12
|
|
|
두 모집단의 비교: 대응비교와 두 모분산 비교
• 대응비교: 독립이 아닌 두 표본의 관측값 차이(Di)를 단일표본으로 변환하여, t-분포(자유도 n-1)를 통해 모평균 차이를 추론하는 통계 기법. • 두 모분산 비교 (F-검정): 두 모집단의 등분산성 가정을 검증하거나 산포도를 비교하기 위해, 표본분산의 비(S₁²/S₂²)가 따르는 F-분포를 이용한 통계적 검정. |
||
|
[24강] 두 모집단의 비교 (5)
|
1:
03:
05
|
|
|
통계방법론: 두 모비율의 차이에 대한 추론 및 가설검정
• 두 모비율 차이의 분포: 중심극한정리에 의해 두 표본비율의 차($\hat{p}_1 - \hat{p}_2$)가 근사적으로 정규분포를 따르는 원리 • 두 모비율 차이 신뢰구간: 개별 표본비율($\hat{p}_1, \hat{p}_2$)을 이용해 표준오차를 계산하고 모비율 차이($p_1 - p_2$)의 범위를 추정 • 두 모비율 차이 가설검정: 귀무가설($H_0: p_1=p_2$) 하에서 두 표본을 통합한 합동추정량($\hat{p}$)으로 검정통계량을 계산하는 절차 |
||
| 3장. 분산분석 | ||
|
[25강] 분산분석 서론
|
0:
33:
05
|
|
|
분산분석(ANOVA) 서론: 기본 개념과 모형 분류
• 분산분석(ANOVA) 정의 : 세 개 이상 집단의 모평균 차이를 분산을 활용해 검증하는 통계 기법. • 분산분석의 주요 용어 : 실험 결과에 영향을 미치는 변수인 인자(factor)와 그 조건인 수준(level)으로 구성. • 분산분석 모형 분류 : 인자의 수(일원/이원)와 수준 선택 방식(모수/변량)에 따라 모형과 분석 목적이 결정. |
||
|
[26강] 일원분산분석 : 모수모형 (1)
|
1:
03:
36
|
|
|
일원분산분석(ANOVA)의 모수모형과 가설 검정
• 일원분산분석(ANOVA) 정의: 3개 이상 집단의 모평균 차이를 검정하기 위해, 총 변동을 집단 간 변동과 집단 내 변동으로 분해하는 통계 기법. • 변동의 분해 및 F-통계량: 총제곱합(TSS)을 처리제곱합(SSTR)과 오차제곱합(SSE)으로 분리하고, 처리평균제곱(MSTR)과 오차평균제곱(MSE)의 비율로 F-통계량을 계산. • 가설 검정: 귀무가설($H_0$: 모든 집단 모평균 동일) 하에 F-통계량이 F-분포를 따르는 원리를 이용, 유의수준 하에서 통계적 유의성을 판정. |
||
|
[27강] 일원분산분석 : 모수모형 (2)
|
1:
02:
03
|
|
|
일원분산분석 모수모형의 추정과 가설 검정
• 최소제곱추정법: 오차항 제곱합(SSE)을 최소화하여 모수모형의 전체평균(μ), 처리효과(αᵢ), 오차분산(σ²)에 대한 점추정량을 유도하는 원리. • 모평균 구간추정: t-분포를 기반으로 단일 모평균(μᵢ) 또는 두 모평균의 차(μᵢ - μⱼ)에 대한 신뢰구간을 산출하는 통계적 추론 방법. • 분산분석 F-검정: 분산분석표(ANOVA)를 이용해 처리 간 평균제곱(MSTR)과 오차 평균제곱(MSE)의 비율인 F-통계량을 계산하여 처리효과의 유의성을 검정하는 절차. |
||
|
[28강] 일원분산분석 : 모수모형 (3)
|
1:
05:
39
|
|
|
일원분산분석의 사후 분석: 대비를 이용한 다중 비교
• 대비(Contrast): 계수 합이 0인 모평균의 선형 결합식으로, ANOVA 사후 분석에서 특정 집단 간 평균 비교를 수행하는 통계 기법. • 대비 제곱합(SSC): 대비 가설에 해당하는 변동을 측정하는 통계량으로, 표본 평균과 설정된 대비 계수를 이용해 산출. • 대비 F-검정: 대비 제곱합(SSC)을 오차평균제곱(MSE)으로 나눈 F-통계량을 통해, 설정된 가설($H_0: \sum c_i \mu_i = 0$)의 유의성을 검증하는 절차. |
||
|
[29강] 일원분산분석 : 모수모형 (4)
|
1:
10:
51
|
|
|
일원분산분석 후 다중비교: 본페로니와 튜키 검정
• 다중비교와 실험별 오류율: 다수 가설 동시 검정 시 증가하는 제1종 오류 확률(실험별 오류율)을 통제하며 집단 간 차이를 규명하는 분석 • 본페로니 검정: 실험별 오류율을 통제하기 위해 개별 비교의 유의수준(αC)을 α/K로 보수적으로 조정하는 방법 • 튜키 HSD 검정: 표준화 범위분포(Studentized Range Distribution)를 이용해 임계값(HSD)을 설정하고 모든 평균 쌍의 차이를 검정하는 방법 |
||
|
[30강] 일원분산분석 : 모수모형 (5)
|
0:
38:
43
|
|
|
일원분산분석 모형의 타당성 검토: 정규성 및 등분산성
• 일원분산분석 모형 타당성 검토: 오차항의 추정량인 잔차를 이용하여 정규성 및 등분산성 가정을 확인하는 절차 • 오차항 정규성 검토: 잔차의 분포를 정규확률도(Q-Q plot) 또는 Shapiro-Wilk 검정으로 확인하여 정규성 가정 충족 여부 판단 • Bartlett 등분산성 검정: 카이제곱분포를 이용해 모든 집단의 분산이 동일하다는 귀무가설을 검증하는 통계적 방법 |
||
|
[31강] 일원분산분석 : 변량모형
|
0:
56:
06
|
|
|
일원분산분석 변량모형의 개념과 가설 검정
• 일원분산분석 변량모형: 인자 수준을 모집단에서 추출된 확률표본으로 간주하고, 모집단 내 수준 간 분산(`$\sigma_\alpha^2$`)의 존재 여부를 검정하는 통계 모형 • 변량모형 가설 검정: 처리 효과 분산에 대해 귀무가설 `$H_0: \sigma_\alpha^2 = 0$`을 설정하며, 기대평균제곱(`$E(MSTR)`, `$E(MSE)`) 원리에 기반한 F-검정으로 변동성 유무를 판단 • 모수모형과의 핵심 차이: 특정 수준 간 평균 비교가 아닌 모집단 분산 추론이 목적이므로, 귀무가설 기각 후에도 사후검정은 일반적으로 수행하지 않음 |
||
|
[32강] 이원분산분석 : 반복이 없는 모수모형 (1)
|
1:
00:
14
|
|
|
이원분산분석: 반복 없는 모수모형의 원리와 가설 검정
• 이원분산분석 모형: 두 인자(Factor)의 주효과가 결과 변수에 미치는 영향을 분석하는 통계적 처리효과 모형($Y_{ij} = \mu + \alpha_i + \beta_j + \epsilon_{ij}$). • 제곱합 분해: 총 변동(TSS)을 두 인자의 처리제곱합(SSTRA, SSTRB)과 오차제곱합(SSE)으로 분할하는 핵심 분석 원리. • F-검정과 분산분석표: 평균제곱(MS)과 F-통계량을 계산하여 각 인자의 효과 유의성을 검정하는 절차 및 결과 요약표. |
||
|
[33강] 이원분산분석 : 반복이 없는 모수모형 (2)
|
1:
00:
12
|
|
|
이원분산분석(반복 없는 경우)의 모수 추정
• 최소제곱추정법: 오차제곱합(SSE)을 최소화하는 정규방정식을 통해 모수(μ, αi, βj)의 추정량을 유도하는 원리. • 점추정량: 표본평균의 조합으로 표현되는 모수 및 모평균의 추정값으로, 최적 요인 수준 조합 탐색에 활용. • 구간추정: 오차항 정규성 가정과 t-분포를 이용해 모평균 신뢰구간을 추정하며, 특정 조합(μij) 추정 시 유효반복수(ne)를 적용. |
||
|
[34강] 이원분산분석 : 반복이 없는 혼합모형 (1)
|
0:
46:
04
|
|
|
이원분산분석: 반복이 없는 혼합모형의 이해
• 혼합모형 (난괴법): 변량인자(블록) 효과를 통제하여 모수인자의 처리 효과를 정밀하게 검증하는 이원분산분석 설계 • 통계적 모형 및 가설 검정: 고정 효과(Σαi=0)와 변량 효과(βj~N(0,σβ²))의 가정을 구분하고 각 인자의 유의성을 F-검정으로 판단 • 풀링(Pooling) 절차: 블록 효과가 유의하지 않을 때 해당 변동을 오차항에 통합하여 모수인자 검정의 정확도를 높이는 기법 |
||
|
[35강] 이원분산분석 : 반복이 없는 혼합모형 (2)
|
0:
31:
38
|
|
|
이원분산분석 혼합모형: 모수 추정 및 신뢰구간
• 혼합모형 모수 추정: 모수인자(평균)와 변량인자(분산)의 추정 대상을 구분하며, 변량인자 분산($\sigma_{\beta}^2$)은 블록 평균제곱($MSTR_{Br}$)의 기댓값을 이용해 추정. • 모수인자 평균의 분산: 단일 평균($\bar{Y}_{i.}$)의 분산은 변량인자 분산($\sigma_{\beta}^2$)을 포함하나, 두 평균 차($\bar{Y}_{i.} - \bar{Y}_{k.}$)의 분산에서는 해당 항이 소거됨. • 모수인자 신뢰구간: 단일 평균($\mu_{i.}$) 추정은 Satterthwaite 근사 t-분포, 두 평균 차($\mu_{i.} - \mu_{k.}$) 추정은 정확한 t-분포를 적용하여 구간 추정. |
||
|
[36강] 이원분산분석 : 반복이 있는 모수모형 (1)
|
0:
47:
09
|
|
|
이원분산분석: 반복이 있는 모수모형과 교호작용
• 반복이 있는 이원분산분석: 두 인자의 주효과와 교호작용 효과를 분리 검정하고, 반복을 통해 실험오차를 단독으로 추정하는 통계 기법. • 교호작용(Interaction): 두 인자의 특정 수준 조합에서 발생하는 고유 효과로, 이의 유무가 주효과 해석 및 최적 조건 탐색의 방향을 결정. • 가설 검정과 풀링(Pooling): 교호작용 유의성을 우선 검정하며, 유의하지 않을 시 해당 효과를 오차항에 통합(풀링)하여 주효과 검정력을 향상시킴. |
||
|
[37강] 이원분산분석 : 반복이 있는 모수모형 (2)
|
0:
55:
15
|
|
|
이원분산분석: 반복 있는 모수모형과 교호작용 검정
• 반복 있는 이원분산분석: 두 인자의 개별 영향(주효과)과 인자 간 결합 효과(교호작용)를 분리하여 검정하는 통계 모형. • 교호작용 검정: 분석의 핵심 기준으로, 유의성 여부가 주효과의 해석 방법과 풀링(Pooling) 적용 여부를 결정. • 분산분석표와 모수 추정: 총제곱합(TSS) 분해와 F-검정을 통해 각 효과의 유의성을 판단하고, 교호작용 유무에 따라 모수 추정 방식을 달리 적용. |
||
| 4장. 회귀분석 | ||
|
[38강] 상관분석 (1)
|
1:
02:
48
|
|
|
상관분석의 이해: 산점도와 상관계수
• 상관분석: 산점도와 상관계수를 이용해 두 양적 변수 간 선형적 관계의 방향과 강도를 파악하는 통계 기법. • 상관계수: -1과 1 사이의 값으로, 부호는 관계의 방향을, 절대값은 선형 관계의 강도를 나타내는 수치적 측도. • 해석 시 주의사항: 상관관계는 인과관계를 의미하지 않으며, 비선형 관계나 특이값 확인을 위해 산점도 병행 필수. |
||
|
[39강] 상관분석 (2)
|
0:
37:
23
|
|
|
상관계수의 통계적 검정: 유의성 판단 방법
• 상관계수 가설검정: 표본상관계수(r)를 이용해 모상관계수(ρ)의 통계적 유의성, 즉 선형관계 존재 여부를 판단하는 절차 • 모상관계수 t-검정: 귀무가설(H₀: ρ=0) 검증 시, 검정통계량(T)이 자유도(n-2)의 t-분포를 따르는 원리 • R 상관계수 검정: `cor.test()` 함수를 사용하여 t-값, p-값, 신뢰구간을 산출하고 가설검정을 수행하는 기능 |
||
|
[40강] 단순선형 회귀분석 (1)
|
0:
51:
33
|
|
|
단순선형 회귀분석: 개념, 모형, 기본 가정
• 단순선형 회귀분석 : 하나의 독립변수를 이용해 종속변수와의 관계를 선형 모형으로 규명하고 예측하는 통계 기법. • 단순선형 회귀모형 : 독립변수(X)와 종속변수(Y)의 관계를 회귀계수(절편 β₀, 기울기 β₁)와 오차항(ε)으로 구성된 직선 E(Y|X) = β₀ + β₁X으로 정의. • 확률 오차의 기본 가정 : 통계적 추론의 신뢰도 확보를 위해 오차항(ε)이 만족해야 하는 정규성(Normality), 등분산성(Homoscedasticity), 독립성(Independence)의 3가지 핵심 조건. |
||
|
[41강] 단순선형 회귀분석 (2)
|
0:
56:
28
|
|
|
단순선형 회귀모형의 회귀계수 추정: 최소제곱법
• 최소제곱추정법: 실제 관측값과 예측값의 차이인 잔차(residual)의 제곱합을 최소화하여 회귀계수를 추정하는 원리 • 최소제곱추정량: 오차제곱합 함수를 편미분하여 얻은 정규방정식을 통해 기울기($\hat{\beta}_1$)와 절편($\hat{\beta}_0$) 추정량 유도 • 오차항 분산 추정: 잔차제곱합(SSE)을 자유도(n-2)로 나눈 평균제곱오차(MSE)를 분산($\sigma^2$)의 추정량으로 사용 |
||
|
[42강] 단순선형 회귀분석 (3)
|
1:
08:
33
|
|
|
단순선형 회귀분석 추정량의 성질과 모형 적합성 판단
• 회귀분석 추정량의 통계적 성질: 최소제곱추정량(β̂₀, β̂₁)의 정규분포 및 불편성, 오차항 분산 추정량(σ̂²)의 카이제곱분포 특성. • 회귀모형 변동의 분해: 총제곱합(TSS)을 회귀제곱합(SSR)과 오차제곱합(SSE)으로 분할하는 모형 적합성 평가 원리. • 결정계수(R²): 총변동(TSS) 대비 회귀식으로 설명되는 변동(SSR)의 비율로, 모형의 설명력을 측정하는 핵심 지표. |
||
|
[43강] 단순선형 회귀분석 (4)
|
0:
43:
13
|
|
|
단순선형 회귀모형의 유의성 검정: 분산분석(ANOVA)
• 단순선형 회귀모형 유의성 검정: 회귀계수(β₁)가 0인지 여부를 가설 검정하여 독립변수가 종속변수에 미치는 영향력의 통계적 유의미성을 판단하는 절차. • 분산분석(ANOVA) 원리: 종속변수의 총 변동(TSS)을 회귀모형으로 설명되는 변동(SSR)과 설명되지 않는 오차 변동(SSE)으로 분해하는 통계 기법. • F-검정: 분산분석표 상의 회귀평균제곱(MSR)과 오차평균제곱(MSE)의 비율인 F-통계량을 산출하여 귀무가설(H₀: β₁=0)의 기각 여부를 결정. |
||
|
[44강] 단순선형 회귀분석 (5)
|
0:
46:
42
|
|
|
단순선형 회귀분석의 회귀계수 추론과 가설검정
• 회귀계수 통계적 추론: t-분포를 이용한 가설검정 및 신뢰구간 추정을 통해 각 회귀계수(절편 $\beta_0$, 기울기 $\beta_1$)의 통계적 유의성을 판단. • t-검정과 F-검정의 관계: 단순선형회귀에서 기울기($\beta_1$) 유의성 검정의 t-통계량 제곱값($T_0^2$)은 분산분석 F-통계량($F_0$)과 동일. • R 프로그램 활용: `lm()`, `summary()`, `confint()` 함수를 사용하여 회귀계수 추정, 유의성 검정, 신뢰구간 계산을 수행하는 분석 방법. |
||
|
[45강] 단순선형 회귀분석 (6)
|
0:
56:
31
|
|
|
회귀분석을 이용한 종속변수의 평균값 및 개별값 추론
• 종속변수 평균값 추론: 특정 독립변수 값에 대한 종속변수 평균의 신뢰구간(신뢰대)을 t-분포를 이용해 추정하는 절차. • 종속변수 개별값 추론: 아직 관측되지 않은 새로운 단일 종속변수 값의 신뢰구간(예측대)을 추정하며 개별 관측치의 불확실성을 포함. • 신뢰대와 예측대 비교: 개별값의 불확실성($\sigma^2$)을 추가로 반영하는 예측대의 표준오차가 더 크므로, 예측대의 폭은 항상 신뢰대보다 넓음. |
||
|
[46강] 단순선형 회귀분석 (7)
|
0:
53:
04
|
|
|
단순선형회귀분석의 예측, 신뢰대와 예측대 구간 추정
• 단순선형회귀분석 예측: 새로운 X값에 대해 Y의 평균 반응(신뢰대)과 개별 관측값(예측대)을 구간 추정. • 신뢰대와 예측대 비교: 개별값의 불확실성을 포함하는 예측대가 항상 신뢰대보다 넓으며, 두 구간 모두 X의 평균에서 폭이 가장 좁아짐. • R predict() 함수 활용: interval 인자("confidence", "prediction")를 지정하여 신뢰대와 예측대를 계산하고 시각화. |
||
|
[47강] 단순선형 회귀분석 (8)
|
1:
00:
41
|
|
|
단순선형 회귀분석의 잔차분석과 기본 가정 검토
• 잔차분석: 관측 불가능한 오차항 대신 잔차를 이용하여 회귀모형의 선형성, 등분산성, 독립성, 정규성 가정을 검토하는 분석 방법. • 잔차도표: 독립변수와 잔차의 산점도를 통해 선형성(패턴 없음), 등분산성(일정한 산포), 독립성(랜덤 분포)을 시각적으로 진단. • 통계적 가정 검정: 브로이시-파간(등분산성), 더빈-왓슨(독립성), 샤피로-윌크(정규성) 검정을 통해 각 가정을 통계적으로 확인. |
||
|
[48강] 다중선형 회귀분석 (1)
|
0:
58:
52
|
|
|
다중선형 회귀분석 모형의 정의와 회귀계수 추정
• 다중선형 회귀모형: 2개 이상 독립변수로 종속변수를 설명하며, 행렬($Y = X\beta + \epsilon$)로 표현하여 연산을 간소화. • 최소제곱법: 오차제곱합(SSE)을 최소화하여 회귀계수 추정량($\hat{\beta} = (X^T X)^{-1} X^T Y$)을 유도하는 절차. • 수정결정계수($R_{adj}^2$): 독립변수 개수를 반영하여 모형의 설명력을 평가하는 지표로, 결정계수($R^2$)의 단점을 보완. |
||
|
[49강] 다중선형 회귀분석 (2)
|
0:
57:
15
|
|
|
다중선형 회귀모형의 유의성 검정과 분산분석
• 다중선형 회귀모형 유의성 검정: 분산분석(ANOVA)을 통해 모든 독립변수의 회귀계수가 0이라는 귀무가설($H_0$)을 검정, 모형 전체의 통계적 유의성을 판단. • F-검정 통계량: 총제곱합(TSS)을 회귀제곱합(SSR)과 오차제곱합(SSE)으로 분해하여 얻은 평균제곱(MSR, MSE)의 비율($F_0 = MSR/MSE$)로 계산. • 결정계수와 수정된 결정계수: 모형의 설명력을 나타내는 척도로, 독립변수 개수를 보정한 수정된 결정계수($Adjusted R^2$)는 서로 다른 모형 비교에 사용. |
||
|
[50강] 다중선형 회귀분석 (3)
|
0:
59:
55
|
|
|
다중선형 회귀분석의 회귀계수 추론과 가설검정
• 회귀계수 t-검정: 다중회귀모형의 개별 독립변수가 종속변수에 미치는 영향력($\beta_j=0$)을 t-분포 기반 검정통계량으로 평가하는 절차. • 회귀계수 가설검정 및 신뢰구간: 귀무가설 하에 검정통계량과 p-값을 계산해 변수 유의성을 판단하고, t-분포를 이용해 계수의 신뢰구간을 추정. • 유의성 기반 변수 선택: t-검정 결과를 바탕으로 통계적으로 유의하지 않은 변수를 제거하여 간결하고 설명력 높은 최적의 회귀모형을 구성. |
||
|
[51강] 다중선형 회귀분석 (4)
|
0:
58:
07
|
|
|
다중선형 회귀분석: 종속변수 기대값과 개별값 추론
• 종속변수 기대값 추론(신뢰대): 특정 독립변수 값에 대한 종속변수 평균의 신뢰구간을 t-분포로 추정. • 종속변수 개별값 추론(예측대): 개별 관측치의 불확실성(σ²)을 추가 반영하여 미래 값을 예측하는 구간. • 신뢰대와 예측대 비교: 개별 오차항의 변동성을 포함하는 예측대가 항상 신뢰대보다 넓은 구간을 가짐. |
||
|
[52강] 회귀모형의 진단 및 보정 (1)
|
0:
56:
36
|
|
|
회귀모형의 진단: 다중공선성의 원인, 진단, 해결
• 다중공선성(Multicollinearity): 독립변수 간 강한 선형 관계로 인해 회귀계수 추정의 불안정성과 표준오차 증가를 유발하는 문제. • 분산팽창인자(VIF): 공차한계의 역수($1/(1-R^2_j)$)로, 통상적으로 10 이상일 때 다중공선성을 진단하는 핵심 지표. • 다중공선성 해결: VIF 값이 높은 문제 변수를 제거한 후 회귀모형을 재추정하여 계수의 유의성과 안정성을 확보하는 절차. |
||
|
[53강] 회귀모형의 진단 및 보정 (2)
|
1:
03:
58
|
|
|
회귀모형의 진단: 잔차 분석과 영향력 분석
• 회귀모형 진단: 잔차 분석을 통해 기본 가정(선형성·등분산성·정규성·독립성)을 검토하고, 영향력 분석으로 특이값이 모형에 미치는 영향을 평가하는 과정 • 잔차 분석 방법: 편회귀 잔차도(선형성), 브로이시-파간 검정(등분산성), 더빈-왓슨 검정(독립성), 정규 Q-Q 그림(정규성)을 활용하여 각 가정을 검증 • 영향력 분석 측도: 레버리지(leverage)를 통해 독립변수(X)의 특이값을, 쿡의 거리(Cook's distance)를 통해 회귀계수에 큰 영향을 미치는 관측값을 식별 |
||
|
[54강] 회귀모형의 진단 및 보정 (3)
|
0:
56:
39
|
|
|
회귀모형 진단 후 보정 방법 및 변수선택법
• 회귀모형 가정 위배 보정 : 선형성·정규성·등분산성 위배 시 독립변수(X) 또는 종속변수(Y) 변환을 통해 문제 해결 • 다중회귀모형 변수선택법 : 전방선택법, 후방소거법, 단계적선택법 등을 이용해 최적의 예측 변수 조합을 찾는 절차 • AIC (Akaike Information Criterion) : 변수선택 과정에서 모형의 상대적 품질을 평가하는 통계 기준으로, 값이 낮을수록 더 좋은 모형으로 판단 |
||
| 5장. 범주형 자료분석 | ||
|
[55강] 범주형 자료분석 (1)
|
0:
50:
41
|
|
|
범주형 자료 분석: 다항분포와 적합도 검정
• 다항분포: 세 개 이상의 범주를 갖는 다항시행의 결과를 모델링하는 이산확률분포. • 적합도 검정: 관측된 범주형 자료가 특정 이론적 분포와 일치하는지 판단하는 통계적 가설 검정. • 카이제곱 검정통계량: 관측도수와 기대도수의 차이를 이용해 가설의 적합성 여부를 판단하는 핵심 척도. |
||
|
[56강] 범주형 자료분석 (2)
|
0:
48:
36
|
|
|
범주형 자료 분석: 카이제곱 독립성 검정
• 카이제곱 독립성 검정: 두 범주형 변수 간 연관성을 분할표의 관측도수와 기대도수를 비교하여 검정하는 통계적 분석 방법. • 검정 가설 및 통계량: 두 변수가 독립이라는 귀무가설 하에, 관측도수와 기대도수의 차이를 이용해 카이제곱 검정통계량을 산출. • 자유도 및 가설 판정: 자유도가 (r-1)(c-1)인 카이제곱분포를 이용하여 p-값을 계산하고 유의수준과 비교해 귀무가설 기각 여부를 결정. |
||
|
[57강] 범주형 자료분석 (3)
|
0:
52:
25
|
|
|
범주형 자료 분석: 동질성 검정의 개념과 방법
• 동질성 검정과 독립성 검정: 동질성 검정은 여러 모집단의 특정 변수 비율이 동일한지, 독립성 검정은 단일 모집단 내 두 변수의 연관성을 분석하는 목적과 표본추출 방식의 차이를 가짐 • 동질성 검정 가설: 귀무가설($H_0$)은 모든 부모집단에서 각 범주의 확률이 동일함($p_{1j} = \dots = p_{rj}$)을, 대립가설($H_1$)은 적어도 하나는 다름을 의미함 • 카이제곱 검정통계량: 개념적 차이에도 불구, 기대도수($\frac{행 합계 \times 열 합계}{총합}$) 계산식과 자유도 $(r-1)(c-1)$의 카이제곱분포를 이용한 검정 절차는 독립성 검정과 동일함 |
||
| 6장. 로지스틱 회귀분석 | ||
|
[58강] 로지스틱 회귀분석 (1)
|
0:
44:
56
|
|
|
Summary Content: 로지스틱 회귀분석 기초와 이항 종속변수에 선형회귀를 쓸 때의 문제점 정리
• 이항 종속변수와 베르누이 분포: 성공/실패형 이항 종속변수를 0/1로 코딩하고, 베르누이 분포에서의 기대값·분산 및 조건부 확률 구조로 성공확률 π(x) 정의 • 선형회귀 적용의 이론적 한계: 이항 자료에 선형회귀를 적용할 때 예측확률의 [0,1] 범위 위반, 오차항 비정규성, 분산의 π(x)[1−π(x)] 의존으로 인한 비등분산성 등 회귀 가정 붕괴 • 사례와 로지스틱 회귀 필요성: 거북이 부화온도–성비 예제에서 음수·1 초과 예측값 발생을 통해 선형모형 부적합성을 확인하고, 확률 범위를 보장하며 우도 기반 추론을 사용하는 로지스틱 회귀모형의 필요성 제시 |
||
|
[59강] 로지스틱 회귀분석 (2)
|
0:
50:
40
|
|
|
로지스틱 회귀모형과 로짓변환, 거북이 부화온도 예제 정리
• 로지스틱 회귀모형과 로지스틱 분포: 이항반응 확률을 0~1 범위 S자형 곡선으로 모형화하고 로지스틱 분포 CDF 형태를 사용해 $\pi(x)=\dfrac{e^{\beta_0+\beta_1 x}}{1+e^{\beta_0+\beta_1 x}}$로 정의 • 오즈·로그오즈·로짓변환: 성공확률과 실패확률 비인 오즈 $\dfrac{\pi(x)}{1-\pi(x)}$와 로그오즈(로짓) $g(x)=\log\left(\dfrac{\pi(x)}{1-\pi(x)}\right)$를 사용해 $\text{logit}(\pi(x))=\beta_0+\beta_1 x$ 꼴의 선형모형으로 변환하고 역변환으로 확률 예측 • 거북이 부화온도 예제와 추론 한계: 온도별 성별데이터로 수컷 비율·오즈·로짓을 계산해 선형회귀로 S자 확률곡선을 적합하되, 이항자료의 비정규성·비등분산성 때문에 최소제곱 기반 선형회귀 대신 GLM·최우도추정에 의한 로지스틱 회귀모형 사용 필요 |
||
|
[60강] 로지스틱 회귀분석 (3)
|
0:
42:
34
|
|
|
로지스틱 회귀식의 최대우도추정과 R 구현 핵심 정리
• 로지스틱 회귀 이론 구조: 이항 종속변수·로짓 링크 정의, 베르누이 분포 기반 우도·로그우도함수 구성, 로그우도 미분을 통한 비선형 정규방정식 도출과 Newton–Raphson 등 수치해법에 의한 최대우도추정값 계산 원리 • 로지스틱 회귀 데이터·모형 적합: 부화온도–성별 예제에서 원자료·빈도표·성공비율+weights 세 데이터 형식 정의, 각 형식의 성공·실패 코딩 체계와 확률·오즈·로그오즈 관계, 동일 모형에서 회귀계수 일치성 이해 • R glm 구현 및 예측: glm(family=binomial)을 이용한 로지스틱 회귀식 추정 절차, 0/1·factor 종속변수 처리와 (성공,실패) 행렬·비율자료 입력 방식, predict(type="response")를 활용한 새로운 설명변수 값에서의 예측확률 산출 및 해석 방법 |
||
|
[61강] 로지스틱 회귀분석 (4)
|
0:
46:
05
|
|
|
로지스틱 회귀모형의 회귀계수 해석과 다중 로지스틱 회귀 개념 정리
• 오즈와 오즈비 해석: 오즈는 성공확률 대비 실패확률의 비, 오즈비는 독립변수 단위 증가 전후 오즈의 비로서 회귀계수의 효과를 배수 변화로 정량화해 해석함 • 단순·다중 로지스틱 회귀모형 구조: 로짓 링크를 통해 이항 반응변수의 성공확률을 선형 예측자에 연결하고, 최대우도추정과 뉴턴–랩슨 반복으로 회귀계수를 추정하며 각 계수의 지수 $e^{\beta_j}$를 오즈비로 사용함 • 분류와 분류율 평가: 적합된 로지스틱 모형으로 예측 성공확률을 산출하고 임계값(보통 0.5) 기준으로 0/1 분류를 수행한 뒤, 분할표를 통해 집단별·전체 정상 분류율로 분류 성능을 평가함 |
||
|
[62강] 로지스틱 회귀분석 (5)
|
0:
53:
09
|
|
|
로지스틱 회귀모형 적합성 검정과 이탈도 요약
• 일반화 우도비 검정과 근사분포: 우도비 λ=L(θ̂₀)/L(θ̂)을 기반으로 한 -2logλ 검정통계량이 모수 개수 차이를 자유도로 하는 카이제곱분포로 근사됨을 이용해 귀무가설 모형과 대립모형 비교 • 포화모형과 이탈도 정의: 각 관측별 모수를 두는 포화모형과 로지스틱 회귀 적합모형의 최대 로그우도 차이로 이탈도 D₀=-2{logL_F(β̂|y)-logL_S(π̂|y)}를 정의하고, 포화모형 우도를 0으로 정규화해 D₀=-2logL_F(β̂|y)로 표현하며 이 값을 모형 적합성 척도로 사용 • 자유도와 적합성 검정 절차: 자유도를 원자료에서는 n-(p+1), 요약자료에서는 K-(p+1)으로 계산하고, 이탈도를 χ² 분포 임계값 및 p-값과 비교하여 가정된 로지스틱 회귀모형의 적합 여부를 판단하며 R glm 함수의 residual deviance로 실제 검정을 수행함 |
||
|
[63강] 로지스틱 회귀분석 (6)
|
0:
43:
34
|
|
|
로지스틱 회귀모형에서 특정 회귀계수 검정과 예제 6.7 정리
• 로지스틱 회귀 계수 검정: 정보행렬의 역행렬로 회귀계수 분산·공분산을 추정하고 Z-통계량 및 Wald 카이제곱으로 특정 β_j=0 가설을 검정하는 절차 • 모형 적합도와 오즈비: 이탈도와 카이제곱 근사(원자료 df=n−p−1, 요약자료 df=k−p−1)로 모형 적합도를 평가하고, 오즈비 e^{β_1}로 독립변수 1단위 증가 시 종속변수 오즈 변화 배수를 해석 • 예제 6.7 탄소 가스–딱정벌레 생존 모형: logit(π(x))=β_0+β_1x에서 β_1 추정치로 사망 오즈 약 3.2배 증가와 유의성(매우 작은 p-값)을 확인하고, 원자료·요약자료 모두에서 이탈도 검정으로 모형 적합함을 검증 |
||
| 7장. 판별분석 | ||
|
[64강] 판별분석 (1)
|
0:
56:
34
|
|
|
판별분석 최적 분류규칙과 오분류 기대비용
• 판별분석·오분류 개념: 두 집단의 사전확률·오분류 비용·확률밀도함수에 기반해 오분류 확률과 오분류 기대비용(EMC)을 정의하고, 이를 최소화하는 분류규칙을 목표로 하는 통계적 분류 이론 • 오분류 기대비용 최소화 규칙: EMC = c(2|1)p1∫_{R2}f1(x)dx + c(1|2)p2∫_{R1}f2(x)dx를 최소화해 f1(x)/f2(x) ≥ [c(1|2)/c(2|1)]·[p2/p1]이면 G1, 그렇지 않으면 G2로 분류하는 확률밀도함수비 기반 최적 분류규칙 도출 • 특수 경우와 베이즈 기준: 사전확률·오분류 비용이 동일할수록 분류기준이 단순화되어 f1(x)/f2(x) ≥ 1 또는 p1f1(x) ≥ p2f2(x)에 기반한 “사후확률이 더 큰 집단으로 분류”하는 베이즈 분류와 동치가 되며, 예제를 통해 비용비·사전확률비에서 임계값을 계산해 실제 판별에 적용함 |
||
|
[65강] 판별분석 (2)
|
1:
03:
06
|
|
|
다변량 정규분포 선형판별분석과 분류규칙 요약
• 다변량 정규분포와 모수 구조: 평균벡터·공분산행렬 정의, 다변량 정규밀도함수와 두 집단 공분산행렬 동일 가정의 수학적 기반 정리 • 선형판별분석 분류규칙: 합동공분산행렬을 이용한 모수 추정, 판별계수 $\hat a^T=(\bar x_1-\bar x_2)^TS_{\text{pooled}}^{-1}$와 분류점 $\hat m$에 기반한 최적 선형 분류규칙 및 오분류비용·사전확률 반영 원리 • LDA 적용과 구현: 키·몸무게에 의한 성별 판별 예제로 선형판별함수와 분류점 계산 절차를 제시하고, R의 cov.wt·사용자 정의 my.lda·MASS 패키지 lda 함수로 판별계수·사후확률·예측 그룹을 계산·해석하는 방법 정리 |
||
|
[66강] 판별분석 (3)
|
0:
54:
13
|
|
|
Fisher 선형판별분석과 농기구 구매 예제 요약
• Fisher 선형판별규칙: 두 집단 등분산 가정하에서 평균 차이를 최대화하는 선형축 \(Y=\mathbf{a}^T X\)와 분류점 \(m\)을 설정해 정규성·비용·사전확률 정보 없이도 LDA와 동일 구조의 선형판별함수 구성 • Fisher 판별함수 추정과 분류규칙: 표본평균벡터와 합동공분산행렬 \(S_{\text{pooled}}\)로 계수벡터 \(\hat{\mathbf{a}}=(\bar{\mathbf{x}}_1-\bar{\mathbf{x}}_2)^T S_{\text{pooled}}^{-1}\)와 분류점 \(\hat{m}\)을 추정해 \(\hat{y}_0\ge\hat{m}\) 여부로 두 집단 분류 • 농기구 구매 예제와 R 구현: 소득·농지면적 단일변수 기준 분류(오분류 6건)와 대비해 Fisher 선형결합 사용 시 오분류 3건으로 감소함을 보이고, R 사용자 정의 함수(Fisher.lda)로 평균·합동공분산·계수·분류점·예측집단을 일괄 계산해 판별직선 시각화까지 수행 |
||
|
[67강] 판별분석 (4)
|
0:
49:
51
|
|
|
다변량 정규분포에서 공분산 행렬이 다른 경우의 이차 판별분석 요약
• 이차 판별함수(QDA) 구조: 공분산 행렬이 다른 다변량 정규집단의 밀도비 로그에서 유도되는 $x^T(\Sigma_1^{-1}-\Sigma_2^{-1})x$ 이차항·선형항·상수항 기반 판별식과 오분류 비용·사전확률을 포함한 분류규칙 정립 • 공분산 행렬 동일성 검정(Box의 M 검정): 합동공분산행렬과 집단별 공분산행렬을 이용한 M 통계량·자유도·p값으로 공분산 동일/상이 여부를 판단해 LDA·QDA 선택 기준을 제공 • QDA 실습 및 구현: 연어 예제 자료를 이용해 표본평균·표본공분산·역행렬로 QDA 식을 계산하고, R의 사용자 정의 my.qda 함수·MASS::qda·biotools::boxM 및 등고선 그래프를 활용해 분류경계·오분류율·사후확률을 시각적·수치적으로 평가 |
||
|
[68강] 판별분석 (5)
|
0:
41:
35
|
|
|
판별분석 오류율과 교차타당성, QDA 적용 정리
• 오류율과 오분류확률: 판별함수의 성능을 잘못 분류 비율(오류율)과 이론적 오분류확률로 정의하고, 분류표에서 $n_1,n_2,n_1^M,n_2^M$을 이용해 오류율과 정상 분류율을 계산하는 절차 정리 • 오류율 추정 방법: 재대입법(명백한 오류율, APER)의 과소추정·과적합 문제와 훈련/타당성 분할, 교차타당성법(LOOCV, k-fold)의 구조·장단점을 비교해 표본 기반 객관적 오류율 추정 방법 체계화 • QDA와 R 구현: 연어 데이터에 이차판별분석(QDA)을 적용해 훈련/타당성 분할과 qda의 CV=TRUE 옵션으로 교차타당성 오류율을 산출하고, R의 qda(), predict(), table()을 통한 분류표 생성·오류율 평가 절차 요약 |
||
| 8장. 군집분석 | ||
|
[69강] 군집분석 (1)
|
0:
40:
40
|
|
|
군집분석 기본 개념과 거리 측도 정리
• 군집분석·비지도학습: 집단 라벨 없이 유사성(거리)에 기반해 객체를 여러 군집으로 분할하는 비지도학습 기법, 판별분석·로지스틱 회귀 등 지도학습과 대비되는 분류 구조 이해 • 군집분석 절차·계층적 군집: 데이터 전처리(특성 선택·표준화) → 거리행렬 계산 → 응집형·분리형 계층적 군집 형성 → 군집 수 결정·해석을 통해 해석 가능한 군집 구조 도출 • 거리 측도 체계: 연속형 변수에서 유클리드·맨해튼·표준화·마할라노비스 거리로 스케일·상관구조를 반영하고, 이항 변수에서 (b+c)/p·자카드 거리 등 분할표 기반 지표로 유사성·이질성을 수치화하여 군집 형성에 활용 |
||
|
[70강] 군집분석 (2)
|
0:
54:
39
|
|
|
계층적 군집분석과 최단연결법 핵심 개념 정리
• 응집형 계층적 군집분석: 거리행렬 기반으로 개체들을 각각 단일 군집에서 시작해 가장 가까운 군집쌍을 반복 병합하여 최종 1개 군집과 덴드로그램을 생성하는 알고리즘 • 거리행렬·군집 간 거리 정의: 유클리드·Mahalanobis 등으로 대칭 거리행렬을 구성하고, 최단·최장·평균연결법 등 군집 간 거리 정의에 따라 서로 다른 군집 구조와 군집 수 결정 기준을 제공 • 최단연결법(single linkage): 두 군집 간 거리를 포함 개체 쌍 거리의 최소값으로 정의하여 $d_{\text{SL}}(A,B)=\min\{d(x,y):x\in A,y\in B\}$ 형태로 계산하고, 예제·R 함수(hclust, plot, as.dist)를 통해 수작업 절차와 구현 방법을 제시 |
||
|
[71강] 군집분석 (3)
|
0:
54:
59
|
|
|
계층적 군집분석: 최장연결법·평균연결법·R 적용 정리
• 계층적 군집분석 개념: 거리행렬 기반 단계적 병합 절차와 덴드로그램을 통해 객체 간 유사도 구조를 시각화하고 군집 수를 결정하는 방법 • 연결방법 엔티티(최장연결법·평균연결법): 최장연결법은 군집 간 최대거리(max), 평균연결법은 군집 내 모든 쌍 거리 평균(mean)으로 군집 간 거리를 정의·갱신하는 규칙 • R 구현 절차(dist·scale·hclust·cutree): scale로 표준화 후 dist로 거리행렬 계산, hclust(method="complete"/"average")로 계층적 군집 생성, 덴드로그램 해석과 cutree(k)로 최종 군집 번호 부여 및 군집 특성 비교 |
||
|
[72강] 군집분석 (4)
|
0:
51:
28
|
|
|
K-평균 군집분석 알고리즘과 R 적용 정리
• K-평균 군집분석 개념·목적함수: 비계층적 군집방법으로 사전 지정 군집 수 K 하에서 군집 중심(평균벡터)을 기준으로 군집 내 거리제곱합을 최소화하는 분할 구조 정리 • K-평균 알고리즘·제약·변형: 초기 중심 설정–가장 가까운 중심으로 할당–군집 중심 재계산–수렴까지 반복하는 휴리스틱 절차와 연속형 변수·이상치·K 사전 지정 제약 및 K-중앙값·K-메도이드·K 선택 기준(엘보우·실루엣) 정리 • R에서의 K-평균 적용과 iris 예제: kmeans(x, centers) 함수 구조와 size·centers·cluster·군집 내 SSE 출력 해석, 변수 표준화·난수 시드 고정·분할표를 통한 iris 종과 군집 결과 비교로 분류 성능 평가 절차 정리 |
||
| 9장. 비모수검정 | ||
|
[73강] 비모수검정 (1)
|
0:
54:
02
|
|
|
비모수 검정: Wilcoxon 부호순위검정(1표본·대응표본 중심)
• 비모수 검정 개념·역할: 정규분포 등 분포 가정 없이 연속·대칭만 가정하고 부호·순위를 이용해 중심위치 차이를 검정하는 방법으로, 작은 표본·이상값·순위형 자료에서 모수적 t-검정의 대안으로 사용 • Wilcoxon 부호순위검정(1표본·대응표본) 절차: 가설설정 후 차이값(d_i 또는 D_i) 계산→0 제거→절대값 순위 부여·동률 시 평균순위 처리→양수 차이의 순위합 W⁺ 계산→소표본에서는 Wilcoxon 분포표, 대표본에서는 정규근사(Z통계량)로 기각역·p-value 산출 • Wilcoxon 검정의 R 구현: psignrank·qsignrank로 Wilcoxon 분포의 누적확률·분위수 계산, wilcox.test로 1표본·대응표본 부호순위검정 수행, 필요 시 사용자 정의 approx.wilcox.test로 W⁺, E(W), Var(W), Z, p-value를 정규근사 기반으로 계산·보고 |
||
|
[74강] 비모수검정 (2)
|
0:
47:
31
|
|
|
비모수 독립표본 검정: Wilcoxon 순위합과 Mann-Whitney U
• 비모수 독립표본 위치 모수 검정: 정규성 없이 동일 분포형·이동모수 Δ 가정하 두 독립집단 분포의 중심(평균·중위수) 차이 검정 • Wilcoxon 순위합·Mann-Whitney U-검정: 합동 순위 기반 W·U 통계량 정의, 소표본에서는 U 정확분포, 대표본에서는 정규근사(Z)로 기각역·p-값 산출 • R 구현 및 실습 예제: wilcox.test, pwilcox, qwilcox와 사용자 정의 함수로 학부 공부시간·식이요법 체중 증가량 사례에 비모수 독립표본 검정 적용 및 결과 해석 |
||
|
[75강] 비모수검정 (3)
|
0:
56:
27
|
|
|
분산분석의 대안 크루스칼-왈리스와 스피어만 순위상관계수
• 크루스칼-왈리스 검정: 정규성 가정이 어려운 k개 모집단의 분포(위치 모수) 비교를 위해 순위합·평균순위 기반 H(및 동점 보정 H′) 통계량을 사용하고, 자유도 k-1 카이제곱분포 근사로 가설검정을 수행하는 비모수 일원분산분석 기법 • 동점 보정: 관측값에 동률이 있는 경우 동점 그룹 내 평균순위를 부여하고, 동점 그룹 크기 q_j와 개수 m을 이용해 분산 감소를 보정한 수정 통계량 H′를 사용하여 보다 정확한 카이제곱 근사를 확보하는 절차 • 스피어만 순위상관계수: 순서척도·비정규 자료에서 두 변수의 단조 관계 강도를 순위 공분산/분산(또는 동점 없음 시 간편식)으로 정의하고, 큰 표본에서 정규·T분포 근사 또는 S통계량 기반으로 모 순위상관계수에 대한 유의성 검정을 수행하는 비모수 상관 분석 방법 |
||
|
[76강] 부록
|
0:
00:
00
|
|
|
파일을 다운받아 이용하시면 됩니다.
|
||
|
[77강] 예제데이터
|
0:
00:
00
|
|
|
파일을 다운받아 이용하시면 됩니다.
|
||
김용태 교수님
통계방법론