일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- abstraction
- overfitting
- elif
- neural net
- sigmoid
- sentence embedding
- Self-loop attention
- Classificaion
- Attention
- NLP
- pytorch
- python practice
- Transformer
- GNN
- XOR
- machine learning
- Python
- word2vec
- deep learning
- Set Transformer
- Today
- Total
Research Notes
[SA] Introduction of Survival Analysis 본문
1. Survival Analysis 란?
Survival Analysis(생존 분석)은 어떤 사건의 발생 확률을 시간이란 변수와 함께 파악하는 통계분석 및 예측 기법이다.
Survival Analysis는 Healthcare 분야에서 많이 사용된다. 시간에 따른 환자의 수명을 예측한다거나 나이가 듦에 따라 질병에 걸릴 확률을 계산하는 것이 대표적인 예시이다. Survival Analysis에서 중요한 것은 시간이 흐르며 사건이 발생할 확률이 변한다는 것이다. 기존에는 어떤 일이 발생할 확률을 "Yes or No"라고 했다면, Survival Analysis는 "환자가 t 시점에서 사망할 확률은 a %이다"라고 대답한다.
2. Survival Analysis 용어 정리
Survival Analysis의 주요 용어는 아래와 같다.
- Event(사건): 생존의 반대 개념. 우리의 target인 Survival Analysis로 분석하고자 하는 대상. (ex. 죽음, 사고, 장애, 고장 등)
- Time(시간): 분석하려는 대상을 관찰하기 시작한 시점으로부터 경과한 시간. (ex. 기계의 고장까지 걸린 시간, 고객의 가입 시점으로부터 경과한 시간 등)
- Censored(중도 절단): Censored는 Right censored, Left censored로 나뉨
1. Right censored: 대상에 아직 사건이 발생하지 않은 것. 미래의 t 시간에 사건이 발생할 것으로 기대되는 경우
2. Left censored: 대상을 관찰하기 전에 사건이 발생했거나, 기대했던 최소 기간보다 생존 기간이 짧았던 경우
- Survival function(생존함수): 사건이 특정 시간보다 더 오래 지속될 확률을 계산하는 함수
- Hazard function(위험함수): 특정 시간 t에 사건이 발생할 확률. 즉 대상이 t까지 잔존한 상태에서 t 시점에 이탈할 확률
- Cumulative harzard function(누적위험함수): 위험함수의 누적확률분포. t 시점까지 위험확률을 누적하여 더한 것으로, 시간이 지남에 따라 확률이 커짐.
3. Survival Analysis 관련 연구 분야
Survival Analysis 관련 연구는 네 가지로 나뉜다.
- Non-parametric: Event와 관련된 feature와 생존 시간 분포 정보를 사용하지 않는 방법. 분포 정보를 알 수 없을 때 사용가능하지만, 예측이 부정확할 가능성이 존재함
- Feature 사용 X, 생존 시간 분포 사용 X
- Parametric: 생존 시간 분포가 존재한다고 가정하여, 회귀 모델로 생존 시간을 예측하는 기법. 지수분포, 베이불 분포, 로지스틱 분포, 정규분포 등을 사용함
- Feature 사용 X, 생존시간 분포 사용 O
- Semi-parametric: Event와 관련된 feature 정보를 사용하지만, 생존 시간 분포 정보를 사용하지 않는 방법. Cox Proportional Hazard 모델이 해당됨
- Feature 사용 O, 생존시간 분포 사용 X
- Machine Learning: 다양한 ML 알고리즘을 생존 분석에 적용한 것
- Feature 사용 O, 생존시간 분포 사용 O
아래는 Survival Analysis 연구별 방법론들을 세분화하여 도식화한 것이다.