Notation

X: Original embedding

T: Dimensionality reduction embedding

E: 정렬된 고유값(eigenvalue) 목록 H: 누적 기여도 (H = Σ(E[j]) / Σ(E), j는 0부터 J까지의 인덱스) 0≤ H ≤ 1 P: 원본 임베딩의 공분산 행렬에서 H ≥ Threshold 를 만족하는 J의 값 p: PCA에 실제 사용된 차원 수

Objective

data가 incremental하게 들어오는 상황을 생각했을 때, 전체 data distribution의 P가 계속 변화할 수 있음. 이러한 상황에서 다음과 같은 문제점들을 고려해야함.

데이터가 Incremental하게 들어오는 상황을 가정하고, 초기 random 추출한 데이터의 개수에 따라 데이터가 어떻게 plotting되는지 시각자료

기여도가 높은 분산부터 더해가며 누적기여도가 0.9이상일때 주성분의 개수 P(threshold=0.9)

실제 차원수 p와 P의 값을 비교하여 수행

PCA 기반 자동 Fitting 기능 추가 가이드라인