Notation
X: Original embedding
T: Dimensionality reduction embedding
E: 정렬된 고유값(eigenvalue) 목록
H: 누적 기여도 (H = Σ(E[j]) / Σ(E), j는 0부터 J까지의 인덱스) 0≤ H ≤ 1
P: 원본 임베딩의 공분산 행렬에서 H ≥ Threshold 를 만족하는 J의 값
p: PCA에 실제 사용된 차원 수
Objective
data가 incremental하게 들어오는 상황을 생각했을 때, 전체 data distribution의 P가 계속 변화할 수 있음. 이러한 상황에서 다음과 같은 문제점들을 고려해야함.
- 데이터의 분포에 따라 이 Eigen value의 분포 또한 변경될수 있습니다. 예를 들면:
- 데이터의 분포가 각 차원별로 같은 variance를 갖는 multivariage normal distribution 인 경우
- 각 차원의 고유값이 거의 동일
- 결과: P값이 상대적으로 큼
- 데이터의 분포가 i 번째 차원에 대해 2^i 에 해당하는 variance를 갖는 multivariate normal distribution인 경우
- 차원에 따라 고유값이 지수적으로 감소
- 결과: P값이 상대적으로 작음
- P의 변화에 대응하기 위해 모든 X를 저장하고 있다가 새로운 데이터와 함께 PCA를 사용하는 것도 가능하지만 이는 computation cost를 올릴 수 있음. 따라서 가장 적은 수의 X를 저장하고 있으면서 (혹은 추가적인 데이터 저장 없이 proxy data를 저장하고 있으면서) PCA 변화를 반영할 수 있도록 해야함.
- Evaluation하려는 data의 P의 수에 따라 TSNE 결과가 어떻게 변화하는지 확인해야함. 이 실험은 P의 수가 p보다 큰 경우와 작은경우 TSNE 결과의 변화를 중점적으로 확인해야함.
데이터가 Incremental하게 들어오는 상황을 가정하고, 초기 random 추출한 데이터의 개수에 따라 데이터가 어떻게 plotting되는지 시각자료
기여도가 높은 분산부터 더해가며 누적기여도가 0.9이상일때 주성분의 개수 P(threshold=0.9)
실제 차원수 p와 P의 값을 비교하여 수행
PCA 기반 자동 Fitting 기능 추가 가이드라인