PCA axis update for Incremental TSNE

Notation

X: Original embedding

T: Dimensionality reduction embedding

E: 정렬된 고유값(eigenvalue) 목록 H: 누적 기여도 (H = Σ(E[j]) / Σ(E), j는 0부터 J까지의 인덱스) 0≤ H ≤ 1 P: 원본 임베딩의 공분산 행렬에서 H ≥ Threshold 를 만족하는 J의 값 p: PCA에 실제 사용된 차원 수

data가 incremental하게 들어오는 상황을 생각했을 때, 전체 data distribution의 P가 계속 변화할 수 있음. 이러한 상황에서 다음과 같은 문제점들을 고려해야함.

데이터의 분포에 따라 이 Eigen value의 분포 또한 변경될수 있습니다. 예를 들면:
- 데이터의 분포가 각 차원별로 같은 variance를 갖는 multivariage normal distribution 인 경우
  - 각 차원의 고유값이 거의 동일
  - 결과: P값이 상대적으로 큼
- 데이터의 분포가 i 번째 차원에 대해 2^i 에 해당하는 variance를 갖는 multivariate normal distribution인 경우
  - 차원에 따라 고유값이 지수적으로 감소
  - 결과: P값이 상대적으로 작음
P의 변화에 대응하기 위해 모든 X를 저장하고 있다가 새로운 데이터와 함께 PCA를 사용하는 것도 가능하지만 이는 computation cost를 올릴 수 있음. 따라서 가장 적은 수의 X를 저장하고 있으면서 (혹은 추가적인 데이터 저장 없이 proxy data를 저장하고 있으면서) PCA 변화를 반영할 수 있도록 해야함.
Evaluation하려는 data의 P의 수에 따라 TSNE 결과가 어떻게 변화하는지 확인해야함. 이 실험은 P의 수가 p보다 큰 경우와 작은경우 TSNE 결과의 변화를 중점적으로 확인해야함.