openTSNE: A Modular Python Library for t-SNE Dimensionality Reduction and Embedding

t-SNE는 다양한 데이터들을 저차원으로 시각화하는 도구로써, 사용성이 뛰어났다.

하지만 global organization이 부족하거나, 특히 기존 임베딩에 새로운 데이터를 넣는 방법이 없다는 문제가 있었다.

FIt-SNE, Multicore-TNSE등이 개발되었지만 여전히 부족.

Untitled

마치 하나의 공간좌표 위에서, particle간 인력과 척력의 관계처럼 표현.

t-SNE의 gradient는 O(N^2)시간복잡도가 필요하므로, 대규모의 데이터에서 사용에 제약이 있다.

tree-based nearest neighbor search O(NlogN) → merely approximate nearest neighbors O(N) 최적화

N-body simulation, space-partitioning Barnes-Hut tree O(NlogN)→ non uniform convolutions and interpolations of Fit-SNE O(N) 최적화

Embedding new samples

t-SNE는 non-parametic하고 고차원에서 임베딩공간으로 명시적으로 mapping하는 정의가 없다.
새로운 데이터를 추가하려면, optimization scheme를 통해 새 좌표를 찾아야하고, 기존 좌표는 고정되어야한다.

V=고차원 D, W=저차원 d, M=새로운 data

Untitled