T-SNE (t-Distributed Stochastic Neighbor Embedding): 고차원의 데이터를 저차원으로 시각화

T-SNE의 비선형변환 ≠ PCA(주성분분석): 선형변환

비선형 변환: 변환은 데이터의 복잡한 패턴이나 클러스터링을 표현합니다.

가까운 데이터는 더 가까이, 먼 데이터는 더 멀리.(사실 신경 안씀) 클러스터링, 군집화.

$$ D_{KL}

(P∥Q)=∑ _{x∈X}

P(x)log( {P(x)\over Q(x)}

) $$

T-SNE의 무작위성

동일한 데이터셋을 반복적으로 t-SNE에 적용할때, 절대 좌표가 달라질 수 있습니다.

random state

Non - Convex 는 여러개의 최소값을 가지는 최적화 문제. (다항함수 극값이 여러개) 극값이 여러개이므로, 시작 위치에 따라 최적값이 다르다.

해결 방법

  1. random_state 설정: 랜덤 초기화를 제어하기 위해 random_state 파라미터를 설정하면 동일한 데이터에 대해 항상 동일한 결과를 얻을 수 있습니다.
  2. 다양한 초기화 방법 사용: init 파라미터를 사용하여 특정 초기화 방법을 선택할 수 있습니다. 예를 들어, 'pca'를 사용하여 주성분 분석(PCA) 기반의 초기화를 할 수 있습니다.

PCA : 차원축소 기법. 최대한 특징을 살리며 차원을 낮추자.

PCA 와 t-SNE 비교