t-distribution을 사용한 데이터 확률 분포

Untitled

Perplexity는 shannon entropy의 지수승으로 계산됨

Untitled

Untitled

def calculate_entropy_t(distances):
    # t-분포 확률 계산
    q_ij = (1 + distances ** 2) ** -1
    q_ij /= np.sum(q_ij)
    
    # Shannon 엔트로피 계산
    entropy = -np.sum(q_ij * np.log2(q_ij))
    return entropy

#t-확률 분포를 이용해서 shannon 엔트로피를 계산할 수 있다.

현재 엔트로피 계산은 한 포인트를 중심으로 다른 포인트까지의 distance들로 계산하지 않았고

점과 점 모든 사이 distance들로 계산하였음.

Incremental하게 증가하는 데이터에 대해 Shannon Entropy와 Perplexity 분석

Untitled

Untitled

Untitled