Perplexity update by incremental per cluster sample

t-distribution을 사용한 데이터 확률 분포

Untitled

Perplexity는 shannon entropy의 지수승으로 계산됨

Untitled

def calculate_entropy_t(distances):
    # t-분포 확률 계산
    q_ij = (1 + distances ** 2) ** -1
    q_ij /= np.sum(q_ij)
    
    # Shannon 엔트로피 계산
    entropy = -np.sum(q_ij * np.log2(q_ij))
    return entropy

#t-확률 분포를 이용해서 shannon 엔트로피를 계산할 수 있다.

현재 엔트로피 계산은 한 포인트를 중심으로 다른 포인트까지의 distance들로 계산하지 않았고

점과 점 모든 사이 distance들로 계산하였음.

Incremental하게 증가하는 데이터에 대해 Shannon Entropy와 Perplexity 분석

데이터가 계속해서 증가하는 상황에서 entropy는 당연히 증가할것

Untitled

초기 데이터 1/10을 기준으로 데이터가 계속 들어오는 상황에서 엔트로피는 계속해서 증가
증가폭은 계속해서 달라졌음

Untitled

초기 데이터가 5/10일때 데이터가 계속 들어오더라도 엔트로피는 마찬가지로 계속 증가하였음

Untitled