[INTURNSHIP]/HuminTec
GloVe
givemebro
2021. 1. 25. 13:14
반응형
Glove는 co-occurrence가 있다면 그 정보를 알 수 있습니다.
Glove는 global matrix factorization (전역 행렬)분해와 local(국소, 국지)문맥 window를 이용합니다.
Global matrix factorization(전역 행렬 분해)는 NLP(자연어 처리)분야에서 거대한 단어-빈도 행렬에서 rank(계수)를 reduction하기 위해 선형대수의 행렬 분해법을 이용하는 방법입니다.
행렬들은 일반적으로 단어-문서 빈도를 표현하고, 행은 단어 / 열은 문서(혹은 단락)를 나타냅니다.
단어-문서 빈도 행렬에 적용되는 global matrix factorization은 흔히 latent semantic analysis(LSA)라고 합니다.
LSA는 고차원 행렬을 singular value decomposition(SVD / 특이값 분해)를 통해 차원을 줄여갑니다.
그리고 matrix가 단어-단어 빈도를 나타낼 때, co-occurrence를 측정 할 수 있습니다.
정리하자면, Word2Vec는 window 크기 만큼의 주변 단어 정보만을 이용할 수 있는데 GloVe는 문장 전체의 정보를 이용 할 수 있다는 것입니다.
하지만 GloVe는 단어 내부정보를 사용할 수 없다는 단점이 있습니다.
반응형