WORD2VEC
description : WORD2VEC
author : 오션
email : shlim@repia.com
lastupdate : 2020-11-09
WORD2VEC
개념
“자연어 처리(NLP)” 방식 중 하나로 수식을 통해 단어를 다차원 공간에 매칭하고, 벡터(숫자)로 표현해주는 머신러닝 알고리즘
같은 문맥에서 많이 등장하는 단어들은 기본적으로 비숫한 의미를 지닌다고 가정
또한 주위에 등장하는 단어들을 가지고 같이 나타날 수 있는 단어를 컴퓨터가 스스로 유추하고 학습하게 하는 알고리즘(비지도학습)
특징
인공지능은 이 단어들을 벡터(숫자)로 변환하여 좌표값을 통해 단어간 거리 계산 가능
거리가 가까워질수록 단어 간 유사도가 높아지면, 멀어질수록 유사도가 낮아짐
단어가 벡터(숫자)로 표현되었기 때문에 각 단어들의 벡터값을 통해 덧셈, 뺄셈, 평균 등 연산이 가능
이를 통해 단어 추론, 연관어 계산, 복잡한 개념 등의 표현이 가능함
의미
텍스트 기반의 모델 만들기는 텍스트를 숫자로 변경하여 알고리즘에 넣고 계산을 한 후 결과값을 낼 수 있다.
그 일환으로 텍스트를 숫자로 바꾸는 것으로 단어를 벡터로 바꾸는 것이다.
이때 벡터에 단어의 의미를 추가하여 단어와 단어간의 관계를알아내기 위함이다.
단어를 벡터로 바꾸는 모델을 단어 임베딩 모델(word embedding model)이라고 하며, word2vec는 단어 임베딩 모델들 중 대표적인 모델이다.
skip-gram모델
WORD2VEC을 학습시키는 방법
주어진 단어 하나를 가지고 주위에 나타날 수 있는 단어들의 등장 여부를 유추하는 방식
데이터 양과 반복학습횟수가 증가할수록 벡터값이 정확해짐
같은 문맥 내 비슷한 빈도로 등장하는 단어들은 벡터값이 비슷하여 연관성도 높음
center단어를 활용, 가까이 위치한 단어들일수록 관련성이 높다고 판단하여 더 높은 확률로 연관 키워드로 채택하는 방법을 사용
Ref