반응형
SMALL
텍스트를 유의미한 숫자(벡터)로 바꾸는 가장 손쉬운 방법론이 '원-핫 인코딩 (One-hot-encoding)' 입니다. 이는 N개의 단어를 각각 N차원의 벡터로 표현하는 방식입니다. 즉, 단어가 포함되는 자리엔 1을 넣고 나머지에는 0을 넣습니다.
예를 들어 [인간, 펭귄, 문어, 사람]이라면 인간을 표현하는 벡터는 [1, 0, 0, 0]이 되는 식입니다.
나름대로 좋은 성능을 가지고 있고, 지금까지도 많이 사용하고 있지만, 단점이 있습니다. 바로 컴퓨터가 단어의 의미 또는 개념 차이를 전혀 담지 못한다는 것입니다. 예를 들어 '과학'과 '공학'은 밀접한 관계가 있지만, 컴퓨터는 이를 알지 못하고 '과학'과 '수박'의 관계처럼 아주 의미없게 생각합니다.
또한, 차원 수가 일정 수준을 넘어서면 성능이 오히려 떨어지게 됩니다. 그만큼 고차원의 벡터를 컴퓨터가 감당해야하기 때문입니다.
이상 원-핫 인코딩 (One-Hot Encoding)이었습니다. ^_^
반응형
LIST
'Machine, Deep Learning > Machine, Deep Learning 용어 설명' 카테고리의 다른 글
활성화 함수(Activation function)이란? (0) | 2019.06.15 |
---|---|
컨볼루션 신경망 (CNN, Convolutional Neural Network) (0) | 2019.06.15 |
랜덤 포레스트(Random Forest)란? (0) | 2019.06.15 |
결정 트리(Decision Tree)란? (0) | 2019.06.15 |
Loss Function vs Cost Function vs Objective Function (0) | 2019.06.15 |