Basic Data type(기본적인 데이터 종류)
명목 자료(Nominal Data, Categorical Data)
Nominal Data는 Nominal(이름과 관련한)이란 수식어에서 알 수 있듯 여러 Categories(예 : 청팀, 백팀, 홍팀)들 중 하나의 이름에 데이터를 분류할 때 사용합니다. Nominal Data는 순서를 매길 수 없고 그냥 셀 수 있습니다. 따라서 평균을 계산하는 것이 의미가 없지만, (백팀과 홍팀의 평균이 연분홍팀이 아니니까요) Percent로는 표현이 가능합니다. (청팀:33%, 백팀:33%, 홍팀:34%)
특별히, Nominal Data가 두 개의 범주 중 하나에 속하는 경우 (남자 vs 여자) Dichotomous Data(이분 자료)라고 부르기도 합니다.
Nominal Data와 Categorical Data는 같이 불립니다.
순서 자료(Ordinal Data)
데이터가 속하는 category들에 순서가 있으면 Ordinal Data라고 합니다. (순서가 있는 명목 자료) 예를 들면 청팀이 이길 가능성에 대해 survey를 하는 경우 그 답변을 "5. 매우 높다. 4. 높다. 3. 중립 2. 낮다. 1. 매우 낮다."로 디자인 할 수 있습니다.
Nominal Data와 마찬가지로 counting을 하고 Percent로 표현해도 좋습니다. (매우 높다 : 33%, 높다 : 19% ...)
단, 평균 (위 예에서 청팀 이길 확률에 대한 답변 평균이 3.8)에 대해서는 신중해야 합니다. Ordinal Data에 대해 평균을 계산해서는 안 된다는 사람들이 있습니다. 그 이유는 이건 매우 높다에 5, 높다에 4를 할당한 것처럼 그 각각의 (임의의) 숫자에 엄정한 수학적 / 과학적 의미가 있는 것이 아니기 때문입니다. (하지만, 범주에 할당된 수와 순서별로 정렬된 범주에 할당된 수들의 차이값이 말이 되고 납득이 되는 경우 평균값을 산출 못하는건 아닙니다. 신중만 하면 될 듯합니다.)
구간 자료(Interval Data)
시간을 Ratio Data라고 생각하는 사람이 종종 있습니다. 기본적으로 하루 중 특정 시점을 나타내는 시간은 Interval Data입니다.
데이터의 연속된 측정 구간 사이의 간격이 동일한 경우 Interval Data라고 부릅니다. (11:00와 11:05의 차이와 15:55와 16:00의 차이는 동일하기 때문에 Interval Data라고 부릅니다. 둘 다 300초로 똑같기 때문이죠.)
Interval Data는 Numeric Value를 가지므로 다양한 연산을 수행해도 됩니다.
단, 절대적 원점(Zero Point)가 없습니다. 이 뜻은 00:00이라는 자료의 값이 측정한 시간의 값이 없다는 것이 아니라 자정에 시간을 측정했다는 뜻이랑 같습니다.
비율 자료(Ratio Data)
현재 시각이 13:30인데 시계를 보고 13:00부터 계산해서 "30분" 기다렸네? 할 때 "30분"이 Ratio Data입니다. 즉, Ratio Data의 경우 Interval Data와 다르게 절대적 원점(Meaningful Zero Point)이 존재하며 Interval Data에서 00:00이라는 값이 Ratio Data에서 기준을 가지게 됩니다. ("0"초로서 기준이 됩니다.)
나이, 돈, 몸무게 이런 것이 주로 Ratio Data로 다루어 집니다.
Discrete vs continuous
Interval이나 Ratio 자료는 이산형(Discrete)이거나 연속형(Continuous) 둘 중의 하나의 속성을 가지게 됩니다.
측정값이 정수로 딱 떨어지는 경우 이산형이고 연속된 무수히 많은 값 중 하나를 가질 수 있는 경우 연속형이 됩니다. 연속형 데이터는 실제 표현될 때 적당히 반올림 되어 표현됩니다. (몸무게 : 72.5 kg)
현실에서 측정 / 이해하고자 하는 변수는 종종 하나 이상의 Data Type에 속하게 되며, 변수의 Data Type은 어떤 측정방법을 택하느냐에 따라 결정됩니다. 나이를 예를 들면 나이(본질적으로 Ratio Data)는 Ratio Data로 수집될 수도 있지만 Ordinal Data로 수집될 수도 있습니다. (나이가 속한 그룹을 선택하는 방식으로 데이터를 수집한 경우, 21~25, 26~30, 31~35)
반면, Nominal이나 Ordinal Data를 둘 다 (Category 유형 데이터) Interval이나 Ratio Data로 수집할 수는 없습니다. (청팀, 백팀, 홍팀으로 분류되는 데이터를 Interval / Ratio Data로 수집할 수 없습니다.) 보다 보편적으로 이야기한다면, 데이터 측정은 주어진 데이터의 본질적 속성보다 덜 정교하고 / 낮은 수준으로 내려갈 순 있지만,(Interval / Ratio를 Nominal / Ordinal로 측정) 보다 더 정교하고 / 높은 수준으로 올라갈 순 없습니다. (Nominal / Ordinal을 Interval / Ratio로 측정)
"내려갈 수는 있어도 올라갈 수는 없다"는 법칙은 데이터 수집뿐만 아니라 분석이나 시각화에도 적용됩니다. (예를 들어 Ratio 유형으로 수집할 수 있는 데이터를 Ordinal 유형으로 수집하게 되면 나중에 평균을 계산할 때 정교한 분석을 수행하기 어렵고 표현할 수 있는 방식 역시 제한되게 됩니다)
이상 Basic Data types였습니다. ^_^
'Machine, Deep Learning > Machine, Deep Learning 용어 설명' 카테고리의 다른 글
Loss Function vs Cost Function vs Objective Function (0) | 2019.06.15 |
---|---|
서포트 벡터 머신(Support Vector Machine)이란? (0) | 2019.06.15 |
나이브 베이즈(Naive Bayes)란? (0) | 2019.06.15 |
로지스틱 회귀(Logistic Regression)란? (0) | 2019.06.15 |
데이터 랭글링(Data Wrangling)이란? (0) | 2019.06.15 |