Machine, Deep Learning/Machine, Deep Learning 용어 설명 썸네일형 리스트형 서포트 벡터 머신(Support Vector Machine)이란? 서포트 벡터 머신(Support Vector Machine)은 기계 학습의 분야 중 하나입니다. 주로 분류와 회귀 분석을 위해 사용합니다. SVM 알고리즘은 주어진 데이터 집합을 바탕으로 하여 새로운 데이터가 어느 카테고리에 속할지 판단하는 모델을 만듭니다. 만들어진 분류 모델은 공간을 경께로 표현합니다. 그 중 SVM 알고리즘은 그 중 가장 큰 폭을 가진 경계를 찾는 알고리즘입니다. H3(초록 선)은 두 클래스의 점들을 제대로 분류하지 않고 있습니다. H1과 H2는 두 클래스의 점들을 분류하지만, H2(빨간 선)가 H1(파란 선)보다 더 큰 마진을 갖고 분류하므로 기계 학습에 있어서 더욱 유리합니다. 이상 서포트 벡터 머신(Support Vector Machine)였습니다. ^_^ 더보기 나이브 베이즈(Naive Bayes)란? 나이브 베이즈 분류(Naive Bayes Classification)는 특성들 사이의 독립을 가정하는 베이즈 정리를 적용한 확률 분류기의 일종입니다. 나이브 베이즈 분류는 텍스트 분류에 사용됨으로서 문서를 여러 범주 (예: 스팸, 스포츠, 정치) 중 하나로 판단하는 문제에 대한 대중적인 방법으로 남아있습니다. 나이브 베이즈의 장점으론 일부의 확률 모델에서 지도 학습 환경에서 매우 효율적으로 훈련 될 수 있습니다. 또한, 분류에 필요한 파라미터를 추정하기 위한 트레이닝 데이터의 양이 매우 적다는 점이 있습니다. 마지막으로 간단한 디자인과 단순한 가정에도 불구하고, 나이브 베이즈 분류는 많은 복잡한 실제 상황에서 잘 작동합니다. 이상 나이브 베이즈(Naive Bayes)였습니다. ^_^ 더보기 로지스틱 회귀(Logistic Regression)란? 로지스틱 회귀(Logistic Regression) 로지스틱 회귀분석은 반응변수가 1 또는 0인 이진형 변수에서 쓰이는 회귀분석 방법입니다.(예 : 내일 비가 올 것인가? 안 올 것인가?) 우선 로지스틱 회귀분석의 좋은 점은 해석이 매우 편리하고 Bias가 없는 타당한 계수 추정치를 계산할 수 있습니다. 로지스틱 함수의 모양은 아래와 같이 표현 됩니다. x의 값이 증가하던 감소하던 무관하게 f(x)는 0과 1 사이의 값을 갖게 됩니다. 즉 확률로서 사용할 수 있어졌습니다. 결론적으론 범주형(카테고리)으로 표현되는 결과를 얻고 싶을 때 쓴다는 것을 알면 됩니다. 이상 로지스틱 회귀(Logistic Regression)이었습니다. ^_^ 더보기 Basic Data types를 알아봅시다. Basic Data type(기본적인 데이터 종류) 명목 자료(Nominal Data, Categorical Data) Nominal Data는 Nominal(이름과 관련한)이란 수식어에서 알 수 있듯 여러 Categories(예 : 청팀, 백팀, 홍팀)들 중 하나의 이름에 데이터를 분류할 때 사용합니다. Nominal Data는 순서를 매길 수 없고 그냥 셀 수 있습니다. 따라서 평균을 계산하는 것이 의미가 없지만, (백팀과 홍팀의 평균이 연분홍팀이 아니니까요) Percent로는 표현이 가능합니다. (청팀:33%, 백팀:33%, 홍팀:34%) 특별히, Nominal Data가 두 개의 범주 중 하나에 속하는 경우 (남자 vs 여자) Dichotomous Data(이분 자료)라고 부르기도 합니다. Nom.. 더보기 데이터 랭글링(Data Wrangling)이란? 데이터 랭글링(Data Wrangling) 혹은 데이터 먼징(Data Munging)은 원자료(Raw Data)를 또 다른 형태로 수작업으로 전환하거나 매핑하는 과정입니다. 이를 통해 반자동화 도구의 도움으로 데이터를 좀 더 편리하게 소비합니다. 데이터 원천(Data Source)로부터 최초 형태 자료를 추출하여 알고리즘을 사용하여 데이터를 파싱(parsing)합니다. 그러고 나서 사용을 위해서 작업을 한 뒤 완료한 콘텐츠는 데이터 싱크(Data sink)에 둬서 사용합니다. 이런 애들을 이런식으로 파싱한다고 보시면 됩니다. 이상 데이터 랭글링(Data Wrangling) 였습니다. ^_^ 더보기 이전 1 2 다음