전체 글 썸네일형 리스트형 Kaggle - Heart Disease Dataset (2) Kaggle - Heart Disease Dataset (1)에서 우리가 데이터 셋을 분석 해봤었습니다. 다시 한번 확인을 해볼까요? 1. age 나이 (int) 2. sex 성별 (1, 0 / int) 3. chest pain type (4 values) 가슴 통증 타입 (0 ~ 3 / int) 4. resting blood pressure 혈압 5. serum cholestoral in mg/dl 혈청 콜레스테롤 6. fasting blood sugar > 120 mg/dl 공복 혈당 7. resting electrocardiographic results 심전도 8. maximum heart rate achieved 최대 심장박동 수 9. exercise induced angina 운동 유도 협심증 .. 더보기 Kaggle - Heart Disease Dataset (1) 이번엔 Heart Disease의 데이터를 시각화, 분석을 해보도록 하겠습니다. 된다면 Machine Learning 모델링도 해보도록 하겠습니다. 데이터는 Kaggle Datasets에서의 Heart Disease에서 참고했습니다. 모델링까지 하게된다면 Kaggle의 Kernels를 참고하겠습니다. 데이터의 License는 Reddit API Terms에 있습니다. 이 데이터 셋은 원래라면 76개의 속성을 가지고 있어야하지만, 공공연 적인 사용을 위한 14개로 축소하여 배포되었습니다. "목표" 필드는 환자의 심장 질환의 존재를 나타내고 0에서 4까지의 정수로 표현되어 있습니다. 0이 환자 중에 심장 질환을 가지고 있지 않음을 나타냅니다. 우선 필요한 라이브러리를 불러오도록 하겠습니다. import pa.. 더보기 IBM 견학 후기 좋은 계기로 IBM 견학을 다녀왔습니다. 제가 생각했던 기업과는 많이 달라서 당황스러웠지만, 또 색다른 매력의 기업임을 알 수 있었습니다. 그럼 후기 시작해보겠습니다. 1. IBM 소개 저는 IBM이 제조업 기반의 기업인 줄 알았습니다. 옛날에 컴퓨터, 프린터를 만들었다는 얘기를 많이 들어서 그런거 같습니다. 하지만 이번 IBM 소개에서 들은 내용의 중점엔 하드웨어보단 소프트웨어에 치중되어 있단걸 볼 수 있었습니다. AI, BlockChain, Cloud 서비스를 중점으로 B2B 영업을 하는 회사입니다. 즉, 이러한 4차산업기술에서 중점이 될 기술을 이용하여 비즈니스를 해서 사람이 살아가는 방식, 생활 패턴을 변화시키는 기업입니다. IBM은 성장을 하고 있는 기업이라 했습니다. 물론 기업의 성장도 있겠지.. 더보기 Kaggle - MINST 예측 모델 생성 by Keras (2) 본 글은 Kaggle MINST Competition에서의 Introduction to CNN Keras - 0.997 (top 6%)의 커널을 참고하여 작성하였습니다. 1. 소개 (Introduction) 2. 데이터 준비 (Data Preparation) 2.1 데이터 로드 (Data Load) 2.2 널 데이터 확인 (Check for null and missing values) 2.3 데이터베이스 정규화 (Normalization) 2.4 재구조화 (Reshape) 2.5 라벨 인코딩 (Label Encoding) 2.6 훈련과 확인 셋 나누기 (Split training and valdiation set) 3. CNN 3.1 모델 정의 (Define the model) 3.2 최적화 (Set t.. 더보기 Kaggle - MINST 예측 모델 생성 by Keras (1) 본 글은 Kaggle MINST Competition에서의 Introduction to CNN Keras - 0.997 (top 6%)의 커널을 참고하여 작성하였습니다. 1. 소개 (Introduction) 2. 데이터 준비 (Data Preparation) 2.1 데이터 로드 (Data Load) 2.2 널 데이터 확인 (Check for null and missing values) 2.3 데이터베이스 정규화 (Normalization) 2.4 재구조화 (Reshape) 2.5 라벨 인코딩 (Label Encoding) 2.6 훈련과 확인 셋 나누기 (Split training and valdiation set) 3. CNN 3.1 모델 정의 (Define the model) 3.2 최적화 (Set t.. 더보기 Kaggle - 타이타닉 생존여부 예측 모델 생성 (2) Kaggle - 타이타닉 생존여부 예측 모델 생성 (2) import numpy as np import pandas as pd from pandas import Series import matplotlib.pyplot as plt import seaborn as sns plt.style.use('seaborn') sns.set(font_scale=2.5) # 위 두 줄은 알아두는 것이 좋습니다. matplotlib의 기본 scheme 말고 seaborn scheme을 세팅합니다. # 일일이 graph의 font size를 지정할 필요 없이 seaborn의 font_scale을 사용하면 편합니다. # import plotly.offline as py # py.init_notebook_mode(connect.. 더보기 Kaggle - 타이타닉 생존여부 예측 모델 생성 (1) 본 글은 머신러닝, 데이터 사이언스를 처음 접하는 이(본인)를 위한 Kaggle의 튜토리얼을 하는 글입니다. 본 글에선 python을 사용할 것이고 라이브러리론 시각화 도구(matplotlib, seaborn, plotly), 데이터 분석 도구(pandas, numpy), 머신 러닝 도구(sklearn)을 사용할 것입니다. 본 글에선 타이타닉에 탑승한 사람들의 신상정보를 활용하여, 승선한 사람들의 생존여부를 예측하는 모델을 생성할 것입니다. import numpy as np import pandas as pd # pandas는 Python에서 테이블화 된 데이터를 다루는 데 가장 최적화되어 있는 라이브러리입니다. # Python으로 데이터분석을 한다고 하면 반드시 능숙해져야 할 라이브러리이니, 여러 커널.. 더보기 이전 1 ··· 35 36 37 38 다음