목록전체 글 (18)
아날로그와 디지털사이

"5분이면 너도 kNN 이해 할 수 있어" 19-20 시즌 NBA 가드, 센터 선수들의 스텟을 활용했고 kNN 알고리즘에 대한 이해를 돕기 위해 작성하였습니다. k 최근접 이웃 알고리즘 분류에 사용되는 아주 간단한 지도 학습 알고리즘 Concept k는 이웃의 수이고 빨간점은 예측할 데이터(빨강으로 표시했지만 아직 색이 정해지지 않음) 라면 빨간점을 노란색일지 보라색일지 판단하는 거라고 생각하면 됩니다. 이제 빨간점이 이웃 반경을 넓히며 본인의 자아를 찾아갑니다. 많이 만나는 색상으로 분류가 된다고 생각시면 되요! k=3 : 이웃 3명을 만날 때까지 반경을 넓히는 것으로 이해한다면 빨간점은 보라색으로 분류됩니다. k=6 : 반경을 넓혀 빨간점은 이웃 6명을 만날 때까지 본인의 자아..

모든 코드는 상단 html 다운로드하시면 확인 가능합니다.(*mobile은 조금 깨져서 나옵니다.) 아래 내용은 요약입니다.(Part2 부터 보시면 됩니다.) 0. Intro EDA에 이어 Feature Engineering, Data cleansing 진행 주어진 데이터 셋에서 모든 피처들이 중요하진 않으므로 특정 피처들은 제거해 주고 반대로 관찰된 피처 중 중요하다 생각되는 것은 새로운 피처로 얻을 수 있다. 1. Age_band Age는 연속형 피처이기 때문에 나이대 별로 카테고리화 시켜주어야 한다 앞서 살펴본 바로는 80세가 최고령자이기 때문에 5개로 카테고리화 시킬 수 있다. (0-16, 17-32, 33-48, 49-64, 64-80세) Age-> Age_band( 카테고리화) 각 Pcla..

0. Intro 모든 코드는 상단 html 다운받으시면 확인 가능합니다.(*mobile은 조금 깨져서 나옵니다.) 아래 내용은 요약입니다. 1. 생존자 비율(plot.pie) / 생존자 수(countplot) 2. 성별(Sex)에 따른 생존자 여성은 74.2% 생존 / 남성은 18.8% 생존 3. 승객 등급별(Pclass) 생존자 승객 등급이 낮아질수록 생존자에 비해 사망자가 많아지는 것 확인( 1>2>3순 ) 4. Pclass(나이, 생존자) / Sex(나이, 생존자) 등급과 관계없이 10살 아래 승객은 생존율이 높음 1등급 승객은 비교적 젊은 사람이 많이 생존 5. 나이별 생존자 아이 먼저 살리자는 사회적 통념상 5세 이하 아이들은 사망자에 비해 생존자가 많은 것 확인 가능 30-35세에서 많은 ..

0. Data Field datetime - hourly date + timestamp season - 1 = spring, 2 = summer, 3 = fall, 4 = winter holiday - whether the day is considered a holiday workingday - whether the day is neither a weekend nor holiday weather 1: Clear, Few clouds, Partly cloudy, Partly cloudy 2: Mist + Cloudy, Mist + Broken clouds, Mist + Few clouds, Mist 3: Light Snow, Light Rain + Thunderstorm + Scattered clouds,..

Data 출처 https://www.ktdb.go.kr/www/index.do KTDB 국가교통데이터베이스 www.ktdb.go.kr 1. 연대별 발생한 사고 건수 2. 연대별 발생한 사고 건수와 사고별 사망자 수 JOIN * (해양 사고는 사망자 수 집계가 안되었습니다.) 3. 분석 결론 - 지속적으로 증가(선박 수의 증가가 원인으로 생각됨) - 지속적으로 증가(항공편의 증가가 원인으로 생각됨) - 사망자 수는 감소(감소의 원인은 안전 설비 고도화로 추정) - 90년대까지 증가 추세에서 2000년대 넘어오면서 감소(차량의 안전장치 및 도로 교통 설비의 고도화로 추정) - 사망자 수도 발생건수와 대체로 비례 - 2000년대까지 증가 추세에서 2010년대 들어 감소(철도 안전 설비 증가로 추정) - 사망자..