In A Coma Productions

타이타닉 데이터 다운로드

우리는 고전적인 타이타닉 데이터 세트를 사용합니다. 데이터는 타이타닉 승객의 인구 통계 및 여행 정보로 구성되어 1,309, 목표는이 승객의 생존을 예측하는 것입니다. 전체 타이타닉 데이터 세트는 밴더빌트 대학 의과 대학의 생물 통계학과에서 사용할 수 있습니다 (http://biostat.mc.vanderbilt.edu/위키/pub/Main/DataSets/titanic3.csv). 백과 사전 티타니카 웹 사이트 (https://www.encyclopedia-titanica.org/)는 타이타닉에 관한 참조의 웹 사이트입니다. 여기에는 승객과 승무원의 전체 목록을 포함하여 타이타닉을 둘러싼 모든 사실, 역사 및 데이터가 포함되어 있습니다. 타이타닉 데이터 세티스는 또한 Kaggle.com 대한 입문 경쟁의 주제 (https://www.kaggle.com/c/titanic, Kaggle로 계정을 개설해야합니다). 또한 https://github.com/alexperrier/packt-aml/blob/master/ch4 GitHub 리포지토리에서 csv 버전을 찾을 수도 있습니다. SibSp와 Parch는 결합 된 기능으로 더 의미가 있을 것입니다. 나는 누군가가 혼자가 아니라면 아래에 그것을 만들고 또한 피처를 만들 것입니다. titanic.csv 파일은 실제 타이타닉 승객의 887에 대한 데이터가 포함되어 있습니다. 각 행은 한 사람을 나타냅니다. 열은 생존 여부($S$), 나이($A$), 승객 클래스($C$), 성별($G$) 및 지불한 요금($X$)을 포함하여 해당 사람에 대한 다양한 특성을 설명합니다.

옆으로 : 이 문제를 만들기에서 나는 타이타닉에 현재 레바논 (당시 오스만 제국)에서 80과 153 승객 사이 어딘가에 있다는 것을 배웠습니다. 그것은 승선하는 사람들의 7 %가 될 것입니다. 데이터 집합없이 예측 분석을 수행 할 수 없습니다. 데이터에 둘러싸여 있지만 예측 분석에 맞게 조정된 데이터 집합을 찾는 것이 항상 간단하지는 않습니다. 이 섹션에서는 자유롭게 사용할 수 있는 몇 가지 리소스를 제공합니다. 타이타닉 데이터 세티스는 예측 분석을 위한 고전적인 소개 데이터 집합입니다. 이러한 변수에 대한 자세한 내용은 http://campus.lakeforest.edu/frank/FILES/MLFfiles/Bio150/Titanic/TitanicMETA.pdf 살펴보십시오. 나는 처음에 “타이타닉 : 재해에서 기계 학습”대회의 일환으로, kaggle.com이 게시물을 썼다.

이 도전에서, 우리는 타이타닉에 승객이 살아남았는지 여부를 예측하도록 요청받습니다. 타이타닉 데이터는 텍스트, 부울, 연속 및 범주형 변수의 혼합을 포함합니다. 누락된 값, 이상값 및 텍스트 변수와 같은 흥미로운 특성을 나타내며, 데이터 변환을 시연할 수 있는 풍부한 데이터베이스인 텍스트 마이닝에 적합합니다. RMS 타이타닉은 1912년 4월 15일 이른 아침 에 사우샘프턴에서 뉴욕시로 가는 처녀 항해 중 빙산과 충돌한 후 북대서양에서 침몰한 영국 여객선입니다. 배에는 약 2,224명의 승객과 승무원이 탑승했으며 1,500명 이상이 사망하여 현대 역사상 가장 치명적인 상업적 평안 해상 재해 중 하나가 되었습니다. RMS 타이타닉은 서비스에 들어갔을 때 해상에서 가장 큰 선박이었으며 화이트 스타 라인이 운영하는 올림픽 급 해상 라이너 3 척 중 두 번째였습니다. 타이타닉은 벨파스트의 할랜드와 울프 조선소에 의해 지어졌습니다. 그녀의 건축가 토마스 앤드류스는 재해로 사망했다. 1912년 4월 15일, 가장 큰 여객선이 처녀 항해 중 빙산과 충돌했습니다. 타이타닉이 침몰했을 때 승객과 승무원 2224명 중 1502명이 사망했습니다. 이 놀라운 비극은 국제 사회에 충격을 주었으며 선박에 대한 더 나은 안전 규정으로 이어졌습니다. 난파선이 이러한 인명 손실을 초래한 이유 중 하나는 승객과 승무원을 위한 구명보트가 충분하지 않았기 위였습니다.

침몰에서 살아남는 데 행운의 요소가 있었지만, 일부 집단의 사람들은 다른 사람들보다 살아남을 가능성이 더 높았다.