타이타닉호의 비극적 침몰과 생존자 예측 분석을 탐구합니다. 역사적 사건의 의미와 현대 데이터 과학의 적용을 통해 과거와 현재를 연결하는 흥미로운 여정을 함께하세요.
타이타닉의 역사와 비극
1912년 4월 15일, 세계는 충격적인 해양 사고를 목격했습니다. 당시 세계 최대의 여객선이었던 타이타닉호가 처녀항해 중 빙산과 충돌하여 침몰한 것입니다. 이 사건은 단순한 해난 사고를 넘어 20세기 초 인류의 기술에 대한 과신과 자만을 상징하는 사건으로 기록되었습니다.
타이타닉호의 건조와 특징
타이타닉호는 당시 최첨단 기술을 집약해 건조된 선박이었습니다. 길이 269미터, 무게 46,328톤의 거대한 규모를 자랑했으며, 당시로서는 혁신적인 안전장치들을 갖추고 있었습니다. 하지만 이러한 안전장치들도 빙산과의 충돌을 막지는 못했습니다.
침몰의 순간
타이타닉호는 4월 14일 밤 11시 40분경 빙산과 충돌했습니다. 충돌 후 약 2시간 40분 만에 선체가 두 동강 나며 침몰했습니다. 이 과정에서 2,224명의 승객과 승무원 중 1,500명 이상이 목숨을 잃었습니다. 구명보트의 부족, 대피 훈련의 미비 등이 대규모 인명 피해의 원인으로 지목되었습니다.
타이타닉 생존자 예측 분석
타이타닉 사건은 현대 데이터 과학에서도 중요한 연구 주제로 다뤄지고 있습니다. 특히 생존자 예측 분석은 머신러닝 입문자들이 자주 접하는 프로젝트 중 하나입니다.
데이터 전처리
생존자 예측 분석을 위해서는 먼저 데이터 전처리 과정이 필요합니다. 이 과정에서는 불필요한 변수를 제거하고, 범주형 변수를 수치화하는 작업 등이 이루어집니다.
train_df = train_df.drop(['Name', 'PassengerId'], axis=1)
test_df = test_df.drop(['Name'], axis=1)
combine = [train_df, test_df]
for dataset in combine:
dataset['Sex'] = dataset['Sex'].map({'female': 1, 'male': 0}).astype(int)
특성 공학
특성 공학은 기존 데이터를 바탕으로 새로운 특성을 만들어내는 과정입니다. 예를 들어, 가족 구성원 수를 나타내는 'FamilySize' 변수를 만들 수 있습니다.
for dataset in combine:
dataset['FamilySize'] = dataset['SibSp'] + dataset['Parch'] + 1
모델 선택 및 학습
데이터 전처리와 특성 공학이 완료되면, 적절한 머신러닝 모델을 선택하고 학습시킵니다. 로지스틱 회귀, 랜덤 포레스트, 서포트 벡터 머신 등 다양한 모델을 시도해볼 수 있습니다.
모델 평가
학습된 모델의 성능은 정확도, 정밀도, 재현율 등 다양한 지표로 평가할 수 있습니다. 캐글의 타이타닉 대회에서는 제출한 예측 결과의 정확도를 기준으로 순위를 매깁니다.
타이타닉의 현대적 의미
타이타닉 사건은 100년이 넘은 지금도 여전히 우리에게 많은 것을 시사합니다.
안전의 중요성
타이타닉 사건은 안전에 대한 경각심을 일깨워주었습니다. 이후 해상 안전 규정이 대폭 강화되었고, 구명보트 의무 탑재량이 증가했습니다.
기술의 한계
당시 '침몰하지 않는 배'라고 불렸던 타이타닉의 비극은 기술의 한계와 자연의 위력을 다시 한번 상기시켜주었습니다.
계급 문제
타이타닉 침몰 당시 1등실 승객의 생존율이 훨씬 높았다는 사실은 당시 사회의 계급 문제를 여실히 보여줍니다.
마무리
타이타닉 사건은 역사적으로 중요한 사건일 뿐만 아니라, 현대 데이터 과학에서도 의미 있는 연구 주제입니다. 이 사건을 통해 우리는 과거의 교훈을 배우고, 동시에 미래를 위한 통찰을 얻을 수 있습니다. 타이타닉의 이야기는 앞으로도 오랫동안 우리에게 안전, 기술, 사회 문제에 대한 깊은 성찰의 기회를 제공할 것입니다.