Titanic Data Science Solutions

TBD

Mở đầu

Titanic Data Science Solutions

Tôi đã released một package Speedml, làm cho các kĩ thuật được sử dụng trong notebook này trở nên trực quan, mạnh mẽ và ứng dụng. Speedml giúp tôi nhảy từ dưới 80% trên leaderboard của Kaggle lên trên 20%. Một điều nữa là Speedml làm được điều đó với chỉ 70% dòng code. Tải về và cài đặt Titanic Solution using Speedml. Notebook đi cùng với cuốn sách Data Science Solutions. Notebook này sẽ đi qua các công việc thường làm cho việc giải quyết một cuộc thi Data Science tại Kaggle. Có một vài notebook tuyệt vời để học data science trong các cuộc thi. Tuy nhiên, nhiều khi sẽ bỏ qua một vài giải thích trong việc phát triển giải pháp như là những notebook đó là giành cho chuyên gia với nhau. Nhiệm vụ của notebook này là làm từng bước từng bước, giải thích ở mỗi bước và lý do cho mỗi quyết định chúng ta làm trong việc giải quyết vấn đề.

Các giai đoạn

Một competition solution gồm 7 gia đoạn được mô tả trong Data Science Solutions book.

  1. Đặt câu hỏi hoặc định nghĩa các vấn đề
  2. Thu được training và test data
  3. Chuẩn bị data (Wrangle, prepare, cleanse)
  4. Phân tích, nhận định và khám phá dữ liệu
  5. Mô hình hóa, dự đoán và giải quyết vấn đề
  6. Visualize, báo cáo và biểu diễn vấn đề ở các bước và giải pháp cuối cùng
  7. Supply và Submit kết quả

Bên trên là các bước thường làm. Tuy nhiên có một số trường hợp ngoại lệ.

  • Chúng ta sẽ gộp nhiều giai đoạn. Chúng ta có thể phân tích bằng cách visualizing
  • Thực hiện một giai đoạn nào đó sớm hơn. Chúng ta có thể phân tích data trước khi quá trình wrangling
  • Thực hiện một giai đoạn nhiền lần. Visualize có thể được làm đi làm lại nhiều lần
  • Bỏ một số giai đoạn. Chúng ta có thể không cần Supply(mình chưa hiểu lắm).

Đặt câu hỏi và định nghĩa vấn đề

Các cuộc thi trên Kaggle định nghĩa vấ đề cần phải giải quyết trong khi cung cấp dữ liệu cho việc trainning và test model. Đặt câu hỏi hoặc định nghĩa vấn đề được mô tả ở đây trên Kaggle.

Kết thúc