apakah Kaggle itu?
Kaggle adalah situs dan platform untuk berlomba membuat model terbaik untuk
menganalisa dan memprediksi suatu dataset. Dataset ini diberikan oleh
suatu perusahaan, dengan suatu deskripsi masalah tertentu. Misalnya,
diberikan data rumah beserta fitur-fiturnya dan harga jualnya, dan
deskripsi masalahnya adalah buatlah model untuk memprediksi harga jual
berdasarkan fitur-fitur tersebut. Sederhana kan?
Kaggle sangat bermanfaat untuk semua yang berkecimpung di dunia data science.
Banyak perusahaan yang mempunyai permasalahan analisa/pemodelan data, namun mereka tidak punya sumber daya data scientist yang mumpuni untuk memecahkannya. Dengan Kaggle, mereka bisa meminta bantuan data scientist seluruh dunia untuk memecahkan masalah tersebut dengan membuat model terbaik. Istilah kerennya crowd sourcing. Biasanya dengan dengan imbalan hadiah.
Kaggle juga dapat dimanfaatkan oleh perusahaan untuk merekrut data scientist atau ML engineer, dengan cara menyelenggarakan kompetisi untuk tujuan rekrutmen.
Bagi kita praktisi atau pelajar data science, Kaggle sangat berguna untuk belajar, berlatih, dan mempertajam skill dan insting data science kita. Dengan mempelajari write up
atau ulasan orang lain dalam memecahkan suatu masalah, kita bisa
mendapat banyak ide dan ilmu tentang bagaimana proses dan jalan berpikir
dia memecahkan masalah data science. Lalu dengan ikut dalam kompetisi, kita akan diberi feedback
tentang akurasi model kita, dan dari situ kita berlatih bagaimana
membuat model yang lebih baik. Selama kompetisi, sering orang berbagi
tips atau ide yang dia pakai, sehingga dari situ tidak hanya kita bisa
memperbaiki model kita, tapi kita juga bisa belajar, menjadi lebih
kreatif, sekaligus melatih insting pemecahan masalah kita.
Setelah kompetisi selesai, biasanya para pemenang atau orang yang mendapat skor tinggi akan menulis write up tentang solusi dia juga, sehingga kita bisa belajar solusi yang wow itu seperti apa.
Bahkan walaupun Anda masih pemula sekali, yang belum bisa koding
membuat model sendiri (seperti saya saat menulis artikel ini), membaca
ulasan Kaggle sangat berguna untuk mengetahui bagaimana contoh
permasalahan data science di dunia nyata (misalnya, dataset di
dunia nyata sering terdapat banyak cacat, tidak seperti dataset di kelas
MOOC), bagaimana cara berpikir seorang data scientist dalam memecahkan suatu masalah, dan pengetahuan-pengetahuan apa yang harus dipelajari untuk membuat solusinya.
Kaggle adalah TopCoder untuk Data Scientist
Keuntungannya adalah data set yang digunakan adalah data set yang
sudah baik dan hanya membutuhkan sedikit data cleansing. Bentuk nya
tabular sehingga memudahkan kita untuk melakukan eksplorasi dan
pemodelan.
Di kaggle banyak kompetisi yang berjalan, oleh karena itu kita akan
memilih kompetisi yang mudah untuk dijadikan sebagai bahan latihan.
Project Hello World di kaggle adalah kompetisi Titanic. Dalam kompetisi
titanic kita akan memprediksi mana saja penumpang yang akan bertahan
hidup atau selamat.
Segera saja kita mulai tanpa panjang lebar. Buka website berikut
https://www.kaggle.com/c/titanic
Lakukan registrasi jika anda baru pertama kali. Anda dapat sign in dengan menggunakan google plus, facebook ataupun twitter.
Hal yang pertama sekali perlu dilakukan adalah memahami deskripsi
dari masalah yang ada. Hal ini dapat di lihat pada bagian description.
Dari dekripsi tersebut kita mengetahui bahwa kompetisi ini tujuannya
adalah memberikan tutorial bagi para pemula dalam kontes machine
learning. Kita juga mengetahui bahwa tugas yang di berikan adalah
memprediksi penumpang selamat atau tidak. Jadi tugas ini merupakan
binary classification yang artinya memilih dari 2 pilihan ( selamat atau
tidak )
Setelah anda mengetahui masalah yang harus dipecahkan tentu saja
selanjutnya kita ingin melihat bagaimana kita akan melakukan
deliverables nya. Format dari deliverables yang akan kita submit.
Dari penjelasan diatas kita dapat mempelajari format dari submission.
Kita diminta untuk mensubmit file dengan format yang telah ditentukan.
Kita sudah mempelajari bagaimana submission nya, sekarang kita masuk
ke bagian yang lebih seru yaitu mempelajari data yang ada dan formatnya.
Kita dapat melihat di tab Data page.
Kita dapat melihat penjelasan dari data yang telah disediakan untuk kompetisi titanic.
Data set dibagi menjadi dua yaitu training data set dan test data
set. Training data set akan kita gunakan untuk membuat model. Test data
set adalah dataset yang kita pakai untuk membuat prediksi apakah selamat
atau tidak.
Selain kedua data set tersebut kita juga diberikan contoh dari file submission yaitu gender_submission.csv
Mari kita perhatikan isi data set tersebut satu persatu. Pertama-tama kita akan melihat data set training
Kita dapat melihat bahwa formatnya adalah CSV dan kita juga mempunya
header. Kolom yang akan di prediksi juga sudah tersedia yaitu kolom
Survived. Mari kita lihat apa perbedaannya dengan test dataset.
Test dataset memiliki struktur yang sama dengan train dataset hanya
saja tidak memiliki kolom survived. Oke sekarang kita akan melihat
dataset terakhir yaitu submission.
Seperti yang kita lihat kita hanya memiliki dua kolom atau attribute
yaitu passenger id dan status selamat atau tidak. File ini adalah file
yang sudah memiliki format yang sesuai dengan penjelasan untuk
submission. Kita dapat langsung saja mensubmit file ini ke Kaggle untuk
Titanic.
Mari kita submit dan lihat hasil dari akurasi prediksi dari file
tersebut. Untuk saat ini kita belum melakukan modeling atau bagaimana
file tersebut dihasilkan, yang ingin kita dapatkan adalah sense dari
bertanding di kaggle secara end to end. File di atas kemungkinan
dihasilkan oleh salah satu algorithm blackbox yang dapat digunakan untuk
binary classifier.
Klik submit prediction yang telah di sediakan.
Langsung saja drag and drop gender_submission.csv ke submission.
Klik submission maka file kita tersebut akan di grading secara
otomatis. Setelah itu kita akan diberikan hasil dari submission
tersebut.
Selamat anda telah berhasil memberikan submission pertama anda di kaggle. Anda adalah Kagglers now. Data Scientist !
SUMBER
https://indoml.com/2017/08/22/panduan-menggunakan-kaggle-untuk-pemula/
https://weltam.wordpress.com/2017/04/20/berkompetisi-di-kaggle-part-1-perkenalan-dengan-platform-dan-dataset/
Tidak ada komentar:
Posting Komentar