Dalam era digital yang serba cepat ini, keputusan bisnis yang cerdas adalah kunci keberhasilan. Dalam artikel ini, saya akan membawa Anda melalui perjalanan mendalam melalui sebuah proyek analisis data yang menggali keputusan bisnis dengan presisi dan kecerdasan. Saksikan bagaimana langkah-langkah kami mengungkap rahasia keputusan strategis dalam proyek Data Analyst ini, membimbing Anda melalui proses analisis yang membawa terang dalam ketidakpastian bisnis modern.
Pada project kali ini akan dibagi menjadi beberapa tahapan sebagai berikut:
1. Business Understanding
2. Data Understanding
3. Data Cleaning & Preprocessing
4. Exploratory Data Analysis (EDA)
5. Conclusion
1. Business Understanding
Pada kasus ini ada sebuah toko bernama DQLab sport center adalah toko yang menjual berbagai kebutuhan olahraga seperti Jaket, Baju, Tas, dan Sepatu. Toko tersebut aktif dari 2013 sehingga memiliki banyak pelanggan setia dalam jangka waktu yang lama dan tentunya pelanggan baru tetap berusaha didapatkan oleh toko ini. Manajer toko berinisiatif merekrut Data Analyst pemula dalam rangka membantunya mencari inti dan memecahkan masalah yang ada pada tokonya di awal tahun 2019. Masalah yang dialami oleh toko adalah pelanggan mengalami penurunan sehingga transaksi di toko pun berkurang, Manajer menjelaskan bahwa pelanggan akan dikategorikan menjadi 2 yaitu mereka yang dikatakan bukan pelanggan lagi (churn) dan mereka yang merupakan masih pelanggan (not churn). Pelanggan dikatakan churn jika mereka tidak pernah melakukan transaksi apapun dalam jangka waktu 6 bulan sejak update dari data terakhir toko. Berbekal informasi yang telah disebutkan langkah selanjutnya adalah melakukan pengecekan terhadap data yang telah diberikan.
2. Data Understanding
Data di-import terlebih dahulu ke python agar bisa dilakukan inspeksi dan pengecekan sekilas agar data dapat dipahami, berikut adalah isi dari 5 teratas dari data.
Terlihat data terdiri dari beberapa kolom seperti berikut:
1. no : Berisi nomor setiap baris dari data.
2. Row_Num: Berisi nomor setiap baris dari data seperti kolom no.
3. Customer_ID: Berisi nomor unik dari masing-masing pelanggan.
4. Product: Produk-produk dari toko.
5. First_Transaction: Transaksi pertama yang dilakukan oleh pelanggan (masih dalam bentuk detik).
6. Last_Transaction: Transaksi terakhir yang dilakukan oleh pelanggan (masih dalam bentuk detik).
7. Average_Transaction_Amount: Rata-rata transaksi yang dilakukan oleh pelanggan.
8. Count_Transaction: Jumlah transaksi yang dilakukan oleh pelanggan.
Setelah diketahui isi dari data maka selanjutnya melihat lebih jauh bagaimana bentuk dan kebersihan dari data.
Seperti yang terlihat pada gambar di atas, data ini terdiri dari 8 kolom dengan 100000 entries atau baris. Selain itu data ini terdiri dari 1 variabel bertipe object atau teks dan 7 bertipe integer atau bilangan bulat. Melihat dari apa yang diperlukan oleh business maka tipe-tipe data ini sebagian tidak benar maka perlu dilakukan proses pembersihan atau data cleaning.
3. Data Cleaning & Preprocessing
Pada proses ini data-data yang telah diinspeksi pada tahap sebelumnya akan dibersihkan agar sesuai dan bisa dianalisis, karena data yang tidak bersih akan menyebabkan kesalahan dalam analisis data sehingga informasi yang disampaikan cenderung salah.
3.1 Membuang kolom yang tidak perlu
Terdapat kolom-kolom yang tidak diperlukan pada data, karena tidak mempengaruhi apapun maka data ini dapat dibuang. Kolom yang dibuang pada kasus ini ada 2 yaitu no dan Row_Num, setelah kolom dibuang maka data akan terlihat sebagai berikut.
3.2 Perbaikan tipe data
Setelah kolom yang tidak diperlukan dibuang, terlihat hanya tersisa 6 kolom. Langkah selanjutnya adalah memperbaiki tipe data yang tidak sesuai. Pada data terlihat kolom First_Transaction dan Last_Transaction masih belum sesuai yaitu masih bentuk integer bukan dalam bentuk waktu atau datetime. Di sisi lain isinya masih dalam bentuk detik sedangkan format yang diinginkan memiliki tahun, bulan dan tanggal. Dengan memanfaatkan fungsi datetime pada pandas yang merupakan library dari python, hal ini dapat dan hasilnya sebagai berikut:
Terlihat kolom First_Transaction dan Last_Transaction sekarang sudah menggunakan tipe data yang benar, selain itu isi dari kolom First_Transaction dan Last_Transaction juga sudah benar dengan format YYYY-MM-DD beserta timestampnya.
3.3 Cek dan perbaiki data kosong atau missing values
Seperti gambar di bawah terlihat pada data ini tidak ada data kosong atau missing values sehingga tidak ada penanganan khusus.
3.4 Definisikan pelanggan churn
Sesuai instruksi dari manajer, bahwa pelanggan dikatakan churn jika tidak melakukan transaksi dalam jangka waktu 6 bulan dari data terakhir. Untuk mengetahuinya, maka perlu diketahui terlebih dahulu kapan terakhir kali transaksi dilakukan pada data ini, transaksi terakhir dilakukan adalah sebagai berikut.
Terlihat transaksi terakhir dari data ini adalah tanggal 1 februari tahun 2019, artinya jika pelanggan yang dinyatakan churn adalah pelanggan yang tidak melakukan transaksi selama 6 bulan terakhir maka dapat dipastikan pelanggan tersebut tidak lagi melakukan transaksi setelah 1 Agustus 2018 seperti berikut.
3.5 Memisahkan tahun
Pada tahap ini agar lebih memudahkan dalam tahap analisis maka perlu dipisahkan tahun kapan transaksi pertama dan terakhir kali dilakukan. Mengingat data ini terdiri dari 2013 hingga 2019 maka akan lebih mudah jika dipisahkan, nantinya akan didefinisikan sebagai kolom baru dengan hasil sebagai berikut.
3.6 Kategorisasi pada kolom
Melihat kolom dari Average_Transaction_Amount dan Count_Transaction bervariasi maka perlu dilakukan pengkategorian agar hasil analisis lebih mudah didapatkan insightnya. Adapun masing-masing kolom nantinya akan dibuat menjadi 5 kategori, pada Count_Transaction kategorinya sebagai berikut:
1. Rentang jumlah transaksi -> kategori(1)
2. Rentang jumlah transaksi -> kategori(2-3)
3. Rentang jumlah transaksi -> kategori(4-6)
4. Rentang jumlah transaksi -> kategori(7-10)
5. Rentang jumlah transaksi -> kategori(>10)
Sedangkan pada Average_Transaction_Amount adalah sebagai berikut:
1. rentang transaksi (100.000 s/d 250.000) -> 100.000-250.000
2. rentang transaksi (250.000 s/d 500.000) -> 250.000-500.000
3. rentang transaksi (500.000 s/d 750.000) -> 500.000-750.000
4. rentang transaksi (750.000 s/d 1000.000) -> 750.000-1000.000
5. rentang transaksi (1000.000 s/d 2.500.000) -> 1000.000-2.500.000
6. rentang transaksi (2.500.000 s/d 5.000.000) -> 2.500.000-5.000.000
7. rentang transaksi (5.000.000 s/d 10.000.000) -> 5.000.000-10.000.000
8. rentang transaksi (lebih 10.000.000) -> >10.000.000
Hasil dari kategorisasi adalah sebagai berikut
4. Exploratory Data Analysis (EDA)
Pada tahap data akan dianalisis lebih lanjut agar didapatkan insight yang akan diberikan kepada manajer.
4.1 Pelanggan baru
Grafik di bawah menjelaskan pelanggan-pelanggan terbaru yang melakukan transaksi ditoko, pelanggan baru ditandai dengan saat kapan pertama kali mereka melakukan transaksi, lebih detailnya sebagai berikut.
Terlihat pada gambar di atas setiap tahun toko DQLab sport center selalu mendapatkan pelanggan terbaru setiap tahunnya hal ini diindikasikan dengan kenaikan setiap tahunnya dengan puncak tertinggi adalah di tahun 2017 dan mengalami sedikit penurunan pada tahun 2018, pada kasus ini tahun 2019 tidak dipermasalahkan karena data penjualannya hanya sampai bulan februari.
4.2 Transaksi berdasarkan tahun
Selanjutnya akan dijelaskan bagaimana distribusi transaksi setiap tahun sebagai berikut.
Berdasarkan grafik diatas transaksi terbesar terjadi pada tahun 2015 dan 2017 sebelum akhirnya turun drastis di tahun 2018. Penurunan yang signifikan pada tahun 2018 membuat kecurigaan ada potensi terjadinya churn sehingga pelanggan yang melakukan transaksi di DQLab sport center juga mengalami penurunan.
4.3 Rata-rata transaksi produk per tahun
Perlu diketahui produk apa saja yang diminati oleh para pelanggan DQLab sport center, lebih detailnya sebagai berikut.
Terlihat pada grafik di atas, hampir semua produk mengalami kenaikan pada tahun 2018 kecuali sepatu. Pada kasus ini tahun 2019 tidak dipermasalahkan karena data yang dimiliki masih di bulan Februari 2019. Selain itu perlu diketahui lebih dalam apakah produk bisa menjadi penyebab pelanggan itu churn atau tidak.
4.4 Proposi churn berdasarkan produk
Perlu diketahui lebih lanjut seberapa banyak pelanggan yang berpotensi churn berdasarkan produk yang ada pada DQLab sport center, lebih lengkapnya adalah sebagai berikut.
Terlihat semua produk memiliki potensi churn yang besar, pelanggan yang membeli jaket dan sepatu adalah pelanggan yang paling banyak berstatus churn jika dibandingkan pleanggan yang membeli tas dan baju.
4.5 Distribusi pelanggan berdasarkan jumlah transaksi
Perlu diketahui juga distribusi dari jumlah produk yang dibeli oleh pelanggan DQLab sport center, lebih detail sebagai berikut.
Terlihat pada grafik tersebut mayoritas pelanggan DQLab sport center membeli 1 produk saja setiap transaksi, hal ini mengindikasikan mayoritas pelanggan tidak membeli beberapa produk atau tidak membeli dengan jumlah yang banyak pada setiap kali transaksi, terlihat dari kelompok 2 dan 5 yang memiliki nilai jauh dibandingkan dengan kelompok 1.
4.6 Distribusi pelanggan berdasarkan rata-rata jumlah transaksi
Setelah diketahui jumlah transaksi pelanggan, maka perlu diketahui juga rata-rata jumlah transaksi yang dilakukan oleh para pelanggan sebagai berikut.
Berdasarkan grafik di atas terlihat bahwa distribusi dari rata-rata jumlah transaksi setiap customer memiliki perbedaan yang signifikan, tidak banyak pelanggan yang memiliki rata-rata total transaksi di ataas 10 juta, mayoritas pelanggan memiliki rata-rata total transaksi sekitar 1 juta hingga 2,5 juta. Terlihat pada grafik bahwa kelompok ini yang mendominasi.
5. Conclusion
Berdasarkan eksplorasi yang dilakukan terlihat bahwa pelanggan baru DQLab sport center selalu naik walaupun mengalami sedikit penurunan di tahun 2018. Berdasarkan transaksi per tahun terlihat jelas bahwa terjadi penurunan signifikan di tahun 2018, hal ini bisa jadi mengindikasikan banyak pelanggan churn pada tahun tersebut. Dari semua produk, hanya sepatu yang mengalami penurunan penjualan di tahun 2018. Proporsi pelanggan churn berdasarkan produk, bisa dilihat hampir semua pelanggan mengalami churn dengan mayoritas tertinggi berasal dari produk sepatu dan jaket. Mayoritas pelanggan membeli 1 produk saja di setiap transaksinya dan distribusi rata-rata jumlah transaksi dari setiap pelanggan tidak merata, hal ini terbukti bahwa mayoritas pelanggan memiliki rata-rata total transaksi sekitar 1 juta hingga 2,5 juta.
Jika anda tertarik lebih detail dan ingin melihat secara interaktif bisa dilihat dashboard berikut (klik pada gambar).
Selanjutnya anda dapat melihat kelanjutan dari postingan ini, di mana akan diprediksi pelanggan churn berdasarkan data yang ada, berikut link project terkait: https://jagoketik.com/blog/prediksi-churn-meningkatkan-kinerja-bisnis-dengan-analisis-data-yang-akurat-data-science-project/
Terima kasih telah meluangkan waktu anda untuk membaca hasil analisa yang telah dilakukan semoga menambah insight anda, silahkan share jika ini dirasa memberikan insight. Tentunya juga diperboleh memberikan masukan melalui kolom komentar atau menghubungi langsung saya dengan kontak di bawah.
Data Source : https://dqlab.id/
Tools : Tableau, Python version : 3.11.3 with package (pandas, matplotlib,seaborn)
Code Source : https://github.com/MuhZainur/Churn_Prediciton_For_Business_Decision/blob/main/Data_Analyst_Project_Research_For_Business_Decision.ipynb
LinkedIN : https://www.linkedin.com/in/muhammad-zainurrahman/