Machine Learning menjadi salah satu topik yang paling banyak dibahas saat ini. Perkembangannya didorong oleh kemajuan teknologi dan arus digitalisasi yang sangat masif, terutama dalam bidang Artificial Intelligence (AI).
Dalam ekosistem AI, Machine Learning berperan penting sebagai komponen yang memungkinkan sistem untuk belajar dari data. Secara umum, proses pembelajaran ini terbagi menjadi tiga kategori utama: supervised learning, unsupervised learning, dan reinforcement learning.
Penerapan Machine Learning kini telah merambah berbagai sektor untuk meningkatkan efisiensi dan produktivitas. Industri besar, misalnya, banyak memanfaatkan supervised learning untuk menganalisis segmentasi pasar, memprediksi penjualan, mengoptimalkan rantai pasok, dan berbagai kebutuhan strategis lainnya.
Machine Learning dalam Akuakultur
Dalam dunia akuakultur, penerapan Machine Learning berkembang sangat cepat. Beragam studi dan industri mulai memanfaatkannya untuk meningkatkan performa budidaya, antara lain:
- Analisis dan deteksi pola kualitas air
- Prediksi pertumbuhan udang
- Estimasi panjang dan bobot benur melalui foto
- Estimasi ukuran hepatopankreas udang berbasis citra
- Deteksi penyakit sejak dini
- Optimasi pakan dan manajemen kolam berbasis data
Semua aplikasi tersebut memiliki satu fondasi utama yaitu data.
Data yang digunakan dalam Machine Learning harus valid, lengkap, dan sesuai format. Kualitas data menentukan kualitas model yang dihasilkan. Prinsip dasarnya sederhana:
- Data yang benar → kesimpulan yang benar
- Data yang salah → kesimpulan yang keliru
Karena itu, proses pengumpulan, pembersihan, dan verifikasi data menjadi tahapan yang tidak bisa diabaikan dalam setiap analisis Machine Learning—terlebih dalam akuakultur yang sangat dipengaruhi dinamika lingkungan.
Data Imputasi
Dalam proses data collection akuakultur, keberadaan data NaN (Not a Number) atau data kosong merupakan masalah yang sangat sering dijumpai.
Ketidakhadiran data ini dapat mengganggu proses analisis statistik maupun model Machine Learning yang membutuhkan data lengkap dan konsisten. Karena itu, langkah penting yang harus dilakukan sebelum analisis lanjut adalah data imputasi.
Data imputasi adalah proses mengisi nilai yang hilang (missing values) menggunakan estimasi yang didasarkan pada pola atau tren dari data lain yang tersedia.
Tujuannya adalah menjaga integritas dataset sehingga analisis dapat berjalan tanpa bias yang disebabkan oleh kekosongan data.
Ada beberapa metode imputasi yang sering digunakan, di antaranya:
- Mean Imputation – mengisi nilai kosong dengan nilai rata-rata kolom
- Median Imputation – mengisi dengan nilai median
- Mode Imputation – mengisi dengan nilai yang paling sering muncul
- Iterative Imputer – metode yang lebih kompleks, mengestimasi nilai hilang dengan memodelkan hubungan antar variabel
Metode yang dipilih biasanya bergantung pada karakteristik data dan tujuan analisis.
 |
| Data Imputasi |
Dalam kasus ini, saya menggunakan JupyterLab (Python) untuk melakukan proses imputasi dengan metode SimpleImputer strategy="mean".
Nilai-nilai yang hilang kemudian diestimasi sehingga menjadi bernilai 0, namun tetap mempertahankan distribusi dan pola umum dataset.
Dengan demikian, hasil akhir dataset menjadi lebih realistis, bersih, dan siap dipakai tanpa mengganggu pola atau tren sebelumnya.
Proses ini penting untuk memastikan bahwa model Machine Learning yang digunakan nantinya mendapatkan input yang valid dan representatif, sehingga hasil prediksi lebih akurat dan dapat diandalkan.
Feature Importance
Akuakultur adalah sistem yang kompleks dan dipengaruhi oleh berbagai faktor, mulai dari kualitas air, kondisi mikrobiologi (termasuk bakteri dan virus), hingga faktor genetik.
Keragaman faktor ini seringkali membuat kita kesulitan menentukan variabel mana yang paling berpengaruh terhadap performa budidaya.
Untuk menjawab tantangan tersebut, konsep Feature Importance menjadi sangat penting. Feature Importance merupakan salah satu output dari algoritma Machine Learning yang membantu mengukur tingkat pengaruh setiap variabel terhadap hasil prediksi model.
Feature Importance dalam Random Forest
Pada algoritma Random Forest, Feature Importance umumnya dihitung menggunakan dua pendekatan utama:
Gini Importance (Mean Decrease in Impurity – MDI)
Metode ini mengukur seberapa besar penurunan impurity (ketidakmurnian) saat sebuah fitur digunakan untuk melakukan split pada decision tree.
Semakin sering dan semakin besar pengurangan impurity yang dihasilkan oleh suatu fitur, semakin tinggi nilai importance-nya.
Sederhananya: Fitur yang banyak membantu model membuat keputusan dengan “lebih bersih” dianggap lebih penting.
Permutation Importance
Pada metode ini, nilai suatu fitur diacak (shuffled) tanpa mengubah fitur lainnya. Model kemudian dijalankan ulang untuk melihat penurunan performa (misalnya akurasi atau R²).
Jika performa model turun drastis, maka fitur tersebut sangat penting. Jika performa tetap stabil, fitur tersebut kurang berpengaruh.
Metode ini dianggap lebih intuitif karena mengevaluasi pentingnya fitur berdasarkan dampaknya terhadap prediksi akhir.
 |
| Feature Importance (Aplikasi Random Forest) |
Dalam analisis ini, saya menggunakan JupyterLab (Python) untuk menghitung Feature Importance menggunakan algoritma Random Forest.
Hasilnya kemudian divisualisasikan dalam bentuk grafik sehingga lebih mudah dipahami.
Pada grafik tersebut, semakin tinggi nilai Importance (%), semakin besar pengaruh variabel tersebut terhadap performa akuakultur.
Visualisasi ini membantu menentukan variabel mana yang perlu diprioritaskan dalam manajemen budidaya.
Analisis Risk Zone
Analisis Risk Zone bertujuan untuk mengidentifikasi rentang nilai parameter yang meningkatkan probabilitas terjadinya Low Productivity dengan tingkat probabilitas ≥60% dan ≥80%.
Analisis ini dilakukan menggunakan pendekatan Machine Learning, yaitu Random Forest Classifier yang dikombinasikan dengan metode Accumulated Local Effects (ALE) untuk menjelaskan pengaruh masing-masing parameter terhadap probabilitas produktivitas tambak.
Random Forest digunakan untuk membangun model klasifikasi antara tambak dengan produktivitas rendah dan produktivitas tinggi, sedangkan ALE digunakan untuk mengidentifikasi rentang nilai parameter yang meningkatkan risiko terjadinya Low Productivity berdasarkan prediksi model.
Histogram untuk Menentukan Kelompok Faktor
Sebelum melakukan analisis zona berbahaya, kita perlu untuk menentukan productivity class sebagai grup faktor. Productivity class ditentukan berdasarkan distribus data yaitu : Low Productivity (< Q1 : < 25%) dan High Productivity (>Q3 : >75%).
Berdasarkan hasil klasifikasi, ditentukan nilai Quartil 1 (Q1) yaitu 5 kg/m², Quartil 2 (Median) yaitu 7 kg/m² dan Quartil 3 (Q3) yaitu 11 kg/m².
Data yang berada pada rentang Q1–Q3 tidak digunakan dalam model klasifikasi untuk meningkatkan kontras antara kelompok produktivitas rendah dan tinggi sehingga model machine learning dapat mengidentifikasi pola dengan lebih jelas.
Random Forest Classifier dan Accumulated Local Effects (ALE)
Model Random Forest Classifier digunakan untuk mempelajari hubungan antara parameter budidaya (seperti kepadatan tebar, kualitas air, dan faktor lingkungan) dengan kelas produktivitas tambak. Model ini menghasilkan probabilitas terjadinya Low Productivity pada berbagai kombinasi parameter.
Selanjutnya metode Accumulated Local Effects (ALE) digunakan untuk menganalisis pengaruh lokal setiap parameter terhadap probabilitas Low Productivity. ALE memungkinkan identifikasi rentang nilai parameter yang meningkatkan probabilitas risiko berdasarkan distribusi data aktual. Melalui kombinasi metode ini, dapat ditentukan:
- High Risk Zone (≥60%) → rentang parameter yang meningkatkan probabilitas Low Productivity ≥60%
- Critical Risk Zone (≥80%) → rentang parameter dengan probabilitas Low Productivity ≥80%
Zona ini kemudian digunakan sebagai indikator batas operasional parameter budidaya yang berpotensi menurunkan produktivitas tambak.
📝 Catatan Penting
Data yang digunakan pada contoh ini merupakan data simulasi hasil generate, sehingga tidak mencerminkan kondisi lapangan secara nyata. Analisis ini hanya bertujuan memberikan gambaran teknis mengenai cara kerja Analisis dan Machine Learning.