Perkembangan Machine Learning/Deep Learning
Story ini merupakan bentuk tulisan dari video sumber (ada di akhir story 👇) yang berjudul “Future Computers Will Be Radically Different” dari channel “Veritasium”. Tulisan ini hanya menuliskan kembali bagian video tentang sejarah machine learning (dimulai di menit 3:45).
Machine Learning
Machine learning atau pembelajaran mesin merupakan subbidang ilmu dari kecerdasan buatan. Hal ini memungkinkan mesin untuk mempelajari pola yang diberikan dan mengambil kesimpulan dari hasil pembelajaran tersebut. Cara kerja dari machine learning tersebut mengadaptasi system saraf manusia.
Awal Mula
Dimulai dari penelitian yang dilakukan oleh psikolog dari Cornell University, Frank Rosenblatt, di tahun 1958. Beliau membuat sebuah mesin bernama “the perceptron” yang meniru cara kerja neuron di dalam otak. Dapat dikatakan bahwa the perceptron merupakan jaringan saraf tiruan karena sifatnya yang mengadaptasi jaringan saraf manusia. Hanya saja dalam bentuk yang lebih simple/sederhana.
Konsep dari perceptron merupakan gabungan antar neuron yang membentuk jalur-jalur hingga di ujung jalur tersebut terdapat sebuah neuron. Neuron ini terdiri dari input & output. Neuron input memberikan rangsangan, sedangkan neuron output menghasilkan simpulan (inference) yang merepresentasikan status tertentu.
Cara belajar dari perceptron adalah menerima “rangsangan” input (berupa karakter numerik dari sinyal/citra) yang diolah untuk sampai ke neuron output. Pengolahan ini terdapat pada jalur antar neuron yang memiliki perbedaan “bobot” dalam meneruskan input ke neuron output. Jika neuron output menghasilkan luaran sesuai yang diharapkan, berarti bobot ini dipertahankan. Akan tetapi, jika output pada neuron output tidak sesuai harapan, diperlukan adanya perombakan jalur dengan mengubah nilai bobot dalam meneruskan input. Proses pengubahan/mempertahankan bobot ini yang merupakan proses belajar dari the perceptron.
Berdasarkan hasil belajar, didapat bobot yang menghasilkan output sesuai harapan. Bobot inilah yang dipakai untuk jalur dalam meneruskan input untuk menjadi output. Sehingga, Ketika terdapat input.. maka system dapat menghasilkan sebuah simpulan berupa output yang sesuai ekspektasi.
Dalam penelitiannya, Rosenblatt mengamati bahwa the perceptron dapat membedakan bentuk pola bangun datar seperti persegi/segitiga.. bahkan diklaim dapat membedakan gambar kucing dan anjing.
Media masa menuliskan penelitian ini sebagai embrio dari kecerdasan buatan yang memungkinkan mesin beraktivitas layaknya manusia, seperti berjalan, melihat, membaca, dan kegiatan lainnya.. bahkan kesadaran akan dirinya sendiri. Sebuah penelitian yang mencengangkan dan menarik perhatian di masanya.
Masa “Tidur”
Tulisan dari media massa yang mewacanakan embrio dari mesin yang beroperasi seperti manusia, membentuk ekspektasi yang begitu besar. Walaupun faktanya, the perceptron memiliki keterbatasan.. bahkan sebenarnya, mesin ini tidak dapat membedakan antara foto anjing & kucing. Kritik muncul di tahun 1969 yang dituliskan oleh MIT giants, Marvin Minsky dan Seymour Papert.
Harapan yang terlalu besar terhadap hal yang sebenarnya cukup sederhana dan memiliki keterbatasan.. membawa penelitian di bidang kecerdasan buatan ke dalam masa “tidur”nya. Hal ini dikenal sebagai AI winter.
Kebangkitan
Masa kebangkitan dari bidang AI dimulai kembali di tahun 1980-an, saat peneliti dari Carnegie Mellon membuat mobil setir-otomatis (self-driving car). Kendaraan ini disetir oleh jaringan saraf tiruan bernama ALVINN. Jaringan saraf tiruan ini mirip seperti the perceptron, akan tetapi dilengkapi dengan adanya hidden layer yang memiliki neuron penghubung antara input neuron & output neuron. Output dari neuron ini adalah steering angle (sudut putar setir) pada saat mengemudi. Metode pengubahan bobot yang merupakan proses belajar dari neural network menggunakan metode backpropagation.
Masa “Tidur” (Kembali)
Walaupun perkembangannya cukup signifikan, bidang kecerdasan buatan (AI) masih berkutat dengan problem dengan problem sederhana, yaitu membedakan anjing dan kucing. Terlebih lagi tidak ada yang tahu permasalahan utama dari hal ini, apakah terdapat dari model pembelajarannya, software yang dipakai, hardware yang digunakan, atau ide awalnya yang memang memerlukan teknik khusus lainnnya. Hal ini menyebabkan masa “tenang” kembali untuk penelitian di bidang AI pada tahun 1990-an.
Kebangkitan (Kembali)
Di pertengahan tahun 2000, Fei-Fei Li, seorang peneliti AI, menyatakan permasalahan dari perspektif yang berbeda.. yaitu tentang kebutuhan data training untuk sistem AI. Hal ini berbeda, dikarenakan di masa tersebut, peneliti lainnya berfokus pada pengembangan metode dengan meng-improve algoritma AI.
Untuk menjawab permasalahan tentang kebutuhan data dalam melakukan training, Fei-Fei Li membuat ImageNet. ImageNet merupakan merupakan database berupa gambar/citra untuk data masukan pada penelitian software recognition yang terdiri dari lebih dari 20.000 kategori. ImageNet merupakan database citra terbesar yang berisi human-labelled data.
AlexNet
Sepanjang 2010–2017, ImageNet melangsungkan kontes tahunan dalam mengenali data citra yang tersedia. Kompetisi ini melihat performansi system berdasarkan “top-5” error rate. Parameter top-5 ini mengecek apakah target label terdapat pada 5 hasil prediksi tertinggi dari sistem pengenalan. Dengan kata lain, top-5 error rate merupakan tingkat kesalahan jika tidak ada target label pada 5 hasil prediksi tertinggi. Semakin tinggi nilai top-5 error rate, semakin jelek performansi system dalam mengenali citra. Selain top-5 error rate, top-1 error rate juga digunakan sebagai measuring unit.
AlexNet merupakan pemenang dari kompetisi ini di tahun 2012 dengan nilai top-5 error rate sebesar 16.4%, pengurangan yang cukup signifikan dibandingkan pemenang kompetisi tahun sebelumnya. AlexNet memiliki total 8 layer dan total 500.000 neuron. Performansi AlexNet yang sangat baik memperlihatkan bahwa scale dari neural network merupakan kunci suksesnya sebuah system pengenalan. Walaupun demikian, kompleksitas arsitektur dari AlexNet berdampak pada computational cost yang tinggi. Para peneliti AlexNet menggunakan GPU dalam menangani hal ini.
Di tahun berikutnya, perkembangan arsitektur semakin terlihat dari hasil kompetisi ImageNet. Hal ini dapat dilihat dari munculnya GoogLeNet di tahun 2014, ResNet di tahun 2015, dst. Di tahun 2018, kompetisi/challenge tetap dilangsungkan tapi dengan data yang lebih komplek, termasuk mengklasifikasikan objek 3D dengan natural language.
Deep Learning
Seiring perkembangan pengetahuan tentang hardware, data, dan arsitektur network dalam sistem pengenalan, pembelajaran oleh mesin pun dilakukan lebih mendalam, dan hal ini merupakan konsep deep learning. Deep Learning merupakan subset dari bidang machine learning, dengan melakukan proses belajar oleh mesin yang lebih “deep”. Proses yang deep ini memungkinkan mesin belajar layaknya manusia belajar secara natural.. yaitu learn by example.. belajar berdasarkan contoh yang diberikan.
Beberapa pihak ada yang menyebutkan perbedaan di antara keduanya terletak dari proses feature extraction-nya, seperti yang diilustrasikan di gambar berikut:
Akan tetapi, beberapa peneliti ada yang tidak sepakat dengan ilustrasi di atas, karena ada teknik yang diclaim sebagai “deep learning”, seperti CNN, yang dapat dikombinasikan dengan metode feature extraction secara terpisah. Sehingga, ilustrasi di atas menjadi tidak lagi tepat sebagai pembeda.
Walaupun demikian, semuanya sepakat bahwa deep learning merupakan subset dari machine learning, dengan konsep pembelajaran yang lebih mendalam (“deep”).