Augmentasi data
Augmentasi data (bahasa Inggris: data augmentation) adalah teknik statistik yang memungkinkan estimasi maximum likelihood (peluang maksimum) dari data yang tidak lengkap.[1][2] Teknik ini memiliki peran penting dalam analisis Bayes[3] dan banyak digunakan dalam pemelajaran mesin untuk mengurangi overfitting saat melatih model[4] yang dicapai dengan melatih model menggunakan beberapa salinan data yang telah dimodifikasi secara halus dari data asli. Teknik oversampling sintetis untuk pemelajaran mesin tradisionalSynthetic Minority Over-sampling (SMOTE) adalah metode yang digunakan untuk mengatasi ketidakseimbangan data dalam pemelajaran mesin. Pada dataset yang seperti itu, jumlah sampel di setiap kelas berbeda jauh sehingga kinerja model cenderung bias. Misalnya, dalam dataset diagnosis medis yang memiliki 90 sampel orang sehat dan hanya 10 sampel pasien dengan penyakit tertentu, model algoritma tradisional akan mungkin kesulitan mengklasifikasikan kelas minoritas dengan akurat. SMOTE mengatasi masalah tersebut dengan menghasilkan sampel sintetis untuk kelas minoritas. Sebagai contoh, jika ada 100 sampel di kelas mayoritas dan 10 sampel di kelas minoritas, SMOTE akan membuat sampel baru dengan memilih secara acak satu sampel kelas minoritas beserta tetangganya yang terdekat. Setelah itu, SMOTE akan membuat sampel baru di sepanjang garis yang menghubungkan sampel-sampel tersebut. Proses ini membantu meningkatkan representasi kelas minoritas sehingga membantu meningkatkan kinerja model.[5] Augmentasi data untuk klasifikasi citraSaat jaringan saraf konvolusional mulai berkembang pesat pada pertengahan tahun 1990-an, ketersediaan data masih sangat terbatas, apalagi mengingat sebagian data harus disisihkan untuk pengujian. Untuk mengatasi hal ini, parap peneliti mengusulkan metode modifikasi data yang ada dengan transformasi afin untuk menghasilkan contoh baru dengan label yang sama.[6] Pendekatan ini kemudian diperkuat dengan penggunaan distorsi elastis pada tahun 2003.[7] Teknik ini menjadi sangat popler dan banyak digunakan sejak 2010-an.[8] Selain mampu meningkatkan kinerja CNN, augmentasi data juga berfungsi sebagai langkah perlindungan terhadap serangan profiling yang menargetkan CNN.[9] Augmentasi data kini menjadi elemen penting dalam klasifikasi citra, yaitu dengan memperkaya variasi dataset pelatihan untuk meningkatkan kemampuan generalisasi dan kinerja model. Seiring perkembangannya, praktik ini telah menghadirkan berbagai teknik yang luas, termasuk transformasi geometris, penyesuaian ruang warna, dan penambahan derah (noice injection).[10] Transformasi GeometrisTransformasi geometris mengubah properti spasial gambar untuk mensimulasikan berbagai perspektif, orientasi, dan skala. Beberapa teknik yang umum digunakan meliputi:
Transformasi Ruang WarnaTransformasi ruang warna mengubah properti warna pada citra untuk mengatasi variasi pencahayaan, saturasi warna, dan kontras. Teknik-teknik yang umum digunakan meliputi:
Penambahan derau (noice injection)Penambahan derau pada citra mensimulasikan ketidaksempurnaan di dunia nyata sehingga model dapat belajar untuk mengabaikan variasi yang tidak relevan. Teknik-teknik yang umum digunakan meliputi:
Augmentasi data untuk pemrosesan sinyalPendayasahajaan residual atau blok dapat digunakan untuk augmentasi deret waktu. Sinyal biologisAugmentasi data sintetis sangat penting untuk klasifikasi pemelajaran mesin, khususnya untuk data biologis yang cenderung berdimensi tinggi dan sulit diperoleh. Analisis dalam aplikasi kontrol robotik dan augmentasi pada subjek disabilitas dan non-disabilitas masih banyak bergantung pada pendekatan spesifik per individu. Kelangkaan data sangat terasa dalam permasalahan pemrosesan sinyal, seperti pada sinyal elektromiografi pada penderita penyakit Parkinson, yang sumbernya memang sulit untuk didapatkan. Zanini, dkk. mencatat bahwa penggunaan jaringan adversarial generatif (khususnya, DCGAN), memungkinkan proses style transfer untuk menghasilkan sinyal elektromiografi sintetis yang merepresentasikan karakteristik sinyal dari para penderita Penyakit Parkinson.[11] Pendekatan-pendekatan ini juga penting dalam elektroensefalografi (rekaman gelombang otak). Wang, dkk. mengeksplorasi ide penggunaan jaringan saraf konvolusional dalam (deep CNN) untuk pengenalan emosi berbasis EEG. Hasil penelitian mereka meunjukkan bahwa penggunaan augmentasi data berhasil meningkatkan akurasi dalam mengenali emosi.[12] Salah satu pendekatan umum adalah menghasilkan sinyal sintetis adalah dengan mengatur ulang komponen dari data asli. Lotte [13] mengusulkan sebuah metode “Artificial Trial Generation Based on Analogy” yang memiliki tiga contoh data yang lalu digunakan untuk menghasilkan data buatan yang adalah bagi . Sebuah transformasi kemudian dilakukan pada untuk menjadikannya lebih mirip pada . Lalu, transformasi yang sama kemudian diterapkan pada yang menghasilkan . Pendekatan ini terbukti meningkatkan kinerja pengklasifikasi Analisis Diskriminan Linear (Linear Discriminant Analysis atau LDA) pada tiga dataset yang berbeda. Penelitian terkini menunjukkan bahwa teknik sederhana sekalipun dapat memberikan dampak signifikan. Misalnya, Freer [14] mengamati bahwa penambahan derau pada data yang telah berhasil dikumpulkan untuk menghasilkan titik-titik data tambahan dapat meningkatkan kemampuan pemelajaran beberapa model yang sebelumnya berkinerja buruk. Tsinganos, dkk.[15] meneliti pendekatan magnitudo warping, dekomposisi wavelet, dan model EMG permukaan sintetis (pendekatan generatif) untuk pengenalan gerakan tangan. Hasilnya menunjukkan peningkatan kinerja klasifikasi hingga +16% ketika data tambahan diperkenalkan selama pelatihan. Baru-baru ini, penelitian augmentasi data mulai berfokus pada bidang pemelajaran mendalam, khususnya pada kemampuan model generatif untuk menciptakan data buatan yang kemudian dimasukkan ke dalam pelatihan model klasifikasi. Pada tahun 2018, Luo, dkk.[16] menemukan bahwa data sinyal EEG yang berguna dapat dihasilkan oleh Conditional Wasserstein Generative Adversarial Networks (GANs). Ketika data sintetis ini ditambahkan ke dalam set pelatihan dalam kerangka train-test klasik, performa klasifikasi mengalami peningkatan yang signifikan. Sinyal mekanisPrediksi sinyal mekanis berbasis augmentasi data membuka jalan bagi teknologi generasi baru, seperti pengelolaan energi baru, bidang komunikasi 5G, dan rekayasa kontrol robotika.[17] Pada tahun 2022, Yang, dkk.,[17] mengintegrasikan constraints (kendala), optimisasi, dan kontrol ke dalam kerangka jaringan deep learning yang didukung oleh augmentasi data dan pemangkasan data (data pruning) dengan mempertimbangkan korelasi data ruang-waktu (spatio-temporal data correlation). Pendekatan ini berhasil meningkatkan interpretabilitas, keamanan, dan kemampuan pengendalian deep learning dalam proyek industri nyata melalui penggunaan persamaan pemrograman matematis eksplisit dan solusi analitis. Lihat juga
Referensi
|
Portal di Ensiklopedia Dunia