Dari kursus: Pengantar Kecerdasan Buatan
Mengklasifikasikan data
Dari kursus: Pengantar Kecerdasan Buatan
Mengklasifikasikan data
- Sebagai manusia, kita mengklasifikasikan sesuatu sepanjang waktu. Kami memasukkan dokumen Microsoft Word kami ke dalam folder. Kami memisahkan kontak bisnis kami dari kontak pribadi kami. Kami mencantumkan hal-hal menurut abjad. Tanpa klasifikasi ini, kami akan kesulitan mengatur data. Bisnis perlu mengatur data dengan cara yang sama. Perusahaan penerbangan ingin mengklasifikasikan pelanggan mereka berdasarkan frequent flyer. Pengecer ingin mengklasifikasikan pembelanjaan tertinggi mereka. Mesin pencari ingin mengklasifikasikan kemungkinan Anda akan membeli sesuatu secara online. Klasifikasi biner adalah salah satu tantangan pembelajaran mesin yang diawasi paling populer. Itu karena itu sederhana dan kuat. Dengan klasifikasi biner, hanya ada dua kemungkinan hasil. Apakah kamar hotel akan dipesan minggu depan? Akankah pasar saham naik sore ini? Apakah pesan email ini spam? Semua klasifikasi biner menggunakan pembelajaran mesin yang diawasi. Ingatlah bahwa pembelajaran yang diawasi bergantung pada data berlabel. Itu berarti bahwa sistem pembelajaran mesin dilatih untuk mengklasifikasikan dua jawaban. Jadi untuk menggunakan sistem ini, Anda harus terlebih dahulu membuat kumpulan data pelatihan. Sistem deteksi penipuan kartu kredit adalah salah satu cara paling populer untuk menggunakan klasifikasi biner. Setiap kali Anda menggunakan kartu kredit, algoritma pembelajaran mesin mengklasifikasikan transaksi Anda sebagai penipuan atau bukan penipuan. Karena ini adalah pembelajaran mesin yang diawasi, perusahaan kartu kredit harus memulai dengan puluhan ribu contoh transaksi penipuan. Tim ilmu data akan melatih sistem tentang cara mengenali pola dalam transaksi di masa depan. Penyedia email menggunakan pembelajaran mesin yang diawasi untuk mengklasifikasikan pesan spam. Mereka memulai dengan serangkaian pesan pelatihan berlabel yang ditandai sebagai spam. Setelah jaringan memproses cukup banyak pesan, jaringan akan mengklasifikasikan email spam Anda. Teknik-teknik ini memasukkan data dalam jumlah besar dan kemudian menggunakan algoritme pembelajaran mesin untuk mengklasifikasikan data Anda ke dalam kategori buatan manusia. Kategori seperti data pemesanan, transaksi penipuan, dan email yang tidak diinginkan. Seorang ilmuwan data membuat kategori ini, dan kemudian sistem AI Anda mengklasifikasikan data yang telah dilatih untuk dikenali. Sekarang, klasifikasi adalah salah satu bentuk pembelajaran mesin yang paling populer, tetapi juga membutuhkan banyak upaya di muka untuk melatih sistem. Bisa menjadi tantangan untuk mendapatkan puluhan ribu transaksi kartu kredit palsu atau puluhan ribu pesan email spam. Plus, tidak ada jaminan bahwa itu akan cukup bagi sistem untuk membuat prediksi yang akurat. Itu berarti tim ilmu data Anda mungkin akan kembali dan mendapatkan 10.000 transaksi lagi. Tim Anda harus memberi makan algoritme pembelajaran mesin sampai sangat akurat dalam mengklasifikasikan data Anda. Itu sebabnya bahkan sekarang, setelah beberapa tahun pengembangan, perusahaan kartu kredit Anda mungkin mengirimi Anda peringatan penipuan meskipun itu bukan transaksi penipuan. Ilmuwan data terus melatih sistem ini untuk membuat klasifikasi lebih akurat. Penipuan kartu kredit, deteksi spam, dan pembelian online mungkin tampak seperti tantangan yang sangat berbeda, tetapi bagi sistem pembelajaran mesin Anda, semuanya hanyalah cara yang berbeda untuk melakukan hal yang sama. Anda mengklasifikasikan data berlabel ke dalam kategori yang telah ditentukan sebelumnya.
Berlatih sambil belajar dengan file latihan
Unduh file yang digunakan instruktur untuk mengajarkan kursus. Simak dan pelajari dengan melihat, mendengarkan, dan berlatih.