Tanggal 13 Mei lalu, OpenAI resmi meluncurkan GPT-4o, model AI terbarunya. Mengingat GPT-4 sudah menjadi dasar dari banyak kehebohan seputar AI generatif, GPT-4o bisa jadi siap untuk mengirimkan gelombang kejut di seluruh industri. Berikut ini semua yang OpenAI ungkapkan tentang teknologi AI baru ini, dan mengapa ini merupakan langkah maju yang besar.
1. Percakapan Suara Real-time
Ada fokus yang kuat pada pertukaran suara real-time dengan GPT-4o. Model ini dapat menangkap nada suara Anda, dan akan mencoba merespons dengan nada yang sesuai. Dalam beberapa keadaan, Anda bahkan bisa meminta untuk menambah atau mengurangi dramatisasi dalam responsnya, atau menggunakan suara yang berbeda – seperti suara robot untuk sebuah cerita yang diceritakan oleh robot, atau bernyanyi untuk akhir dongeng.
Baca juga: Bitcoin Catat Rekor Baru: Apa Artinya untuk Masa Depan Kripto?
Mungkin yang lebih penting, Anda bisa menginterupsi AI kapan saja, misalnya jika permintaan yang diberikan salah, atau Anda ingin mengubah nada atau suara di tengah jalan. GPT-4o akan berusaha memperbaiki diri, menggunakan sisa percakapan sebagai konteks. Dalam demonstrasi yang dipersiapkan oleh OpenAI, semuanya terasa sangat alami, dengan AI bahkan meminta maaf ketika seseorang menunjukkan bahwa ada beberapa data sumber kritis yang hilang.
Sayangnya, Anda harus menunggu untuk mencoba fitur suara baru ini. Awalnya, fitur ini hanya akan tersedia untuk pelanggan ChatGPT Plus, dan hanya dalam keadaan alpha awal sebelum akhir Juni.
2. Kemampuan Penglihatan yang Lebih Baik dan Dukungan Multibahasa
GPT-4o juga dapat menjawab pertanyaan tentang foto dan tangkapan layar desktop. Ini mungkin mirip dengan pertanyaan yang Anda ajukan kepada Kacamata Cerdas Meta/Ray-Ban atau pin Humane AI – seperti “Merek celana apa ini?” – tetapi mungkin lebih kompleks, seperti menjelaskan blok kode aplikasi, atau menerjemahkan menu restoran.
OpenAI mengatakan bahwa ke depannya, 4o mungkin mampu melakukan tugas yang lebih rumit lagi, seperti menonton olahraga langsung dan menjelaskan aturan yang terlibat. Untuk saat ini, fokusnya tampaknya lebih pada gambar statis daripada video.
Terkait dengan penglihatan adalah peningkatan fungsi multibahasa. Diklaim bahwa 4o memiliki kinerja yang lebih baik di 50 bahasa berbeda, dengan API dua kali lebih cepat dari yang dimiliki GPT-4 Turbo.
3. Anda Bisa Membuat Gambar dengan Teks yang Dapat Dibaca
Menghasilkan gambar dengan teks yang dapat dibaca telah lama menjadi titik lemah AI, tetapi GPT-4o tampak lebih mampu dalam hal ini. Teks tidak hanya bisa dibaca, tetapi juga diatur dalam cara yang kreatif, seperti halaman mesin ketik, poster film, atau menggunakan tipografi puisi. Juga, tampaknya sangat terampil dalam meniru tulisan tangan, sampai-sampai beberapa prompt mungkin membuat gambar yang tidak dapat dibedakan dari output manusia nyata.
Baca juga: Peluncuran Layanan Internet Satelit SpaceX di Indonesia Membawa Konektivitas ke Pelosok Negeri
Teks tidak hanya bisa dibaca, tetapi juga diatur dalam cara yang kreatif, seperti halaman mesin ketik, poster film, atau menggunakan tipografi puisi. Anda bahkan bisa meminta 4o untuk menyertakan coretan di pinggirannya.
4. Aplikasi Asli untuk Mac dan Windows
Selain versi web ChatGPT, sekarang ada aplikasi Mac yang didedikasikan dengan dukungan pintas keyboard dan tangkapan layar, saat ini dibatasi hanya untuk pelanggan Plus. Sebuah aplikasi Windows seharusnya tersedia pada akhir 2024. Mungkin OpenAI tidak terburu-buru untuk menempatkan klien pihak pertama di Windows 11 – GPT adalah dasar dari Copilot, dan Microsoft mungkin tidak ingin teknologi Windows terintegrasi nya tersaingi.
5. Semua orang dapat mengakses GPT-4o secara gratis
Dalam beberapa hal, ini sebenarnya mungkin menjadi kemajuan terbesar. OpenAI biasanya membatasi versi paling canggih dari GPT, tetapi 4o gratis bagi setiap pengguna ChatGPT dari awal. Pembatasan utamanya ada pada percakapan suara real-time – yang dibatasi hanya untuk pelanggan Plus, begitu fitur tersebut benar-benar diluncurkan – dan jumlah prompt yang dapat Anda gunakan.
Baca juga: Microsoft Build Developer Conference: Membawa PC ke Era AI
Pelanggan ChatGPT Plus dan Tim mendapatkan lima kali lipat jumlah prompt, yang sangat penting, karena percakapan akan kembali ke GPT-3.5 begitu batas prompt Anda tercapai. Anda mungkin perlu Plus jika Anda mengharapkan GPT-4o berperilaku seperti komputer di Enterprise.