
OpenAI pada hari Jumat meluncurkan model AI "pemikiran" baru, o3-mini, yang terbaru dalam keluarga model pemikiran o milik perusahaan tersebut.
OpenAI pertama kali memperkenalkan model ini pada bulan Desember bersamaan dengan sistem yang lebih canggih bernama o3, tetapi peluncuran ini datang pada momen penting bagi perusahaan ini, yang ambisinya - dan tantangannya - tampaknya semakin berkembang setiap harinya.
OpenAI sedang memerangi persepsi bahwa mereka kehilangan posisi dalam perlombaan kecerdasan buatan kepada perusahaan Tiongkok seperti DeepSeek, yang dituduh OpenAI telah mencuri kekayaan intelektualnya. Perusahaan ini telah berusaha untuk memperkuat hubungannya dengan Washington sambil secara bersamaan mengejar proyek pusat data yang ambisius, dan seperti dilaporkan, mereka sedang mempersiapkan salah satu putaran pendanaan terbesar dalam sejarah.
Yang membawa kita kepada o3-mini. OpenAI memasarkan model baru ini sebagai "kuat" dan "terjangkau".
"Peluncuran hari ini menandai [...] langkah penting menuju perluasan aksesibilitas ke kecerdasan buatan canggih demi misi kami," kata juru bicara OpenAI kepada TechCrunch.
Penalaran yang lebih efisien
Berbeda dengan kebanyakan model bahasa besar, model pemikiran seperti o3-mini melakukan pemeriksaan fakta secara menyeluruh sebelum memberikan hasil. Ini membantu mereka menghindari beberapa kesalahan yang biasanya menghambat model. Model pemikiran ini memang membutuhkan waktu lebih lama untuk mencapai solusi, tetapi komprominya adalah mereka cenderung lebih dapat diandalkan - meskipun tidak sempurna - di domain seperti fisika.
O3-mini dioptimalkan untuk masalah STEM, khususnya untuk pemrograman, matematika, dan sains. OpenAI mengklaim bahwa model ini secara umum sebanding dengan keluarga o1, o1 dan o1-mini, dalam hal kemampuan, tetapi berjalan lebih cepat dan biayanya lebih murah.
Perusahaan tersebut mengklaim bahwa para pengujian eksternal lebih menyukai jawaban o3-mini daripada jawaban dari o1-mini lebih dari setengah waktu. O3-mini juga secara nyata membuat 39% lebih sedikit "kesalahan besar" pada "pertanyaan dunia nyata yang sulit" dalam tes A/B dibandingkan o1-mini, dan menghasilkan jawaban yang "lebih jelas" sambil memberikan jawaban sekitar 24% lebih cepat.
O3-mini akan tersedia untuk semua pengguna melalui ChatGPT mulai Jumat, tetapi pengguna yang membayar untuk rencana ChatGPT Plus dan Team dari OpenAI akan mendapatkan batas permintaan lebih tinggi sebesar 150 kueri per hari. Langganan ChatGPT Pro akan mendapatkan akses tanpa batas, dan o3-mini akan tersedia untuk pelanggan ChatGPT Enterprise dan ChatGPT Edu dalam seminggu. (Belum ada informasi mengenai ChatGPT Gov).
Pengguna dengan rencana premium dapat memilih o3-mini menggunakan menu drop-down ChatGPT. Pengguna gratis dapat mengklik atau menyentuh tombol "Reason" baru di bilah obrolan, atau membuat ChatGPT "menghasilkan ulang" jawaban.
Mulai Jumat, o3-mini juga akan tersedia melalui API OpenAI kepada pengembang terpilih, tetapi awalnya tidak akan memiliki dukungan untuk menganalisis gambar. Pengembang dapat memilih tingkat "upaya penalaran" (rendah, sedang, atau tinggi) untuk membuat o3-mini "berpikir lebih keras" berdasarkan kasus penggunaan dan kebutuhan latensi mereka.
O3-mini dihargai sebesar $0,55 per juta token input yang di-cache dan $4,40 per juta token output, di mana satu juta token setara dengan sekitar 750.000 kata. Harganya 63% lebih murah daripada o1-mini, dan bersaing dengan harga model pemikiran R1 dari DeepSeek. DeepSeek mengenakan biaya sebesar $0,14 per juta token input yang di-cache dan $2,19 per juta token output untuk akses R1 melalui API mereka.
Pada ChatGPT, o3-mini diatur dengan upaya penalaran sedang, yang menurut OpenAI memberikan "keseimbangan antara kecepatan dan akurasi." Pengguna berbayar akan memiliki opsi untuk memilih "o3-mini-tinggi" dalam pemilih model, yang akan memberikan apa yang OpenAI sebut sebagai "kecerdasan yang lebih tinggi" sebagai gantinya akan respon yang lebih lambat.
Terlepas dari versi o3-mini yang dipilih pengguna ChatGPT, model ini akan bekerja dengan pencarian untuk menemukan jawaban yang terkini dengan tautan ke sumber web yang relevan. OpenAI memperingatkan bahwa fungsionalitas ini masih dalam tahap "prototipe" saat mereka berusaha untuk mengintegrasikan pencarian di seluruh model pemikiran mereka.
"Sementara o1 tetap menjadi model pemikiran pengetahuan umum kami, o3-mini memberikan alternatif khusus untuk domain teknis yang membutuhkan ketepatan dan kecepatan," tulis OpenAI dalam sebuah pos blog pada hari Jumat. "Peluncuran o3-mini merupakan langkah lain dalam misi OpenAI untuk mendorong batas-batas kecerdasan yang hemat biaya."
Catatan penting
O3-mini bukanlah model terkuat yang pernah dimiliki OpenAI, dan juga tidak melampaui model pemikiran R1 milik DeepSeek dalam setiap uji benchmark.
O3-mini mengungguli R1 pada AIME 2024, sebuah tes yang mengukur seberapa baik model memahami dan merespons instruksi kompleks - tetapi hanya dengan upaya penalaran tinggi. Ia juga mengalahkan R1 pada tes berbasis pemrograman SWE-bench Verified (sebesar 0,1 poin), tetapi sekali lagi, hanya dengan upaya penalaran tinggi. Pada upaya penalaran rendah, o3-mini tertinggal dari R1 pada GPQA Diamond, yang menguji model dengan pertanyaan fisika, biologi, dan kimia tingkat PhD.
Harus diakui, o3-mini menjawab banyak pertanyaan dengan biaya dan latensi yang kompetitif. Dalam pos tersebut, OpenAI membandingkan kinerjanya dengan keluarga o1:
"Dengan upaya penalaran rendah, o3-mini mencapai kinerja yang sebanding dengan o1-mini, sedangkan dengan upaya sedang, o3-mini mencapai kinerja yang sebanding dengan o1," tulis OpenAI. "O3-mini dengan upaya penalaran sedang mencocokkan kinerja o1 dalam matematika, pemrograman, dan sains sambil memberikan respon yang lebih cepat. Sementara itu, dengan upaya penalaran tinggi, o3-mini melampaui keduanya, o1-mini dan o1."
Harus dicatat bahwa keunggulan kinerja o3-mini dibandingkan dengan o1 tipis di beberapa area. Pada AIME 2024, o3-mini mengalahkan o1 hanya dengan selisih 0,3 poin persentase saat diatur dengan upaya penalaran tinggi. Dan pada GPQA Diamond, o3-mini tidak melampaui skor o1 bahkan pada upaya penalaran tinggi.
OpenAI menegaskan bahwa o3-mini sama "aman" atau lebih aman daripada keluarga o1, namun, berkat upaya red-teaming dan metodologi "penyesuaian deliberatif" mereka, yang membuat model "memikirkan" kebijakan keamanan OpenAI saat mereka merespons pertanyaan. Menurut perusahaan ini, o3-mini "signifikan melebihi" salah satu model andalan OpenAI, GPT-4o, dalam "evaluasi keamanan dan jailbreak yang menantang."
TechCrunch memiliki buletin fokus AI! Daftar di sini untuk mendapatkannya di kotak masuk Anda setiap hari Rabu.