
Sebuah laboratorium Tiongkok telah menciptakan apa yang tampaknya menjadi salah satu model Kecerdasan Buatan 'terbuka' terkuat hingga saat ini.
Model, DeepSeek V3, dikembangkan oleh perusahaan AI DeepSeek dan dirilis pada hari Rabu di bawah lisensi yang memungkinkan pengembang untuk mengunduh dan memodifikasinya untuk sebagian besar aplikasi, termasuk yang komersial.
DeepSeek V3 dapat menangani berbagai beban kerja dan tugas berbasis teks, seperti pemrograman, menerjemahkan, dan menulis esai serta email dari suatu petunjuk deskriptif.
Menurut pengujian benchmark internal DeepSeek, DeepSeek V3 melampaui baik model 'terbuka' yang dapat diunduh maupun model AI 'tertutup' yang hanya dapat diakses melalui API. Dalam sejumlah kompetisi pemrograman yang diadakan di platform Codeforces, platform untuk kontes pemrograman, DeepSeek mengungguli model lain, termasuk Llama 3.1 405B dari Meta, GPT-4o dari OpenAI, dan Qwen 2.5 72B dari Alibaba.
DeepSeek V3 juga mengalahkan kompetisi di Aider Polyglot, sebuah tes yang dirancang untuk mengukur, antara lain, apakah suatu model dapat menulis kode baru yang terintegrasi ke dalam kode yang sudah ada.
DeepSeek-V3!
60 token/detik (3x lebih cepat dari V2!)
Kompatibilitas API utuh
Model & paper sepenuhnya open-source
Parameter MoE 671B
Parameter yang diaktifkan 37B
Dilatih pada 14.8T token berkualitas tinggiMenang melawan Llama 3.1 405b pada hampir setiap benchmark https://t.co/OiHu17hBSI pic.twitter.com/jVwJU07dqf
— Chubby♨️ (@kimmonismus) 26 Desember 2024
DeepSeek menyatakan bahwa DeepSeek V3 dilatih dengan dataset 14,8 triliun token. Dalam ilmu data, token digunakan untuk mewakili bagian data mentah - 1 juta token setara dengan sekitar 750.000 kata.
Bukan hanya set pelatihan yang besar. DeepSeek V3 sangat besar: 671 miliar parameter, atau 685 miliar di platform pengembangan AI Hugging Face. (Parameter adalah variabel internal yang digunakan model untuk membuat prediksi atau keputusan.) Itu sekitar 1,6 kali lipat ukuran Llama 3.1 405B, yang memiliki 405 miliar parameter.
DeepSeek (perusahaan AI Tiongkok) membuatnya terlihat mudah hari ini dengan merilis bobot yang terbuka dari LLM kelas perbatasan yang dilatih dengan anggaran yang tidak masuk akal (2048 GPU selama 2 bulan, $6 juta).
— Andrej Karpathy (@karpathy) 26 Desember 2024
Sebagai referensi, tingkat kemampuan ini seharusnya memerlukan klaster yang lebih dekat dengan 16K GPU, yang sedang... https://t.co/EW7q2pQ94B
Hitungan parameter sering (tapi tidak selalu) berkorelasi dengan keahlian; model dengan lebih banyak parameter cenderung melampaui model dengan lebih sedikit parameter. Tetapi model besar juga memerlukan hardware yang lebih bertenaga untuk dijalankan. Versi yang belum dioptimalkan dari DeepSeek V3 akan membutuhkan bank GPU kelas atas untuk menjawab pertanyaan dengan kecepatan yang wajar.
Meskipun bukan model yang paling praktis, DeepSeek V3 adalah sebuah pencapaian dalam beberapa hal. DeepSeek dapat melatih model menggunakan pusat data Nvidia H800 GPU dalam waktu sekitar dua bulan - GPU yang beberapa waktu lalu dibatasi pengadaannya oleh perusahaan Tiongkok oleh Departemen Perdagangan AS. Perusahaan juga mengklaim hanya menghabiskan $5,5 juta untuk melatih DeepSeek V3, sebagian kecil dari biaya pengembangan model seperti GPT-4 dari OpenAI.
DeepSeek, sebagai perusahaan Tiongkok, tunduk pada pengujian oleh regulator internet Tiongkok untuk memastikan respon modelnya "menyuarakan nilai-nilai sosialis inti". Banyak sistem AI Tiongkok menolak untuk menjawab topik-topik yang dapat memancing kemarahan regulator, seperti spekulasi tentang rezim Xi Jinping.
DeepSeek, yang pada akhir November mengungkapkan DeepSeek-R1, sebuah jawaban terhadap model "pemikiran" o1 dari OpenAI, adalah organisasi yang menarik. Didukung oleh High-Flyer Capital Management, sebuah hedge fund kuantitatif Tiongkok yang menggunakan AI untuk menginformasikan keputusan perdagangannya.
High-Flyer membangun klaster server sendiri untuk pelatihan model, yang terbaru dilaporkan memiliki 10.000 Nvidia A100 GPU dan biayanya 1 miliar yen (sekitar $138 juta). Didirikan oleh Liang Wenfeng, seorang lulusan ilmu komputer, High-Flyer bertujuan untuk mencapai AI 'super cerdas' melalui organisasinya DeepSeek.
Dalam wawancara awal tahun ini, Wenfeng mencirikan AI sumber tertutup seperti OpenAI sebagai "parit sementara". "[Ini] tidak menghentikan orang lain untuk mengejarnya," katanya.
Memang.
TechCrunch memiliki buletin berbasis AI! Daftar di sini untuk mendapatkannya di kotak masuk Anda setiap Rabu.