NIST merilis sebuah alat untuk menguji risiko model AI

Institut Standar dan Teknologi Nasional (NIST), agensi Departemen Perdagangan AS yang mengembangkan dan menguji teknologi untuk pemerintah AS, perusahaan, dan masyarakat umum, telah merilis kembali suatu testbed yang dirancang untuk mengukur bagaimana serangan jahat — terutama serangan yang "meracuni" data pelatihan model AI — dapat menurunkan kinerja sistem AI.

Disebut Dioptra (setelah alat astronomi dan survei klasik), alat berbasis web modular dan open source, yang pertama kali dirilis pada tahun 2022, bertujuan untuk membantu perusahaan yang melatih model AI — dan orang-orang yang menggunakan model-model ini — menilai, menganalisis, dan melacak risiko AI. NIST mengatakan bahwa Dioptra dapat digunakan untuk melakukan benchmark dan penelitian terhadap model, serta memberikan platform umum untuk menghadapkan model-model tersebut dengan ancaman-ancaman yang disimulasikan dalam suatu lingkungan "red-teaming".

"Menguji efek serangan musuh pada model pembelajaran mesin adalah salah satu tujuan dari Dioptra," tulis NIST dalam sebuah rilis pers. "Perangkat lunak sumber terbuka ini, seperti menghasilkan anak yang tersedia untuk diunduh secara gratis, dapat membantu masyarakat, termasuk agensi pemerintah dan bisnis skala kecil hingga menengah, melakukan evaluasi untuk menilai klaim-klaim pengembang AI tentang kinerja sistem mereka."

Tangkapan layar antarmuka Dioptra.
Kredit Gambar: NIST

Dioptra diluncurkan bersamaan dengan dokumen-dokumen dari NIST dan Institute Keamanan AI yang baru saja diciptakan oleh NIST yang menguraikan cara-cara untuk mengurangi beberapa bahaya AI, seperti bagaimana AI dapat disalahgunakan untuk menghasilkan pornografi tanpa izin. Hal ini mengikuti peluncuran Inspect Institute Keamanan AI Inggris, sebuah set alat yang sama-sama ditujukan untuk menilai kemampuan-kemampuan model dan keselamatan model secara keseluruhan. AS dan Inggris memiliki kemitraan yang berkelanjutan untuk bersama-sama mengembangkan pengujian model AI canggih, yang diumumkan dalam AI Safety Summit Inggris di Bletchley Park pada November tahun lalu.

Dioptra juga merupakan produk dari perintah eksekutif Presiden Joe Biden tentang AI, yang mensyaratkan (antara lain) bahwa NIST membantu dalam pengujian sistem AI. Perintah eksekutif tersebut juga menetapkan standar untuk keselamatan dan keamanan AI, termasuk persyaratan bagi perusahaan yang mengembangkan model (misalnya Apple) untuk memberitahu pemerintah federal dan berbagi hasil semua tes keselamatan sebelum dideploy ke publik.

Seperti yang telah kami tulis sebelumnya, benchmark AI sulit — tidak hanya karena model-model AI paling canggih saat ini adalah kotak hitam yang infrastruktur, data pelatihan, dan detail-detail kunci lainnya dirahasiakan oleh perusahaan yang menciptakannya. Sebuah laporan bulan ini dari Institut Penelitian nirlaba berbasis Inggris, Ada Lovelace Institute, yang mempelajari AI, menemukan bahwa evaluasi sendirian tidak cukup untuk menentukan keselamatan dunia nyata dari suatu model AI karena kebijakan-kebijakan saat ini memungkinkan vendor AI untuk secara selektif memilih evaluasi yang akan dilakukan.

NIST tidak menyatakan bahwa Dioptra bisa sepenuhnya meniadakan risiko model. Namun agensi tersebut mengusulkan bahwa Dioptra dapat memberikan wawasan mengenai jenis serangan yang mungkin membuat sistem AI bekerja kurang efektif dan mengukur dampak ini pada kinerja.

Namun, dalam batasan utama, Dioptra hanya bekerja out-of-the-box pada model-model yang dapat diunduh dan digunakan secara lokal, seperti keluarga Llama Meta yang sedang berkembang. Model-model yang terkunci di balik API, seperti GPT-4o OpenAI, tidak bisa digunakan — setidaknya untuk saat ini.