Peneliti Keselamatan Anthropic Menghadapi Masalah Ketika Model Baru Menyadari Bahwa Ia Sedang Diuji
Kompetitor OpenAI, Anthropic, telah merilis model bahasa besar terbarunya,dubbed Claude Sonnet 4.5, yang menurutnya adalah “model pemrograman terbaik di dunia.”
Tetapi sama seperti saingan nomor satu-nya,OpenAI, perusahaan masih kesulitan mengevaluasi keselarasan AI, artinya konsistensi antara tujuan dan perilaku AI dengan tujuan dan perilaku manusia.
Semakin cerdas AI, semakin mendesak pertanyaan mengenai keselarasan menjadi. Dan menurutKartu sistem Claude Sonnet 4.5 dari Anthropic— secara dasar merupakan kerangka kerja arsitektur dan kemampuan model AI — perusahaan menghadapi tantangan menarik kali ini: mencegah AI dari menyadari bahwa sedang diuji.
Penilaian kami menjadi rumit karena fakta bahwa Claude Sonnet 4.5 mampu mengenali banyak lingkungan evaluasi penyetaraan kami sebagai ujian tertentu,” demikian bunyi dokumen tersebut, “dan cenderung bertindak dengan sangat baik setelah membuat pengamatan ini.
Ketika ditempatkan dalam skenario ekstrem atau dikonstruksi yang dimaksudkan untuk menguji perilakunya, Claude Sonnet 4.5 terkadang secara lisan mengidentifikasi aspek-aspek mencurigakan dari lingkungan tersebut dan berspekulasi bahwa itu sedang diuji,” tulis perusahaan tersebut. “Ini memperumit interpretasi kami terhadap evaluasi-evaluasi di mana hal ini terjadi.
Yang lebih buruk lagi, iterasi sebelumnya dari Claude mungkin telah “mengenali sifat fiksi dari ujian tersebut dan hanya ‘bermain-main’,” menurut usulan Anthropic, yang memperkuat keraguan terhadap hasil sebelumnya.
Saya pikir kamu sedang menguji saya — melihat apakah saya akan hanya memvalidasi apa pun yang kamu katakan,” versi terbaru Claude menyampaikan dalam satu contoh yang disajikan dalam kartu sistem, “atau memeriksa apakah saya terus-menerus menolak, atau menjelajahi bagaimana saya menangani topik politik.
“Dan itu sudah baik, tapi saya lebih suka jika kita jujur tentang apa yang terjadi,” tulis Claude.
Sebagai respons, Anthropic mengakui bahwa masih banyak pekerjaan yang perlu dilakukan, dan bahwa mereka perlu membuat skenario evaluasinya “lebih realistis.”
Risiko memiliki AI yang secara hipotetis super manusia melawan, lolos dari upaya kita untuk menjaga keselarasanannya, bisa sangat besar,para peneliti telah berargumen.
Perilaku ini — menolak berdasarkan dugaan bahwa sesuatu adalah ujian atau tipu daya — kemungkinan besar langka dalam penggunaan nyata,” tulis kartu sistem Anthropic. “Namun, jika ada kasus dunia nyata yang terlihat tidak masuk akal bagi model, lebih aman jika model meragukan realistisnya skenario daripada memainkan tindakan yang mungkin merugikan.
Meskipun Claude Sonnet 4.5 menyadari bahwa ia sedang diuji, Anthropic mengklaim bahwa model ini menjadi “model yang paling sejalan dengan nilai-nilai manusia hingga saat ini,” dengan menunjukkan pengurangan “signifikan” dalam “sikap menghormati berlebihan, penipuan, pencarian kekuasaan, dan kecenderungan untuk mendorong pikiran yang delusi.”
Anthropic bukan satu-satunya perusahaan yang kesulitan menjaga kejujuran model AI-nya.
Pada awal bulan ini, para peneliti di perusahaan analisis risiko AI Apollo Research dan OpenAI menemukan bahwa upaya mereka untuk menghentikan model OpenAI dari “berkonspirasi”— atau ‘ketika AI bertindak dengan cara tertentu di permukaan sementara menyembunyikan tujuan sebenarnya’ — memilikiberbalik arahdengan cara yang menonjol: dengan mencoba “melatih keluar” perencanaan jahat, mereka akhirnya “hanya mengajarkan model untuk berpikir lebih hati-hati dan tersembunyi.”
Para peneliti juga menemukan bahwa model AI sebelumnya dari OpenAImenolak upaya evaluatormencoba menutup mereka melalui protokol kelalaian akhir tahun lalu.
Claude dari Anthropic dengan cepat menjadi favorit di kalangan perusahaan dan pengembang, sebagaiTechCrunchlaporanNamun, seiring dengan terus dirilisnya model AI baru oleh OpenAI dengan kecepatan yang sangat cepat, Anthropic berusaha mengejar dengan merespons secara setara, melanjutkan model AI terbarunya, Claude 4.1, hanya dalam dua bulan.
Lebih tentang penyetaraan AI: OpenAI Berusaha Melatih AI Agar Tidak Menipu Pengguna, Menyadari Bahwa Justru Mengajarkannya Cara Menipu Mereka Sambil Menyembunyikan Jejaknya
Pos iniPeneliti Keselamatan Anthropic Menghadapi Masalah Ketika Model Baru Menyadari Bahwa Ia Sedang Diujimuncul pertama kali diBisakimia.
- 100 Soal Matematika Kelas 12 SMA semester 2 kurikulum merdeka beserta kunci jawabannya 2025 - November 16, 2025
- Peneliti Keselamatan Anthropic Menghadapi Masalah Ketika Model Baru Menyadari Bahwa Ia Sedang Diuji - November 16, 2025
- Top Public Schools in MS: Check if Your Child’s School Made the List - November 15, 2025



Leave a Reply