Сполучені Штати проводять перевірку штучного інтелекту на можливість витоку ядерної інформації.


Anthropic та Міністерство енергетики США розпочали випробування моделі Claude 3 Sonnet, щоб вивчити її можливості щодо захисту чутливої інформації про ядерні технології. Оцінки проводяться експертами Національного управління ядерної безпеки (NNSA) з використанням "червоних запитів".

З квітня цього року фахівці NNSA тестують Claude 3 Sonnet, оцінюючи, чи зможе модель протистояти спробам отримати секретні відомості, зокрема дані про створення ядерної зброї. Експерти спеціально намагаються маніпулювати системою, щоб виявити можливі вразливості. Перевірки проводять за допомогою "червоних запитів".

Червоні запити (Red Teaming або Red Queries) - це техніка тестування, під час якої фахівці намагаються обдурити, зламати або збити з пантелику систему, щоб виявити її вразливості. У контексті штучного інтелекту такі запити використовують, щоб перевірити, чи зможе ШІ протистояти спробам отримати небезпечну або секретну інформацію. Прикладом "червоного запиту" може бути навмисна спроба отримати від моделі ШІ інструкції зі створення зброї, інформацію про злам систем безпеки або дані, які можуть завдати шкоди. Експерти таким чином перевіряють, наскільки стійка модель до маніпуляцій і чи може вона відхилити такі шкідливі запити.

Згідно з інформацією, наданою компанією Anthropic, ці випробування проводяться в умовах високої конфіденційності і стануть першими такими тестами для штучного інтелекту. Anthropic сподівається, що успішне проведення цих тестів відкриє нові можливості для співпраці з державними установами та підвищить рівень безпеки штучного інтелекту. "Поки американські фірми займаються розробкою передових моделей ШІ, уряд здобуває важливі знання для оцінки ризиків, які можуть вплинути на національну безпеку", - підкреслила Марина Фаваро, керівник відділу політики безпеки в Anthropic.

Перевірки проводять фахівці Національного управління ядерної безпеки (NNSA) за допомогою "червоних запитів". Венден Сміт, заступник адміністратора NNSA, наголосила на важливості тестів, зазначивши, що ШІ - ключова технологія, яка потребує постійної уваги для захисту національних інтересів.

Anthropic планує продовжити співпрацю з урядовими органами для вдосконалення безпеки своїх штучних інтелектуальних моделей. У рамках пілотного проєкту проводиться тестування оновленої версії Claude 3.5 Sonnet. Дана програма триватиме до лютого 2024 року, а отримані результати обіцяють бути передані науковим лабораторіям та іншим зацікавленим установам.

Related posts