DeepSeek провалил последний экзамен человечества
DeepSeek провалил последний экзамен человечества
Искусственный интеллект, который в последние годы все чаще удивляет нас своими возможностями, неожиданно показал свою несостоятельность. DeepSeek и другие ИИ провалили так называемый «последний экзамен человечества».
Читайте также: Экзамен по истории для ИИ: какие результаты?
Ведущие модели ИИ — DeepSeek, OpenAI-o1 и Gemini 2.0 — с треском провалили новый сложный тест, едва набрав 9% правильных ответов. При этом сами системы были уверены в своей правоте более чем на 80%.
Что представляет собой «последний экзамен человечества»?
Тест получил громкое название — «Последний экзамен человечества». Его разработала международная команда под руководством Дэна Хендрикса из Центра безопасности ИИ и Саммер Юэ из компании Scale AI. В создании теста участвовали более тысячи ученых из 50 стран мира.
Искусственный интеллект. Фото: Анастасия Милош
Это 3000 сложнейших вопросов из более чем 100 областей науки — от математики и физики до лингвистики и философии. Причем на эти вопросы нельзя ответить, просто поискав информацию в интернете или проанализировав обучающие данные.
Самым успешным оказался искусственный интеллект OpenAI-o1, но и он справился лишь с 9,07% заданий при работе с изображениями.
В текстовом формате лучший результат показала модель DeepSeek-R1 — 9,35%. Другие известные системы, включая Gemini 2.0, Llama и Qwen, не преодолели даже барьер в 8% .
Особенно интересным оказался один факт — все модели ИИ были абсолютно уверены в правильности своих ответов, даже когда ошибались.
Команда исследователей отмечает, что модели ИИ не способны адекватно оценить пределы своих возможностей. Впрочем, эксперты считают, что такое отставание искусственного интеллекта от человека — явление временное.
Старое тестирование
Тестирование искусственного интеллекта долгое время напоминало обычные школьные проверки знаний. Системы проходили типовые испытания.
Цифровой разум. Фото: Анастасия Милош
Сегодня ведущие модели ИИ без труда набирают больше 90% в таких тестах. Это превратило прежние методы оценки в пустую формальность.
Раньше ИИ мог просто извлечь из памяти формулу закона Ома. Теперь же ему нужно применить этот закон в неожиданной ситуации. Это все равно что сравнивать заучивание правил с умением решать задачи.
По прогнозам, уже к концу 2025 года модели ИИ смогут решать более половины задач нового теста. Однако даже это не будет означать появление системы, равной человеку во всех областях.
Читайте также:
- Скандал с утечкой данных из DeepSeek
- 5 неожиданных способов использования GPT в быту
- Искусственный интеллект научился клонировать себя