DeepSeek провалил последний экзамен человечества

Лучшие системы искусственного интеллекта показали неожиданно низкие результаты в новом научном тесте.

Искусственный интеллект, который в последние годы все чаще удивляет нас своими возможностями, неожиданно показал свою несостоятельность. DeepSeek и другие ИИ провалили так называемый «последний экзамен человечества».

Ведущие модели ИИ — DeepSeek, OpenAI-o1 и Gemini 2.0 — с треском провалили новый сложный тест, едва набрав 9% правильных ответов. При этом сами системы были уверены в своей правоте более чем на 80%.

Что представляет собой «последний экзамен человечества»?

Тест получил громкое название — «Последний экзамен человечества». Его разработала международная команда под руководством Дэна Хендрикса из Центра безопасности ИИ и Саммер Юэ из компании Scale AI. В создании теста участвовали более тысячи ученых из 50 стран мира.

Искусственный интеллект. Фото: Анастасия Милош

Это 3000 сложнейших вопросов из более чем 100 областей науки — от математики и физики до лингвистики и философии. Причем на эти вопросы нельзя ответить, просто поискав информацию в интернете или проанализировав обучающие данные.

Самым успешным оказался искусственный интеллект OpenAI-o1, но и он справился лишь с 9,07% заданий при работе с изображениями.

В текстовом формате лучший результат показала модель DeepSeek-R1 — 9,35%. Другие известные системы, включая Gemini 2.0, Llama и Qwen, не преодолели даже барьер в 8% .

Особенно интересным оказался один факт — все модели ИИ были абсолютно уверены в правильности своих ответов, даже когда ошибались.

Команда исследователей отмечает, что модели ИИ не способны адекватно оценить пределы своих возможностей. Впрочем, эксперты считают, что такое отставание искусственного интеллекта от человека — явление временное.

Старое тестирование

Тестирование искусственного интеллекта долгое время напоминало обычные школьные проверки знаний. Системы проходили типовые испытания.

Цифровой разум. Фото: Анастасия Милош

Сегодня ведущие модели ИИ без труда набирают больше 90% в таких тестах. Это превратило прежние методы оценки в пустую формальность.

Раньше ИИ мог просто извлечь из памяти формулу закона Ома. Теперь же ему нужно применить этот закон в неожиданной ситуации. Это все равно что сравнивать заучивание правил с умением решать задачи.

По прогнозам, уже к концу 2025 года модели ИИ смогут решать более половины задач нового теста. Однако даже это не будет означать появление системы, равной человеку во всех областях.

Обсуждение

0 комментариев

Старые

Новые Популярные

Межтекстовые Отзывы

Посмотреть все комментарии

Тестирование ePA: система не готова к масштабированию

Вчера в 17:42

Meta AI станет доступен в ЕС уже со следующей недели

Вчера в 17:00

В древней галактике найден кислород: его не должно быть там!

22 марта 2025 в 00:15

Титановое сердце: австралиец прожил 100 дней без пульса

20 марта 2025 в 16:19

Поспать на 500 € за науку: необычный эксперимент в Кельне

18 марта 2025 в 01:52

Партнерский материал

Новый роман Виктора Ерофеева “Великий гопник” – доступен!

Как выглядит Антарктида без льда: карта преподнесла сюрприз

14 марта 2025 в 21:14

Глобальный сбой: вышла из строя платформа Илона Маска Х

10 марта 2025 в 19:16

NASA отключает инструменты Voyager

10 марта 2025 в 00:17

Лекарства печатают на 3D-принтере: новые возможности в фармацевтике

08 марта 2025 в 10:00

Фотонные чипы: стартап из Штутгарта заменяет электронику

07 марта 2025 в 21:48

Стоит ли переходить на Windows 11: Microsoft прекращает поддержку Windows 10

06 марта 2025 в 14:33

Использование любых материалов, размещённых на сайте, разрешается при условии ссылки на наш сайт. При копировании материалов для интернет-изданий – обязательна прямая открытая для поисковых систем гиперссылка. Ссылка должна быть размещена в независимости от полного либо частичного использования материалов. Гиперссылка (для интернет- изданий) – должна быть размещена в подзаголовке или в первом абзаце материала. Ответственность за достоверность фактов, цитат, имён собственных и другой информации несут авторы публикаций, а рекламной информации – рекламодатели. Редакция может не разделять мнение авторов. Рукописи и электронные материалы не рецензируются и не возвращаются. Редакция оставляет за собой право редактировать материалы. При использовании наших материалов – ссылка на газету обязательна.

DeepSeek провалил последний экзамен человечества