AI

Deep Research от OpenAI бьет рекорды самого сложного в мире экзамена по искусственному интеллекту, оставляя позади ChatGPT o3-mini и DeepSeek

Улучшение на 183% менее чем за две недели

DeepMind от OpenAI побил рекорд самого сложного в мире экзамена по ИИ, ChatGPT O3-mini и DeepSeek не отстают

  • Самый мощный в мире ИИ повысил точность на 183% в самом сложном тесте всего за две недели
  • ChatGPT o3-mini теперь показывает точность до 13% в зависимости от емкости
  • OpenAI Deep Research превосходит конкурентов с точностью 26,6

Самый сложный в мире экзамен по искусственному интеллекту, финальный экзамен человечества, был запущен менее двух недель назад, и мы уже увидели огромный скачок в точности: ChatGPT o3-mini и OpenAI Deep Reasoning возглавили рейтинги.

Тест ИИ, созданный экспертами со всего мира, содержит некоторые из самых сложных вопросов и задач на рассуждение, известных человечеству — он настолько сложен, что когда я ранее писал о финальном экзамене для людей в статье, ссылка на которую приведена выше, я не мог понимать или хотя бы следовать каким-либо вопросам, не говоря уже о том, чтобы отвечать на них.

На момент написания статьи лидером рейтинга является всемирно известный DeepSeek R1 с точностью 9,4% при оценке только текста (не мультимодального). Теперь o3-mini, который OpenAI запустил ранее на этой неделе, имеет точность 10,5% на настройке o3-mini и 13% на настройке o3-mini-high, что умнее, но занимает больше времени. Время для генерации ответа.

Однако еще более впечатляющими оказались результаты нового ИИ-агента OpenAI Deep Research в тесте: новый инструмент набрал 26,6%, что на 183% больше точности менее чем за 10 дней. Теперь стоит отметить, что Deep Research имеет функцию поиска, что делает сравнение немного несправедливым, поскольку другие модели ИИ ее не имеют. Функция онлайн-поиска полезна для таких тестов, как финальный экзамен по человеческим знаниям, который содержит вопросы по общим знаниям.

Однако точность моделей, использующих результаты итоговых экзаменов людей, неуклонно повышается, что заставляет нас задуматься, сколько времени нам придется ждать, прежде чем модели ИИ приблизятся к достижению этого критерия. Реалистично, что в ближайшее время ИИ не сможет приблизиться к этому уровню, но я бы не стал делать ставку против этого.

Лучше, но 26,6% так и не дали мне никаких SAT

OpenAI Deep Research — невероятно впечатляющий инструмент, и я был поражен примерами, которые OpenAI показала, когда анонсировала ИИ-агента. Deep Research может выступать в роли вашего личного аналитика, сосредоточившись на проведении глубоких исследований и создании отчетов и ответов, на подготовку которых в противном случае у человека ушли бы часы работы.

Хотя человеческий результат в 26,6% на последнем экзамене впечатляет, особенно если учесть, насколько поднялась таблица лидеров всего за несколько недель, в абсолютном выражении он все равно низкий — и никто не будет утверждать, что результаты ниже 50 считаются пройденным тестом в реальном мире.

Выпускной экзамен для человека — это отличный ориентир, который окажется бесценным по мере дальнейшего развития моделей ИИ, позволяя нам оценить, насколько далеко они продвинулись. Сколько времени нам придется ждать, прежде чем ИИ преодолеет отметку в 50%? Какая модель добьется этого первой?

источник

OpenAI создали ИИ-аналитика! Глубокие исследования без участия человека Презентация на русском.

OpenAI представили Deep Research – ИИ-агент, способный к многослойному исследованию в интернете! Этот новый ...

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

error: Content is protected !!