Джанна Тема Лицензия не подтверждена. Перейдите на страницу параметров темы, чтобы подтвердить лицензию. Вам нужна отдельная лицензия для каждого доменного имени.

5 причин, по которым ChatGPT o3-mini превосходит другие модели ИИ

Наконец, OpenAI запустила свою новаторскую модель. о3-мини В ответ на китайскую модель мышления DeepSeek R1 в эти выходные. Серия моделей o3 была анонсирована в декабре прошлого года. OpenAI не теряла времени даром и запустила o3-mini и o3-mini-high, чтобы сохранить лидерство в гонке ИИ. Итак, нам стало интересно, в чем же преимущество ChatGPT o3-mini перед другими моделями ИИ, и мы решили протестировать его. Мы проверили его навыки программирования и подробно обсудили различные критерии. Исходя из этого, давайте углубимся в тему.

1. Исключительная производительность программного обеспечения

По данным OpenAI, модель o3-mini обеспечивает исключительную производительность программного обеспечения при сохранении низкой стоимости и высокой скорости. До o3-mini была выпущена модель Claude 3.5 Sonnet от Anthropic. Клод 3.5 Сонет Это лучший выбор для программных запросов. Но ситуация меняется с выпуском o3-mini, в частности, модели o3-mini-high, доступной пользователям ChatGPT Plus и Pro.

Создайте самостоятельную игру «Змейка» с помощью o3 mini

Я протестировал модель. o3-мини-высокий Я попросил его создать игру «Змейка» на Python, в которой несколько самодвижущихся змей соревнуются друг с другом. Для генерации всего кода Python за один раз модели потребовалась 10 минута и XNUMX секунд.

Когда я выполнил код, он отработал гладко и без каких-либо проблем. Было забавно наблюдать, как змеи двигаются сами по себе с такой высокой точностью, совсем как игроки-люди!

Самостоятельная игра «Змейка», разработанная o3 mini

Модель o3-mini-high набрала 2,130 баллов на платформе соревновательного программирования Codeforces, что позволило ей войти в число 2500 лучших программистов мира. Кроме того, в тесте SWE-bench Verified, который оценивает способность решать реальные проблемы программного обеспечения, o3-mini-high достиг точности 49.3%, что составляет Выше, чем более крупная модель O1 (48.9%).

Поэтому я думаю, что модель o3-mini-high покажет наилучшие результаты в Помощь в программировании ИИ До тех пор, пока не будет выпущена полная модель O3, которая, по словам Сэма Альтмана, выйдет через несколько недель.

2. Задавайте сложные математические задачи.

Помимо программирования, математика — еще одна область, в которой модель o3-mini превосходит другие модели ИИ. На Американском экзамене по математике 2024 года (AIME), который включает вопросы по теории чисел, вероятности, алгебре, геометрии и т. д., o3-mini-high показал поразительный результат — 87.3%, превзойдя полный o1.

o3 mini aime 2024 бенчмарк

На строгом тесте FrontierMath, включающем сложные математические задачи, созданные ведущими математиками, обладателями медали Филдса и профессорами со всего мира, модель o3-mini-high набрала 20% после восьми попыток. Даже в одной попытке он набрал 9.2%, что немаловажно.

Чтобы прояснить ситуацию, известный математик Теренс Тао описал задачи теста FrontierMath как «чрезвычайно сложные». На ее решение могут уйти часы или дни даже у опытных математиков. Напротив, другие альтернативы ChatGPT смогли достичь лишь 2% в этом тесте.

3. Ваш научный эксперт уровня доктора наук

Модель o3-mini-high также отлично справляется с ответами на сложные научные вопросы на уровне докторантуры, значительно превосходя другие модели ИИ. GPQA Diamond — это продвинутый стандарт, который оценивает возможности моделей ИИ в специализированных научных областях и состоит из сложных вопросов в области биологии, физики и химии.

o3 mini gpqa алмазный бенчмарк

В тесте GPQA Diamond модель o3-mini-high показала впечатляющие 79.7%, превзойдя более крупную модель o1 (78.0%). Для сравнения, последняя модель логического мышления от Google, Gemini 2.0 Flash Thinking (Exp-01-21), набрала 73.3%. Даже новая модель Claude 3.5 Sonnet набрала всего 65% по стандарту GPQA Diamond.

Это показывает, что меньшая модель OpenAI o3-mini, если предоставить ей больше времени и вычислительной мощности для размышлений, может превзойти другие модели ИИ при ответах на специализированные научные вопросы.

4. Общие знания

В общих областях знаний o3-mini, как ожидается, не превзойдет более крупные модели ввиду своего небольшого размера и специализации в области программирования, математики и естественных наук. Однако, несмотря на свои небольшие размеры, он весьма близок к более крупным моделям. В тесте MMLU, который измеряет производительность моделей ИИ по широкому кругу тем, o3-mini-high набрала 86.9%, а модель OpenAI GPT-4o набрала 88.7%.

o3 mini MMLU бенчмарк

Однако ожидается, что готовящаяся к выпуску полноценная модель O3 легко превзойдет все текущие модели ИИ в общих областях знаний. Этот прогноз основан на производительности полной модели o1, которая уже достигла 92.3% на тесте MMLU. Теперь нам придется ждать полной модели O3, которая могла бы полностью соответствовать стандарту.

Используйте веб-поиск с помощью o3-mini

Модель o3-mini известна только по данным, доступным до октября 2023 года, которые на данный момент являются относительно устаревшими. Однако OpenAI добавила поддержку веб-поиска в модель o3-mini, что позволяет модели рассуждений извлекать последнюю информацию из Интернета и выполнять сложные операции рассуждения. DeepSeek R1 тоже это делает, но ни одна другая модель рассуждений не позволяет вам получить доступ к Интернету для более логичных рассуждений. Это обновление значительно расширяет возможности o3-mini по обработке постоянно меняющейся информации.

Итак, вот некоторые из расширенных возможностей модели o3-mini. пока Пользователи бесплатного ChatGPT могут получить доступ к o3-mini«Мыслительное усилие» установлено на «Среднее», что потребляет меньше вычислительной мощности. Это означает, что результаты могут быть менее точными и подробными по сравнению с платной версией.

Поэтому я рекомендую оформить подписку на ChatGPT Plus, которая стоит 20 долларов в месяц, чтобы разблокировать мощную модель «o3-mini-high». Для профессиональных программистов, исследователей и студентов STEM-специалистов модель o3-mini-high может оказаться очень полезной, поскольку она обеспечивает расширенные возможности рассуждений и более высокую точность результатов.

Перейти к верхней кнопке