Соцсети разносят график, на котором видно, что o3 превзошла уровень PhD

2 510

И не просто PhD (доктор наук), а PhD, которые отвечают на вопросы своей области с использованием к тому же Google

Бенчмарк – GPQA Diamond от Google

 

Это самый сложный существующий тест из семейства GPQA (Graduate-Level Q&A), в нем 198 очень сложных вопросов по биологии, физике и химии.

Эти задачи многосоставные и требуют многошагового абстрактного мышления, так что даже эксперты обычно решают его на 65 %

При этом всем о3 все еще остается очень дорогой моделью, да еще и не слишком экологичной

Кто-то на форумах посчитал (расчеты кстати, интересные), что в high compute режиме на обслуживание одной таски о3 будет тратить около 684 кг. углекислого газа, что примерно равняется выбросам от пяти полностью заправленных баков автомобилей

Радует только то, что модели очень быстро дешевеют, отрицать это нельзя
Например, наверху еще один график, который показывает соотношение стоимости и перформанса на ARC AGI

Смотрите: o3-mini выбивает примерно также, как o1, но стоит при этом намноооого меньше
И тенденция (пока что) будет сохраняться.

https://matveychev-oleg....

Котёл потёк: Как Зеленский подставил себя на переговорах терактом в регионах России

Одна из самых часто подходящих для цитирования фраз звучит как «Иногда, пытаясь отсрочить судьбу, мы невольно приближаем её». Мастер Угвэй сказал так хорошо, что она подходит к массе с...

«Я с азартом туда пошел»: участники подземного штурма Суджи поделились впечатлениями от операции
  • Beria
  • Вчера 13:59
  • В топе

Штурмовикам ВС РФ, которые участвовали в операции по прорыву в Суджу через трубу газопровода Уренгой – Помары – Ужгород, приходилось передвигаться ползком или сильно пригнувшись. Об эт...

Обсудить
    • Dux
    • 6 февраля 13:02
    Ну что ж, ждем полноценный AGI и медленно уползаем на кладбище))
  • Приведите примеры вопросов