И не просто PhD (доктор наук), а PhD, которые отвечают на вопросы своей области с использованием к тому же Google
Бенчмарк – GPQA Diamond от Google
Это самый сложный существующий тест из семейства GPQA (Graduate-Level Q&A), в нем 198 очень сложных вопросов по биологии, физике и химии.
Эти задачи многосоставные и требуют многошагового абстрактного мышления, так что даже эксперты обычно решают его на 65 %
При этом всем о3 все еще остается очень дорогой моделью, да еще и не слишком экологичной
Кто-то на форумах посчитал (расчеты кстати, интересные), что в high compute режиме на обслуживание одной таски о3 будет тратить около 684 кг. углекислого газа, что примерно равняется выбросам от пяти полностью заправленных баков автомобилей
Радует только то, что модели очень быстро дешевеют, отрицать это нельзя
Например, наверху еще один график, который показывает соотношение стоимости и перформанса на ARC AGI
Смотрите: o3-mini выбивает примерно также, как o1, но стоит при этом намноооого меньше
И тенденция (пока что) будет сохраняться.
Оценили 5 человек
8 кармы