Новая модель ИИ от OpenAI, использующая метод проб и ошибок, начала давать удивительные результаты в решении сложных задач. Этот метод, ранее применявшийся в игровых ИИ, таких как AlphaGo, теперь адаптируется для более широкого круга задач, включая языковые модели.
AlphaGo от DeepMind был первым ИИ, освоившим игру, не полагаясь на инструкции человека и не читая правил. Вместо этого он использовал обучение с подкреплением (RL), чтобы самостоятельно развивать свое понимание Го.
Такой подход позволил AlphaGo победить чемпиона Европы по Го со счетом 5: 0, а позже и лучшего игрока-человека в мире.
Последняя модель OpenAI, o1, дает замечательные результаты в решении аналогичных сложных задач. Как и AlphaGo, o1 формирует собственное понимание проблемных пространств методом проб и ошибок, не полагаясь на вклад человека.
Это делает его первой большой языковой моделью (LLM), создавшей собственную высокоэффективную интерпретацию решения проблем в стиле AlphaGo.
Этот метод позволяет ИИ решать ранее неразрешимые задачи, обучаясь на основе реальных взаимодействий, а не ограничиваясь языковыми данными. В результате ИИ сможет решать всё более сложные задачи, которые ранее были ему не по силам.
Хотя o1 имеет много общего с более ранними моделями, его ключевое отличие заключается в добавлении «времени на обдумывание» перед ответом на запрос.
На этом этапе o1 формирует «логическую цепочку», тщательно обдумывая и обосновывая свои рассуждения, прежде чем прийти к решению.
Эксперты предполагают, что этот новый подход к обучению приведёт к тому, что ИИ будет демонстрировать поведение, которое может показаться необычным или непредсказуемым, руководствуясь собственной уникальной логикой. Таким образом, ИИ может открывать новые знания и методы, недоступные человеческому пониманию. Будущее уже начинает разворачиваться.
Оценили 19 человек
32 кармы