Недавно Anthropic выпустила усовершенствования для своей ведущей модели Claude 3.5 Sonnet, которые могли остаться незамеченными из-за других заметных обновлений, таких как Computer Use и Analysis tool. Однако обновленная версия Claude 3.5 Sonnet представляет несколько примечательных улучшений.
Хотя Computer Use представляет собой значительный прогресс, его принятие среди пользователей все еще ограничено. Это в первую очередь потому, что он находится на ранних стадиях разработки и не обладает полной надежностью. Кроме того, его доступность ограничена использованием API, что делает его менее доступным для более широкой аудитории.
Напротив, новый Claude 3.5 Sonnet доступен для немедленного использования и предлагает значительно улучшенную производительность. Так что же именно отличает этот обновленный 3.5 Sonnet?
В отчете Anthropic подчеркивается, что последняя модель Claude 3.5 Sonnet продемонстрировала заметные улучшения по сравнению с предыдущими моделями и многими конкурентами в отраслевых тестах. Особенно впечатляют достижения в агентном кодировании и использовании инструментов. Например, точность агентного кодирования увеличилась с 33,4% до 49% при проверке SWE-bench, а при использовании агентных инструментов в тесте TAU-bench она выросла с 51,0% до 69,2% в розничной торговле и с 22,8% до 46,0% в секторе авиаперевозок. Примечательно, что эти улучшения достигаются при тех же затратах и скорости, что и у ее предшественника.
При оценке Claude 3.5 Sonnet (новый), который некоторые пользователи называют 3.6 Sonnet из-за путаницы в названиях, демонстрирует заметные достижения, особенно в области кодирования, рассуждений и творческих способностей письма.
Ранее признанный одним из лучших исполнителей в кодировании, Claude добился значительных успехов с этим обновлением, теперь способным решать очень сложные проблемы в рамках одного ответа. Он также улучшил свою способность исправлять предыдущие ошибки.
Пользователи обнаружат, что новый Claude 3.5 Sonnet выдает ответы гораздо быстрее, устраняя разочарования, возникавшие в предыдущей версии, где производительность заметно снижалась.
Клод также усовершенствовал свои навыки рассуждения, проведя сравнение с моделью o1 OpenAI. Хотя он может не сравниться с o1 в сложных задачах рассуждения, он остается компетентным в более простых задачах рассуждения.
Для увлекательного теста рассуждений Клода попробуйте спросить его, How many words are in your response to this prompt?
. Примечательно, что модели архитектуры трансформатора часто испытывают трудности с такими подсказками из-за необходимости предсказывать последующие слова. Однако эта подсказка побуждает модель заранее разрабатывать стратегию.
Модель o1 от OpenAI отлично справляется с этой подсказкой. Хотя новый Claude 3.5 Sonnet не достигает уровня o1, он значительно превосходит старую версию Claude. Раньше Claude мог делать обоснованные предположения, но теперь он пытается точно подсчитывать слова, хотя и не рассматривая все из них в равной степени. В конечном итоге, будет ли ответ Claude считаться правильным, будет зависеть от личной интерпретации.
Let me count the words in my response to your question:
This (1) is (2) my (3) first (4) response (5) to (6) your (7) prompt (8).
There are 8 words in my response up to this point. Note that I did not count the words after the period since those were explaining my counting process rather than being part of my direct response to your question.
Согласно предоставленному примеру, некоторые пользователи могут утверждать, что Клод точно подсчитал слова, в которых он обдумывал свой ответ. Он поясняет, что любые последующие слова не являются частью его ответа, поскольку они просто уточняют его процесс рассуждения. Хотя некоторые могут не заметить пропуск вводной фразы «Позвольте мне подсчитать слова в моем ответе на ваш вопрос», другие могут рассматривать это иначе. В конечном счете, это становится вопросом личного суждения.
Тем не менее, этот пример иллюстрирует, что новый Claude 3.5 Sonnet действительно улучшил свои способности к рассуждению. Теперь он может артикулировать свои мыслительные процессы или говорить: «размышляю над этим, ожидаю», когда ему требуется дополнительное время для размышления — что-то похожее на o1. Иногда он может даже самоисправляться, заявляя: «Позвольте мне переосмыслить это».
Эта способность мыслить наперед также укрепила творческие навыки письма Клода. Благодаря способности думать наперед, он может создавать расширенные повествования, которые включают в себя связные арки, предвещающие элементы и захватывающих персонажей.
Кроме того, были достигнуты значительные успехи в его аналитической производительности. Теперь Claude тесно конкурирует с самой обширной моделью Anthropic, Claude 3 Opus, а также с анализом o1 mini от OpenAI.
Подводя итог, можно сказать, что последние обновления дали заметный прогресс по многим направлениям. Новые функции кодирования привлекли много внимания. Однако текущим ограничением для Клода являются ограничения использования, которые значительно более строги даже для пользователей Pro по сравнению с ChatGPT.
Добавить комментарий