Claude Sonnet 3.5 против ChatGPT-4o: что лучше?

Недавно я опробовал новую модель Sonnet 3.5 от Клода, которая является самой мощной моделью ИИ от Anthropic на сегодняшний день, и которая, по утверждению компании, может превзойти конкурентов, таких как ChatGPT от OpenAI. Это смелое заявление, которое Anthropic подкрепляет некоторыми довольно впечатляющими бенчмарками.

Новая модель также обладает возможностями зрения, что позволяет вам предоставлять ей изображения и документы и извлекать из них информацию. И она может лучше понимать эмоции, такие как юмор, будучи намного быстрее. Все эти элементы делают Claude 3.5 основным конкурентом новой ChatGPT на базе GPT-40, которая также является многомодальной моделью ИИ.

Как и Sonnet, ChatGPT-40 может использовать визуальные входы в дополнение к текстовым для предоставления ответов. Он одинаково хорош в решении проблем и обладает схожими разговорными возможностями. Поскольку обе новые модели так близки друг к другу с точки зрения возможностей и производительности, вопрос, который у всех на уме, заключается в том, какая из них лучше? Чтобы ответить на этот вопрос, я решил подробно сравнить обе модели.

Извлечение информации из документов

Инструменты ИИ часто используются для извлечения информации из документов, таких как файлы PDF, а затем ее суммирования; поэтому я решил сначала проверить, какая из двух моделей может сделать это более эффективно. Для этого я подготовил документ PDF о кровельных квадратах, который я написал некоторое время назад, и загрузил его в ChatGPT и Клода.

Затем я дал им подсказку: « summarize this document and provide me with the most important points discussed in it.Вот что я обнаружил». Новая модель Claude была намного быстрее ChatGPT и начала генерировать ответ сразу после того, как я отправил свой запрос. Она также более точно следовала подсказке, перечисляя важные пункты в пронумерованном списке. Если у вас мало времени и вы просто хотите взглянуть на содержимое документа, это то, что вам нужно.

Проверка способностей Клода извлекать и обобщать информацию из документов.

Однако, несмотря на то, что он медленнее Клода, в данном случае я предпочел ответ ChatGPT. Он не только перечислил самые важные пункты документа, но и разделил их на различные разделы, такие как Определение и важность, Расчет и т. д.

Если вам нужно найти конкретную информацию относительно определенного аспекта темы, обсуждаемой в документе, то способ ChatGPT кажется более полезным. Вам не нужно проходить все пункты, вы можете просто просмотреть нужный раздел. Информация предоставляется таким образом, что ее легче просматривать и усваивать.

ChatGPT перечисляет важные моменты и делит их на разные разделы.

Тестирование возможностей зрения

Поскольку одним из ключевых моментов как Claude 3.5, так и ChatGPT-40 является их способность использовать визуальный ввод и предоставлять информацию на его основе, я решил проверить это следующим образом, попросив их следовать рукописным инструкциям после их транскрибирования. Я попросил модели ИИ написать короткое стихотворение, похожее на «Муравей и сверчок» Эзопа.

Хотя я не указал это в письменной форме, я хотел, чтобы результат был вдохновлен стихотворением, но с другими персонажами. Сначала Клод попросил меня подтвердить мой рукописный запрос, а затем приступил к работе. Результат был довольно хорош, очень близок к оригинальному стихотворению, но с теми же персонажами. Чат-бот ИИ также спросил меня, хочу ли я другой подход или какие-либо изменения в стихотворении после того, как он закончил писать стихотворение.

Клод более точно следует написанным от руки инструкциям.

ChatGPT не потребовал от меня подтверждения моего запроса, а сразу же приступил к его выполнению. Стихотворение, которое он написал, также было очень впечатляющим, и он заменил муравья и сверчка из оригинального творения на пчелу и бабочку, чего не делал Клод. Я также нашел версию ChatGPT более поэтичной.

ChatGPT понимает рукописные инструкции, но при их выполнении добавляет свои штрихи.

Итак, в транскрипции есть небольшая разница в результатах, но оба могут расшифровывать и понимать рукописный и печатный текст очень хорошо, даже если изображения не очень четкие. Эти мощные возможности зрения также означают, что вы можете использовать эти инструменты для извлечения информации из графиков и диаграмм, что делает их подходящими для математических задач.

Описание изображений: Поскольку обе модели также могут извлекать информацию из изображений, мне пришлось попробовать и это. Я предоставил Клоду и ChatGPT изображение тропического острова и попросил их описать его. Как вы видите, Клод дает яркое описание изображения, очень четко описывая каждый элемент на переднем и заднем плане, даже те, которые я сам не заметил.

Выбор фраз и слов Клода для описания изображения также ощущается более впечатляющим, отдавая должное изображению. Он прекрасно описывает цвета, освещение и передает общее чувство безмятежности и спокойствия, которое создает изображение.

Клод 3.5 может точно и очень подробно описывать изображения.

Результаты были более сложными в случае ChatGPT, который может описывать изображения, хотя и не так хорошо, как модель Клода. Модель OpenAI имеет тенденцию делать ошибки, добавляя элементы, которых нет, что показывает, что она все еще может галлюцинировать. Кроме того, изначально она пыталась описать изображение на основе его названия, а не того, что оно изображало, и в конце концов добилась этого после нескольких попыток.

Даже тогда описание, которое я получил от него, не могло сравниться с ответом Клода. Это было довольно удивительно, поскольку возможности зрения GPT-40 были одним из самых ярких моментов, которые OpenAI продемонстрировала при запуске.

ChatGPT может описывать изображения, но может допускать ошибки.

Создание и редактирование контента

Далее я попытался посмотреть, какая модель лучше справится с генерацией контента. Чтобы получить четкое представление о том, как они работают, я решил генерировать контент, требующий реальных фактов и данных, а также вымышленный контент, который будет полагаться на креативность модели ИИ.

Сначала я попросил Клода и ChatGPT предоставить мне подробную статью о различных оболочках Android, поскольку это то, о чем хотят знать многие, но это очень субъективная тема, у каждого человека есть свой фаворит. Я воспользовался подсказкой Учитывая, Can you write a detailed article on the different Android skins, such as OneUI, MIUI, ColorOS, etc.?сколько времени мы проводим со своими смартфонами, я хотел узнать, насколько точными были модели и сколько информации они могли предоставить о каждой оболочке.

Как обычно, Клод быстрее ответил. Он дал обзор, объясняющий, что такое скины Android, что приятно, но затем просто перечислил различные скины с предлагаемыми ими функциями в маркированном списке. Имейте в виду, что модель предоставила этот результат, хотя я специально указал «подробную статью» в своем запросе.

В книге «Клод 3.5 Сонет» дается краткий обзор, а затем в виде маркеров перечисляются основные характеристики.

ChatGPT, напротив, создал более впечатляющее название для статьи и включил краткое введение. После этого он объяснил каждый скин в своем собственном разделе, разделив каждый на Обзор, Ключевые особенности, Плюсы и Минусы.

Это не только дает более полную информацию, но и позволяет вам точно узнать, как разные скины сравниваются друг с другом. Наконец, это завершило статью правильным выводом. Хотя количество скинов, упомянутых ChatGPT, было меньше, чем перечисленных Клодом, здесь качество имеет большее значение, чем количество.

ChatGPT-40 предоставляет подробную статью с различными разделами для каждого скина.

Хотя ChatGPT в этом случае показал себя лучше, чем Claude, последний также может генерировать хороший контент, как я обнаружил в своем предыдущем тестировании. Это может зависеть от темы или того, как вы формулируете свой запрос. Вот почему я дал обеим моделям еще один запрос, на этот раз используя запрос. Write a humorous story about a penguin that wants to fly but ends up getting entangled into funny situations when it attempts to do so.Это также дало мне возможность увидеть, насколько хорошо модели понимают и могут передавать юмор.

На этот раз результаты были очень близки друг к другу, и обе модели создали действительно веселые истории. В обеих историях были общие элементы, такие как ирония и физическая комедия. В художественной литературе личные предпочтения являются мощным фактором, и в целом я нашел выход Клода немного лучше, особенно то, как он играл со словами, чтобы генерировать юмор.

Вымышленный контент, созданный Клодом 3.5

Но как я уже упоминал, историю ChatGPT было интересно читать, и она была немного длиннее, чем у Клода. Ее концовка также была более цельной. Таким образом, и Клод, и ChatGPT смогли создать хороший вымышленный контент, включив в него юмористические элементы, как я и просил.

Вымышленный контент ChatGPT.

Редактирование контента: Создание контента — это только часть процесса. Чтобы по-настоящему узнать, что может делать модель ИИ, когда дело касается контента, вам также нужно протестировать ее возможности редактирования контента, что я и сделал. Для этой цели я предоставил текстовый фрагмент о социальной коммерции Клоду и ChatGPT и дал им подсказку:Can you expand this article while also proofreading and improving it?

При улучшении статьи Клод начал с введения, затем написал об эволюции социальной коммерции и, наконец, продолжил другими разделами, расширяя каждый по своему усмотрению. Модель также использовала пронумерованные списки и маркеры там, где это было необходимо для улучшения читаемости.

Возможности редактирования Клода весьма широки.

Ответ ChatGPT был похож на его более ранние ответы, где он разделил контент на различные разделы с различными подзаголовками. Он не использовал никаких списков, а сохранил информацию в виде абзацев. Что касается изменений и улучшений, я заметил, что Клод внес более радикальные изменения в статью, чем ChatGPT, но конечный результат также был намного лучше. В конечном счете, я обнаружил, что возможности редактирования Sonnet стали более мощными и гораздо лучше подходили для моего рабочего процесса.

ChatGPT также отлично редактирует и улучшает контент.

Способность к кодированию

Ни одно сравнение моделей ИИ не будет полным без включения их возможностей кодирования. Хотя Claude был специально разработан, чтобы помочь программистам писать лучший код быстро и легко, новый ChatGPT на базе GPT-40 также не является чем-то, на что можно смотреть свысока, когда дело доходит до кодирования.

Чтобы проверить их способность генерировать код, я попросил Клода и ChatGPT Generate code for a simple game that can help beginners learn programming.Хотя оба писали код на Python, Клод завершил генерацию кода быстрее, как и ожидалось. Он отобразил весь код на правой стороне экрана, а такие элементы, как функции и переменные, объяснил на левой.

Больше всего мне понравилось в ответе Клода то, что он также включал кнопку, которая позволяет вам мгновенно перейти к коду, так что вы можете легко проверить его. Кроме того, чат-бот сообщил мне о требованиях, необходимых для запуска кода, вместе с инструкциями. Что касается самого кода, он был довольно прост для понимания и также отлично работал, когда я его тестировал.

Генерация кода с использованием Claude 3.5 Sonnet.

Что касается ответа ChatGPT, он также смог сгенерировать простой, но функциональный код, как я и просил. Ниже кода чат-бот предоставил шаги, необходимые для запуска игры, а также концепции, которые охватывает код, что делает его простым для понимания новичками. В целом, результаты были довольно схожими для обеих моделей в этом случае, хотя Клод объяснил больше элементов и имел опцию, с помощью которой вы могли попросить его подробно объяснить любую часть кода.

Код ChatGPT для простой игры, написанный на Python

Математические способности

Наконец, я дал Клоду и ChatGPT математический вопрос для решения, чтобы посмотреть, насколько хорошо они справятся, и кто из них быстрее. Вопрос включал алгебраические уравнения, но не был особенно сложным. Обе модели начинались с объяснения того, что делать на первом этапе, хотя их подходы были разными. Клод продолжил расширять уравнение и в конечном итоге сказал мне, что для полного решения задачи требуется использовать графический калькулятор или систему компьютерной алгебры.

В пункте 3.5 утверждается, что может быть ноль, одно или два возможных решения вопроса.

При этом он указал количество потенциальных решений проблемы. В отличие от этого, ChatGPT решил проблему полностью и дал мне все возможные решения. Это говорит о том, что в плане математических способностей ChatGPT-4o опережает Sonnet.

ChatGPT предоставляет все возможные решения проблемы.

Окончательный вердикт – Claude Sonnet 3.5 или ChatGPT-4o: кто победил?

Выбор между Claude 3.5 и ChatGPT-4o нелегок, но в конечном итоге победителем может стать только один, и для меня это должна быть новая модель Sonnet. Она не только значительно быстрее ChatGPT, но и дает более точные ответы. Мне особенно понравилось, как хорошо она может описывать изображения и выполнять действия, связанные с ними.

Клод также не галлюцинировал ни разу за время моего использования, что является еще одним пунктом в его пользу, и его ответы в целом были ближе к моим инструкциям. Несмотря на то, что он не сработал так, как я ожидал, в одном случае, когда мне был нужен подробный контент, использовать его для получения нужной мне информации было в целом проще и требовало меньше усилий.

Попробовав и Claude 3.5 Sonnet, и ChatGPT-40, я обнаружил, что обе модели ИИ исключительно хороши и очень близки по производительности. В то время как Sonnet лучше справляется с некоторыми задачами, ChatGPT показывает лучшие результаты в других. Вы должны понимать, что выбор лучшей модели будет зависеть от вашего индивидуального варианта использования.

Кроме того, обе бесплатные модели ограничены в том, что они могут делать. Поэтому, если вы хотите использовать любой из ИИ на регулярной основе, я рекомендую получить платную подписку для достижения наилучших результатов.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *