Pojawił się model mocniejszy od ChatGPT. Claude 3 ma pracować lepiej niż człowiek

Aleksander PiskorzSkomentuj
Pojawił się model mocniejszy od ChatGPT. Claude 3 ma pracować lepiej niż człowiek

Anthropic oficjalnie zaprezentowało Claude 3 – trio nowych modeli językowych AI. Oznacza to nie tylko zwiększenie konkurencyjności firmy na rynku, ale również debiut wersji, która… przewyższa ChatGPT-4 w niektórych branżowych benchmarkach. Najbardziej zaawansowane modele tej serii są dostępne w wersji abonamentowej. Czym mogą się wyróżnić? 

Claude 3 składa się z trzech różnych modeli: Claude 3 Haiku, Claude 3 Sonnet i Claude 3 Opus, z których każdy charakteryzuje się coraz większą złożonością i liczbą parametrów. Claude.ai, obsługiwany przez Claude 3 Sonnet, jest obecnie dostępny za darmo po zalogowaniu się przez e-mail (w Europie trzeba to zrobić poprzez VPN lub korzystając z niektórych narzędzi AI).

Dostęp do Claude 3 Opus jest ograniczony do subskrybentów „Claude Pro”, w cenie 20 USD miesięcznie, dostępnych za pośrednictwem interfejsu webowego firmy Anthropic. Wszystkie modele mogą pochwalić się pokaźnym oknem kontekstowym o pojemności 200 000 tokenów. 

Anthropic jest konsekwentnym graczem w branży AI. Modele Claude i Claude 2 zostały zaprezentowane zaledwie w 2023 roku. Modele te, choć pod względem możliwości nieco ustępują OpenAI, wyróżniały się od samego początku długością okna kontekstowego. Dzięki Claude 3, Anthropic wydaje się być teraz na równi z wydanymi modelami OpenAI pod względem wydajności, chociaż społeczność AI nie osiągnęła jeszcze konsensusu w tej sprawie.

Claude 3 – w czym sobie radzi?

Claude 3 prezentuje niezwykłą biegłość w takich obszarach jak rozumowanie, specjalistyczna wiedza, matematyka i płynność językowa. W szczególności model Opus ma wykazywać niemal ludzki poziom zrozumienia zapytań odpowiadając zdaniami złożonymi o niespotykanej płynności. Chociaż twierdzenia te są imponujące, wymagają one dokładnej analizy, ponieważ mogą być zawyżone w odniesieniu do niektórych konkretnych testów porównawczych. Wiadomo, marketing, ale już w moich testach Claude 2.1 radził sobie świetnie z podobnymi zadaniami. 

Anthropic donosi również, iż Claude 3 Opus przewyższa GPT-4 w dziesięciu testach porównawczych AI, w tym MMLU, GSM8K, HumanEval i HellaSwag. Margines przewagi jest różny – w zależności od testu. Zrozumienie praktycznych wyników tych benchmarków dla konsumentów nie jest istotne – to bardziej jak AnTuTu i GeekBench w latach swojej świetności. 

Warto wspomnieć też, iż modele Claude 3 wykazują poprawę w stosunku do swoich poprzedników w zakresie analizy, przewidywania, generowania treści, pisania kodu i konwersacji dwujęzycznych. Posiadają również zaawansowane zdolności przetwarzania wizualnego, pozwalające im interpretować obrazy, wykresy i diagramy, podobnie jak ma to miejsce w modelach GPT-4V i Google Gemini.

Claude 3
Claude 3 radzi sobie naprawdę dobrze w testach / fot. Claude

Cena jest bardzo dobra 

Pod względem ceny, modele Claude 3 są również konkurencyjne. Opus pobiera 15 USD za 1 mln tokenów wejściowych i 75 USD za 1 mln tokenów wyjściowych, Sonnet kosztuje 3 USD za milion tokenów wejściowych i 15 USD za milion tokenów wyjściowych, podczas gdy Haiku jest najbardziej ekonomiczny – 0,25 USD za 1 mln tokenów wejściowych i 1,25 USD za 1 mln tokenów wyjściowych. Stawki te są naprawdę dobre w porównaniu z cenami dyktowanymi przez OpenAI dla modeli GPT-4 i GPT-3.5.

Anthropic podkreśla zwiększoną szybkość i opłacalność Claude 3 w porównaniu do poprzednich iteracji i konkurencyjnych modeli. Firma wspomina również o planach częstych aktualizacji rodziny Claude 3, dodając nowe możliwości, takie jak interaktywne kodowanie i zaawansowane funkcje agencyjne. Zapewnia, że środki bezpieczeństwa będą ewoluować wraz z tymi postępami.

Claude 3
Kolejne wyniki benchmarku nowego modelu / fot. Claude

Modele Opus i Sonnet są obecnie dostępne za pośrednictwem interfejsu API Anthropic, a dostęp Haiku ma pojawić się wkrótce. 

W teście praktycznym możliwości modelu Opus Claude 3 okazały się podobne do tych z ChatGPT-4, wykazując mocne strony w zakresie podsumowywania, adaptacji stylu, analizy logicznej i utrzymywania stosunkowo niskiego wskaźnika nieścisłości faktograficznych, nawet w mniej popularnych tematach.

Kluczowym wnioskiem z twierdzenia Anthropic, że Claude 3 przewyższa GPT-4, jest podejście do niego z krytycznym nastawieniem. Osobiste testowanie każdego modelu jest niezbędne do określenia jego przydatności do konkretnych zastosowań, ponieważ żaden benchmark nie może odtworzyć każdego możliwego przypadku użycia.

Udostępnij

Aleksander PiskorzDziennikarz technologiczny - od niemal dekady publikujący w największych polskich mediach traktujących o nowych technologiach. Autor newslettera tech-pigułka. Obecnie zajmuje się wszystkim co związane z szeroko pojętym contentem i content marketingiem Jako konsultant pomaga również budować marki osobiste i cyfrowe produkty w branży technologicznej. Entuzjasta sztucznej inteligencji. W trybie offline fan roweru szosowego, kawy specialty i dobrej czekolady.