Meta LIama od Zuckerberga. Co to?

W drugiej połowie kwietnia Meta oddała do powszechnego użytku swój model AI – Meta LIama 3, który zawiera wstępnie wyszkolone i dopracowane pod względem instrukcji modele językowe z parametrami 8B i 70B. Ta generacja LIama charakteryzuje się najnowocześniejszą wydajnością w szerokim zakresie branżowych testów porównawczych i oferuje nowe możliwości, w tym ulepszone rozumowanie.

  • Joanna Gościńska
  • /
  • 23 kwietnia 2024

Najlepszy model open source w swojej klasie?

„Wierzymy, że są to najlepsze modele open source w swojej klasie i kropka. Wspierając nasze wieloletnie otwarte podejście, oddajemy Lamę 3 w ręce społeczności. Chcemy zapoczątkować kolejną falę innowacji w zakresie sztucznej inteligencji od aplikacji, przez narzędzia programistyczne, ewaluację, optymalizację wnioskowania i nie tylko. Nie możemy się doczekać, żeby zobaczyć, co zbudujesz, i czekamy na Twoją opinię” – napisała Meta na swoim blogu.

Nowe modele Llama 3 o parametrach 8B i 70B stanowią duży krok naprzód w stosunku do Llama 2. Dzięki ulepszeniom w zakresie treningu przed i po szkoleniu, modele od Mety wstępnie przeszkolone i dostrojone pod kątem instrukcji są najlepszymi istniejącymi obecnie modelami w skali parametrów 8B i 70B.

Czy sztuczna inteligencja jest bezpieczna?Czy sztuczna inteligencja jest bezpieczna?Martyna Kowalska

„Ulepszenia naszych procedur poszkoleniowych znacznie zmniejszyły liczbę fałszywych odmów, poprawiły dopasowanie i zwiększyły różnorodność odpowiedzi modeli. Zaobserwowaliśmy także znacznie ulepszone możliwości, takie jak rozumowanie, generowanie kodu i instrukcje, dzięki czemu Llama 3 jest łatwiejsza w sterowaniu” – twierdzi Meta.

Zestaw do oceny człowieka

Podczas opracowywania Lamy 3, Meta przyjrzała się wydajności modelu w standardowych testach porównawczych, a także zoptymalizowała wydajność w rzeczywistych scenariuszach. W tym celu opracowano także nowy, wysokiej jakości zestaw do oceny człowieka. Zawiera on 1800 podpowiedzi obejmujących 12 kluczowych przypadków użycia: prośba o radę, burza mózgów, klasyfikacja, odpowiadanie na pytania zamknięte, kodowanie, twórcze pisanie, ekstrakcja, zamieszkiwanie postaci/osoby, odpowiadanie na pytania otwarte, rozumowanie, przepisywanie i podsumowanie.

Wyciekły w Twojej firmie dane osobowe

możemy Ci pomóc w analizie i zgłoszeniu do UODO

Meta, aby zapobiec przypadkowemu, nadmiernemu dopasowaniu modeli w tym zestawie ewaluacyjnym, w trakcie testów odcięła dostęp nawet własnemu zespołowi modelującemu.  „Wierzymy, że aby opracować świetny model języka, należy wprowadzać innowacje, skalować i optymalizować pod kątem prostoty. Przyjęliśmy tę filozofię projektowania w całym projekcie Llama 3, koncentrując się na czterech kluczowych składnikach: architekturze modelu, danych przedtreningowych, skalowaniu treningu wstępnego i dostrajaniu instrukcji” – twierdzi Meta.

Architektura modelowa

Podczas projektowania LIama 3, Meta zdecydowała się na stosunkowo standardową architekturę transformatora zawierającą wyłącznie dekoder. „Llama 3 wykorzystuje tokenizer ze słownictwem złożonym ze 128 tys. tokenów, który znacznie wydajniej koduje język, co prowadzi do znacznej poprawy wydajności modelu. Aby poprawić efektywność wnioskowania modeli Lamy 3, zastosowaliśmy grupową uwagę zapytań (GQA) zarówno w rozmiarach 8B, jak i 70B. Przeszkoliliśmy modele na sekwencjach 8192 tokenów, używając maski, aby mieć pewność, że samouwaga nie przekroczy granic dokumentu” – wyjaśnia Meta.

Jeśli chodzi o dane treningowe, LIama 3 jest wstępnie przeszkolona na ponad 15 tonach tokenów, które zostały zebrane z publicznie dostępnych źródeł. Jak twierdzi Meta, zbiór danych treningowych dla LIama 3 jest siedmiokrotnie większy, niż przy LIamie 2 oraz zawiera czterokrotnie więcej kodu.

 „Aby przygotować się na nadchodzące przypadki użycia wielojęzycznego, ponad 5% zbioru danych przedtreningowych Lamy 3 składa się z wysokiej jakości danych w języku innym niż angielski, które obejmują ponad 30 języków. Nie oczekujemy jednak takiego samego poziomu wydajności w tych językach, jak w języku angielskim” – wyjaśnia Meta.

Facebook buduje superkomputer do tworzenia metawersumFacebook buduje superkomputer do tworzenia metawersum Mikołaj Frączak

Firmie należącej do Marka Zuckerberga zależało na tym, aby ich model AI był szkolony na najwyższej jakości danych, dlatego opracowano również szereg potoków filtrowania danych. Obejmują one wykorzystanie filtrów heurystycznych, filtrów NSFW, metod deduplikacji semantycznej i klasyfikatorów tekstu do przewidywania jakości danych.

„Odkryliśmy, że poprzednie generacje Lamy zaskakująco dobrze radzą sobie z identyfikowaniem danych wysokiej jakości, dlatego użyliśmy Lamy 2 do wygenerowania danych szkoleniowych dla klasyfikatorów jakości tekstu, na których opiera się Lama 3” – wyjaśnia Meta.

„Przeprowadziliśmy również szeroko zakrojone eksperymenty, aby ocenić najlepsze sposoby mieszania danych z różnych źródeł w naszym ostatecznym zestawie danych przedtreningowych. Eksperymenty te umożliwiły nam wybranie zestawu danych, który gwarantuje, że Llama 3 będzie dobrze działać w różnych przypadkach użycia, w tym w pytaniach o ciekawostki, STEM, kodowaniu, wiedzy historycznej itp.” – dodaje.

 

Dziękujemy, że przeczytałaś/eś nasz artykuł do końca. Jeśli chcesz być na bieżąco z informacjami za zakresu bezpieczeństwa, zapraszamy do naszego serwisu ponownie!
Jeżeli podobał Ci się artykuł podziel się z innymi udostępniając go w mediach społecznościowych.

Potrzebujesz wsparcia lub szukasz rozwiązań w zakresie zagadnienia, o którym mowa w artykule?

Najnowsze tematy

WSPÓŁPRACA

Blogi tematyczne

Prawo konsumenckie 2021
Blog prawa e-commerce
Prawo konsumenckie
Security Magazine
Poradnik: wszystko o zgodzie RODO i obowiązkach informacyjnych RODO
Kliknij aby wrócić do strony głównej

Newsletter

Bądźmy w kontakcie! Zapisz się na newsletter, a raz na jakiś czas wyślemy Ci powiadomienie o najważniejszych artykułach. Dla subskrybentów newslettera przygotowujemy specjalne wydarzenia np. webinaria. Nie pożałujesz!