OpenAI przeszkoliło GPT-4 na ogromnej liczbie filmów na YouTube, Google niezadowolony

W nowym raporcie dziennik „The New York Times” podaje, że OpenAI dokonało transkrypcji ponad miliona godzin filmów w serwisie YouTube, aby wytrenować GPT-4, swój najbardziej zaawansowany model wielkojęzykowy.

  • Joanna Gościńska
  • /
  • 9 kwietnia 2024

Wiedzieli, że działali w szarej strefie, ale…

Laboratorium sztucznej inteligencji zdecydowało się to zrobić, ponieważ pod koniec 2021 r. desperacko potrzebowało danych szkoleniowych po wyczerpaniu większości wysokiej jakości anglojęzycznych tekstów w Internecie. Następnie OpenAI stworzyło narzędzie do rozpoznawania mowy o nazwie Whisper, które mogło transkrybować dźwięk z filmów z YouTube – i zabrało się do pracy.

Według „The New York Times” firma doskonale wiedziała, że ​​działa w szarej strefie prawa autorskiego dotyczącego sztucznej inteligencji, ale uważała, że ​​rozwiązanie to jest dozwolone. Podobno prezes OpenAI, Greg Brockman, był osobiście zaangażowany w zbieranie filmów.

Dopiero w zeszłym roku OpenAI ogłosiło, że poszukuje partnerstw z organizacjami w celu tworzenia publicznych i prywatnych zbiorów danych do szkolenia modeli sztucznej inteligencji po tym, jak kilka mediów informacyjnych zablokowało firmom zajmującym się sztuczną inteligencją gromadzenie ich treści.

Co mówią warunki korzystania z YouTube?

Można oczywiście debatować nad logiką tych zakazów, ale jak dotąd przynajmniej warunki korzystania z YouTube wyraźnie zabraniają skrobania ich treści bez pozwolenia. „Nie wolno uzyskiwać dostępu do usługi za pomocą jakichkolwiek zautomatyzowanych środków (takich jak roboty, botnety lub skrobaki), z wyjątkiem: (a) w przypadku wyszukiwarek publicznych, zgodnie z plikiem robots.txt YouTube; (b) za uprzednią pisemną zgodą YouTube lub (c) zgodnie z obowiązującym prawem” – czytamy w warunkach YouTube.

Czy sztuczna inteligencja jest bezpieczna?Czy sztuczna inteligencja jest bezpieczna? Martyna Kowalska

Dyrektor generalny YouTube, Neal Mohan, również powiedział podobne rzeczy na temat możliwości, że OpenAI wykorzystało YouTube do szkolenia swojego modelu Sora. W rozmowie z Bloombergiem stwierdził , że byłoby to „wyraźnym naruszeniem” polityki platformy.

Jasne, The New York Times twierdzi, że Google zebrał także transkrypcje z YouTube, ale platforma jest w rzeczywistości własnością giganta technologicznego. Jednak w raporcie dodaje się, że Google rozważał również możliwość rozszerzenia możliwości wykorzystania danych konsumentów za pomocą narzędzi takich jak Dokumenty Google.

Wyciekły w Twojej firmie dane osobowe

możemy Ci pomóc w analizie i zgłoszeniu do UODO

W międzyczasie Meta rozmawiała o zakupie wydawnictwa Simon & Schuster w zeszłym roku, aby pozyskać długie dzieła i szkolić na nich swoje modele sztucznej inteligencji, jak podaje „The Times”. Krótko mówiąc, wyścig o przewodnictwo w sztucznej inteligencji rzeczywiście stał się desperackim polowaniem na dane. Jednak las jest z każdym dniem mniejszy – w zeszłym tygodniu The Wall Street Journal zacytował źródła , z których wynikało, że zapotrzebowanie branży na wysokiej jakości dane tekstowe może w ciągu dwóch lat przewyższyć podaż i spowolnić rozwój sztucznej inteligencji.

Jak uczy się OpenAI?

OpenAI uczy się poprzez wykorzystanie technik uczenia maszynowego, w szczególności uczenia głębokiego. Proces ten można podzielić na kilka głównych etapów. Aby nauczyć model, potrzebne są duże zbiory danych. Te dane mogą pochodzić z różnych źródeł, takich jak teksty z internetu, obrazy, dane sensoryczne, itp. W przypadku modeli językowych, jak ChatGPT, dane te składają się głównie z tekstów.

Dane są przetwarzane i formatowane w sposób, który może być używany do trenowania modeli. To może obejmować czyszczenie danych, usunięcie niepożądanych informacji, kodowanie danych w odpowiednim formacie, itp. OpenAI projektuje architektury sieci neuronowych, które są w stanie nauczyć się z dostępnych danych. Model GPT (Generative Pre-trained Transformer), który leży u podstaw ChatGPT, jest przykładem takiej architektury. Model ten składa się z wielu warstw przetwarzających, które mogą wykrywać wzorce w danych.

Sztuczna inteligencja a uczenie maszynowe. Na czym polega różnica?Sztuczna inteligencja a uczenie maszynowe. Na czym polega różnica?Mikołaj Frączak

W tej fazie, model jest "uczący" na podstawie danych. Trenowanie modelu głębokiego polega na dostosowywaniu wag w sieci neuronowej tak, aby model mógł jak najlepiej przewidywać dane wyjściowe na podstawie danych wejściowych. W przypadku GPT, proces trenowania obejmuje pre-trenowanie na dużym zbiorze danych tekstowych, a następnie dokładniejsze dostrojenie modelu na bardziej specyficznych danych lub zadaniach.

Po wytrenowaniu modelu jest on testowany, aby zobaczyć, jak dobrze radzi sobie z zadaniami, do których został zaprojektowany. Na podstawie wyników testów model może być dalej optymalizowany przez dostosowanie parametrów lub ponowne trenowanie na innych lub większych zbiorach danych.Po udanym wytrenowaniu i optymalizacji modelu, jest on gotowy do wdrożenia i wykorzystania do różnych zadań, takich jak generowanie tekstu, rozumienie mowy, rozpoznawanie obrazów itp. Kluczowe w procesie uczenia się modeli OpenAI jest użycie technik uczenia głębokiego i dużych zbiorów danych, co pozwala modelom na naukę bardzo złożonych wzorców i relacji. Technologie te stale ewoluują, a OpenAI regularnie aktualizuje swoje modele, aby były one coraz bardziej skuteczne i wszechstronne.

Dziękujemy, że przeczytałaś/eś nasz artykuł do końca. Jeśli chcesz być na bieżąco z informacjami za zakresu bezpieczeństwa, zapraszamy do naszego serwisu ponownie!
Jeżeli podobał Ci się artykuł podziel się z innymi udostępniając go w mediach społecznościowych.

Potrzebujesz wsparcia lub szukasz rozwiązań w zakresie zagadnienia, o którym mowa w artykule?

Najnowsze tematy

WSPÓŁPRACA

Blogi tematyczne

Prawo konsumenckie 2021
Blog prawa e-commerce
Prawo konsumenckie
Security Magazine
Poradnik: wszystko o zgodzie RODO i obowiązkach informacyjnych RODO
Kliknij aby wrócić do strony głównej

Newsletter

Bądźmy w kontakcie! Zapisz się na newsletter, a raz na jakiś czas wyślemy Ci powiadomienie o najważniejszych artykułach. Dla subskrybentów newslettera przygotowujemy specjalne wydarzenia np. webinaria. Nie pożałujesz!