OpenAI przeszkoliło GPT-4 na ogromnej liczbie filmów na YouTube, Google niezadowolony
W nowym raporcie dziennik „The New York Times” podaje, że OpenAI dokonało transkrypcji ponad miliona godzin filmów w serwisie YouTube, aby wytrenować GPT-4, swój najbardziej zaawansowany model wielkojęzykowy.
- Joanna Gościńska
- /
- 9 kwietnia 2024
Wiedzieli, że działali w szarej strefie, ale…
Laboratorium sztucznej inteligencji zdecydowało się to zrobić, ponieważ pod koniec 2021 r. desperacko potrzebowało danych szkoleniowych po wyczerpaniu większości wysokiej jakości anglojęzycznych tekstów w Internecie. Następnie OpenAI stworzyło narzędzie do rozpoznawania mowy o nazwie Whisper, które mogło transkrybować dźwięk z filmów z YouTube – i zabrało się do pracy.
Według „The New York Times” firma doskonale wiedziała, że działa w szarej strefie prawa autorskiego dotyczącego sztucznej inteligencji, ale uważała, że rozwiązanie to jest dozwolone. Podobno prezes OpenAI, Greg Brockman, był osobiście zaangażowany w zbieranie filmów.
Dopiero w zeszłym roku OpenAI ogłosiło, że poszukuje partnerstw z organizacjami w celu tworzenia publicznych i prywatnych zbiorów danych do szkolenia modeli sztucznej inteligencji po tym, jak kilka mediów informacyjnych zablokowało firmom zajmującym się sztuczną inteligencją gromadzenie ich treści.
Co mówią warunki korzystania z YouTube?
Można oczywiście debatować nad logiką tych zakazów, ale jak dotąd przynajmniej warunki korzystania z YouTube wyraźnie zabraniają skrobania ich treści bez pozwolenia. „Nie wolno uzyskiwać dostępu do usługi za pomocą jakichkolwiek zautomatyzowanych środków (takich jak roboty, botnety lub skrobaki), z wyjątkiem: (a) w przypadku wyszukiwarek publicznych, zgodnie z plikiem robots.txt YouTube; (b) za uprzednią pisemną zgodą YouTube lub (c) zgodnie z obowiązującym prawem” – czytamy w warunkach YouTube.
Czy sztuczna inteligencja jest bezpieczna? Martyna Kowalska
Dyrektor generalny YouTube, Neal Mohan, również powiedział podobne rzeczy na temat możliwości, że OpenAI wykorzystało YouTube do szkolenia swojego modelu Sora. W rozmowie z Bloombergiem stwierdził , że byłoby to „wyraźnym naruszeniem” polityki platformy.
Jasne, The New York Times twierdzi, że Google zebrał także transkrypcje z YouTube, ale platforma jest w rzeczywistości własnością giganta technologicznego. Jednak w raporcie dodaje się, że Google rozważał również możliwość rozszerzenia możliwości wykorzystania danych konsumentów za pomocą narzędzi takich jak Dokumenty Google.
możemy Ci pomóc w analizie i zgłoszeniu do UODOWyciekły w Twojej firmie dane osobowe
W międzyczasie Meta rozmawiała o zakupie wydawnictwa Simon & Schuster w zeszłym roku, aby pozyskać długie dzieła i szkolić na nich swoje modele sztucznej inteligencji, jak podaje „The Times”. Krótko mówiąc, wyścig o przewodnictwo w sztucznej inteligencji rzeczywiście stał się desperackim polowaniem na dane. Jednak las jest z każdym dniem mniejszy – w zeszłym tygodniu The Wall Street Journal zacytował źródła , z których wynikało, że zapotrzebowanie branży na wysokiej jakości dane tekstowe może w ciągu dwóch lat przewyższyć podaż i spowolnić rozwój sztucznej inteligencji.
Jak uczy się OpenAI?
OpenAI uczy się poprzez wykorzystanie technik uczenia maszynowego, w szczególności uczenia głębokiego. Proces ten można podzielić na kilka głównych etapów. Aby nauczyć model, potrzebne są duże zbiory danych. Te dane mogą pochodzić z różnych źródeł, takich jak teksty z internetu, obrazy, dane sensoryczne, itp. W przypadku modeli językowych, jak ChatGPT, dane te składają się głównie z tekstów.
Dane są przetwarzane i formatowane w sposób, który może być używany do trenowania modeli. To może obejmować czyszczenie danych, usunięcie niepożądanych informacji, kodowanie danych w odpowiednim formacie, itp. OpenAI projektuje architektury sieci neuronowych, które są w stanie nauczyć się z dostępnych danych. Model GPT (Generative Pre-trained Transformer), który leży u podstaw ChatGPT, jest przykładem takiej architektury. Model ten składa się z wielu warstw przetwarzających, które mogą wykrywać wzorce w danych.
Sztuczna inteligencja a uczenie maszynowe. Na czym polega różnica?Mikołaj Frączak
W tej fazie, model jest "uczący" na podstawie danych. Trenowanie modelu głębokiego polega na dostosowywaniu wag w sieci neuronowej tak, aby model mógł jak najlepiej przewidywać dane wyjściowe na podstawie danych wejściowych. W przypadku GPT, proces trenowania obejmuje pre-trenowanie na dużym zbiorze danych tekstowych, a następnie dokładniejsze dostrojenie modelu na bardziej specyficznych danych lub zadaniach.
Po wytrenowaniu modelu jest on testowany, aby zobaczyć, jak dobrze radzi sobie z zadaniami, do których został zaprojektowany. Na podstawie wyników testów model może być dalej optymalizowany przez dostosowanie parametrów lub ponowne trenowanie na innych lub większych zbiorach danych.Po udanym wytrenowaniu i optymalizacji modelu, jest on gotowy do wdrożenia i wykorzystania do różnych zadań, takich jak generowanie tekstu, rozumienie mowy, rozpoznawanie obrazów itp. Kluczowe w procesie uczenia się modeli OpenAI jest użycie technik uczenia głębokiego i dużych zbiorów danych, co pozwala modelom na naukę bardzo złożonych wzorców i relacji. Technologie te stale ewoluują, a OpenAI regularnie aktualizuje swoje modele, aby były one coraz bardziej skuteczne i wszechstronne.
Dziękujemy, że przeczytałaś/eś nasz artykuł do końca. Jeśli chcesz być na bieżąco
z informacjami za zakresu bezpieczeństwa, zapraszamy do naszego serwisu
ponownie!
Jeżeli
podobał Ci się artykuł podziel się z innymi udostępniając go w mediach
społecznościowych.
Potrzebujesz wsparcia lub szukasz rozwiązań w zakresie zagadnienia, o którym mowa w artykule?