Google Gemini: wszystko co musisz wiedzieć o tym modelu językowym

Opublikowano 7 grudnia 2023

Sztuczna inteligencja (AI)

Julian

Czas czytania: 10 min.

Być może zauważyłeś, że OpenAI, twórcy technologii ChaptGPT, przechodzą przez pewne zawirowania związane z masowymi rezygnacjami i ponownymi przydziałami, w szczególności z odejściem dyrektora generalnego Sama Altmana do potencjalnej pracy w Microsoft, a następnie powrotem z zupełnie nowym zarządem. Tam jest dziko. Być może zauważyłeś również, że Google poczyniło ogromne postępy w zakresie sztucznej inteligencji skierowanej do biznesu i konsumentów w ciągu ostatniego roku, dzięki ogromnej aktualizacji LLM (duży model językowy) PaLM 2, wydaniu Google Bard i ogólnie zespojeniu usług AI w spójne platformy.

Biorąc to wszystko pod uwagę, nic dziwnego, że Google skorzystało z okazji, aby uruchomić generatywną sztuczną inteligencję, zwaną Google Gemini. Jest nowa, zabawna i trochę dziwna: oto, co powinieneś wiedzieć o sztucznej inteligencji Google Gemini.

źródło: Google

Google Gemini to nowy pakiet usług generatywnej sztucznej inteligencji, który Google uruchamia specjalnie dla firm zainteresowanych rozszerzeniem swoich usług AI. Jest to rodzina multimodalnych modeli sztucznej inteligencji (więcej na ten temat poniżej) stworzonych w ramach projektu Google DeepMind.

Google Gemini jest obecnie bardzo nowy. W grudniu 2023 r. Google dodał do Google Bard wersję Gemini Pro dostosowaną do języka angielskiego. Pomimo nazwy, Google opisuje Gemini Pro jako "lżejszą" wersję modelu AI, chociaż dla nas wygląda bardziej jak wersja standardowa. Rodzina obejmuje również Gemini Ultra, sztuczną inteligencję premium, którą Google chce uczynić okrętem flagowym pakietu.

Gemini Nano uzupełnia trio. Nano to przyjazna dla urządzeń mobilnych wersja dużego modelu językowego, który pojawia się w Google Pixel 8 Pro wraz z grudniowym Feature Drop. Ostatecznie trafi na inne telefony z Androidem.

Czy Google Gemini jest chatbotem? Czy może tworzyć treści?

źródło: Google

Gemini z pewnością może tworzyć treści, ale jest znacznie bardziej ambitny niż chatbot, a to wymaga pewnych wyjaśnień.

Gemini jest technicznie LLM lub dużym modelem językowym, co oznacza, że jest to struktura uczenia maszynowego, która jest uczona poprzez wrzucanie do niej wielu ludzkich rzeczy (ogólnie treści online) i pomaganie jej w tworzeniu reguł w celu zrozumienia tej treści. Wystarczy to zrobić, a LLM mogą przetwarzać dane językowe na tyle, by składać własne zdania i naśladować określone style, tak jak robią to ChatGPT i Bard - jak eksperci rozwiązujący łamigłówki tworzący matematyczne sposoby "rozwiązywania" ludzkiej mowy. Im więcej się uczą, tym lepiej im to wychodzi.

Większość LLM specjalizuje się tylko w kilku rzeczach, takich jak mowa lub obrazy. Pomaga im to utrzymać koncentrację i zmniejsza ogromne zasoby, których zwykle potrzebują. Google jest szczególnie utalentowany w tworzeniu wydajnych modeli sztucznej inteligencji, które są dogłębnie przeszkolone w zakresie bardziej ograniczonej gamy treści, co kontrastuje z systemem OpenAI, który rzuca prawie wszystko, co może na sztuczną inteligencję.

Gemini wydaje się jednak różnić od zwykłego LLM, ponieważ od samego początku był szkolony jako multimodalny. Multimodalność oznacza po prostu, że sztuczna inteligencja może uczyć się i tworzyć wszelkiego rodzaju treści, a nie tylko jeden "język". Gemini radzi sobie z mową, dopasowywaniem, wnioskowaniem, kodem, obrazami (w tym emoji), wideo, audio i nie tylko. Jest jak polimat lub człowiek renesansu w świecie LLM.

Jak widać na przykładzie naszych obrazów, Gemini bardzo dobrze radzi sobie ze zrozumieniem kontekstu i prawidłową interpretacją tych informacji dla użytkowników, niezależnie od tematu.

źródło: Google

W oparciu o dane, które posiadamy, Gemini wydaje się być bardzo dobry w tym, co robi... w swoim zakresie. Uzyskał 90% punktów w teście Massive Multitask Language Understanding (MMLU), który jest lepszy niż większość ludzkich ekspertów językowych i zgodny z wcześniejszymi wynikami Google. Google twierdzi również, że Gemini pokonuje istniejące modele sztucznej inteligencji w 30 z 32 testów akademickich wykorzystywanych do oceny LLM. Jednak inne raporty mówią również, że podczas gdy Gemini Pro może pokonać GPT-3.5 (który zasilał większość treści ChatGPT, które widzieliśmy w tym roku), ale jest pokonany przez nowszy GPT-4, podczas gdy Gemini Ultra wąsko pokonuje GPT-4. Jest to obecnie bardzo konkurencyjne pole.

Jednak żadna sztuczna inteligencja dostępna obecnie na rynku nie jest tak multimodalna jak Gemini, co oznacza, że firmy korzystające z tej wyszkolonej sztucznej inteligencji mogą dostosować ją do niemal wszystkiego. Ma to szczególną wartość dla firm, które mogą chcieć dostosować usługi AI do wszystkiego, od rozpoznawania podrobionych torebek po naśladowanie pomocnego eksperta na czacie obsługi klienta. Google wspomina również o kilku innych możliwościach, takich jak:

Wyjaśnianie uczniom problemów z fizyki
Przetwarzanie surowego dźwięku w poszukiwaniu określonych sygnałów
Analizowanie intencji użytkownika w celu tworzenia spersonalizowanych zestawów i pakietów dla danej osoby
Pomaganie naukowcom w wykrywaniu powiązań w opublikowanych badaniach, które mogliby przeoczyć
Wygrywanie wszystkich konkursów programistycznych, w których jest to dozwolone.

Czy Google Gemini różni się od Google Bard?

źródło: Google

Nie do końca. Bard był znacznie wcześniejszą próbą sztucznej inteligencji skierowanej do konsumentów (pamiętaj, że w kontekście tych LLM AI z początku 2020 roku nawet kilka miesięcy może być długim okresem). Jednak wraz z wydaniem Gemini, Google aktualizuje Google Bard o technologię Gemini Pro, więc wszystkie te korzyści są teraz częścią Bard. Oczywiście narzędzia Barda są znacznie bardziej ograniczone niż to, co potrafi Gemini, ale Bard jest teraz najlepiej postrzegany jako część Gemini.

Jak to wszystko ma się do PaLM 2?

To skomplikowane i nie mamy dobrego wglądu za kulisy. PaLM 2 był ogromną aktualizacją skoncentrowanego na języku modelu LLM firmy Google, wprowadzoną wcześniej w 2023 roku. PaLM 2 wyróżnia się w zadaniach językowych, takich jak tłumaczenie, i chociaż Google stworzył moduły PaLM 2, które obsługują inne rzeczy, takie jak czytanie skanów medycznych, jednak nie jest tak natywnie multimodalny jak Gemini. Zapewnia jednak lekkie usługi AI dla firm, które chcą budować własne AI, wykorzystując pracę wykonaną już przez Google, korzystając z platformy Google Vertex, na której działa również Gemini.

Gemini i PaLM 2 nie wydają się być konkurentami w żadnym sensie, przynajmniej nie teraz. Google DeepMind, utworzony z połączenia dwóch poprzednich projektów Brain Team i DeepMind, jest odpowiedzialny za oba. Wydaje się prawdopodobne, że oba te projekty zasilają się nawzajem na pewnym poziomie. Ale na razie Google nadal odnosi się do nich jako do dwóch oddzielnych modeli sztucznej inteligencji o różnych celach.

Gdzie mogę znaleźć Google Gemini?

źródło: Google

Zajrzyj na stronę DeepMind - Gemini i poszukaj opcji rejestracji, aby dowiedzieć się więcej lub opcji logowania na konto deweloperskie, aby rozpocząć korzystanie z zestawu API Gemini Pro. Następnie możesz zacząć włączać usługi Gemini do swoich aplikacji i dostosowywać określone modele Gemini do swoich potrzeb. Pamiętaj, tylko Gemini Pro będzie dostępne 13 grudnia 2023 r., a pozostałe wersje pojawią się później.

Należy pamiętać, że Gemini jest przeznaczone wyłącznie do użytku organizacyjnego i deweloperskiego, głównie za pośrednictwem platformy Vertex. Jest przeznaczony dla firm, które chcą dostosowanych rozwiązań AI, które następnie będą oferować klientom za pośrednictwem własnych aplikacji i stron internetowych. Jeśli jako konsument chcesz doświadczyć Gemini, najlepszym rozwiązaniem jest Google Bard lub powiązane usługi Google.

Jeśli potrzebujesz dedykowanego rozwiązania AI, skontaktuj się z nami!

Ile kosztuje korzystanie z Google Gemini?

Konkretne ceny Gemini są obecnie trudne do przeanalizowania. Sugerujemy zapoznanie się z Google Vertex i jego cennikiem dla wszystkich usług generatywnej sztucznej inteligencji, które różnią się w zależności od rodzaju treści i konkretnej usługi, którą firma jest zainteresowana.

Czy Google Gemini jest bezpieczne?

DeepMind twierdzi, że Gemini został przeszkolony z myślą o bezpieczeństwie i będzie wdrażany w sposób odpowiedzialny. Google bardzo niejasno określa, co to oznacza, ale prawdopodobnie oznacza to, że Gemini nie będzie w stanie zrobić nic zbyt niegrzecznego, inwazyjnego lub nielegalnego.

Pozostawiono w dużej mierze nietkniętą kwestię tego, w jaki sposób Gemini konsumuje nasze treści, zastrzeżoną pracę i rozmowy... a także w jaki sposób można je wykorzystać do podejmowania pracy, zarabiania pieniędzy w nieetyczny sposób lub wykorzystywania wrażliwych grup. Są to pytania dotyczące wszystkich LLM, a obecnie mamy o wiele więcej pytań niż odpowiedzi.

Gemini jest teraz na pokładzie: Obserwuj Google

Google nadal udoskonala swoje modele sztucznej inteligencji i wprowadza je jako sposób na pozycjonowanie się jako źródło profesjonalnego rozwoju sztucznej inteligencji, nad czym firma pracuje w obliczu ostrej konkurencji ze strony źródeł takich jak OpenAI. Gemini to ambitna pozycja, która została wyszkolona do robienia wszystkiego po trochu, co czyni ją jednym z najbardziej wydajnych modeli. Spodziewaj się, że Gemini zostanie włączony do wszelkiego rodzaju usług Google w nadchodzącym roku, który pozostanie fascynującym czasem dla całej sztucznej inteligencji.

Czy artykuł był pomocny?

Google Gemini: wszystko co musisz wiedzieć o tym modelu językowym

Czy Google Gemini jest chatbotem? Czy może tworzyć treści?

Czy Google Gemini różni się od Google Bard?

Jak to wszystko ma się do PaLM 2?

Gdzie mogę znaleźć Google Gemini?

Ile kosztuje korzystanie z Google Gemini?

Czy Google Gemini jest bezpieczne?

Gemini jest teraz na pokładzie: Obserwuj Google

Masz pomysł?

Ogólne

Oferta

Porozmawiajmy!