Grok od xAI widzi i słyszy: Nowe możliwości chatbota

Photo of author

By Katarzyna

Sztuczna inteligencja kontynuuje szybką ewolucję, a możliwości chatbotów wykraczają poza interakcje tekstowe. xAI Elona Muska niedawno wyposażyło swój model Grok w rozszerzone funkcje sensoryczne, umożliwiając mu interpretację świata wizualnego i interakcję za pomocą głosu, przybliżając go do konkurentów takich jak Gemini od Google i ChatGPT od OpenAI.

Wprowadzenie funkcji Grok Vision i audio

Najważniejszą aktualizacją jest Grok Vision, funkcja umożliwiająca sztucznej inteligencji przetwarzanie i rozumienie danych wizualnych bezpośrednio z kamery smartfona. Użytkownicy mogą teraz skierować swoje urządzenie na obiekty, produkty, dokumenty lub znaki, a Grok może dostarczyć opisy lub odpowiedzieć na powiązane pytania. Ta funkcja analizy wizualnej jest początkowo udostępniana użytkownikom za pośrednictwem aplikacji mobilnej na iOS.

Obok przetwarzania wizualnego, xAI wprowadziło nowe funkcjonalności audio. Obejmują one wyszukiwanie głosowe i wsparcie dla wielojęzycznej interakcji audio. Obecnie te funkcje audio są dostępne w aplikacji na Androida, w szczególności dla użytkowników subskrybujących plan SuperGrok, który kosztuje 30 dolarów miesięcznie. To stopniowe udostępnianie na różnych platformach i poziomach subskrypcji podkreśla strategię xAI dotyczącą rozszerzania użyteczności Grok.

Ciągłe ulepszanie modelu

Te najnowsze dodatki opierają się na wcześniejszych ulepszeniach mających na celu zwiększenie wszechstronności Grok. Wcześniej model zyskał funkcję “pamięci”, umożliwiając zachowanie kontekstu z poprzednich rozmów dla bardziej spójnych interakcji. Ponadto wprowadzono edytor wizualny, zapewniający interfejs przypominający płótno do generowania dokumentów i aplikacji.

Zespół deweloperski podkreśla podejście iteracyjne, skupiając się na zwiększaniu elastyczności i możliwości sztucznej inteligencji w miarę upływu czasu.

Grok 3 i strategiczne dopasowanie

Wcześniej Elon Musk ogłosił rodzinę modeli Grok 3, w tym warianty takie jak Grok 3 Reasoning i mini Reasoning. Wersje te zostały zaprojektowane z zaawansowanymi funkcjami, takimi jak sprawdzanie faktów przed generowaniem odpowiedzi i możliwość ukrywania procesów logicznych w celu zapobiegania analizie konkurencyjnej. Według doniesień, trening Grok 3 wykorzystał ogromny klaster obliczeniowy Colossus, wyposażony w 200 000 GPU, znacznie potężniejszy niż infrastruktura używana dla Grok 2. Wyrażoną ambicją Muska jest rozwój sztucznej inteligencji zdolnej do rozwiązywania złożonych globalnych pytań oraz wyrafinowanych problemów programistycznych i matematycznych.

W ramach strategicznego posunięcia mającego na celu konsolidację zasobów, Musk przekazał prawa do platformy mediów społecznościowych X (dawniej Twitter) swojemu startupowi AI, xAI. Ta integracja ma na celu połączenie technologii, danych i mocy obliczeniowej między obiema jednostkami. Według doniesień, transakcja ta wycenia xAI na 80 miliardów dolarów i X na 33 miliardy dolarów, uwzględniając 12 miliardów długu X.

Udostepnij