Pierwsze kroki z wbudowaną AI

Alexandra Klepper
Alexandra Klepper

Data publikacji: 12 grudnia 2024 r., ostatnia aktualizacja: 20 maja 2025 r.

Dzięki wbudowanym interfejsom API AI Twoja aplikacja internetowa może wykonywać zadania oparte na AI bez konieczności wdrażania własnych modeli AI ani zarządzania nimi. Pracujemy nad ujednoliceniem tych interfejsów API w różnych przeglądarkach.

Wymagania

Aby korzystać z wbudowanej AI, musisz spełniać wymagania dotyczące modelu i sprzętu.

Modele

Interfejsy Translator API i Language Detector API korzystają z modeli eksperckich. Wszystkie inne interfejsy API korzystają z modelu językowego, który jest przeznaczony do działania lokalnego na komputerach stacjonarnych i laptopach.

Interfejsy Summarizer API, Writer API, Rewriter API i Proofreader API obsługują tylko tryb tekstowy. Interfejs Prompt API ma możliwości multimodalne.

Gemini Nano w Chrome

W Chrome modelem językowym jest Gemini Nano. Gemini Nano nie jest dostępny na urządzeniach mobilnych.

Od Chrome 140 Gemini Nano obsługuje język angielski, hiszpański i japoński w przypadku tekstu wejściowego i wyjściowego.

Zanim zaczniesz korzystać z wbudowanych interfejsów API AI, zapoznaj się z zasadami Google dotyczącymi niedozwolonych zastosowań generatywnej AI.

Sprzęt

Deweloperzy i użytkownicy, którzy korzystają z funkcji używających tych interfejsów API w Chrome, muszą spełniać te wymagania. Inne przeglądarki mogą mieć inne wymagania dotyczące działania.

Interfejsy Language Detector API i Translator API działają w Chrome na komputerze. Te interfejsy API nie działają na urządzeniach mobilnych. Interfejsy Prompt API, Summarizer API, Writer API, Rewriter API i Proofreader API działają w Chrome, gdy spełnione są te warunki:

  • System operacyjny: Windows 10 lub 11; macOS 13 lub nowszy (Ventura i nowsze); Linux lub ChromeOS (od platformy 16389.0.0) na urządzeniach Chromebook Plus. Chrome na Androida, iOS i ChromeOS na urządzeniach innych niż Chromebook Plus nie są jeszcze obsługiwane przez interfejsy API, które korzystają z Gemini Nano.
  • Pamięć: co najmniej 22 GB wolnego miejsca na woluminie zawierającym profil Chrome.
  • GPU: co najmniej 4 GB pamięci VRAM.
  • Sieć: nieograniczona transmisja danych lub połączenie bez limitu.

Dokładny rozmiar Gemini Nano może się zmieniać w miarę aktualizowania modelu przez przeglądarkę. Aby sprawdzić aktualny rozmiar, wejdź na chrome://on-device-internals.

Zacznij tworzyć

Dostępnych jest kilka wbudowanych interfejsów API AI na różnych etapach rozwoju. Niektóre są dostępne w stabilnej wersji Chrome, inne w ramach testów origin, a jeszcze inne tylko dla uczestników programu wczesnego dostępu.

Każdy interfejs API ma własny zestaw instrukcji, które pomagają rozpocząć pracę i pobrać model zarówno w przypadku lokalnego prototypowania, jak i w środowiskach produkcyjnych z testami origin.

Wszystkie te interfejsy API można wykorzystywać podczas tworzenia rozszerzeń do Chrome.

Pobieranie modelu

Interfejsy API i modele są wbudowane w Chrome. Gdy użytkownik po raz pierwszy wejdzie w interakcję z tymi interfejsami API, model musi zostać pobrany do przeglądarki.

Aby sprawdzić, czy interfejs API jest gotowy do użycia, wywołaj asynchroniczną funkcję availability(), która zwraca obietnicę z jedną z tych wartości:

  • "unavailable": urządzenie użytkownika lub opcje żądanej sesji nie są obsługiwane. Urządzenie może mieć niewystarczającą moc lub ilość miejsca na dysku.
  • "downloadable": aby utworzyć sesję, musisz pobrać dodatkowe pliki, które mogą obejmować model ekspercki, model językowy lub dostrajanie. Aby wywołać funkcję create(), może być wymagana aktywacja użytkownika.
  • "downloading": pobieranie jest w toku i musi się zakończyć, zanim będzie można użyć sesji.
  • "available": sesję możesz utworzyć od razu.

Aktywacja użytkownika

Jeśli urządzenie obsługuje wbudowane interfejsy API AI, ale model nie jest jeszcze dostępny, rozpoczęcie sesji z create() wymaga interakcji użytkownika.

Użyj właściwości UserActivation.isActive, aby potwierdzić aktywację użytkownika, która może być kliknięciem, dotknięciem lub naciśnięciem klawisza.

// Check for user activation.
if (navigator.userActivation.isActive) {
  // Create an instance of a built-in API
}

Na przykład w przypadku interfejsu Summarizer API możesz poprosić użytkowników o kliknięcie przycisku „Podsumuj”, aby aktywować Summarizer.create().

Używanie interfejsów API na hoście lokalnym

Wszystkie interfejsy API są dostępne w localhost w Chrome.

  1. Jedź do: chrome://flags/#prompt-api-for-gemini-nano-multimodal-input.
  2. Kliknij Włączono.
  3. Kliknij Uruchom ponownie lub uruchom ponownie Chrome.

Aby potwierdzić, że Gemini Nano zostało pobrane i działa zgodnie z oczekiwaniami, otwórz Narzędzia deweloperskie i wpisz w konsoli await LanguageModel.availability();. Powinno to zwrócić available.

Rozwiązywanie problemów z hostem lokalnym

Jeśli model nie działa zgodnie z oczekiwaniami, wykonaj te czynności:

  1. Uruchom ponownie Chrome.
  2. Jedź do: chrome://on-device-internals.
  3. Wybierz kartę Stan modelu i upewnij się, że nie ma błędów.
  4. Otwórz Narzędzia deweloperskie i wpisz LanguageModel.availability(); w konsoli. Powinno zostać zwrócone available.

W razie potrzeby poczekaj chwilę i powtórz te czynności.

Proces standardów

Pracujemy nad ujednoliceniem tych interfejsów API, aby działały we wszystkich przeglądarkach. Oznacza to, że zaproponowaliśmy interfejsy API społeczności platform internetowych i przekazaliśmy je do grupy społecznościowej Web Incubator W3C w celu dalszej dyskusji.

W przypadku każdego interfejsu API prosimy o opinię W3C, Mozillę i WebKit.

Angażowanie się i przesyłanie opinii

Jeśli wypróbujesz wbudowaną AI i chcesz podzielić się opinią, chętnie ją poznamy.