Ce tutoriel vous guide dans la configuration de W&B Launch pour soumettre des jobs exécutés en tant que tâches d’entraînement Vertex AI, afin de déporter les charges de travail d’entraînement vers l’infrastructure gérée de Google Cloud. Avec les tâches d’entraînement Vertex AI, vous pouvez entraîner des modèles de machine learning à l’aide d’algorithmes fournis ou personnalisés sur la plateforme Vertex AI. Une fois un job Launch démarré, Vertex AI gère l’infrastructure sous-jacente, la mise à l’échelle et l’orchestration. Ce guide s’adresse aux ingénieurs ML et aux administrateurs de plateforme qui utilisent déjà W&B Launch et souhaitent exécuter des jobs sur Google Cloud Vertex AI. W&B Launch fonctionne avec Vertex AI via la classeDocumentation Index
Fetch the complete documentation index at: https://wb-21fd5541-style-guide-support-models-articles-20260527-00.mintlify.app/llms.txt
Use this file to discover all available pages before exploring further.
CustomJob du SDK google-cloud-aiplatform. Vous pouvez contrôler les paramètres d’un CustomJob à l’aide de la configuration de la file d’attente Launch. Vous ne pouvez pas configurer Vertex AI pour récupérer des images depuis un registre privé situé hors de Google Cloud. Cela signifie que vous devez stocker les images de conteneur dans Google Cloud ou dans un registre public si vous souhaitez utiliser Vertex AI avec W&B Launch. Voir la documentation Vertex AI pour plus d’informations sur la façon de rendre les images de conteneur accessibles aux jobs Vertex.
Prérequis
- Créez ou accédez à un projet Google Cloud avec l’API Vertex AI activée. Voir la documentation Google Cloud API Console pour plus d’informations sur l’activation d’une API.
- Créez un dépôt Google Cloud Artifact Registry pour stocker les images que vous souhaitez exécuter sur Vertex. Voir la documentation Google Cloud Artifact Registry pour plus d’informations.
- Créez un bucket GCS de staging pour que Vertex AI y stocke ses métadonnées. Ce bucket doit se trouver dans la même région que vos charges de travail Vertex AI afin de servir de bucket de staging. Vous pouvez utiliser le même bucket pour le staging et les contextes de build.
- Créez un compte de service avec les autorisations nécessaires pour lancer des jobs Vertex AI. Voir la documentation Google Cloud IAM pour plus d’informations sur l’attribution d’autorisations aux comptes de service.
- Accordez à votre compte de service l’autorisation de gérer les jobs Vertex, comme indiqué dans le tableau suivant :
| Autorisation | Portée de la ressource | Description |
|---|---|---|
aiplatform.customJobs.create | Projet Google Cloud spécifié | Vous permet de créer de nouveaux jobs de machine learning dans le projet. |
aiplatform.customJobs.list | Projet Google Cloud spécifié | Vous permet de lister les jobs de machine learning dans le projet. |
aiplatform.customJobs.get | Projet Google Cloud spécifié | Vous permet de récupérer des informations sur des jobs de machine learning spécifiques dans le projet. |
Si vous souhaitez que vos charges de travail Vertex AI utilisent l’identité d’un compte de service non standard, reportez-vous à la documentation Vertex AI pour obtenir des instructions sur la création des comptes de service et les autorisations nécessaires. Utilisez le champ
spec.service_account de la configuration de la file d’attente Launch pour sélectionner un compte de service personnalisé pour vos runs W&B.Configurer une file d’attente pour Vertex AI
CustomJob dans le SDK Python Vertex AI, ainsi qu’à la méthode run de CustomJob. Les configurations de ressources sont stockées sous les clés spec et run :
- La clé
speccontient les valeurs des arguments nommés du constructeurCustomJobdans le SDK Python Vertex AI. - La clé
runcontient les valeurs des arguments nommés de la méthoderunde la classeCustomJobdans le SDK Python Vertex AI.
spec.worker_pool_specs. Une spécification de pool de workers définit un groupe de workers qui exécutent votre job. La spécification de worker de la configuration par défaut demande une seule machine n1-standard-4 sans accélérateur. Vous pouvez modifier le type de machine, le type d’accélérateur et le nombre d’accélérateurs selon vos besoins.
Pour plus d’informations sur les types de machines et d’accélérateurs disponibles, voir la documentation Vertex AI.
Créer une file d’attente
- Accédez à la page Launch.
- Cliquez sur le bouton Create Queue.
- Sélectionnez l’Entity dans laquelle vous souhaitez créer la file d’attente.
- Saisissez un nom pour votre file d’attente dans le champ Name.
- Sélectionnez Google Cloud Vertex AI comme Resource.
-
Dans le champ Configuration, fournissez des informations sur le
CustomJobVertex AI que vous avez défini dans Configurer une file d’attente pour Vertex AI. Par défaut, W&B renseigne un corps de requête YAML et JSON semblable à celui-ci : - Une fois votre file d’attente configurée, cliquez sur le bouton Create Queue.
spec.worker_pool_specs: liste non vide de spécifications de pools de workers.spec.staging_bucket: bucket GCS utilisé pour le stockage intermédiaire des ressources et des métadonnées Vertex AI.
Configurer un agent Launch
~/.config/wandb/launch-config.yaml.