Model Garden 概览

Google Cloud 控制台中的 Model Garden 是一个机器学习模型库,可帮助您发现、测试、自定义和部署 Google 拥有的以及部分 OSS 模型和资产。

以下主题介绍 Model Garden 中提供的 AI 模型及其使用方法。

探索模型

如需查看可用的 Vertex AI 和开源基础,以及可微调和任务专用模型的列表,请转到 Google Cloud 控制台中的“Model Garden”页面。

转到 Model Garden

Model Garden 中提供的模型类别包括:

类别 说明
基础模型 预训练的多任务大型模型,可使用 Vertex AI Studio、Vertex AI API 和 Vertex AI SDK for Python 针对特定任务进行调优或自定义。
可微调的模型 您可以使用自定义笔记本或流水线微调模型。
针对特定任务的解决方案 其中大多数预构建模型都可以使用。其中许多数据都可以使用您自己的数据进行自定义。

如需在过滤条件窗格中过滤模型,请指定以下内容:

  • 模态:点击模型中所需的模态(数据类型)。
  • 任务:点击您希望模型执行的任务。
  • 特征:点击所需的模型特征。

如需详细了解每个模型,请点击其模型卡片。

Model Garden 中提供的模型

您可以在 Model Garden 中找到 Google 的第一方模型和部分开源模型。

Google 的第一方模型列表

下表列出了 Model Garden 中提供的 Google 第一方模型:

模型名称 模态 说明 快速入门
Gemini 1.5 Flash 语言、音频、视觉 最快、最具成本效益的多模态 Gemini 模型。它专为高数据量任务和对延迟敏感且经济实惠的应用而构建。由于 Gemini 1.5 Flash 响应速度很快,因此非常适合用于创建聊天助理和点播内容生成应用。 模型卡片
Gemini 1.5 Pro 语言、音频、视觉 此多模态模型支持在文本或聊天提示中添加图片、音频、视频和 PDF 文件,以提供文本或代码回答。 模型卡片
Gemini 1.0 Pro 语言 主要用于处理自然语言任务、多轮文本、代码聊天和代码生成。 模型卡片
Gemini 1.0 Pro Vision 语言、视觉 此多模态模型支持在文本或聊天提示中添加图片、视频和 PDF 文件,以提供文本或代码回答。 模型卡片
PaLM 2 for Text 语言 专门为了遵循自然语言指令而进行了调优,适用于各种语言任务。 模型卡片
PaLM 2 for Chat 语言 经过微调,可以进行自然对话。使用此模型构建和自定义您自己的聊天机器人应用。 模型卡片
Codey for Code Completion 语言 根据代码提示生成代码。适合用于提供代码建议以及最大限度地减少代码中的 bug。 模型卡片
Codey for Code Generation 语言 根据自然语言输入生成代码。适合用于编写函数、类、单元测试等。 模型卡片
Codey for Code Chat 语言 通过自然对话获得与代码相关的帮助。适合有关 API 的问题、支持的语言的语法等。 模型卡片
Embeddings for Text 语言 将文本数据转换为可由机器学习算法(尤其是大型模型)处理的数值向量。 模型卡片
Imagen for Image Generation Vision 使用文本提示大规模创建或编辑工作室级图片。 模型卡片
Vertex 图像分割(预览版 Vision 使用文本提示或绘制涂鸦来分割图片。借助图像分割功能,您可以执行各种操作,例如检测对象、移除图片的背景或分割图片的前景。 模型卡片
Imagen for Captioning & VQA 语言 为给定图片生成相关说明。 模型卡片
Embeddings for Multimodal Vision 基于图片生成向量,这些向量可用于图片分类和图片搜索等下游任务。 模型卡片
Chirp 语音 通用语音模型的一个版本,包含超过 20 亿个参数,可在单个模型中转写 100 多种语言。 模型卡片

Model Garden 中使用开源调优或服务配方的模型列表

下表列出了 Model Garden 中支持开源调优或服务配方的 OSS 模型:

模型名称 模态 说明 快速入门
Flux Vision 一个拥有 120 亿参数的修正流 Transformer 模型,可根据文本描述生成高质量图片。 模型卡片
提示守卫 语言 对 LLM 输入设置护栏,以防范越狱技术和间接注入。 模型卡片
Llama 3.2 语言 一组经过预训练和指令调优的生成模型,大小为 10 亿和 30 亿参数。 模型卡片
Llama 3.2-Vision 语言、视觉 一组经过预训练和指令调优的图片推理生成模型,大小为 110 亿和 90 亿参数,属于多模态大型语言模型。这些模型针对视觉识别、图片推理、添加字幕以及回答有关图片的常规问题进行了优化。 模型卡片
Llama Guard 3 语言 经过微调以用于内容安全分类的 Llama-3.1-8B 预训练模型。 模型卡片
Qwen2 语言 部署基础大语言模型系列 Qwen2。 Colab
模型卡片
Phi-3 语言 部署基础大语言模型系列 Phi-3。 Colab
模型卡片
E5 语言 部署 E5(文本嵌入模型系列)。 Colab
模型卡片
Instant ID 语言、视觉 部署 Instant ID,这是一种保护身份的文字转图片生成模型。 Colab
模型卡片
Llama 3 语言 在 Vertex AI 上使用 Meta 的 Llama 3 模型(8B、70B、405B)进行探索和构建。 模型卡片
Gemma 2 语言 开放式权重模型(9B、27B),基于创建 Google Gemini 模型所用的研究和技术构建而成。 模型卡片
Gemma 语言 开放式权重模型(2B、7B),基于创建 Google Gemini 模型所用的研究和技术构建而成。 模型卡片
CodeGemma 语言 开放式权重模型(2B、7B)(专为代码生成和代码补全而设计的模型)使用用于创建 Google Gemini 模型所用的研究和技术构建而成。 模型卡片
PaliGemma 语言 开放权重 3B 模型(专为图片标注任务和视觉问答任务而设计的模型)使用创建 Google Gemini 模型所用的研究和技术构建而成。 模型卡片
Vicuna v1.5 语言 部署 Vicuna v1.5 系列模型,它们是根据 LLama2 微调的基础模型,用于文本生成。 模型卡片
NLLB 语言 部署 nllb 系列模型,用于多语言翻译。 模型卡片
Colab
Mistral-7B 语言 部署 Mistral-7B,这是一个用于文本生成的基础模型。 模型卡片
BioGPT 语言 部署 BioGPT,这是一种用于生物医学领域的文本生成模型。 模型卡片
Colab
BiomedCLIP 语言、视觉 部署 BiomedCLIP,这是一种用于生物医学领域的多模态基础模型。 模型卡片
Colab
ImageBind 语言、视觉、
音频
部署 ImageBind,这是一种用于多模态嵌入的基础模型。 模型卡片
Colab
DITO 语言、视觉 微调和部署 DITO,这是一种用于开放词汇对象检测任务的多模态基础模型。 模型卡片
Colab
OWL-ViT v2 语言、视觉 部署 OWL-ViT v2,这是一种用于开放词汇对象检测任务的多模态基础模型。 模型卡片
Colab
FaceStylizer (Mediapipe) Vision 将人脸图像转换为新风格的生成式流水线。 模型卡片
Colab
Llama 2 语言 在 Vertex AI 上微调和部署 Meta 的 Llama 2 基础模型(7B、13B、70B)。 模型卡片
Code Llama 语言 在 Vertex AI 上部署 Meta 的 Code Llama 基础模型(7B、13B、34B)。 模型卡片
Falcon-instruct 语言 使用 PEFT 微调和部署 Falcon-instruct 模型(7B、40B)。 Colab
模型卡片
OpenLLaMA 语言 使用 PEFT 微调和部署 OpenLLaMA 模型(3B、7B、13B)。 Colab
模型卡片
T5-FLAN 语言 微调和部署 T5-FLAN(基础、小、大)。 模型卡片(包含微调流水线)
BERT 语言 使用 PEFT 微调和部署 BERT。 Colab
模型卡片
BART-large-cnn 语言 部署 BART,这是一个转换器编码器-编码器 (seq2seq) 模型,具有双向(类似于 BERT)编码器和自动回归(类似于 GPT)解码器。 Colab
模型卡片
RoBERTa-large 语言 使用 PEFT 微调和部署 RoBERTa-large。 Colab
模型卡片
XLM-RoBERTa-large 语言 使用 PEFT 微调和部署 XLM-RoBERTa-large(多语言版 RoBERTa)。 Colab
模型卡片
Dolly-v2-7b 语言 部署 Dolly-v2-7b,这是一个具有 69 亿个参数的指令跟踪大型语言模型。 Colab
模型卡片
Stable Diffusion XL v1.0 语言、视觉 部署 Stable Diffusion XL v1.0,它支持文字转图片。 Colab
模型卡片
Stable Diffusion XL Lightning 语言、视觉 部署 Stable Diffusion XL Lightning,这是一种文字转图片生成模型。 Colab
模型卡片
Stable Diffusion v2.1 语言、视觉 使用 Dreambooth 微调和部署 Stable Diffusion v2.1(支持文字转图片)。 Colab
模型卡片
Stable Diffusion 4x upscaler 语言、视觉 部署 Stable Diffusion 4x upscaler,它支持文本条件式图片超分辨率。 Colab
模型卡片
InstructPix2Pix 语言、视觉 部署 InstructPix2Pix,它支持使用文本提示来编辑图片。 Colab
模型卡片
Stable Diffusion Inpainting 语言、视觉 微调和部署 Stable Diffusion Inpainting,它支持使用文本提示来修复遮盖图片。 Colab
模型卡片
SAM 语言、视觉 部署 Segment Anything,它支持零镜头图像分割。 Colab
模型卡片
Text-to-video (ModelScope) 语言、视觉 部署 ModelScope text-to-video,它支持文字转视频。 Colab
模型卡片
Pic2Word Composed Image Retrieval 语言、视觉 部署 Pic2Word,它支持多模态合成图片检索。 Colab
模型卡片
BLIP2 语言、视觉 部署 BLIP2,它支持图片描述和视觉问答。 Colab
模型卡片
Open-CLIP 语言、视觉 微调和部署 Open-CLIP,它支持零镜头分类。 Colab
模型卡片
F-VLM 语言、视觉 部署 F-VLM,它支持开放词汇图片对象检测。 Colab
模型卡片
tfhub/EfficientNetV2 Vision 微调和部署 EfficientNetV2 图片分类模型的 TensorFlow Vision 实现。 Colab
模型卡片
EfficientNetV2 (TIMM) Vision 微调和部署 EfficientNetV2 图片分类模型的 PyTorch 实现。 Colab
模型卡片
Proprietary/EfficientNetV2 Vision 微调和部署 EfficientNetV2 图片分类模型的 Google 专有检查点。 Colab
模型卡片
EfficientNetLite (MediaPipe) Vision 通过 MediaPipe Model Maker 微调 EfficientNetLite 图片分类模型。 Colab
模型卡片
tfvision/vit Vision 微调和部署 ViT 图片分类模型的 TensorFlow Vision 实现。 Colab
模型卡片
ViT (TIMM) Vision 微调和部署 ViT 图片分类模型的 PyTorch 实现。 Colab
模型卡片
Proprietary/ViT Vision 微调和部署 ViT 图片分类模型的 Google 专有检查点。 Colab
模型卡片
Proprietary/MaxViT Vision 微调和部署 MaxViT 混合 (CNN + ViT) 图片分类模型的 Google 专有检查点。 Colab
模型卡片
ViT (JAX) Vision 微调和部署 ViT 图片分类模型的 JAX 实现。 Colab
模型卡片
tfvision/SpineNet Vision 微调和部署 SpineNet 对象检测模型的 Tensorflow Vision 实现。 Colab
模型卡片
Proprietary/Spinenet Vision 微调和部署 SpineNet 对象检测模型的 Google 专有检查点。 Colab
模型卡片
tfvision/YOLO Vision 微调和部署 YOLO 单阶段对象检测模型的 TensorFlow Vision 实现。 Colab
模型卡片
Proprietary/YOLO Vision 微调和部署 YOLO 单阶段对象检测模型的 Google 专有检查点。 Colab
模型卡片
YOLOv8 (Keras) Vision 微调和部署 YOLOv8 对象检测模型的 Keras 实现。 Colab
模型卡片
tfvision/YOLOv7 Vision 微调和部署 YOLOv7 对象检测模型。 Colab
模型卡片
ByteTrack Video Object Tracking Vision 使用 ByteTrack 跟踪器运行用于视频对象跟踪的批量预测。 Colab
模型卡片
ResNeSt (TIMM) Vision 微调和部署 ResNeSt 图片分类模型的 PyTorch 实现。 Colab
模型卡片
ConvNeXt (TIMM) Vision 微调和部署 ConvNeXt,这是一种用于图片分类的纯卷积模型,其灵感来自 Vision Transformer 的设计。 Colab
模型卡片
CspNet (TIMM) Vision 微调和部署 CSPNet (Cross Stage Partial Network) 图片分类模型。 Colab
模型卡片
Inception (TIMM) Vision 微调和部署 Inception 图片分类模型。 Colab
模型卡片
DeepLabv3+(带检查点) Vision 微调和部署 DeepLab-v3 Plus 语义图像分割模型。 Colab
模型卡片
Faster R-CNN (Detectron2) Vision 微调和部署 Faster R-CNN 图片对象检测模型的 Detectron2 实现。 Colab
模型卡片
RetinaNet (Detectron2) Vision 微调和部署 RetinaNet 图片对象检测模型的 Detectron2 实现。 Colab
模型卡片
Mask R-CNN (Detectron2) Vision 微调和部署 Mask R-CNN 图片对象检测和分割模型的 Detectron2 实现。 Colab
模型卡片
ControlNet Vision 微调和部署 ControlNet 文字转图片生成模型。 Colab
模型卡片
MobileNet (TIMM) Vision 微调和部署 MobileNet 图片分类模型的 PyTorch 实现。 Colab
模型卡片
MobileNetV2 (MediaPipe) Image Classification Vision 使用 MediaPipe Model Maker 微调 MobileNetV2 图片分类模型。 Colab
模型卡片
MobileNetV2 (MediaPipe) Object Detection Vision 使用 MediaPipe Model Maker 微调 MobileNetV2 对象检测模型。 Colab
模型卡片
MobileNet-MultiHW-AVG (MediaPipe) Vision 使用 MediaPipe Model Maker 微调 MobileNet-MultiHW-AVG 对象检测模型。 Colab
模型卡片
DeiT Vision 微调和部署 DeiT(数据高效的图片转换器)图片分类模型。 Colab
模型卡片
BEiT Vision 微调和部署 BEiT(图片转换器的双向编码器表示法)图片分类模型。 Colab
模型卡片
Hand Gesture Recognition (MediaPipe) Vision 使用 MediaPipe 微调和部署 Hand Gesture Recognition 模型。 Colab
模型卡片
Average Word Embedding Classifier (MediaPipe) Vision 使用 MediaPipe 微调和部署 Average Word Embedding Classifier 模型。 Colab
模型卡片
MobileBERT Classifier (MediaPipe) Vision 使用 MediaPipe 微调和部署 MobileBERT Classifier 模型。 Colab
模型卡片
MoViNet Video Clip Classification 视频 微调和部署 MoViNet 视频片段分类模型。 Colab
模型卡片
MoViNet Video Action Recognition 视频 微调和部署 MoViNet 动作识别推理模型。 Colab
模型卡片
Stable Diffusion XL LCM Vision 部署此模型,它使用潜在一致性模型 (LCM) 增强潜在 Diffusion 模型中的文本转图片生成,可通过更少的步骤更快生成高质量的图片。 Colab
模型卡片
LLaVA 1.5 视觉、语言 部署 LLaVA 1.5 模型。 Colab
模型卡片
Pytorch-ZipNeRF 视觉、视频 训练 Pytorch-ZipNeRF 模型,它是 Pytorch 框架中最先进的 ZipNeRF 算法实现,专门用于根据 2D 图像进行高效准确的 3D 重建。 Colab
模型卡片
Mixtral 语言 部署 Mixtral 模型,它是 Mistral AI 开发的混合专家 (MoE) 大语言模型 (LLM)。 模型卡片
Llama 2(量化) 语言 微调和部署 Meta 的 Llama 2 模型的量化版本。 Colab
模型卡片
LaMa (Large Mask Inpainting) Vision 部署 LaMa,它使用快速傅立叶卷积 (FFC)、高感受野感知损失和大型训练掩膜,可以实现高分辨率的图像修复。 Colab
模型卡片
AutoGluon 表格 利用 AutoGluon,您可以为表格数据训练和部署高准确率的机器学习模型和深度学习模型。 Colab
模型卡片
MaMMUT 语言、视觉 视觉编码器和文本解码器架构,适用于多模态任务,例如视觉问答、图片文本检索、文本图片检索以及多模态嵌入生成。 Colab
模型卡片

Model Garden 中提供的合作伙伴模型列表

部分合作伙伴模型在 Vertex AI Model Garden 中以托管式 API(也称为模型即服务)的形式提供。下表列出了 Model Garden 中由 Google 合作伙伴提供的模型:

模型名称 模态 说明 快速入门
Anthropic 的 Claude 3.5 Sonnet v2 语言 升级后的 Claude 3.5 Sonnet 是先进的模型,用于处理实际的软件工程任务和智能体功能。Claude 3.5 Sonnet 在价格和速度与前代产品相同的情况下,实现了这些改进。 模型卡片
Anthropic 的 Claude 3.5 Haiku 语言 Claude 3.5 Haiku 是 Anthropic 最快且最具成本效益的下一代模型,非常适合速度和经济性重要的应用场景。 模型卡片
Anthropic 的 Claude 3 Opus 语言 一个强大的 AI 模型,在处理高度复杂的任务时可达到出色的性能。它能够处理开放式提示和背后可能的方案,具有出色的流利度和真人理解能力。 模型卡片
Anthropic 的 Claude 3 Haiku 语言 Anthropic 最快的视觉和文本模型,能够近乎即时地响应简单的查询,旨在打造模仿人类互动的无缝 AI 体验。 模型卡片
Anthropic 的 Claude 3.5 Sonnet 语言 凭借 Anthropic 的中端模型 Claude 3 Sonnet 的速度和成本,Claude 3.5 Sonnet 在 Anthropic 的多种评估中优于 Anthropic 的 Claude 3 Opus。 模型卡片
Anthropic 的 Claude 3 Sonnet 语言 一种视觉和文本模型,可平衡性能和速度以处理企业工作负载。该模型专为低成本、缩放式 AI 部署而设计。 模型卡片
Jamba 1.5 Large(预览版 语言 AI21 Labs 的 Jamba 1.5 Large 旨在提供优质的回答、高吞吐量,并且价格与同类别的其他模型相比具有竞争力。 模型卡片
Jamba 1.5 Mini(预览版 语言 AI21 Labs 的 Jamba 1.5 Mini 在质量、吞吐量和低成本方面取得了良好的平衡。 模型卡片
Llama 3.2(预览版 语言、视觉 一个中等规模的 900 亿参数多模态模型,可支持图片推理,例如图表和图形分析以及图片描述。 模型卡片
Llama 3.1(预览版 语言 一组针对多语言对话应用场景进行了优化的多语言 LLM,在常见的行业基准中优于许多可用的开源和封闭式聊天模型。 模型卡片
Mistral Large (24.11) 语言 Mistral Large (24.11) 是 Mistral Large (2407) 模型的下一个版本,现在改进了推理和函数调用功能。 模型卡片
Mistral Large (2407) 语言 Mistral Large (2407) 是 Mistral AI 用于文本生成的旗舰级模型。它达到了顶级推理能力,可用于复杂的多语言任务,包括文本理解、转换和代码生成。 模型卡片
Mistral Nemo 语言 Mistral AI 最具成本效益的专有模型。使用 Mistral Nemo 低延迟工作负载以及可批量完成的简单任务,例如分类、客户服务和文本生成。 模型卡片
Codestral 代码 专为代码生成而设计和优化的生成模型。您可以使用 Codestral 设计高级 AI 应用。 模型卡片

模型测试和安全

Google 会对我们提供的广告投放和优化容器进行全面测试和基准测试。主动漏洞扫描功能也适用于容器工件。

精选合作伙伴提供的第三方模型会接受模型检查点扫描,以确保其真实性。HuggingFace Hub 中的第三方模型会在每次提交或访问仓库页面时由 HuggingFace 直接扫描,以检查是否存在恶意软件pickle 文件秘密。HuggingFace 会标记存在这些扫描结果的模型。我们建议您在将任何被标记的模型部署到 Model Garden 之前,对其进行全面审核。

如何使用模型卡片

点击模型卡片可使用与其关联的模型。例如,您可以点击模型卡片来测试提示、调优模型、创建应用和查看代码示例。

如需了解如何使用与模型卡片关联的模型,请点击以下标签页之一:

测试提示

使用 Vertex AI PaLM API 模型卡片来测试提示。

  1. 在 Google Cloud 控制台中,转到 Model Garden 页面。

    转到 Model Garden

  2. 找到要测试的受支持模型,然后点击查看详细信息

  3. 点击打开提示设计

    您将转到提示设计页面。

  4. 提示符中,输入要测试的提示。

  5. 可选:配置模型参数。

  6. 点击提交

调整模型

如需调整支持的模型,请使用 Vertex AI 流水线或笔记本。

使用流水线进行微调

BERT 和 T5-FLAN 模型支持使用流水线进行模型调整。

  1. 在 Google Cloud 控制台中,转到 Model Garden 页面。

    转到 Model Garden

  2. 搜索模型中,输入 BERTT5-FLAN,然后点击放大镜以进行搜索。

  3. 点击 T5-FLANBERT 模型卡片上的查看详细信息

  4. 点击打开微调流水线

    您将进入 Vertex AI 流水线页面。

  5. 如需开始调整,请点击创建运行

在笔记本中调整

大多数开源基础模型和可微调模型的模型卡都支持在笔记本中进行调整。

  1. 在 Google Cloud 控制台中,转到 Model Garden 页面。

    转到 Model Garden

  2. 找到要调节的支持模型,然后点击查看详细信息

  3. 点击打开笔记本

部署模型

您可以通过模型卡片部署模型,例如 Stable Diffusion。部署模型时,您可以选择使用 Compute Engine 预留。如需了解详情,请参阅将预留与预测搭配使用

  1. 在 Google Cloud 控制台中,转到 Model Garden 页面。

    转到 Model Garden

  2. 找到要部署的受支持模型,然后点击其模型卡片。

  3. 点击部署以打开部署模型窗格。

  4. 部署模型窗格中,指定部署的详细信息。

    1. 使用或修改生成的模型和端点名称。
    2. 选择要创建模型端点的位置。
    3. 选择要用于部署的每个节点的机器类型。
    4. 如需使用 Compute Engine 预留,请在部署设置部分下,选择高级

      预留类型字段中,选择预留类型。预留必须符合您指定的机器规格。

      • 自动使用已创建的预留:Vertex AI 会自动选择具有匹配属性的允许预留。如果自动选择的预留中没有容量,Vertex AI 会使用通用 Google Cloud 资源池。
      • 选择特定预留:Vertex AI 使用特定预留。如果所选预留没有空位,系统会抛出错误。
      • 不使用(默认):Vertex AI 使用通用 Google Cloud 资源池。此值的效果与不指定预留相同。
  5. 点击部署

查看代码示例

特定于任务的解决方案模型的大多数模型卡都包含您可以复制和测试的代码示例。

  1. 在 Google Cloud 控制台中,转到 Model Garden 页面。

    转到 Model Garden

  2. 找到要查看其代码示例的支持模型,然后点击文档标签页。

  3. 页面会滚动到文档部分,其中嵌入了示例代码。

创建视觉应用

适用计算机视觉模型的模型卡支持创建视觉应用。

  1. 在 Google Cloud 控制台中,转到 Model Garden 页面。

    转到 Model Garden

  2. 在“针对特定任务的解决方案”部分中找到要用于创建视觉应用的视觉模型,然后点击查看详细信息

  3. 点击构建应用

    您将进入 Vertex AI Vision。

  4. 应用名称中,输入应用的名称,然后点击继续

  5. 选择结算方案,然后点击创建

    您将进入 Vertex AI Vision Studio,可以继续创建计算机视觉应用。

价格

对于 Model Garden 中的开源模型,您需要为在 Vertex AI 上使用以下各项付费:

  • 模型调优:您需要按与自定义训练相同的费率为使用的计算资源付费。请参阅自定义训练价格
  • 模型部署:您需要为将模型部署到端点所使用的计算资源付费。请参阅预测价格
  • Colab Enterprise:请参阅 Colab Enterprise 价格

控制对特定模型的访问权限

您可以在组织、文件夹或项目级设置 Model Garden 组织政策,以控制对 Model Garden 中特定模型的访问权限。例如,您可以允许用户访问您已审核的特定模型,并禁止用户访问所有其他模型。

后续步骤