G

paligemma-3b-pt-224

Multimodalpor Google·Página del modelo

Modelo de visión y lenguaje preentrenado de 3B parámetros de Google que combina un codificador de imágenes SigLIP con un decodificador de texto Gemma a 224px.

Share:
Autor
G
Google
Organización · ✓
google
Detalles
Descargas652.8K
Me gusta479
AccesoCódigo Abierto
Tareaimage-text-to-text
Parámetros2.9B
Licenciagemma
Libreríatransformers
Creado12 may 2024
Actualizado21 sept 2024
Ver en Hugging Face
Entiende todo el contexto.

Regístrate para leer casos de estudio completos, acceder a métricas detalladas y recibir todos los reportes.