paligemma-3b-pt-224
Modelo de visión y lenguaje preentrenado de 3B parámetros de Google que combina un codificador de imágenes SigLIP con un decodificador de texto Gemma a 224px.
Entiende todo el contexto.
Regístrate para leer casos de estudio completos, acceder a métricas detalladas y recibir todos los reportes.
Entiende todo el contexto.
Regístrate para leer casos de estudio completos, acceder a métricas detalladas y recibir todos los reportes.