Cómo GitHub usa Elasticsearch para llevar la búsqueda semántica a 395 millones de repositorios de código
GitHub, el mayor host de código del mundo con 180 millones de desarrolladores, desplegó Elasticsearch en Elastic Cloud para añadir búsqueda semántica en más de 395 millones de repositorios y miles de millones de documentos. El sistema gestiona consultas en lenguaje natural de desarrolladores humanos y agentes de IA, reduciendo los resultados con cero coincidencias y mejorando las tasas de clics. Un equipo de cinco o seis ingenieros gestiona toda la plataforma de búsqueda a esa escala.
Impacto
395 million+
Repositorios de código con búsqueda semántica
32x
Ratio de compresión vectorial con BBQ
5-6
Ingenieros que gestionan la plataforma de búsqueda
Desafío
La búsqueda por palabras clave de GitHub no podía gestionar las consultas en lenguaje natural que los desarrolladores hacen cada vez más, y fallaba por completo con los agentes de IA que interactúan con los datos de GitHub como clientes de primera clase.
Solución
Elasticsearch en Elastic Cloud para búsqueda semántica en miles de millones de documentos, usando embeddings vectoriales y compresión BBQ para gestionar consultas en lenguaje natural de humanos y sistemas de IA a escala, con Kibana para iterar rápidamente.
Herramientas y tecnologías
Lo que dicen los líderes
“El hecho de que podamos gestionar una plataforma de búsqueda usada por cientos de millones de usuarios con un equipo de cinco o seis ingenieros es increíble.”
“Con Elastic y la búsqueda semántica, nuestros usuarios pueden aprovechar al máximo el mayor recurso de código del mundo para desarrollar el futuro juntos.”
Regístrate para leer casos de estudio completos, acceder a métricas detalladas y recibir todos los reportes.
Historia completa
GitHub is where the world builds software. More than 180 million developers at 4 million organizations — including 90% of the Fortune 100 — rely on it to create, store, and share code. That means GitHub manages more than 395 million repositories and billions of documents covering source code, patch notes, discussions, and wikis.
Search is the primary way users navigate this ecosystem, but developer search behaviour was changing. Keyword search worked when users knew exactly what they were looking for — a function name, a repo identifier. It struggled with the natural-language questions developers increasingly ask, and it failed entirely when AI agents and assistants began querying GitHub data as first-class clients.
GitHub became an early adopter of Elastic for semantic search. Using Elasticsearch on Elastic Cloud, the team generates embeddings for content in the issues system and stores them in Elasticsearch. When users search, their queries are compared against stored vectors, returning results based on semantic similarity rather than keyword matching. GitHub adopted BBQ (Better Binary Quantization) as soon as it became production-ready: compressing high-dimensional vectors 32x, it dramatically reduces memory footprint and query latency at scale while maintaining retrieval quality through oversampling and rescoring.
The impact was measurable: zero-hit search results dropped significantly and click-through rates improved, confirming users were finding relevant results faster. The Kibana Dev Tools Console made it easier for GitHub’s software engineers — most of whom are not search specialists — to explore, test, and fine-tune queries before hitting production. The team built a repeatable onboarding pipeline so internal teams can adopt semantic search themselves with a single click.
The most striking result is operational efficiency: a team of five to six engineers runs a search platform used by hundreds of millions of users. GitHub is now working with Elastic on user behaviour insights (UBI) to quantify how search adjustments improve outcomes, pushing the platform toward continuous, data-driven improvement.