¿Cuántos genes tiene el genoma humano y qué entendemos por “gen”?

Cesar Paz-y-Mino
7 nov 2025
4 Min. de lectura

César Paz-y-Miño. Investigador en Genética y Genómica Médica. Universidad UTE

Cifras consolidadas

La anotación de referencia más usada (GENCODE, última estadística pública) reporta 78.691 genes en el humano, desglosados en 19.433 genes codificantes de proteína, 35.899 genes de lncRNA, 7.563 genes de ARN pequeños (miRNA, snoRNA, snRNA, etc.) y 14.701 pseudogenes. Estas cifras se actualizan periódicamente y son el mejor consenso curado disponible.

En paralelo, los ensamblajes “telómero-a-telómero” (T2T-CHM13) completaron el ~8% del genoma que faltaba y refinaron la anotación. El borrador T2T informó 63.494 genes (de los cuales ~19.969 serían codificantes) y 233.615 transcritos en ese ensamblaje; son valores de un genoma completo específico y caen dentro del rango aceptado para genes proteicos.

La convergencia de fuentes indica que el número de genes codificantes humanos se ha estabilizado alrededor de ~19–20 mil, con ligeros ajustes a la baja/arriba según el criterio de los anotadores y nuevas evidencias proteómicas.

Por qué el “total de genes” no es un número único

Si por “gen” contamos solo los que codifican proteínas, hoy hablamos de ~19–20 mil. Si además sumamos genes que producen ARN funcional (lncRNA, miRNA, etc.) y pseudogenes (secuencias genéticas similares a un gen pero que no codifican por mutaciones acumuladas en la evolución), el “total” se eleva a decenas de miles (GENCODE: 78.691), y todavía crece porque la anotación del transcriptoma—sobre todo lncRNA—sigue expandiéndose con datos de largo alcance y multi-ómicos.

La categoría lncRNA (ARN largo no codificante) es la más dinámica: GENCODE y trabajos recientes han incorporado miles de genes y cientos de miles de transcritos nuevos, lo que respalda la idea de que los genes no codificantes podrían superar ampliamente a los proteicos en número, aunque su función y conservación estén, en gran parte, por esclarecer.

Papel del ensamblaje completo y la heterocromatina

El salto a ensamblajes T2T añadió >200 Mb de secuencia previamente inaccesible (centromeros/telómeros), corrigió errores en referencias previas y destapó nuevos loci duplicados y segmental duplications (p.ej., familias como TBC1D3), lo que explica el hallazgo de nuevos genes y múltiples isoformas sin alterar dramáticamente el conteo global de genes proteicos.

Implicaciones para genética médica y evolutiva

Diagnóstico genético: con ~19–20 mil genes proteicos, la clínica no está “cerrada”. Variantes raras, isoformas específicas de tejido y regiones reguladoras contribuyen a fenotipos; limitarse a exomas ignora una fracción relevante del riesgo.
Regulación y redes: la complejidad humana no proviene del número de genes proteicos, sino de cómo se regulan y combinan (splicing alternativo, elementos no codificantes, duplicaciones recientes), algo que T2T y la expansión del catálogo de lncRNA están iluminando.
Epistemología del “gen”: el concepto es operacional. Contar “genes” exige declarar categorías: ¿incluimos solo codificantes?, ¿ncRNA con evidencia funcional?, ¿pseudogenes?, ¿segmentos inmunes? Cambiar la definición cambia la cifra.
Equidad y población: la anotación se apoya en muestras y tecnologías específicas; incorporar poblaciones subrepresentadas (LatAm/Ecuador) con lectura larga y RNA-seq de tejidos locales mejorará la interpretación clínica y reducirá sesgos. (Síntesis basada en la agenda reciente de catálogos de variación y anotación expandida).

Resumen

Cifra robusta para genes proteicos: usa GENCODE ≈ 19.4 mil como referencia práctica; T2T corrobora el orden de magnitud (≈ 20 mil) en un genoma completo. Evita rangos heredados como “20–25 mil” salvo que cites contexto histórico.
Total de “genes” depende de la definición: si se incorpora lncRNA, otros ncRNA y pseudogenes, el mejor número corregido hoy es ~78.7 mil (GENCODE). No existe un “número único” válido sin especificar categorías.
No confundir “descubrir genes” con “aumentar genes proteicos”: T2T añadió secuencias y aclaró duplicaciones e isoformas; eso no implica un salto grande en genes proteicos totales.
Gran parte del ncRNA carece de validación funcional: el catálogo crece más rápido que la evidencia de función; interpretar variantes en estas regiones exige cautela y datos funcionales.

Tabla comparativa con los datos más actuales de GENCODE (versión 44, 2025) y del ensamblaje Telomere-to-Telomere CHM13, que completó el 100 % del genoma humano.

Categoría de gen	Descripción funcional	Cantidad aproximada (GENCODE v44)	Cantidad aproximada (T2T-CHM13)	Observaciones clave
Codificantes de proteína	Secuencias que generan polipéptidos funcionales	19 433	≈ 19 969	Estimación estable; representa ~1.5–2 % del genoma → núcleo de la genómica médica
lncRNA	ARN largos no codificantes, reguladores de transcripción y cromatina	35 899	Incluidos parcialmente	Catálogo en expansión; muchos sin validación funcional
ARN pequeños (miRNA, snoRNA, snRNA, piRNA, etc.)	ARN cortos implicados en splicing, metilación y silenciamiento	7 563	No discriminados	Vitales en control post-transcripcional; alta conservación evolutiva
Pseudogenes	Copias no funcionales o parcialmente activas de genes ancestrales	14 701	Similar	Algunos pseudogenes expresan ARN con función reguladora
Total de genes anotados (todas las clases)	Suma total de loci con evidencia de transcripción	≈ 78 691	≈ 63 494	Diferencia metodológica: GENCODE = catálogo funcional; T2T = genoma completo específico
Transcritos totales (isoformas)	Variantes de splicing y duplicaciones segmentarias	—	≈ 233 615	Refleja la complejidad de expresión génica más que el número de genes únicos

Aclaración a la tabla: El número de genes humanos no es fijo, depende de la definición de “gen” y de la evidencia experimental utilizada. Los genes codificantes son ~19–20 mil, una cifra consolidada, pero representan una fracción mínima del genoma. Los genes no codificantes superan en número a los codificantes, aunque su función está aún poco caracterizada. El ensamblaje T2T-CHM13 perfecciona la estructura del genoma sin alterar sustancialmente el número de genes proteicos, pero añade regiones antes inaccesibles (heterocromatina, centrómeros, telómeros). La complejidad biológica humana proviene de la regulación, la epigenética y el splicing alternativo más que de la cantidad de genes. La genética médica y evolutiva debe interpretar estas cifras con prudencia: conocer “cuántos genes” no basta; importa comprender cuándo, dónde y cómo se expresan.

Genética y Ciencia

César Paz-y-Miño
Genética y Ciencia

¿Cuántos genes tiene el genoma humano y qué entendemos por “gen”?

Este artículo se puede utilizar, copiar o reproducir citando la fuente y su autor.

Genética y Ciencia
César Paz-y-Miño
cesarpazymino.com
Quito - Ecuador

Sígueme

Publicaciones Recientes

El músculo como un sistema endócrino: genes y órganos en diálogo

El ADN del Viento: Neurogenética, velocidad, riesgo y la ciencia de sentirse vivo en una motocicleta

La Genética de 2025: cuando dejamos de predecir y empezamos a intervenir. NOTIMERCIO

Universidad sin investigación no es universidad - PDF

GENETICA Y CIENCIA. The Dangerous Anti-Vaccine Rhetoric and Its Potential Impact on Countries with Weak Economies and Deficient Public Health Systems