top of page

¿Cuántos genes tiene el genoma humano y qué entendemos por “gen”?

  • Foto del escritor: Cesar Paz-y-Mino
    Cesar Paz-y-Mino
  • hace 3 horas
  • 4 Min. de lectura

César Paz-y-Miño. Investigador en Genética y Genómica Médica. Universidad UTE


ree

Cifras consolidadas

La anotación de referencia más usada (GENCODE, última estadística pública) reporta 78.691 genes en el humano, desglosados en 19.433 genes codificantes de proteína, 35.899 genes de lncRNA, 7.563 genes de ARN pequeños (miRNA, snoRNA, snRNA, etc.) y 14.701 pseudogenes. Estas cifras se actualizan periódicamente y son el mejor consenso curado disponible.

 

En paralelo, los ensamblajes “telómero-a-telómero” (T2T-CHM13) completaron el ~8% del genoma que faltaba y refinaron la anotación. El borrador T2T informó 63.494 genes (de los cuales ~19.969 serían codificantes) y 233.615 transcritos en ese ensamblaje; son valores de un genoma completo específico y caen dentro del rango aceptado para genes proteicos.


La convergencia de fuentes indica que el número de genes codificantes humanos se ha estabilizado alrededor de ~19–20 mil, con ligeros ajustes a la baja/arriba según el criterio de los anotadores y nuevas evidencias proteómicas.


Por qué el “total de genes” no es un número único

Si por “gen” contamos solo los que codifican proteínas, hoy hablamos de ~19–20 mil. Si además sumamos genes que producen ARN funcional (lncRNA, miRNA, etc.) y pseudogenes (secuencias genéticas similares a un gen pero que no codifican por mutaciones acumuladas en la evolución), el “total” se eleva a decenas de miles (GENCODE: 78.691), y todavía crece porque la anotación del transcriptoma—sobre todo lncRNA—sigue expandiéndose con datos de largo alcance y multi-ómicos.

 

La categoría lncRNA (ARN largo no codificante) es la más dinámica: GENCODE y trabajos recientes han incorporado miles de genes y cientos de miles de transcritos nuevos, lo que respalda la idea de que los genes no codificantes podrían superar ampliamente a los proteicos en número, aunque su función y conservación estén, en gran parte, por esclarecer.

 

Papel del ensamblaje completo y la heterocromatina

El salto a ensamblajes T2T añadió >200 Mb de secuencia previamente inaccesible (centromeros/telómeros), corrigió errores en referencias previas y destapó nuevos loci duplicados y segmental duplications (p.ej., familias como TBC1D3), lo que explica el hallazgo de nuevos genes y múltiples isoformas sin alterar dramáticamente el conteo global de genes proteicos.

 

Implicaciones para genética médica y evolutiva

  1. Diagnóstico genético: con ~19–20 mil genes proteicos, la clínica no está “cerrada”. Variantes raras, isoformas específicas de tejido y regiones reguladoras contribuyen a fenotipos; limitarse a exomas ignora una fracción relevante del riesgo.

  2. Regulación y redes: la complejidad humana no proviene del número de genes proteicos, sino de cómo se regulan y combinan (splicing alternativo, elementos no codificantes, duplicaciones recientes), algo que T2T y la expansión del catálogo de lncRNA están iluminando.

  3. Epistemología del “gen”: el concepto es operacional. Contar “genes” exige declarar categorías: ¿incluimos solo codificantes?, ¿ncRNA con evidencia funcional?, ¿pseudogenes?, ¿segmentos inmunes? Cambiar la definición cambia la cifra.

  4. Equidad y población: la anotación se apoya en muestras y tecnologías específicas; incorporar poblaciones subrepresentadas (LatAm/Ecuador) con lectura larga y RNA-seq de tejidos locales mejorará la interpretación clínica y reducirá sesgos. (Síntesis basada en la agenda reciente de catálogos de variación y anotación expandida).

 

Resumen

  • Cifra robusta para genes proteicos: usa GENCODE ≈ 19.4 mil como referencia práctica; T2T corrobora el orden de magnitud (≈ 20 mil) en un genoma completo. Evita rangos heredados como “20–25 mil” salvo que cites contexto histórico.

  • Total de “genes” depende de la definición: si se incorpora lncRNA, otros ncRNA y pseudogenes, el mejor número corregido hoy es ~78.7 mil (GENCODE). No existe un “número único” válido sin especificar categorías.

  • No confundir “descubrir genes” con “aumentar genes proteicos”: T2T añadió secuencias y aclaró duplicaciones e isoformas; eso no implica un salto grande en genes proteicos totales.

  • Gran parte del ncRNA carece de validación funcional: el catálogo crece más rápido que la evidencia de función; interpretar variantes en estas regiones exige cautela y datos funcionales.

 

Tabla comparativa con los datos más actuales de GENCODE (versión 44, 2025) y del ensamblaje Telomere-to-Telomere CHM13, que completó el 100 % del genoma humano. 

Categoría de gen

Descripción funcional

Cantidad aproximada (GENCODE v44)

Cantidad aproximada (T2T-CHM13)

Observaciones clave

Codificantes de proteína

Secuencias que generan polipéptidos funcionales

19 433

≈ 19 969

Estimación estable; representa ~1.5–2 % del genoma → núcleo de la genómica médica

lncRNA

ARN largos no codificantes, reguladores de transcripción y cromatina

35 899

Incluidos parcialmente

Catálogo en expansión; muchos sin validación funcional

ARN pequeños (miRNA, snoRNA, snRNA, piRNA, etc.)

ARN cortos implicados en splicing, metilación y silenciamiento

7 563

No discriminados

Vitales en control post-transcripcional; alta conservación evolutiva

Pseudogenes

Copias no funcionales o parcialmente activas de genes ancestrales

14 701

Similar

Algunos pseudogenes expresan ARN con función reguladora

Total de genes anotados (todas las clases)

Suma total de loci con evidencia de transcripción

≈ 78 691

≈ 63 494

Diferencia metodológica: GENCODE = catálogo funcional; T2T = genoma completo específico

Transcritos totales (isoformas)

Variantes de splicing y duplicaciones segmentarias

≈ 233 615

Refleja la complejidad de expresión génica más que el número de genes únicos

Aclaración a la tabla: El número de genes humanos no es fijo, depende de la definición de “gen” y de la evidencia experimental utilizada. Los genes codificantes son ~19–20 mil, una cifra consolidada, pero representan una fracción mínima del genoma. Los genes no codificantes superan en número a los codificantes, aunque su función está aún poco caracterizada. El ensamblaje T2T-CHM13 perfecciona la estructura del genoma sin alterar sustancialmente el número de genes proteicos, pero añade regiones antes inaccesibles (heterocromatina, centrómeros, telómeros). La complejidad biológica humana proviene de la regulación, la epigenética y el splicing alternativo más que de la cantidad de genes. La genética médica y evolutiva debe interpretar estas cifras con prudencia: conocer “cuántos genes” no basta; importa comprender cuándo, dónde y cómo se expresan.

 

Comentarios


Este artículo se puede utilizar, copiar o reproducir citando la fuente y su autor.

Genética y Ciencia
César Paz-y-Miño
cesarpazymino.com
Quito - Ecuador
 
Sígueme
  • Facebook
  • X
  • Instagram
Publicaciones Recientes
Image by MJH SHIKDER

© 2025 All rights reserved - César Paz-y-Miño.

 Proudly created with Wix.com.

bottom of page