¿Cuántos genes tiene el genoma humano y qué entendemos por “gen”?
- Cesar Paz-y-Mino
- hace 3 horas
- 4 Min. de lectura
César Paz-y-Miño. Investigador en Genética y Genómica Médica. Universidad UTE

Cifras consolidadas
La anotación de referencia más usada (GENCODE, última estadística pública) reporta 78.691 genes en el humano, desglosados en 19.433 genes codificantes de proteína, 35.899 genes de lncRNA, 7.563 genes de ARN pequeños (miRNA, snoRNA, snRNA, etc.) y 14.701 pseudogenes. Estas cifras se actualizan periódicamente y son el mejor consenso curado disponible.
En paralelo, los ensamblajes “telómero-a-telómero” (T2T-CHM13) completaron el ~8% del genoma que faltaba y refinaron la anotación. El borrador T2T informó 63.494 genes (de los cuales ~19.969 serían codificantes) y 233.615 transcritos en ese ensamblaje; son valores de un genoma completo específico y caen dentro del rango aceptado para genes proteicos.
La convergencia de fuentes indica que el número de genes codificantes humanos se ha estabilizado alrededor de ~19–20 mil, con ligeros ajustes a la baja/arriba según el criterio de los anotadores y nuevas evidencias proteómicas.
Por qué el “total de genes” no es un número único
Si por “gen” contamos solo los que codifican proteínas, hoy hablamos de ~19–20 mil. Si además sumamos genes que producen ARN funcional (lncRNA, miRNA, etc.) y pseudogenes (secuencias genéticas similares a un gen pero que no codifican por mutaciones acumuladas en la evolución), el “total” se eleva a decenas de miles (GENCODE: 78.691), y todavía crece porque la anotación del transcriptoma—sobre todo lncRNA—sigue expandiéndose con datos de largo alcance y multi-ómicos.
La categoría lncRNA (ARN largo no codificante) es la más dinámica: GENCODE y trabajos recientes han incorporado miles de genes y cientos de miles de transcritos nuevos, lo que respalda la idea de que los genes no codificantes podrían superar ampliamente a los proteicos en número, aunque su función y conservación estén, en gran parte, por esclarecer.
Papel del ensamblaje completo y la heterocromatina
El salto a ensamblajes T2T añadió >200 Mb de secuencia previamente inaccesible (centromeros/telómeros), corrigió errores en referencias previas y destapó nuevos loci duplicados y segmental duplications (p.ej., familias como TBC1D3), lo que explica el hallazgo de nuevos genes y múltiples isoformas sin alterar dramáticamente el conteo global de genes proteicos.
Implicaciones para genética médica y evolutiva
Diagnóstico genético: con ~19–20 mil genes proteicos, la clínica no está “cerrada”. Variantes raras, isoformas específicas de tejido y regiones reguladoras contribuyen a fenotipos; limitarse a exomas ignora una fracción relevante del riesgo.
Regulación y redes: la complejidad humana no proviene del número de genes proteicos, sino de cómo se regulan y combinan (splicing alternativo, elementos no codificantes, duplicaciones recientes), algo que T2T y la expansión del catálogo de lncRNA están iluminando.
Epistemología del “gen”: el concepto es operacional. Contar “genes” exige declarar categorías: ¿incluimos solo codificantes?, ¿ncRNA con evidencia funcional?, ¿pseudogenes?, ¿segmentos inmunes? Cambiar la definición cambia la cifra.
Equidad y población: la anotación se apoya en muestras y tecnologías específicas; incorporar poblaciones subrepresentadas (LatAm/Ecuador) con lectura larga y RNA-seq de tejidos locales mejorará la interpretación clínica y reducirá sesgos. (Síntesis basada en la agenda reciente de catálogos de variación y anotación expandida).
Resumen
Cifra robusta para genes proteicos: usa GENCODE ≈ 19.4 mil como referencia práctica; T2T corrobora el orden de magnitud (≈ 20 mil) en un genoma completo. Evita rangos heredados como “20–25 mil” salvo que cites contexto histórico.
Total de “genes” depende de la definición: si se incorpora lncRNA, otros ncRNA y pseudogenes, el mejor número corregido hoy es ~78.7 mil (GENCODE). No existe un “número único” válido sin especificar categorías.
No confundir “descubrir genes” con “aumentar genes proteicos”: T2T añadió secuencias y aclaró duplicaciones e isoformas; eso no implica un salto grande en genes proteicos totales.
Gran parte del ncRNA carece de validación funcional: el catálogo crece más rápido que la evidencia de función; interpretar variantes en estas regiones exige cautela y datos funcionales.
Tabla comparativa con los datos más actuales de GENCODE (versión 44, 2025) y del ensamblaje Telomere-to-Telomere CHM13, que completó el 100 % del genoma humano.
Aclaración a la tabla: El número de genes humanos no es fijo, depende de la definición de “gen” y de la evidencia experimental utilizada. Los genes codificantes son ~19–20 mil, una cifra consolidada, pero representan una fracción mínima del genoma. Los genes no codificantes superan en número a los codificantes, aunque su función está aún poco caracterizada. El ensamblaje T2T-CHM13 perfecciona la estructura del genoma sin alterar sustancialmente el número de genes proteicos, pero añade regiones antes inaccesibles (heterocromatina, centrómeros, telómeros). La complejidad biológica humana proviene de la regulación, la epigenética y el splicing alternativo más que de la cantidad de genes. La genética médica y evolutiva debe interpretar estas cifras con prudencia: conocer “cuántos genes” no basta; importa comprender cuándo, dónde y cómo se expresan.









Comentarios