| NOTICIAS DE INVESTIGACIÓN | POR
· PUBLICADO EL 9 DE JULIO DE 2018 |Amparo Tolosa, Genética Médica News |
Desde los inicios del Proyecto Genoma Humano, allá por el año 1990, todo parecía indicar que la respuesta a una de las preguntas más relevantes de la Genética, la de cuántos genes tiene el genoma humano, estaba cerca.
Las primeras estimaciones previas a la secuenciación del genoma humano calculaban que había unos 100.000 genes. Sin embargo, para sorpresa de muchos, el Proyecto Genoma Humano reveló que el número de genes que codifican para proteínas era sustancialmente menor de lo esperado: entre 30.000 y 35.000 genes. Desde aquel primer borrador del genoma, publicado en 2001, el número de genes se ha ido reduciendo poco a poco y hace no tanto se hablaba de 19.000 genes codificantes para proteínas. Pero lo que es cierto es que todavía no hay un número oficial definitivo.
La última estimación del número de genes de nuestro genoma, llevada a cabo por un equipo de investigadores de la Universidad Johns Hopkins de EE.UU., habla de 21.306 genes codificantes de proteínas. En este caso los investigadores, dirigidos por Steven Salzberg, utilizaron la información depositada en bases de datos del proyecto GTEx, correspondiente a la secuenciación de ARN de más de 31 tejidos humanos y a partir de diferentes aproximaciones bioinformáticas (como la comparación con otras especies o la validación a partir de datos de espectrometría de masas) estimaron que existen 21.306 genes codificantes para proteínas y 21.856 genes no codificantes.
Frente a estas estimaciones, la última versión de GENCODE, la base de datos del EBI (instituto Europeo de Bioinformática), considera un total de 19.901 genes codificantes y 23.348 genes de ARN no codificante y la base de datos SeqRef, dirigida por el Centro Nacional de Información Biotecnológica de EE.UU. estima 20.433 genes codificantes y 17.835 genes de ARN no codificante.
Los resultados del equipo de Salzberg no han convencido a toda la comunidad científica. Adam Frankish, bioinformático en el EBI y el Wellcome Sanger Institute e investigador principal en GENCODE, consorcio destinado a inventariar todos los genes y variantes de nuestro genoma, ha manifestado a la revista Nature que su grupo ha analizado 100 de los genes codificantes identificados por Salzberg y únicamente uno presenta evidencias de codificar realmente para una proteína. Nature también informa sobre las reticencias de Kim Pruitt, investigador en el NCBI y antiguo responsable de RefSeq, quien señala que las diferencias entre los resultados de Salzberg y los mostrados en las bases de datos se deben a la metodología utilizada por los investigadores de la Universidad Johns Hopkins y al hecho de que el equipo no revisara manualmente los resultados obtenidos mediante herramientas bioinformáticas.
¿Por qué no todavía no se sabe el número exacto de genes de nuestro genoma? ¿Qué dificultad tiene identificar un gen? El primer problema a la hora de identificar los genes del genoma es precisamente definir qué son los genes. Inicialmente sólo se consideraban genes a aquellas secuencias del genoma que se transcribían a ARN y posteriormente eran traducidas a proteínas. Sin embargo, este concepto de gen ha ido ampliándose a considerar como tales a aquellas moléculas de ADN que se transcriben a ARNs que llevan a cabo una función biológica, independientemente de que esta sea esencial o no. Dentro de estos genes se encuentran los genes que codifican para los ARNs ribosómicos o de transferencia y los denominados genes de ARN no codificante.
Otra de las dificultades a la hora de identificar los genes es que no todo aquel DNA que se transcribe a ARN tiene por qué ser un gen, por lo que detectar moléculas de ARN no siempre garantiza que se trate de genes.
Además, la identificación de genes puede verse afectada por los métodos bioinformáticos o las bases de datos que se utilizan. Por ejemplo, se suele combinar la predicción de genes a partir de secuencias características del ADN, como las de los promotores o los codones de inicio o parada, con la información de transcritos de ARN, secuencias de proteínas… Así, la utilización de diferentes bases de datos para proporcionar información sobre estos elementos que caracterizan a los genes, o de distintos algoritmos para llevar a cabo las predicciones, puede llevar a resultados variables entre diferentes grupos de investigación.
El equipo de Salzberg defiende sus resultados frente a las críticas de otros investigadores, aunque reconoce la necesidad de validar los genes identificados para confirmar que realmente lo son. En definitiva, el número exacto de genes del genoma humano sigue siendo una incógnita para la cual quizá haya que esperar un poco más.
Referencia:
Pertea M, et al. Thousands of large-scale RNA sequencing experiments yield a comprehensive new human gene list and reveal extensive transcriptional noise. Biorxiv. 2018. Doi: https://doi.org/10.1101/332825
Fuentes:
Willyard C. New human gene tally reignites debate. Nature. 2018. Doi: http://dx.doi.org/10.1038/d41586-018-05462-w
GENCODE: https://www.gencodegenes.org/stats/current.html
RefSeq: https://www.ncbi.nlm.nih.gov/genome/annotation_euk/Homo_sapiens/108/#FeatureCountsStats