The Helix research group
Research themes
Work in progress and results
Publications
Software and databases
News from Helix
Research themes
Home page
Site map Mail to Helix
Syntaxic and functionnal genome annotation
 

Si des expériences permettent d'apporter des résultats importants dans l'organisation de l'information le long des séquences génomiques, leur coût en temps et en moyens n'en fait pas un moyen d'analyse systématique de l'ensemble des génomes séquencés. La prédiction de cette information à partir de la séquence et de données expérimentales, même parcellaires, est donc absolument nécessaire à la valorisation des efforts de séquençage. Cette prédiction repose sur l'ensemble des connaissances biologiques, en particulier sur les résultats des approches décrites dans les sections 2.2.1 et 2.2.2.

L'annotation d'un génome fait référence à trois objectifs biologiques différents :

1. L'annotation syntaxique concerne l'identification de zones d'intérêt sur la séquence. Il s'agit typiquement de la recherche des zones codant potentiellement pour des protéines ou des ARNt, de la recherche de signaux de régulation de l'expression génétique et, d'une manière générale, de la localisation de motifs lexicaux ou structuraux caractérisés. A l'heure actuelle, l'annotation syntaxique des gènes codant pour des protéines des génomes procaryotes ne pose plus de réelles difficultés. En revanche, l'identification de signaux de régulation ou de « petites » structures régulatrices d'ARN reste un problème pertinent.

2. L'annotation fonctionnelle concerne l'attribution d'une (ou plusieurs) fonction(s) biologique(s) aux signaux détectés au niveau précèdent. L'exemple typique en est l'attribution d'un rô1e fonctionnel aux produits protéiques des gènes ou la caractérisation fonctionnelle d'une séquence opératrice. Lorsqu'il n'existe pas de données expérimentales associées à une séquence polypeptidique (le produit d'un gène), la stratégie classique consiste à effectuer un criblage des bases de séquences afin d'identifier des séquences fortement similaires et à attribuer, par analogie, leur(s) fonction(s) à la séquence requête. Les résultats d'une telle stratégie sont des hypothèses de travail qu'il convient de valider expérimentalement. Réalisée automatiquement, cette stratégie d'assignation de fonctions présente de nombreuses limites. Par exemple, il est nécessaire d'évaluer au cas par cas la pertinence de la similarité entre les séquences comparées. D'autre part, cette stratégie est totalement dépendante de la qualité des données présentes dans les bases de séquences publiques utilisées lors du criblage (problème de propagation des erreurs). Enfin, les relations entre les entités manipulées ne sont pas exploitées. Ainsi, on n'exploite encore que trop peu ou pas systématiquement le fait que des enzymes (protéines ayant la fonction de catalyser des transformations chimiques) intervenant dans une même voie métabolique (ensemble de réactions chimiques couplées) tendent à être groupés en opérons (groupe de gènes co-transcrits et donc co-localisés sur le chromosome).

3. L'annotation relationnelle concerne 1'identification des relations existant entre les objets caractérisés (individuellement) aux deux niveaux précédents. Ces relations sont de natures diverses. Il peut s'agir par exemple de leur implication dans un processus cellulaire commun (participation à une même voie métabolique, à une même voie de transport), ou d'une interaction physique (interaction protéine-protéine). Les informations qui doivent être manipulées à ce niveau d'annotation - opérons, régulons, graphes représentant des chemins réactionnels ou des assemblages moléculaires - sont plus complexes que les seules données de séquences et réclament donc un traitement particulier. Les objets manipu1és et les relations qu'ils entretiennent présentent généralement un plus haut degré d'abstraction et de structuration (par exemple, un graphe décrivant un réseau métabolique). Il se pose alors deux problèmes majeurs : d'une part, le problème de leur représentation formelle, c'est-à-dire leur modélisation, et d'autre part le problème de leur instanciation.

Concernant l'aspect modélisation, force est de constater que si plusieurs initiatives ont déjà vu le jour avec l'objectif de représenter ces informations nouvelles - EcoCyc (http://ecocyc.panbio.com) ou KEGG (http://www.genome.ad.jp/kegg/) pour les données métaboliques, RegulonDB (http://www.cifn.unam.mx/Computational-Genomics/regulondb/) pour les données d'opérons - ces efforts ne sont pour l'instant que peu ou pas concertés, au point qu'il est pratiquement impossible de dépasser le stade du simple « pointeur » lorsqu'on désire lier entre elles les différentes sources d'information. Par-delà les aspects purement techniques (liés aux choix technologiques opérés par les différents groupes de recherche), un problème de fond est que les modèles employés (lorsqu'ils existent) ne sont pas toujours explicites ou compatibles entre eux ; il ne suffit pas d'appeler un objet « gène » ou « enzyme » ou « opéron » pour qu'il représente la même chose dans plusieurs bases de données.

 
 
Markov models
    Top of page   Home page