The Helix research group
Research themes
Work in progress and results
Publications
Software and databases
News from Helix
Research themes
Home page
Site map Mail to Helix
Syntaxic and functionnal genome annotation
 

Si des exp�riences permettent d'apporter des r�sultats importants dans l'organisation de l'information le long des s�quences g�nomiques, leur co�t en temps et en moyens n'en fait pas un moyen d'analyse syst�matique de l'ensemble des g�nomes s�quenc�s. La pr�diction de cette information � partir de la s�quence et de donn�es exp�rimentales, m�me parcellaires, est donc absolument n�cessaire � la valorisation des efforts de s�quen�age. Cette pr�diction repose sur l'ensemble des connaissances biologiques, en particulier sur les r�sultats des approches d�crites dans les sections 2.2.1 et 2.2.2.

L'annotation d'un g�nome fait r�f�rence � trois objectifs biologiques diff�rents :

1. L'annotation syntaxique concerne l'identification de zones d'int�r�t sur la s�quence. Il s'agit typiquement de la recherche des zones codant potentiellement pour des prot�ines ou des ARNt, de la recherche de signaux de r�gulation de l'expression g�n�tique et, d'une mani�re g�n�rale, de la localisation de motifs lexicaux ou structuraux caract�ris�s. A l'heure actuelle, l'annotation syntaxique des g�nes codant pour des prot�ines des g�nomes procaryotes ne pose plus de r�elles difficult�s. En revanche, l'identification de signaux de r�gulation ou de � petites � structures r�gulatrices d'ARN reste un probl�me pertinent.

2. L'annotation fonctionnelle concerne l'attribution d'une (ou plusieurs) fonction(s) biologique(s) aux signaux d�tect�s au niveau pr�c�dent. L'exemple typique en est l'attribution d'un r�1e fonctionnel aux produits prot�iques des g�nes ou la caract�risation fonctionnelle d'une s�quence op�ratrice. Lorsqu'il n'existe pas de donn�es exp�rimentales associ�es � une s�quence polypeptidique (le produit d'un g�ne), la strat�gie classique consiste � effectuer un criblage des bases de s�quences afin d'identifier des s�quences fortement similaires et � attribuer, par analogie, leur(s) fonction(s) � la s�quence requ�te. Les r�sultats d'une telle strat�gie sont des hypoth�ses de travail qu'il convient de valider exp�rimentalement. R�alis�e automatiquement, cette strat�gie d'assignation de fonctions pr�sente de nombreuses limites. Par exemple, il est n�cessaire d'�valuer au cas par cas la pertinence de la similarit� entre les s�quences compar�es. D'autre part, cette strat�gie est totalement d�pendante de la qualit� des donn�es pr�sentes dans les bases de s�quences publiques utilis�es lors du criblage (probl�me de propagation des erreurs). Enfin, les relations entre les entit�s manipul�es ne sont pas exploit�es. Ainsi, on n'exploite encore que trop peu ou pas syst�matiquement le fait que des enzymes (prot�ines ayant la fonction de catalyser des transformations chimiques) intervenant dans une m�me voie m�tabolique (ensemble de r�actions chimiques coupl�es) tendent � �tre group�s en op�rons (groupe de g�nes co-transcrits et donc co-localis�s sur le chromosome).

3. L'annotation relationnelle concerne 1'identification des relations existant entre les objets caract�ris�s (individuellement) aux deux niveaux pr�c�dents. Ces relations sont de natures diverses. Il peut s'agir par exemple de leur implication dans un processus cellulaire commun (participation � une m�me voie m�tabolique, � une m�me voie de transport), ou d'une interaction physique (interaction prot�ine-prot�ine). Les informations qui doivent �tre manipul�es � ce niveau d'annotation - op�rons, r�gulons, graphes repr�sentant des chemins r�actionnels ou des assemblages mol�culaires - sont plus complexes que les seules donn�es de s�quences et r�clament donc un traitement particulier. Les objets manipu1�s et les relations qu'ils entretiennent pr�sentent g�n�ralement un plus haut degr� d'abstraction et de structuration (par exemple, un graphe d�crivant un r�seau m�tabolique). Il se pose alors deux probl�mes majeurs : d'une part, le probl�me de leur repr�sentation formelle, c'est-�-dire leur mod�lisation, et d'autre part le probl�me de leur instanciation.

Concernant l'aspect mod�lisation, force est de constater que si plusieurs initiatives ont d�j� vu le jour avec l'objectif de repr�senter ces informations nouvelles - EcoCyc (http://ecocyc.panbio.com) ou KEGG (http://www.genome.ad.jp/kegg/) pour les donn�es m�taboliques, RegulonDB (http://www.cifn.unam.mx/Computational-Genomics/regulondb/) pour les donn�es d'op�rons - ces efforts ne sont pour l'instant que peu ou pas concert�s, au point qu'il est pratiquement impossible de d�passer le stade du simple � pointeur � lorsqu'on d�sire lier entre elles les diff�rentes sources d'information. Par-del� les aspects purement techniques (li�s aux choix technologiques op�r�s par les diff�rents groupes de recherche), un probl�me de fond est que les mod�les employ�s (lorsqu'ils existent) ne sont pas toujours explicites ou compatibles entre eux ; il ne suffit pas d'appeler un objet � g�ne � ou � enzyme � ou � op�ron � pour qu'il repr�sente la m�me chose dans plusieurs bases de donn�es.

 
 
Markov models
    Top of page   Home page