Si des exp�riences permettent d'apporter des r�sultats importants dans l'organisation de l'information le long des s�quences g�nomiques, leur co�t en temps et en moyens n'en fait pas un moyen d'analyse syst�matique de l'ensemble des g�nomes s�quenc�s. La pr�diction de cette information � partir de la s�quence et de donn�es exp�rimentales, m�me parcellaires, est donc absolument n�cessaire � la valorisation des efforts de s�quen�age. Cette pr�diction repose sur l'ensemble des connaissances biologiques, en particulier sur les r�sultats des approches d�crites dans les sections 2.2.1 et 2.2.2.
L'annotation d'un g�nome fait r�f�rence � trois objectifs biologiques diff�rents :
1. L'annotation syntaxique concerne l'identification de zones d'int�r�t sur la s�quence. Il s'agit typiquement de la recherche des zones codant potentiellement pour des prot�ines ou des ARNt, de la recherche de signaux de r�gulation de l'expression g�n�tique et, d'une mani�re g�n�rale, de la localisation de motifs lexicaux ou structuraux caract�ris�s. A l'heure actuelle, l'annotation syntaxique des g�nes codant pour des prot�ines des g�nomes procaryotes ne pose plus de r�elles difficult�s. En revanche, l'identification de signaux de r�gulation ou de � petites � structures r�gulatrices d'ARN reste un probl�me pertinent.
2. L'annotation fonctionnelle concerne l'attribution d'une (ou plusieurs) fonction(s) biologique(s) aux signaux d�tect�s au niveau pr�c�dent. L'exemple typique en est l'attribution d'un r�1e fonctionnel aux produits prot�iques des g�nes ou la caract�risation fonctionnelle d'une s�quence op�ratrice. Lorsqu'il n'existe pas de donn�es exp�rimentales associ�es � une s�quence polypeptidique (le produit d'un g�ne), la strat�gie classique consiste � effectuer un criblage des bases de s�quences afin d'identifier des s�quences fortement similaires et � attribuer, par analogie, leur(s) fonction(s) � la s�quence requ�te. Les r�sultats d'une telle strat�gie sont des hypoth�ses de travail qu'il convient de valider exp�rimentalement. R�alis�e automatiquement, cette strat�gie d'assignation de fonctions pr�sente de nombreuses limites. Par exemple, il est n�cessaire d'�valuer au cas par cas la pertinence de la similarit� entre les s�quences compar�es. D'autre part, cette strat�gie est totalement d�pendante de la qualit� des donn�es pr�sentes dans les bases de s�quences publiques utilis�es lors du criblage (probl�me de propagation des erreurs). Enfin, les relations entre les entit�s manipul�es ne sont pas exploit�es. Ainsi, on n'exploite encore que trop peu ou pas syst�matiquement le fait que des enzymes (prot�ines ayant la fonction de catalyser des transformations chimiques) intervenant dans une m�me voie m�tabolique (ensemble de r�actions chimiques coupl�es) tendent � �tre group�s en op�rons (groupe de g�nes co-transcrits et donc co-localis�s sur le chromosome).
3. L'annotation relationnelle concerne 1'identification des relations existant entre les objets caract�ris�s (individuellement) aux deux niveaux pr�c�dents. Ces relations sont de natures diverses. Il peut s'agir par exemple de leur implication dans un processus cellulaire commun (participation � une m�me voie m�tabolique, � une m�me voie de transport), ou d'une interaction physique (interaction prot�ine-prot�ine). Les informations qui doivent �tre manipul�es � ce niveau d'annotation - op�rons, r�gulons, graphes repr�sentant des chemins r�actionnels ou des assemblages mol�culaires - sont plus complexes que les seules donn�es de s�quences et r�clament donc un traitement particulier. Les objets manipu1�s et les relations qu'ils entretiennent pr�sentent g�n�ralement un plus haut degr� d'abstraction et de structuration (par exemple, un graphe d�crivant un r�seau m�tabolique). Il se pose alors deux probl�mes majeurs : d'une part, le probl�me de leur repr�sentation formelle, c'est-�-dire leur mod�lisation, et d'autre part le probl�me de leur instanciation.
Concernant l'aspect mod�lisation, force est de constater que si plusieurs initiatives ont d�j� vu le jour avec l'objectif de repr�senter ces informations nouvelles - EcoCyc (http://ecocyc.panbio.com) ou KEGG (http://www.genome.ad.jp/kegg/) pour les donn�es m�taboliques, RegulonDB (http://www.cifn.unam.mx/Computational-Genomics/regulondb/) pour les donn�es d'op�rons - ces efforts ne sont pour l'instant que peu ou pas concert�s, au point qu'il est pratiquement impossible de d�passer le stade du simple � pointeur � lorsqu'on d�sire lier entre elles les diff�rentes sources d'information. Par-del� les aspects purement techniques (li�s aux choix technologiques op�r�s par les diff�rents groupes de recherche), un probl�me de fond est que les mod�les employ�s (lorsqu'ils existent) ne sont pas toujours explicites ou compatibles entre eux ; il ne suffit pas d'appeler un objet � g�ne � ou � enzyme � ou � op�ron � pour qu'il repr�sente la m�me chose dans plusieurs bases de donn�es. |