
La production de donn�es prot�omiques � haut d�bit, quelles que soient les technologies mises en �uvre, pose les probl�mes du recueil, du stockage, de la gestion et de l'analyse de ces donn�es. Ces questions ont �t� abord�es lors d'une journ�e technique du R�seau National Genopole organis�e par Rh�ne-Alpes Genopole et rassemblant bioinformaticiens et biologistes impliqu�es dans les plates-formes de prot�omique.
Cette journ�e s'est d�roul�e le mardi 1er juin 2004, de 10h � 17h 30, � l'INRIA Rh�ne-Alpes (Montbonnot), pr�s de Grenoble.
Son objectif �tait de pr�ciser ces probl�matiques, de pr�senter les solutions quand elles sont disponibles (par exemple la mise en �uvre de LIMS) et de discuter des d�marches possibles pour aborder les probl�mes qui restent ouverts (en particulier ceux relatifs � l'analyse des donn�es produites). L'accent �tait mis sur la possibilit� de partager les solutions et les savoir-faire entre les plates-formes existantes. La journ�e a donc �t� organis�e autour de trois th�mes :
Acquisition, sauvegarde des donn�es, et gestion des flux (LIMS)
Bioanalyse : caract�risation des prot�ines (identification + modifications post-traductionnelles), quantification des prot�ines, annotation des g�nomes, ...
Echanges de donn�es entre plates-formes
Les discussions entre les participants ont conduit � la cr�ation de deux groupes de travail, sur les LIMS d'une part, et sur les standards d'�change de donn�es d'autre part. Un compte-rendu synth�tique de ces discussions est disponible.
Les fichiers PDF des supports des pr�sentations sont disponibles
Programme
(Cliquer sur les titres pour acc�der aux r�sum�s)
9h30 Accueil
10h-10h30 Christine Hoogland, SIB, Gen�ve, Suisse, Current developments at the Proteome Informatics Group, Swiss Institute of Bioinformatics, Geneva
Session 1 : Acquisition, sauvegarde des donn�es, et gestion des flux (LIMS)
Animateur : Fran�ois Rechenmann
10h30-10H45 Charles Pineau, Ouest Genopole, Rennes, Une solution LIMS pour la prot�omique haut-d�bit
10h45-11H00 Emmanuelle Mouton, Toulouse Midi-Pyr�n�es Genopole, Toulouse, La solution SQL*LIMS appliqu�e � la Plate-forme Prot�omique de Toulouse Midi-Pyr�n�es Genopole
11h00-11H15 Christophe Bruley, Rh�ne-Alpes Genopole, Grenoble, Intention et proposition autour de la gestion des donn�es de prot�omique
11h15-12h00 Discussion LIMS
Repas
Session 2 : Bioanalyse
Animateur : J�r�me Garin
13h15-13h30 C�cile Cren-Oliv�, Lille Genopole, Lille, ASCQ-PROT, un "logiciel libre" pour l'analyse prot�omique par empreinte peptidique
13h30-13h45 Benno Schwikowski, Institut Pasteur, Genopole Ile de France, Paris, The Multipeak approach to mass-spectrometric analysis of complex mixtures
13h45-14h00 J�r�me Garin, Rh�ne-Alpes Genopole, Grenoble, PepLine : un nouvel outil permettant l'annotation des g�nomes � partir de donn�es MS/MS
14h00-14h15 Marianne Tardif, Rh�ne-Alpes Genopole, Grenoble, Un exemple d'application du logiciel PepLine : l'annotation du g�nome de l'algue verte Chlamydomonas reinhardtii
14h15-14h30 St�phane Audic, Marseille Genopole, Outils bioinformatiques pour la prot�omique. Comparaison TheGPM/Xcalibur Sequest-Gelprint : g�n�ration de gels 2D in silico
14h30-14h45 Manuela Argentini et Odile Lecompte, Strasbourg Genopole, Pr�diction et validation des codons d'initiation : approches crois�es bioinformatique et prot�omique
14h45-15h15 Discussion
15h15-15h30 Pause
Session 3 : Echanges de donn�es entre plates-formes
Animateur : Yves Vandenbrouck
15h30-15h45 Michel Rossignol, Montpellier Genopole, AFPdb, une banque de donn�es prot�omique int�gr�e
15h45-16h00 Juhui Wang, INRA Jouy, Un syst�me d'analyse "collaborative" de donn�es prot�omiques
16h00-16h15 Johann Joets, INRA/CNRS Le Moulon, PROTICdb: a WEB-based application to manage, analyze plant proteome expression data
16h15-16h30 Yves Vandenbrouck, CEA/Grenoble, Mod�les de donn�es et format d'�changes pour les exp�riences de prot�omique
16h30-17h30 Discussion g�n�rale
Animateur : Alain Viari
R�sum�s des interventions
Current developments at the Proteome Informatics Group, Swiss Institute of Bioformatics, Geneva
Ron D. Appel (1,2,3), Pierre-Alain Binz (1,2), G�rard Bouchet (1), S�bastien Catherinet (1), Robin Gras (1), C�line Hernandez (1), David Hernandez (1,2), Patricia Hernandez (1), Christine Hoogland (1), Fr�d�rique Lisacek (1), Khaled Mostaguir (1), Markus M�ller (1), Patricia Palagi (1), St�phane Pelhatre (1), Marc Tuloup (1), Daniel Walther (1,3), Nadine Zangger (1)
(1) Swiss Institute of Bioinformatics, 1211 Geneva 4, Switzerland (2) Geneva University, 1211 Geneva 4, Switzerland (3) Geneva University Hospitals, 1211 Geneva1 4, Switzerland
Christine.Hoogland@isb-sib.ch
The Proteome Informatics Group (PIG) is one of the dozen groups of the Swiss Institute of Bioinformatics (SIB). Its activities focuses on the development and support of software tools and databases for proteomics applications. Our current research interests cover proteomics image analysis (e.g. Melanie 2D image analysis software), proteomics databases (e.g. SWISS-2DPAGE, make 2D-DB), protein identification and characterization using mass spectrometry (ExPASy, http://www.expasy.org/tools/#proteome) and differential proteome analysis. Some of these activities, ongoing since 1984 are continuously being improved and enhanced based on feedback from users and on the follow-up of real-life problems experienced by numerous biologists and proteomics scientists. In particular, a 20 years old close collaboration with experts from the Biomedical Proteomics Research Group (BPRG) at Geneva University Hospital has always been contributing to stay up-to-date with evolving technologies and know-how, notably in mass spectrometry and related domains. Highlights of tools available and currently under developments in the group will be presented.
More information is available at http://www.isb-sib.ch/groups/pig.htm
Retour au programme
Une solution LIMS pour la prot�omique haut-d�bit
Charles Pineau
Plate-forme Prot�omique Haut-d�bit Ouest Genopole", B�timent 24 - Campus de Beaulieu, 35042 Rennes cedex
Charles Pineau
www.innovaproteomics.com
L'objectif majeur de la prot�omique vise � l'identification syst�matique du contenu prot�ique de cellules, de tissus, de fluide biologiques ou d'organismes d'int�r�t. Alors que de nombreux laboratoires, convaincus de la pertinence des approches prot�omiques, tentent actuellement de ma�triser les technologies a minima, les plates-formes pionni�res optimisent d�j� le fonctionnement de cha�nes automatis�es d'identification des prot�ines. Quelques laboratoires sont ainsi engag�s dans des programmes de d�cryptage � grande �chelle reposant sur une robotisation accrue des technologies. Ces plates-formes de haut niveau font face � un v�ritable challenge relatif au suivi et � la tra�abilit� des �chantillons selon les standards industriels en vigueur, mais aussi au traitement et au stockage des masses de donn�es g�n�r�es.
Une tra�abilit� optimale est le pr�-requis indispensable � l'atteinte du haut-d�bit en prot�omique. LWS, le logiciel GQAO d�velopp� par Amersham Biosciences et Cimarron Software install� depuis deux ans sur la plate-forme prot�omique de Ouest Genopole r�pond pleinement � la plupart des besoins dans ce domaine.
Retour au programme
La solution SQL*LIMS appliqu�e � la plate-forme prot�omique du G�nop�le Toulouse Midi-Pyr�n�es
Emmanuelle Mouton, Renaud Albigot et Bernard Monsarrat*.
*Institut de Pharmacologie et de Biologie Structurale, UMR CNRS 5089 Toulouse. Plate-forme Prot�omique du G�nop�le Toulouse Midi-Pyr�n�es
bernard.monsarrat@ipbs.fr
La demande sans cesse croissante de programmes d'�tudes soumis � la plate-forme prot�omique du G�nop�le Toulouse-Midi-Pyr�n�es et la mise en conformit� de notre plate-forme avec les normes qualit� nous ont conduit � mettre en place un outil informatique de type LIMS. Notre choix s'est port� sur la solution SQL*LIMS qui a �t� exp�riment�e et d�velopp�e dans le cadre du programme Apr�s S�quen�age G�nomique (ASG, Prot�omique et Cancer) impliquant notre plate-forme.
Le LIMS joue un r�le majeur dans la gestion de l'ensemble des donn�es exp�rimentales de la plate-forme, dans la tra�abilit� des �chantillons et l'exploitation des r�sultats.
L'architecture du syst�me est actuellement en cours d'installation. Notre expos� portera sur la pr�sentation de ce module informatique et des principaux d�veloppements r�alis�s pour r�pondre aux besoins sp�cifiques de notre plate-forme. La prise en charge des principale �tapes du � process prot�omique �, l'int�gration des logiciels sp�cifiques des technologies associ�es (spectrom�tres de masse, scanner d'images, robotique), la connexion des principaux moteurs de recherche permettant l'acc�s aux banques de donn�es prot�iques seront successivement illustr�es.
A terme, chaque utilisateur de la plate-forme pourra suivre en temps r�el, via une interface s�curis�e, le devenir de ses �chantillons au cours du processus d'analyse, mais �galement acc�der � l'ensemble de ses r�sultats.
Retour au programme
Intention et proposition autour de la gestion des donn�es de prot�omique
Christophe Bruley (1), J�r�me Garin (1), Alain Viari (2)
(1) Laboratoire de Chimie des Prot�ines, ERIT/M Inserm 0201 CEA/Grenoble, 30054 Grenoble Cedex, France
(2) Projet HELIX, INRIA Rh�ne-Alpes, 655 avenue de l'Europe, Montbonnot 38 334 Saint Ismier cedex
La gestion des donn�es d'une plate-forme de prot�omique est un probl�me qui provient du nombre d'analyses effectu�es chaque jour et de la quantit� de donn�es g�n�r�es � chacune des �tapes de ces analyses. Concr�tement, �g�rer� ces donn�es signifie �tre capable de conserver la trace des informations relatives aux donn�es biologiques (�chantillons re�us, prot�ines identifi�es, etc.), de consigner les informations relatives � l'activit�, c'est-�-dire des flux de transformations (pr�paration des �chantillons, param�trage des analyses, etc.) et enfin de lier ces informations aux donn�es �lectroniques produites et de les stocker.
En l'�tat actuel des choses, ces donn�es sont g�r�es de mani�re h�t�rog�ne et cette gestion repose presque exclusivement sur la connaissance qu'ont les personnes de la plate-forme des projets sur lesquels elles travaillent.
Notre objectif est de construire un syst�me qui permette non seulement de conserver une trace des donn�es produites, mais �galement de faire de ce syst�me un outil de travail quotidien en y int�grant des outils d�velopp�s par nos soins ou par la communaut�. Le squelette du syst�me ou sa version minimale permet d'enregistrer dans une base de donn�es relationnelle les informations relatives � l'activit� de la plate-forme, de l'origine de l'�chantillon jusqu'� son analyse � in silico � et d'adjoindre � la description d'une analyse les donn�es produites (donn�es brutes, spectres, r�sultats d'identification).
L'objectif � plus long terme est d'habiller ce squelette d'un certain nombre de modules susceptibles d'�tendre la couverture fonctionnelle du syst�me. Sans chercher � �tre exhaustif, on peut imaginer par exemple un module de gestion des instruments (planning d'utilisation, maintenance, etc.), des outils d'aide � la validation des r�sultats d'identification ou encore un module de g�n�ration de rapport d'analyses.
Le d�veloppement du squelette est une n�cessit� pour la plate-forme de prot�omique Rh�ne-Alpes et nous avons d'ores et d�j� engag� des efforts de ce point de vue, mais la complexit� de ce squelette et la richesse de ce que nous construirons finalement d�pend de notre capacit� � f�d�rer les ressources de d�veloppement autour de ce projet.
Retour au programme
ASCQ-PROT, un "logiciel libre" pour l'analyse prot�omique par empreinte peptidique
Pierre Laurence, David Boens, C�cile Cren-Oliv� et Christian Rolando
Universit� des Sciences et Technologies de Lille, UMR CNRS 8009 Chimie Organique et Macromol�culaire, 59655 Villeneuve d'Ascq, France
Cecile.Cren@univ-lille1.fr
L'interrogation des banques de donn�es prend une place croissante dans l'analyse prot�omique et de la qualit� de cette interrogation d�pend crucialement la qualit� de l'analyse. Comme d'autres nous nous sommes aper�us que pour une m�me analyse, les m�mes param�tres et la m�me base de donn�e les r�sultats obtenus sont tr�s diff�rents suivant le moteur de recherche utilis�. Il est tr�s difficile de d�passer cette constatation car les indications donn�es sur les algorithmes utilis�s par les diff�rents moteurs ne permettent pas de conna�tre pr�cis�ment l'algorithme utilis� et encore moins les limitations impos�es pour acc�l�rer l'interrogation. Contrairement � d'autres domaines analytiques et � la RMN en particulier, peu de logiciels dont les codes sont disponibles existent en spectrom�trie de masse.
C'est pourquoi nous avons d�velopp� un logiciel d'analyse prot�omique par empreinte peptidique avec les objectifs suivants :
rendre ce logiciel disponible dans le cadre de la licence Open Software Fundation ce qui implique la distribution du code source,
d�velopper un logiciel qui ne fonctionne pas � travers une interface web mais utilise en param�tres, en entr�e et en sortie des fichiers textes pour permettre une plus grande flexibilit�,
d�velopper un algorithme utilisable sans limitation de la profondeur des interrogations en particulier pour les modifications post-traductionnelles et appelable de mani�re r�cursive pour l'identification de prot�ines minoritaires,
d�velopper un logiciel qui optimise la r�ponse sur des crit�res correspondants � ceux utilis�s par un op�rateur averti plut�t que sur une base statistique.
Nous pr�senterons le logiciel ASCQ-PROT qui a �t� d�velopp� suivant les crit�res pr�c�dents. Nous discuterons en particulier la pond�ration des diff�rents param�tres utilis�s pour la fonction de classement des r�ponses (taux de peptides pr�sents dans le spectre de masse identifi�s, �tendue de la couverture, �cart de masse moyen, nombre de modifications post-traductionnelles) suivant le type d'�chantillon : recherche de modifications post-traductionnelles, �chantillon tr�s bruit�s dans le cas de taches peu intenses, recherche de plusieurs prot�ines dans un m�lange.
Retour au programme
The Multipeak approach to mass-spectrometric analysis of complex mixtures
Amol Prakash and Benno Schwikowski
Institut Pasteur (Paris), Institute for Systems Biology (Seattle, WA)
benno@pasteur.fr
The analysis of complex protein mixtures on the basis of liquid chromatography (LC), followed by mass spectrometry (LC-MS or LC-MS/MS), is one of the key technologies for the systematic large-scale exploration of cellular processes. Mass spectrometry itself is exquisitely sensitive, and reproducibility of experiments at the signal level is high. It is generally suspected, however, that a significant number of peptides - especially those with modifications - are missed in current computational analyses. We present an approach that globally integrates all data acquired in the course of one experiment. Instead of attempting to detect the presence of a protein or its fragments from individual signals (peaks) in a single mass spectrograph, all data acquired across a whole experiment are first aligned into an n-dimensional space, where n is the number of dimensions used for the LC separation. This brings together all peaks that were generated by the same protein fragment throughout the experiment, which constitutes a much stronger signal than a single peak. I will present algorithms for the implementation of this approach in n = 2 dimensions, and demonstrate that, on a large data set from yeast whole-cell lysate, independently identified peptides indeed achieve the desired integration of peaks, and many yet-unidentified, but arguably peptide-generated spectra suggest a large number of yet-unidentified peptides in typical experiments.
Retour au programme
PepLine : un nouvel outil permettant l'annotation des g�nomes � partir de donn�es MS/MS
E. Reguer (1), M. Ferro (2), E. Nugues (1), T. Vermat (3), R. Cahuzac (2), M. Vigouroux (3), E. Mouton (2), Y. Vandenbrouck (3), J. Garin (2) et A. Viari (1)
(1) INRIA Rh�ne-Alpes / Projet Helix, 655 Av. de l 'Europe, 38330 Montbonnot-St Martin
(2) Laboratoire de Chimie des Prot�ines, ERIT-M 0201, CEA/INSERM, CEA/Grenoble, 17 rue des Martyrs, 38054 Grenoble Cedex
(3) GENOME Express, 11 Chemin des Pr�s, 38944 Meylan
L'un des d�fis actuels de la prot�omique concerne l'identification de prot�ines mineures ainsi que celle de prot�ines difficilement analysables, comme les prot�ines membranaires. Dans le but d'identifier de nouvelles prot�ines, un programme appel� PepLine a �t� d�velopp�. Ce programme utilise des donn�es MS/MS ou LC-MS/MS afin de rechercher non seulement dans des banques de donn�es prot�iques mais aussi dans des banques de donn�es g�nomiques. Ainsi PepLine est un outil bioinformatique int�gr� permettant une corr�lation directe entre l'expression des prot�ines et leur g�nome, ce qui conduit � l'annotation des g�nomes. Conceptuellement PepLine agit de la fa�on suivante : une liste de peptide sequence tags (PSTs) est g�n�r�e � partir de donn�es MS/MS. Ces PSTs sont alors directement utilis�s pour rechercher dans les banques de donn�es prot�iques et g�nomiques. Un PST est d�fini par une s�quence de 3 acides amin�s et par 2 masses N- et C-terminales. Un premier module, Taggor, g�n�re automatiquement ces PSTs � partir de donn�es LC-MS/MS obtenues sur un instrument de type QTOF. Les PSTs sont ensuite cartographi�s sur des s�quences prot�iques ou sur les 6 phases traduites � partir d'informations g�nomiques. Enfin une phase de regroupement (clustering) permet d'affilier les PSTs � une m�me prot�ine ou � un m�me g�ne. Les phases de cartographie et de regroupement concernent le programme PepMap. Celui-ci a �t� test� ind�pendamment de Taggor, � l'aide de donn�es de PSTs virtuels, mais aussi g�n�r�s � partir d'analyses LC-MS/MS d'�chantillons d'Arabidopsis thaliana. En utilisant les m�mes donn�es exp�rimentales Taggor a aussi �t� �valu� pour ses capacit�s � g�n�rer des PSTs corrects. L'int�gration des 2 modules a �t� test�e, et nous avons pu montrer que Taggor-Pepmap est un programme rapide et fiable. Taggor-PepMap a notamment �t� utilis� dans le contexte de l'�tude de l'enveloppe du chloroplaste d'Arabidopsis thaliana et a montr� son utilit� pour l'annotation des g�nomes.
Retour au programme
Un exemple d'application du logiciel PepLine : l'annotation du g�nome de l'algue verte Chlamydomonas reinhardtii
Marianne Tardif
Laboratoire de Chimie des Prot�ines, ERM Inserm 0201, DRDC/CP - CEA/Grenoble, 17 rue des Martyrs, F-38054 Grenoble
Le module � nucl�ique � du logiciel PepLine permet d'annoter les g�nomes d'organismes eucaryotes en positionnant sur la s�quence g�nomique, puis en les regroupant par � clusters �, les �tiquettes peptidiques (ou PSTs) obtenus � partir des spectres MSMS. L'annotation du g�nome de Chlamydomonas reinhardtii repr�sente l'une des premi�res applications du logiciel PepLine dans le laboratoire de Chimie des Prot�ines.
L'avantage du point de vue biologique de Chlamydomonas reinhardtii est qu'il s'agit d'une algue unicellulaire, qui pr�sente des fonctions caract�ristiques majeures des cellules des v�g�taux sup�rieurs (photosynth�se, r�ponses � divers stress, etc.), tout en offrant des facilit�s de manipulation propres aux microorganismes. C'est un organisme mod�le. Cependant, du point du vue � bioinformatique �, tr�s peu de s�quences sp�cifiques � cet organisme sont r�f�renc�es dans les banques g�n�ralistes (Swiss-Prot ou NCBInr). L'essentiel des s�quences disponibles reposent sur des mod�les, i.e. des s�quences en acides amin�s hypoth�tiques pr�dites � partir du g�nome de Chlamydomonas. Celui-ci pr�sente une fr�quence �lev�e en GC (62%), pr�judiciable � la qualit� de ces pr�dictions. Le g�nome est disponible sous forme partiellement assembl�e (3211 scaffolds au lieu des 17 chromosomes attendus) sur le site du Joint Genome Institute (JGI) (http://genome.jgi-psf.org/chlre1/chlre1.home.html).
Cet �tat des lieux - prot�ines absentes ou bien mal pr�dites - a une cons�quence : lorsque � la suite d'une analyse LC-MSMS, on interroge la banque de prot�ines 'Chlamydomonas' � l'aide de logiciels commerciaux tels que Mascot (Matrix Science), seulement une faible proportion des quelques centaines des spectres MSMS acquis au cours de l'exp�rience est correctement exploit�e, c'est-�-dire permet d'identifier au final des prot�ines. Dans un tel cas de figure, l'interrogation directe du g�nome � l'aide de l'outil PepLine devient pertinente puisqu'elle permet de court-circuiter la banque prot�ique.
Gr�ce � l'utilisation de PepLine, nous esp�rons tirer de l'information dont la nature est propre � d�tecter de nouveaux exons et � corriger ou affiner les r�gions codantes d�j� pr�dites. Le travail initi� conduit �galement � am�liorer le formalisme des r�sultats d'annotation de sorte que ceux-ci puissent �tre communiqu�s (par ex. au JGI), visualis�s (sur le principe du browser) et confront�s � d'autres modes d'annotation des g�nomes (par ex., mapping des ESTs).
Retour au programme
Outils bioinformatiques pour la prot�omique - Comparaison TheGPM/Xcalibur Sequest - Gelprint: g�n�ration de gels 2D in silico
Danielle Moinier, Hiroyuki Ogata et St�phane Audic
Institut de Biologie Stucturale et Microbiologie, Information G�nomique et Structurale, 31 Chemin Joseph Aiguier, 13402 Marseille cedex 20
Stephane.Audic@igs.cnrs-mrs.fr
http://igs-server.cnrs-mrs.fr
Comparaison TheGPM / Xcalibur Sequest
Dans le cadre de l'annotation du g�nome complet du plus grand g�nome viral connu � ce jour [1], nous pr�senterons une analyse comparative de deux logiciels concurrents, l'un propri�taire (Xcalibur Sequest), l'autre accessible librement par une interface WEB (http://www.thegpm.org) avec possibilit� d'installation locale, pour l'identification des prot�ines. Cette comparaison montre que TheGPM est une alternative viable, rapide, et �conomique pour l'identification de prot�ines. De plus, dans son mode "raffinement", TheGPM permet l'identification de modification post-traductionnelles tel que phosphorylation, glycosylation, hydroxy-proline.
GelPrint
GelPrint est une application disponible sous la forme d'une interface WEB (http://igs-server.cnrs-mrs.fr). Cette application permet a partir d'un g�nome annot�, de calculer une image th�orique d'un gel 2D, et de l'enregister au format Postscript � une �chelle permettant la superposition de l'image th�orique et du gel exp�rimental, facilitant l'analyse pr�liminaire de ce gel.
[1] A giant Virus in amoeba, La Scola B, Audic S, Robert C, Jungang L, de Lamballerie X, Drancourt M, Birtles R, Claverie JM, Raoult D. Science. 2003 Mar 28;299(5615):2033.
Retour au programme
Pr�diction et validation des codons d'initiation : approches crois�es bioinformatique et prot�omique
O. Lecompte (1), M. Argentini (1), J-M. Reyrat (3), O. Poch (1), A. Van Dorsselaer (2)
(1) IGBMC 1 rue Laurent Fries 67404 Illkirch
(2) ECPM 25 rue Becquerel 67087 Strasbourg
(3) Unit� de Pathog�nie des Infections Syst�miques 156 rue de Vaugirard 75730 Paris
manu@titus.u-strasbg.fr
L'un des enjeux majeurs de l'�re post-g�nomique est la mise en oeuvre de protocoles efficaces de correction/validation des donn�es issues du � haut d�bit �. En effet, l'introduction d'erreurs dans les donn�es initiales a des r�percussions d�sastreuses aux niveaux d'int�gration sup�rieurs. La pr�diction correcte des codons initiateurs constitue en particulier une �tape cruciale dont vont d�pendre aussi bien des analyses in silico comme la recherche de signaux de transcription que des �tudes exp�rimentales reposant sur la production de prot�ines fonctionnelles. Face � la complexit� du probl�me de d�termination des codons d'initiation, nous avons choisi de mettre en �uvre une approche couplant pr�dictions in silico et construction d'un set massif de donn�es exp�rimentales. D'un point de vue bioinformatique, la pr�diction s'appuiera sur un algorithme original d'analyse des conservations diff�rentielles au sein d'un alignement multiple. Cette analyse sera compl�t�e, chez les Procaryotes, par l'exploitation du contexte g�nomique du g�ne analys�. Ces programmes seront test�s sur le g�nome de Mycobacterium smegmatis. En effet, de par leur pourcentage en GC extr�mement �lev�, les g�nomes du genre Mycobacterium pr�sentent un taux particuli�rement important d'erreurs de pr�diction, constituant de ce fait, des ensembles d'apprentissage id�aux.
La validation et la mise au point de notre approche in silico reposera sur l'analyse des s�quences des peptides N-terminaux des prot�ines bact�riennes. La s�paration mono et bi-dimensionnelle des prot�ines membranaires et solubles, leur analyses par spectrom�trie de masse et l'approche � COFRADIC � seront utilis�es afin d'identifier un nombre le plus large possible des s�quences N-terminales du prot�ome de Mycobacterium smegmatis.
Retour au programme
AFPdb, une banque de donn�es prot�omique int�gr�e
C�dric Bouttes (1), Thierry Hotelier (2), Delphine Sansom (3), Delphine Grando (3) & Michel Rossignol (1)
(1)UR INRA 1199, place Viala 34060 Montpellier cedex 1
(2) UIC ENSA-INRA, place Viala 34060 Montpellier cedex 1
(3) UR G�nomique-Info, INRA, Infobiogen, 523 Place des Terrasses, 91000 Evry
bouttes@ensam.inra.fr ; hotelier@ensam.inra.fr ; rossignol@ensam.inra.fr
G�noplante est une initiative nationale de g�nomique v�g�tale qui g�re notamment divers programmes de constructions de ressources produisant des donn�es de nature vari�e : banques de mutants d'insertion, banques d'ESTs, puces � ADN, prot�omes sp�cifiques, etc. L'ensemble de ces donn�es est organis� dans des banques poss�dant une architecture commune, et la banque AFPdb (Arabidopsis Functional Proteome database) en constitue le volet prot�omique. Il s'agit d'une banque orient�e "prot�ine", visant � la fois (i) � faciliter le travail d'analyse des donn�es structurales obtenues par spectrom�trie de masse sur les prot�ines et (ii) � permettre l'int�gration avec les autres types de donn�es g�n�r�es dans G�noplante. La premi�re version est en cours d'installation � Infobiogen et contient un jeu de donn�es provenant de plusieurs laboratoires partenaires du projet G�noplante.
La collecte des donn�es se fait � l'aide d'un format d'�change constitu� de feuilles Excel dont le contenu vient, � l'aide de scripts Perl/SQL, alimenter les 53 tables de la base (le SGBD pouvant �tre PostgreSQL ou Oracle). Par ailleurs le d�veloppement d'interfaces est pr�vu pour permettre des modifications ponctuelles. La base est consultable au travers d'interfaces d�velopp�es en JSP, Servlets,JavaBeans�l'aide du framework Struts.En terme de fonctionnalit�s,laversion actuelled'AFPdb permet l'interrogation crois�e(parcrit�res ou par mots cl�s) des th�matiques, des prot�ines, etc. Pour les donn�es issues de gels, l'application inclut aussi une applet Java pour la visualisation. Chaque fiche prot�ine permet d'acc�der�l'ensemble des informations exp�rimentales d'amont (projets concern�s, mat�riels biologiques, gels, r�sultats des interrogations avec les donn�es MS, etc.), aux annotations sp�cifiques d�coulant des donn�es obtenues (peptides d'adressage, modifications post-traductionnelles, etc.). Une option permet l'exportation des donn�es (format CSV ou Excel).
Des liens sont disponibles sur diverses bases de donn�es, comme NCBI, Tair, Aramemnon, SwissProt ou FLAGdb++, permettant, dans ce dernier cas par exemple, d'associer directement � la prot�ine les mutants disponibles dans le g�ne correspondant.
Les d�veloppements pr�vus incluent notamment une application Java pour visualiser sur la s�quence de chaque prot�ine des motifs sp�cifiques (issus de pr�dictions bioinformatiques ou de donn�es exp�rimentales) et des possibilit�s d'interrogation par BLAST.
Retour au programme
Un syst�me d'analyse "collaborative" de donn�es prot�omiques
Juhui Wang (1), Christophe Caron(2), et Michel-Yves Mistou (3)
(1) Unit� Math�matique et Informatique Appliqu�e, INRA, 78352 Jouy en Josas
(2) Unit� Math�matique, Informatique et G�nomique, INRA, 78352 Jouy en Josas
(3) Unit� Biochimie et Structure de Prot�ines, INRA, 78352 Jouy en Josas
wang@banian.jouy.inra.fr
L'�lectrophor�se 2D, �ventuellement associ�e � la spectrom�trie de masse, reste une technique souvent incontournable pour l'analyse prot�omique. En raison de la complexit� de l'information pr�sente dans le processus, l'assistance informatique est dispensable � la fois pour l'extraction des informations pertinentes et l'annotation des gels. Cette assistance s'effectue souvent � l'aide de logiciels sp�cialis�s (e.g. Z3, M�lanie, PSS, ...) proc�dant sur des images num�riques. M�me si des am�liorations notables continuent d'appara�tre dans ces logiciels, il n'en demeure pas moins que l'analyse d'un gel requiert encore une intervention importante du biologiste � la fois pour la correction des r�sultats fournis et leur validation (au moins visuelle). Du fait de l'�volution de la technique et de la complexit� des informations � analyser il nous semble qu'une approche bas�e sur l'utilisation d'un seul couple "op�rateur humain-logiciel d'analyse", fonctionnant ind�pendamment des autres plate-formes existantes, est une m�thode de fonctionnement sous-optimalepar rapport aux connaissances mobilisables.
Nous proposons donc la conception et le d�veloppement d'un syst�me d'analyse "collaborative" de donn�es prot�omiques qui permet d'une part la r�utilisabilit� des informations extraites sur un ensemble de gels et d'autre part une tra�abilit� de la d�marche d'analyse. Reposant sur une architecture 3-tiers, ce syst�me constitue une sorte d'entrep�t de ressources prot�omiques � partir de laquelle nous pouvons confronter les donn�es issues des exp�riences diff�rentes et r�alis�es par des exp�rimentateurs diff�rents, tester leur coh�rence, pr�dire et synth�tiser certaines propri�t�s. Les gels sont index�s � partir de descripteurs de propri�t�s centr�es sur des spots et les processus d'analyse utilis�s. Ainsi, nous pouvons acc�der � toutes les informations disponibles depuis la pr�paration de l'�chantillon jusqu'� la validation par un op�rateur humain en passant par le param�trage des logiciels d'analyse.
La premi�re version de ce syst�me est d�j� disponible sur le site du projet (http://www.inra.fr/bia/J/imaste/paris/). Il est actuellement exploit� par trois laboratoires de l'INRA et quelques partenaires �trangers.
Retour au programme
PROTICdb: a web-based application to manage, analyse plant proteome expression data
Gwenn Houel (1), H�l�ne Ferry-Dumazet (2), Luc Moreau (1), Pierre Montalent (1), Christophe Plomion (3), Antoine de Daruvar (2), Olivier langella (1), Michel Zivy (1), Johann Joets (1)
(1) UMR de G�n�tique V�g�tale du Moulon (INRA/CNRS/UP-XI/INA-PG), Gif-sur-Yvette, France
(2) Centre de Bioinformatique de Bordeaux, Universit� Victor Segalen Bordeaux 2, 146 rue L�o Saignat 33076 Bordeaux
(3) UMR BIOGECO 1202, INRA, Equipe de G�n�tique 69 route d'Arcachon, 33612 Cestas Cedex France
joets@moulon.inra.fr
Large international efforts have provided community with databases and softwares dedicated to transcriptome data mining. However, less effort has been done for proteomics. To our knowledge, databases developed so far for 2-D PAGE and compliant with plant proteomics do not deal with quantitative data or relationships between protein spots. Then new developments are needed to store and analyse proteome data and to compare them with transcriptome data.
We developed the PROTeome bioinformaTICs software PROTICdb; a database and a web-based application, to manage, track, query and web-publish proteomics data. The database is designed to store complete sets of data generated by experiments, from experiment design description to spot identification (MS, Edmann,�) and quantitative variations. We included in the database schema possibilities to aggregate data from several plants, samples or gel. Then data from those groups can be easily extracted whenever needed, for instance to conduct statistical analysis.
Relations between spot, such as "the two spots are the same protein but in different post-translational modification state" may be very important to consider for hypothesis formulation. We thus managed to store this information in the database. This system can be extended to any type of relation that could exist between two proteins (or spots) including physical interaction. The Protic application can automatically build relations network using transitivity. Thus if a non identified spot is related to an identified one by, for example an allelism relationship, then the first one will inherit of the identification result of the second one.
Database feeding may be achieved by automated uploading of formatted files or with inter-active web forms. Data files are either files from widely used proteomics software like Melanie or tabulated files from spreadsheets.
Protic interface provides users with a Java interactive graphical tool to query 2D-gel, to annotate the spots and to input spot relationships. This interface allows viewing up to 4 gel images at a time. Links to other databases (Swiss-prot, Genbank) are present wherever needed.
Protic is based on Oracle or Postgresql DBMS and will be freely available.
Retour au programme
Mod�les de donn�es et format d'�changes pour les exp�riences de prot�omique
Yves Vandenbrouck
D�partement de R�ponse et Dynamique Cellulaires (DRDC), Commissariat � l'Energie Atomique - 17 Avenue des martyrs, 38054 Grenoble Cedex 9, France.
La prot�omique associ�e � des approches technologiques dites � haut d�bit (�lectrophor�se bi-dimensionnelle, spectrom�trie de masse, MUDPIT, double-hybride�), conduit � la production de donn�es de nature diverses qui sont intrins�quement li�es au processus d'acquisition et de traitement (protocoles, conditions exp�rimentales, m�thodes d'analyse�). Si la gestion interne des donn�es est du ressort des centres de production (voir la session LIMS), un autre aspect concerne la mise � disposition de ces donn�es au sein de la communaut� scientifique. Ainsi de nombreuses bases de donn�es existent pour les donn�es de gels 2D [1], d'interactions (DIP, BIND, MINT�) et, dans une moindre mesure, de spectrom�trie de masse (OPD). N�anmoins, la constitution de ces bases de donn�es ne r�pond que partiellement aux besoins li�s � une logique de diss�mination et d'�change des donn�es de prot�omique, dans la mesure o� ce n'est pas leur vocation premi�re ; de fait, la question se pose aujourd'hui de d�finir des standards de compatibilit� dans une logique d'int�gration, de collecte, de publication ou d'utilisation par des tiers [2,3]. La relative jeunesse de la prot�omique et son �volution constante rendent particuli�rement difficile la d�finition de donn�es cl�s dans la somme de r�sultats produits. Par exemple, selon les outils de production et les diff�rents logiciels utilis�s, la diversit� des formats et la mani�re dont les donn�es sont structur�es rendent difficiles la comparaison et l'�change des donn�es produites. Par ailleurs, tout comme les �tudes du transcriptome, ce domaine d'activit� produit des donn�es qui sont interpr�tables en fonction du contexte qui a permis de les g�n�rer. Une repr�sentation standard des m�thodes utilis�es et des donn�es g�n�r�es par les exp�riences de prot�omique, analogue au projet MIAME [4] a �t� propos�e : le mod�le PEDRo (Proteomics Experiment Data Repository). Cette repr�sentation bas�e sur un formalisme UML permet de repr�senter les connaissances du domaine des donn�es exp�rimentales en prot�omique (g�n�ration et traitement d'�chantillons biologiques, exp�riences de spectrom�trie de masse, r�sultatsd'analyse in silico). Un diagramme de classe a �t� d�fini pour fournir un mod�le conceptuel servant de base � une impl�mentation sous forme de sch�ma XML et relationnel [5].
Cette pr�sentation se propose de d�finir les enjeux li�s � la standardisation de formats d'�changes de donn�es en prot�omique � la lumi�re des initiatives actuellement d�velopp�es.
[1] World-2Dpage - http://au.expasy.org/ch2d/2d-index.html
[2] Prince, J.T. et al. The need for a public proteomics repository. 2004. Nat. Biotechnol. 22 : 471-472
[3] Hermjakob, H. et al. The HUPO PSI's molecular interaction format - a community standard for the represnetation of protein interaction data. Nat. Biotechnol. 22 : 177-183
[4] Taylor, C. et al. A systematic approach to modeling, capturing and disseminating proteomics experimental data. 2003. Nat. Biotechnol. 21 : 247-254
Retour au programme
Compte-rendu synth�tique des discussions
Rh�ne-Alpes Genopole a organis� une journ�e technique du R�seau National Genopole consacr�e � l'informatique et � la bioinformatique pour la prot�omique. Cette journ�e s'est d�roul�e le mardi 1er juin 2004 dans les locaux de l'INRIA Rh�ne-Alpes � Montbonnot (pr�s de Grenoble).
L'objectif premier de la journ�e �tait de faire se rencontrer les responsables des plates-formes de prot�omique afin de se concerter sur les choix des outils logiciels destin�s � recueillir, � g�rer, � analyser et � �changer les donn�es produites.
La communaut� concern�e a tr�s bien r�pondu � l'appel � participation. Le programme et les r�sum�s des interventions sont disponibles. Plus de 80 personnes ont particip� � la journ�e, dont le programme laissait une place importante pour les discussions et les �changes.
Une premi�re discussion a suivi les pr�sentations sur les LIMS, infrastructures logicielles destin�es � g�rer le flot de production de donn�es. La question fondamentale est ici de savoir s'il faut acqu�rir des syst�mes commerciaux ou bien d�velopper des syst�mes sp�cifiquement adapt�s, ou adaptables, aux besoins des plates-formes. Les syst�mes commerciaux permettent de b�nificier d'un produit performant � clef en mains � ; cependant les expos�s ont montr� l'existence de limites importantes pour l'utilisation de tels syst�mes : les syst�mes achet�s, � des prix plut�t �lev�s, sont peu, voire pas du tout, modifiables et adaptables par le client. En particulier, les sch�mas de donn�es sous-jacents ne sont pas accessibles ou pas document�s. Il est difficile d'y adjoindre des modules destin�s � l'analyse des donn�es. Plus surprenant encore, la persistance de ces donn�es n'est pas toujours assur�e. � l'inverse, le d�veloppement de syst�mes sp�cifiques pr�sente, s'il est bien men�, la garantie de disposer de syst�mes conformes aux besoins. Par contre, les LIMS sont des logiciels complexes, dont le co�t de d�veloppement est �lev�. Dans ce contexte, Christophe Bruley a pr�sent� une d�marche qui consiste � int�grer des composants existants, disponibles � co�t faible, voire nul, au sein d'une architecture modulaire, ais�ment configurable et extensible. Bien entendu, le d�veloppement de cette architecture pr�sente un co�t en termes d'hommes.mois de conception et de programmation. Mais ce co�t pourrait � l'�vidence �tre partag� au sein du r�seau national g�nopole et au-del�. De m�me, les plates-formes RIO sont aussi concern�es par ces probl�mes de LIMS. Parmi les organismes de recherche repr�sent�s lors de cette journ�e, l'INRA a exprim� tr�s clairement son int�r�t pour cette d�marche.
Il a donc �t� d�cid� de cr�er un groupe de travail sur ces probl�mes de LIMS avec plusieurs objectifs convergents : mieux cerner les besoins en mati�re de recueil, de gestion et d'analyse des donn�es prot�omiques, �valuer et comparer les offres commerciales et les d�veloppements sp�cifiques, poursuivre les r�flexions autour d'une proposition concert�e de d�veloppement d'une architecture permettant d'int�grer des composants existants et facilement adaptables aux sp�cificit�s des diff�rentes plates-formes. Ce groupe devrait �tre rapidement en mesure de d�finir un projet pour la r�alisation d'un LIMS pour les plates-formes de prot�omique du RNG et de RIO. Il devra d�finir le p�rim�tre du projet, puis proposer une r�partition des t�ches � r�aliser au niveau de chaque plate-forme, ainsi qu'un agenda pr�cis, et enfin pr�ciser les moyens humains et mat�riels n�cessaires pour le mener � bien. L'animation de ce groupe a �t� confi�e � Christophe Bruley (CEA, Rh�ne-Alpes Genopole).
Une seconde discussion a port� sur les �changes de donn�es prot�omiques et sur les initiatives de d�finition de formats standards. Plus particuli�rement, la proposition MIAPE (Minimum Information About A Proteomics Experiment) a �t� consid�r�e et l'avis g�n�ral est qu'il est n�cessaire que la communaut� nationale s'implique dans son �laboration et son affinement. L'objectif de MIAPE est de sp�cifier l'ensemble des informations minimales qui doivent accompagner tout jeu de donn�es prot�omiques, en particulier lors d'une publication, afin qu'il puisse �tre analys� ou r�analys� dans un contexte diff�rent de son contexte d'obtention. Il a donc �t� propos� de constituer un second groupe de travail sur cette probl�matique des formats d'�change afin d'�tre en mesure de participer de fa�on cr�dible et active au travail du groupe qui �labore le standard MIAPE. L'animation de ce second groupe a �t� confi� � Yves Vandenbrouck, responsable de la bioinformatique du D�partement de R�ponse et Dynamique Cellulaire (DRDC), de la Direction des Sciences de la Vie du CEA. L'objectif est d'arriver � une strat�gie commune avec nos coll�gues de l'Institut Suisse de Bioinformatique (SIB) tr�s fortement impliqu�s dans la prot�omique. Plus pr�cisement, il est propos� par Christine Hoogland (SIB) et Yves Vandenbrouck de participer activement au MIAPE en travaillant � l'�laboration de � guidelines � (directives, r�gles m�tiers, protocoles, sch�ma d'acquisition et de traitement, d�finition et structuration d'�l�ments de processus), bas�es sur le mod�le MIAME. L'id�e �tant de pouvoir pr�senter au prochain HUPO (Chine, 25-28 octobre) au moins une premi�re version d'un document compatible avec le standard MIAPE, pour au moins un ou deux principaux processus de production de donn�es.
Ces deux groupes de travail auront besoin d'un budget de fonctionnement qui est sollicit� aupr�s du R�seau National G�nopole (RNG). Si le premier groupe ne suppose que l'engagement de missions sur le territoire national, le second implique des d�placements � l'�tranger en fonction des lieux de r�union choisis au sein d'HUPO.
Retour � la pr�sentation de la journ�e |