La production de données protéomiques à haut débit, quelles que soient les technologies mises en œuvre, pose les problèmes du recueil, du stockage, de la gestion et de l'analyse de ces données. Ces questions ont été abordées lors d'une journée technique du Réseau National Genopole organisée par Rhône-Alpes Genopole et rassemblant bioinformaticiens et biologistes impliquées dans les plates-formes de protéomique.
Cette journée s'est déroulée le mardi 1er juin 2004, de 10h à 17h 30, à l'INRIA Rhône-Alpes (Montbonnot), près de Grenoble.
Son objectif était de préciser ces problématiques, de présenter les solutions quand elles sont disponibles (par exemple la mise en œuvre de LIMS) et de discuter des démarches possibles pour aborder les problèmes qui restent ouverts (en particulier ceux relatifs à l'analyse des données produites). L'accent était mis sur la possibilité de partager les solutions et les savoir-faire entre les plates-formes existantes. La journée a donc été organisée autour de trois thèmes :
Acquisition, sauvegarde des données, et gestion des flux (LIMS) Bioanalyse : caractérisation des protéines (identification + modifications post-traductionnelles), quantification des protéines, annotation des génomes, ... Echanges de données entre plates-formes
Les discussions entre les participants ont conduit à la création de deux groupes de travail, sur les LIMS d'une part, et sur les standards d'échange de données d'autre part. Un compte-rendu synthétique de ces discussions est disponible.
Les fichiers PDF des supports des présentations sont disponibles
Programme
(Cliquer sur les titres pour accéder aux résumés)
9h30 Accueil
10h-10h30 Christine Hoogland, SIB, Genève, Suisse, Current developments at the Proteome Informatics Group, Swiss Institute of Bioinformatics, Geneva
Session 1 : Acquisition, sauvegarde des données, et gestion des flux (LIMS)
Animateur : François Rechenmann
10h30-10H45 Charles Pineau, Ouest Genopole, Rennes, Une solution LIMS pour la protéomique haut-débit
10h45-11H00 Emmanuelle Mouton, Toulouse Midi-Pyrénées Genopole, Toulouse, La solution SQL*LIMS appliquée à la Plate-forme Protéomique de Toulouse Midi-Pyrénées Genopole
11h00-11H15 Christophe Bruley, Rhône-Alpes Genopole, Grenoble, Intention et proposition autour de la gestion des données de protéomique
11h15-12h00 Discussion LIMS
Repas
Session 2 : Bioanalyse
Animateur : Jérôme Garin
13h15-13h30 Cécile Cren-Olivé, Lille Genopole, Lille, ASCQ-PROT, un "logiciel libre" pour l'analyse protéomique par empreinte peptidique
13h30-13h45 Benno Schwikowski, Institut Pasteur, Genopole Ile de France, Paris, The Multipeak approach to mass-spectrometric analysis of complex mixtures
13h45-14h00 Jérôme Garin, Rhône-Alpes Genopole, Grenoble, PepLine : un nouvel outil permettant l'annotation des génomes à partir de données MS/MS
14h00-14h15 Marianne Tardif, Rhône-Alpes Genopole, Grenoble, Un exemple d'application du logiciel PepLine : l'annotation du génome de l'algue verte Chlamydomonas reinhardtii
14h15-14h30 Stéphane Audic, Marseille Genopole, Outils bioinformatiques pour la protéomique. Comparaison TheGPM/Xcalibur Sequest-Gelprint : génération de gels 2D in silico
14h30-14h45 Manuela Argentini et Odile Lecompte, Strasbourg Genopole, Prédiction et validation des codons d'initiation : approches croisées bioinformatique et protéomique
14h45-15h15 Discussion
15h15-15h30 Pause
Session 3 : Echanges de données entre plates-formes
Animateur : Yves Vandenbrouck
15h30-15h45 Michel Rossignol, Montpellier Genopole, AFPdb, une banque de données protéomique intégrée
15h45-16h00 Juhui Wang, INRA Jouy, Un système d'analyse "collaborative" de données protéomiques
16h00-16h15 Johann Joets, INRA/CNRS Le Moulon, PROTICdb: a WEB-based application to manage, analyze plant proteome expression data
16h15-16h30 Yves Vandenbrouck, CEA/Grenoble, Modèles de données et format d'échanges pour les expériences de protéomique
16h30-17h30 Discussion générale
Animateur : Alain Viari
Résumés des interventions
Current developments at the Proteome Informatics Group, Swiss Institute of Bioformatics, Geneva
Ron D. Appel (1,2,3), Pierre-Alain Binz (1,2), Gérard Bouchet (1), Sébastien Catherinet (1), Robin Gras (1), Céline Hernandez (1), David Hernandez (1,2), Patricia Hernandez (1), Christine Hoogland (1), Frédérique Lisacek (1), Khaled Mostaguir (1), Markus Müller (1), Patricia Palagi (1), Stéphane Pelhatre (1), Marc Tuloup (1), Daniel Walther (1,3), Nadine Zangger (1)
(1) Swiss Institute of Bioinformatics, 1211 Geneva 4, Switzerland (2) Geneva University, 1211 Geneva 4, Switzerland (3) Geneva University Hospitals, 1211 Geneva1 4, Switzerland
Christine.Hoogland@isb-sib.ch
The Proteome Informatics Group (PIG) is one of the dozen groups of the Swiss Institute of Bioinformatics (SIB). Its activities focuses on the development and support of software tools and databases for proteomics applications. Our current research interests cover proteomics image analysis (e.g. Melanie 2D image analysis software), proteomics databases (e.g. SWISS-2DPAGE, make 2D-DB), protein identification and characterization using mass spectrometry (ExPASy, http://www.expasy.org/tools/#proteome) and differential proteome analysis. Some of these activities, ongoing since 1984 are continuously being improved and enhanced based on feedback from users and on the follow-up of real-life problems experienced by numerous biologists and proteomics scientists. In particular, a 20 years old close collaboration with experts from the Biomedical Proteomics Research Group (BPRG) at Geneva University Hospital has always been contributing to stay up-to-date with evolving technologies and know-how, notably in mass spectrometry and related domains. Highlights of tools available and currently under developments in the group will be presented.
More information is available at http://www.isb-sib.ch/groups/pig.htm
Retour au programme
Une solution LIMS pour la protéomique haut-débit
Charles Pineau
Plate-forme Protéomique Haut-débit Ouest Genopole", Bâtiment 24 - Campus de Beaulieu, 35042 Rennes cedex
Charles Pineau
www.innovaproteomics.com
L'objectif majeur de la protéomique vise à l'identification systématique du contenu protéique de cellules, de tissus, de fluide biologiques ou d'organismes d'intérêt. Alors que de nombreux laboratoires, convaincus de la pertinence des approches protéomiques, tentent actuellement de maîtriser les technologies a minima, les plates-formes pionnières optimisent déjà le fonctionnement de chaînes automatisées d'identification des protéines. Quelques laboratoires sont ainsi engagés dans des programmes de décryptage à grande échelle reposant sur une robotisation accrue des technologies. Ces plates-formes de haut niveau font face à un véritable challenge relatif au suivi et à la traçabilité des échantillons selon les standards industriels en vigueur, mais aussi au traitement et au stockage des masses de données générées.
Une traçabilité optimale est le pré-requis indispensable à l'atteinte du haut-débit en protéomique. LWS, le logiciel GQAO développé par Amersham Biosciences et Cimarron Software installé depuis deux ans sur la plate-forme protéomique de Ouest Genopole répond pleinement à la plupart des besoins dans ce domaine.
Retour au programme
La solution SQL*LIMS appliquée à la plate-forme protéomique du Génopôle Toulouse Midi-Pyrénées
Emmanuelle Mouton, Renaud Albigot et Bernard Monsarrat*.
*Institut de Pharmacologie et de Biologie Structurale, UMR CNRS 5089 Toulouse. Plate-forme Protéomique du Génopôle Toulouse Midi-Pyrénées
bernard.monsarrat@ipbs.fr
La demande sans cesse croissante de programmes d'études soumis à la plate-forme protéomique du Génopôle Toulouse-Midi-Pyrénées et la mise en conformité de notre plate-forme avec les normes qualité nous ont conduit à mettre en place un outil informatique de type LIMS. Notre choix s'est porté sur la solution SQL*LIMS qui a été expérimentée et développée dans le cadre du programme Après Séquençage Génomique (ASG, Protéomique et Cancer) impliquant notre plate-forme.
Le LIMS joue un rôle majeur dans la gestion de l'ensemble des données expérimentales de la plate-forme, dans la traçabilité des échantillons et l'exploitation des résultats.
L'architecture du système est actuellement en cours d'installation. Notre exposé portera sur la présentation de ce module informatique et des principaux développements réalisés pour répondre aux besoins spécifiques de notre plate-forme. La prise en charge des principale étapes du « process protéomique », l'intégration des logiciels spécifiques des technologies associées (spectromètres de masse, scanner d'images, robotique), la connexion des principaux moteurs de recherche permettant l'accès aux banques de données protéiques seront successivement illustrées.
A terme, chaque utilisateur de la plate-forme pourra suivre en temps réel, via une interface sécurisée, le devenir de ses échantillons au cours du processus d'analyse, mais également accéder à l'ensemble de ses résultats.
Retour au programme
Intention et proposition autour de la gestion des données de protéomique
Christophe Bruley (1), Jérôme Garin (1), Alain Viari (2)
(1) Laboratoire de Chimie des Protéines, ERIT/M Inserm 0201 CEA/Grenoble, 30054 Grenoble Cedex, France
(2) Projet HELIX, INRIA Rhône-Alpes, 655 avenue de l'Europe, Montbonnot 38 334 Saint Ismier cedex
La gestion des données d'une plate-forme de protéomique est un problème qui provient du nombre d'analyses effectuées chaque jour et de la quantité de données générées à chacune des étapes de ces analyses. Concrètement, «gérer» ces données signifie être capable de conserver la trace des informations relatives aux données biologiques (échantillons reçus, protéines identifiées, etc.), de consigner les informations relatives à l'activité, c'est-à-dire des flux de transformations (préparation des échantillons, paramétrage des analyses, etc.) et enfin de lier ces informations aux données électroniques produites et de les stocker.
En l'état actuel des choses, ces données sont gérées de manière hétérogène et cette gestion repose presque exclusivement sur la connaissance qu'ont les personnes de la plate-forme des projets sur lesquels elles travaillent.
Notre objectif est de construire un système qui permette non seulement de conserver une trace des données produites, mais également de faire de ce système un outil de travail quotidien en y intégrant des outils développés par nos soins ou par la communauté. Le squelette du système ou sa version minimale permet d'enregistrer dans une base de données relationnelle les informations relatives à l'activité de la plate-forme, de l'origine de l'échantillon jusqu'à son analyse « in silico » et d'adjoindre à la description d'une analyse les données produites (données brutes, spectres, résultats d'identification).
L'objectif à plus long terme est d'habiller ce squelette d'un certain nombre de modules susceptibles d'étendre la couverture fonctionnelle du système. Sans chercher à être exhaustif, on peut imaginer par exemple un module de gestion des instruments (planning d'utilisation, maintenance, etc.), des outils d'aide à la validation des résultats d'identification ou encore un module de génération de rapport d'analyses.
Le développement du squelette est une nécessité pour la plate-forme de protéomique Rhône-Alpes et nous avons d'ores et déjà engagé des efforts de ce point de vue, mais la complexité de ce squelette et la richesse de ce que nous construirons finalement dépend de notre capacité à fédérer les ressources de développement autour de ce projet.
Retour au programme
ASCQ-PROT, un "logiciel libre" pour l'analyse protéomique par empreinte peptidique
Pierre Laurence, David Boens, Cécile Cren-Olivé et Christian Rolando
Université des Sciences et Technologies de Lille, UMR CNRS 8009 Chimie Organique et Macromoléculaire, 59655 Villeneuve d'Ascq, France
Cecile.Cren@univ-lille1.fr
L'interrogation des banques de données prend une place croissante dans l'analyse protéomique et de la qualité de cette interrogation dépend crucialement la qualité de l'analyse. Comme d'autres nous nous sommes aperçus que pour une même analyse, les mêmes paramètres et la même base de donnée les résultats obtenus sont très différents suivant le moteur de recherche utilisé. Il est très difficile de dépasser cette constatation car les indications données sur les algorithmes utilisés par les différents moteurs ne permettent pas de connaître précisément l'algorithme utilisé et encore moins les limitations imposées pour accélérer l'interrogation. Contrairement à d'autres domaines analytiques et à la RMN en particulier, peu de logiciels dont les codes sont disponibles existent en spectrométrie de masse.
C'est pourquoi nous avons développé un logiciel d'analyse protéomique par empreinte peptidique avec les objectifs suivants :
rendre ce logiciel disponible dans le cadre de la licence Open Software Fundation ce qui implique la distribution du code source,
développer un logiciel qui ne fonctionne pas à travers une interface web mais utilise en paramètres, en entrée et en sortie des fichiers textes pour permettre une plus grande flexibilité,
développer un algorithme utilisable sans limitation de la profondeur des interrogations en particulier pour les modifications post-traductionnelles et appelable de manière récursive pour l'identification de protéines minoritaires,
développer un logiciel qui optimise la réponse sur des critères correspondants à ceux utilisés par un opérateur averti plutôt que sur une base statistique.
Nous présenterons le logiciel ASCQ-PROT qui a été développé suivant les critères précédents. Nous discuterons en particulier la pondération des différents paramètres utilisés pour la fonction de classement des réponses (taux de peptides présents dans le spectre de masse identifiés, étendue de la couverture, écart de masse moyen, nombre de modifications post-traductionnelles) suivant le type d'échantillon : recherche de modifications post-traductionnelles, échantillon très bruités dans le cas de taches peu intenses, recherche de plusieurs protéines dans un mélange.
Retour au programme
The Multipeak approach to mass-spectrometric analysis of complex mixtures
Amol Prakash and Benno Schwikowski
Institut Pasteur (Paris), Institute for Systems Biology (Seattle, WA)
benno@pasteur.fr
The analysis of complex protein mixtures on the basis of liquid chromatography (LC), followed by mass spectrometry (LC-MS or LC-MS/MS), is one of the key technologies for the systematic large-scale exploration of cellular processes. Mass spectrometry itself is exquisitely sensitive, and reproducibility of experiments at the signal level is high. It is generally suspected, however, that a significant number of peptides - especially those with modifications - are missed in current computational analyses. We present an approach that globally integrates all data acquired in the course of one experiment. Instead of attempting to detect the presence of a protein or its fragments from individual signals (peaks) in a single mass spectrograph, all data acquired across a whole experiment are first aligned into an n-dimensional space, where n is the number of dimensions used for the LC separation. This brings together all peaks that were generated by the same protein fragment throughout the experiment, which constitutes a much stronger signal than a single peak. I will present algorithms for the implementation of this approach in n = 2 dimensions, and demonstrate that, on a large data set from yeast whole-cell lysate, independently identified peptides indeed achieve the desired integration of peaks, and many yet-unidentified, but arguably peptide-generated spectra suggest a large number of yet-unidentified peptides in typical experiments.
Retour au programme
PepLine : un nouvel outil permettant l'annotation des génomes à partir de données MS/MS
E. Reguer (1), M. Ferro (2), E. Nugues (1), T. Vermat (3), R. Cahuzac (2), M. Vigouroux (3), E. Mouton (2), Y. Vandenbrouck (3), J. Garin (2) et A. Viari (1)
(1) INRIA Rhône-Alpes / Projet Helix, 655 Av. de l 'Europe, 38330 Montbonnot-St Martin
(2) Laboratoire de Chimie des Protéines, ERIT-M 0201, CEA/INSERM, CEA/Grenoble, 17 rue des Martyrs, 38054 Grenoble Cedex
(3) GENOME Express, 11 Chemin des Prés, 38944 Meylan
L'un des défis actuels de la protéomique concerne l'identification de protéines mineures ainsi que celle de protéines difficilement analysables, comme les protéines membranaires. Dans le but d'identifier de nouvelles protéines, un programme appelé PepLine a été développé. Ce programme utilise des données MS/MS ou LC-MS/MS afin de rechercher non seulement dans des banques de données protéiques mais aussi dans des banques de données génomiques. Ainsi PepLine est un outil bioinformatique intégré permettant une corrélation directe entre l'expression des protéines et leur génome, ce qui conduit à l'annotation des génomes. Conceptuellement PepLine agit de la façon suivante : une liste de peptide sequence tags (PSTs) est générée à partir de données MS/MS. Ces PSTs sont alors directement utilisés pour rechercher dans les banques de données protéiques et génomiques. Un PST est défini par une séquence de 3 acides aminés et par 2 masses N- et C-terminales. Un premier module, Taggor, génère automatiquement ces PSTs à partir de données LC-MS/MS obtenues sur un instrument de type QTOF. Les PSTs sont ensuite cartographiés sur des séquences protéiques ou sur les 6 phases traduites à partir d'informations génomiques. Enfin une phase de regroupement (clustering) permet d'affilier les PSTs à une même protéine ou à un même gène. Les phases de cartographie et de regroupement concernent le programme PepMap. Celui-ci a été testé indépendamment de Taggor, à l'aide de données de PSTs virtuels, mais aussi générés à partir d'analyses LC-MS/MS d'échantillons d'Arabidopsis thaliana. En utilisant les mêmes données expérimentales Taggor a aussi été évalué pour ses capacités à générer des PSTs corrects. L'intégration des 2 modules a été testée, et nous avons pu montrer que Taggor-Pepmap est un programme rapide et fiable. Taggor-PepMap a notamment été utilisé dans le contexte de l'étude de l'enveloppe du chloroplaste d'Arabidopsis thaliana et a montré son utilité pour l'annotation des génomes.
Retour au programme
Un exemple d'application du logiciel PepLine : l'annotation du génome de l'algue verte Chlamydomonas reinhardtii
Marianne Tardif
Laboratoire de Chimie des Protéines, ERM Inserm 0201, DRDC/CP - CEA/Grenoble, 17 rue des Martyrs, F-38054 Grenoble
Le module « nucléique » du logiciel PepLine permet d'annoter les génomes d'organismes eucaryotes en positionnant sur la séquence génomique, puis en les regroupant par « clusters », les étiquettes peptidiques (ou PSTs) obtenus à partir des spectres MSMS. L'annotation du génome de Chlamydomonas reinhardtii représente l'une des premières applications du logiciel PepLine dans le laboratoire de Chimie des Protéines.
L'avantage du point de vue biologique de Chlamydomonas reinhardtii est qu'il s'agit d'une algue unicellulaire, qui présente des fonctions caractéristiques majeures des cellules des végétaux supérieurs (photosynthèse, réponses à divers stress, etc.), tout en offrant des facilités de manipulation propres aux microorganismes. C'est un organisme modèle. Cependant, du point du vue « bioinformatique », très peu de séquences spécifiques à cet organisme sont référencées dans les banques généralistes (Swiss-Prot ou NCBInr). L'essentiel des séquences disponibles reposent sur des modèles, i.e. des séquences en acides aminés hypothétiques prédites à partir du génome de Chlamydomonas. Celui-ci présente une fréquence élevée en GC (62%), préjudiciable à la qualité de ces prédictions. Le génome est disponible sous forme partiellement assemblée (3211 scaffolds au lieu des 17 chromosomes attendus) sur le site du Joint Genome Institute (JGI) (http://genome.jgi-psf.org/chlre1/chlre1.home.html).
Cet état des lieux - protéines absentes ou bien mal prédites - a une conséquence : lorsque à la suite d'une analyse LC-MSMS, on interroge la banque de protéines 'Chlamydomonas' à l'aide de logiciels commerciaux tels que Mascot (Matrix Science), seulement une faible proportion des quelques centaines des spectres MSMS acquis au cours de l'expérience est correctement exploitée, c'est-à-dire permet d'identifier au final des protéines. Dans un tel cas de figure, l'interrogation directe du génome à l'aide de l'outil PepLine devient pertinente puisqu'elle permet de court-circuiter la banque protéique.
Grâce à l'utilisation de PepLine, nous espérons tirer de l'information dont la nature est propre à détecter de nouveaux exons et à corriger ou affiner les régions codantes déjà prédites. Le travail initié conduit également à améliorer le formalisme des résultats d'annotation de sorte que ceux-ci puissent être communiqués (par ex. au JGI), visualisés (sur le principe du browser) et confrontés à d'autres modes d'annotation des génomes (par ex., mapping des ESTs).
Retour au programme
Outils bioinformatiques pour la protéomique - Comparaison TheGPM/Xcalibur Sequest - Gelprint: génération de gels 2D in silico
Danielle Moinier, Hiroyuki Ogata et Stéphane Audic
Institut de Biologie Stucturale et Microbiologie, Information Génomique et Structurale, 31 Chemin Joseph Aiguier, 13402 Marseille cedex 20
Stephane.Audic@igs.cnrs-mrs.fr
http://igs-server.cnrs-mrs.fr
Comparaison TheGPM / Xcalibur Sequest
Dans le cadre de l'annotation du génome complet du plus grand génome viral connu à ce jour [1], nous présenterons une analyse comparative de deux logiciels concurrents, l'un propriétaire (Xcalibur Sequest), l'autre accessible librement par une interface WEB (http://www.thegpm.org) avec possibilité d'installation locale, pour l'identification des protéines. Cette comparaison montre que TheGPM est une alternative viable, rapide, et économique pour l'identification de protéines. De plus, dans son mode "raffinement", TheGPM permet l'identification de modification post-traductionnelles tel que phosphorylation, glycosylation, hydroxy-proline.
GelPrint
GelPrint est une application disponible sous la forme d'une interface WEB (http://igs-server.cnrs-mrs.fr). Cette application permet a partir d'un génome annoté, de calculer une image théorique d'un gel 2D, et de l'enregister au format Postscript à une échelle permettant la superposition de l'image théorique et du gel expérimental, facilitant l'analyse préliminaire de ce gel.
[1] A giant Virus in amoeba, La Scola B, Audic S, Robert C, Jungang L, de Lamballerie X, Drancourt M, Birtles R, Claverie JM, Raoult D. Science. 2003 Mar 28;299(5615):2033.
Retour au programme
Prédiction et validation des codons d'initiation : approches croisées bioinformatique et protéomique
O. Lecompte (1), M. Argentini (1), J-M. Reyrat (3), O. Poch (1), A. Van Dorsselaer (2)
(1) IGBMC 1 rue Laurent Fries 67404 Illkirch
(2) ECPM 25 rue Becquerel 67087 Strasbourg
(3) Unité de Pathogénie des Infections Systémiques 156 rue de Vaugirard 75730 Paris
manu@titus.u-strasbg.fr
L'un des enjeux majeurs de l'ère post-génomique est la mise en oeuvre de protocoles efficaces de correction/validation des données issues du « haut débit ». En effet, l'introduction d'erreurs dans les données initiales a des répercussions désastreuses aux niveaux d'intégration supérieurs. La prédiction correcte des codons initiateurs constitue en particulier une étape cruciale dont vont dépendre aussi bien des analyses in silico comme la recherche de signaux de transcription que des études expérimentales reposant sur la production de protéines fonctionnelles. Face à la complexité du problème de détermination des codons d'initiation, nous avons choisi de mettre en œuvre une approche couplant prédictions in silico et construction d'un set massif de données expérimentales. D'un point de vue bioinformatique, la prédiction s'appuiera sur un algorithme original d'analyse des conservations différentielles au sein d'un alignement multiple. Cette analyse sera complétée, chez les Procaryotes, par l'exploitation du contexte génomique du gène analysé. Ces programmes seront testés sur le génome de Mycobacterium smegmatis. En effet, de par leur pourcentage en GC extrêmement élevé, les génomes du genre Mycobacterium présentent un taux particulièrement important d'erreurs de prédiction, constituant de ce fait, des ensembles d'apprentissage idéaux.
La validation et la mise au point de notre approche in silico reposera sur l'analyse des séquences des peptides N-terminaux des protéines bactériennes. La séparation mono et bi-dimensionnelle des protéines membranaires et solubles, leur analyses par spectrométrie de masse et l'approche « COFRADIC » seront utilisées afin d'identifier un nombre le plus large possible des séquences N-terminales du protéome de Mycobacterium smegmatis.
Retour au programme
AFPdb, une banque de données protéomique intégrée
Cédric Bouttes (1), Thierry Hotelier (2), Delphine Sansom (3), Delphine Grando (3) & Michel Rossignol (1)
(1)UR INRA 1199, place Viala 34060 Montpellier cedex 1
(2) UIC ENSA-INRA, place Viala 34060 Montpellier cedex 1
(3) UR Génomique-Info, INRA, Infobiogen, 523 Place des Terrasses, 91000 Evry
bouttes@ensam.inra.fr ; hotelier@ensam.inra.fr ; rossignol@ensam.inra.fr
Génoplante est une initiative nationale de génomique végétale qui gère notamment divers programmes de constructions de ressources produisant des données de nature variée : banques de mutants d'insertion, banques d'ESTs, puces à ADN, protéomes spécifiques, etc. L'ensemble de ces données est organisé dans des banques possédant une architecture commune, et la banque AFPdb (Arabidopsis Functional Proteome database) en constitue le volet protéomique. Il s'agit d'une banque orientée "protéine", visant à la fois (i) à faciliter le travail d'analyse des données structurales obtenues par spectrométrie de masse sur les protéines et (ii) à permettre l'intégration avec les autres types de données générées dans Génoplante. La première version est en cours d'installation à Infobiogen et contient un jeu de données provenant de plusieurs laboratoires partenaires du projet Génoplante.
La collecte des données se fait à l'aide d'un format d'échange constitué de feuilles Excel dont le contenu vient, à l'aide de scripts Perl/SQL, alimenter les 53 tables de la base (le SGBD pouvant être PostgreSQL ou Oracle). Par ailleurs le développement d'interfaces est prévu pour permettre des modifications ponctuelles. La base est consultable au travers d'interfaces développées en JSP, Servlets,JavaBeansàl'aide du framework Struts.En terme de fonctionnalités,laversion actuelled'AFPdb permet l'interrogation croisée(parcritères ou par mots clés) des thématiques, des protéines, etc. Pour les données issues de gels, l'application inclut aussi une applet Java pour la visualisation. Chaque fiche protéine permet d'accéderàl'ensemble des informations expérimentales d'amont (projets concernés, matériels biologiques, gels, résultats des interrogations avec les données MS, etc.), aux annotations spécifiques découlant des données obtenues (peptides d'adressage, modifications post-traductionnelles, etc.). Une option permet l'exportation des données (format CSV ou Excel).
Des liens sont disponibles sur diverses bases de données, comme NCBI, Tair, Aramemnon, SwissProt ou FLAGdb++, permettant, dans ce dernier cas par exemple, d'associer directement à la protéine les mutants disponibles dans le gène correspondant.
Les développements prévus incluent notamment une application Java pour visualiser sur la séquence de chaque protéine des motifs spécifiques (issus de prédictions bioinformatiques ou de données expérimentales) et des possibilités d'interrogation par BLAST.
Retour au programme
Un système d'analyse "collaborative" de données protéomiques
Juhui Wang (1), Christophe Caron(2), et Michel-Yves Mistou (3)
(1) Unité Mathématique et Informatique Appliquée, INRA, 78352 Jouy en Josas
(2) Unité Mathématique, Informatique et Génomique, INRA, 78352 Jouy en Josas
(3) Unité Biochimie et Structure de Protéines, INRA, 78352 Jouy en Josas
wang@banian.jouy.inra.fr
L'électrophorèse 2D, éventuellement associée à la spectrométrie de masse, reste une technique souvent incontournable pour l'analyse protéomique. En raison de la complexité de l'information présente dans le processus, l'assistance informatique est dispensable à la fois pour l'extraction des informations pertinentes et l'annotation des gels. Cette assistance s'effectue souvent à l'aide de logiciels spécialisés (e.g. Z3, Mélanie, PSS, ...) procédant sur des images numériques. Même si des améliorations notables continuent d'apparaître dans ces logiciels, il n'en demeure pas moins que l'analyse d'un gel requiert encore une intervention importante du biologiste à la fois pour la correction des résultats fournis et leur validation (au moins visuelle). Du fait de l'évolution de la technique et de la complexité des informations à analyser il nous semble qu'une approche basée sur l'utilisation d'un seul couple "opérateur humain-logiciel d'analyse", fonctionnant indépendamment des autres plate-formes existantes, est une méthode de fonctionnement sous-optimalepar rapport aux connaissances mobilisables.
Nous proposons donc la conception et le développement d'un système d'analyse "collaborative" de données protéomiques qui permet d'une part la réutilisabilité des informations extraites sur un ensemble de gels et d'autre part une traçabilité de la démarche d'analyse. Reposant sur une architecture 3-tiers, ce système constitue une sorte d'entrepôt de ressources protéomiques à partir de laquelle nous pouvons confronter les données issues des expériences différentes et réalisées par des expérimentateurs différents, tester leur cohérence, prédire et synthétiser certaines propriétés. Les gels sont indexés à partir de descripteurs de propriétés centrées sur des spots et les processus d'analyse utilisés. Ainsi, nous pouvons accéder à toutes les informations disponibles depuis la préparation de l'échantillon jusqu'à la validation par un opérateur humain en passant par le paramétrage des logiciels d'analyse.
La première version de ce système est déjà disponible sur le site du projet (http://www.inra.fr/bia/J/imaste/paris/). Il est actuellement exploité par trois laboratoires de l'INRA et quelques partenaires étrangers.
Retour au programme
PROTICdb: a web-based application to manage, analyse plant proteome expression data
Gwenn Houel (1), Hélène Ferry-Dumazet (2), Luc Moreau (1), Pierre Montalent (1), Christophe Plomion (3), Antoine de Daruvar (2), Olivier langella (1), Michel Zivy (1), Johann Joets (1)
(1) UMR de Génétique Végétale du Moulon (INRA/CNRS/UP-XI/INA-PG), Gif-sur-Yvette, France
(2) Centre de Bioinformatique de Bordeaux, Université Victor Segalen Bordeaux 2, 146 rue Léo Saignat 33076 Bordeaux
(3) UMR BIOGECO 1202, INRA, Equipe de Génétique 69 route d'Arcachon, 33612 Cestas Cedex France
joets@moulon.inra.fr
Large international efforts have provided community with databases and softwares dedicated to transcriptome data mining. However, less effort has been done for proteomics. To our knowledge, databases developed so far for 2-D PAGE and compliant with plant proteomics do not deal with quantitative data or relationships between protein spots. Then new developments are needed to store and analyse proteome data and to compare them with transcriptome data.
We developed the PROTeome bioinformaTICs software PROTICdb; a database and a web-based application, to manage, track, query and web-publish proteomics data. The database is designed to store complete sets of data generated by experiments, from experiment design description to spot identification (MS, Edmann,…) and quantitative variations. We included in the database schema possibilities to aggregate data from several plants, samples or gel. Then data from those groups can be easily extracted whenever needed, for instance to conduct statistical analysis.
Relations between spot, such as "the two spots are the same protein but in different post-translational modification state" may be very important to consider for hypothesis formulation. We thus managed to store this information in the database. This system can be extended to any type of relation that could exist between two proteins (or spots) including physical interaction. The Protic application can automatically build relations network using transitivity. Thus if a non identified spot is related to an identified one by, for example an allelism relationship, then the first one will inherit of the identification result of the second one.
Database feeding may be achieved by automated uploading of formatted files or with inter-active web forms. Data files are either files from widely used proteomics software like Melanie or tabulated files from spreadsheets.
Protic interface provides users with a Java interactive graphical tool to query 2D-gel, to annotate the spots and to input spot relationships. This interface allows viewing up to 4 gel images at a time. Links to other databases (Swiss-prot, Genbank) are present wherever needed.
Protic is based on Oracle or Postgresql DBMS and will be freely available.
Retour au programme
Modèles de données et format d'échanges pour les expériences de protéomique
Yves Vandenbrouck
Département de Réponse et Dynamique Cellulaires (DRDC), Commissariat à l'Energie Atomique - 17 Avenue des martyrs, 38054 Grenoble Cedex 9, France.
La protéomique associée à des approches technologiques dites à haut débit (électrophorèse bi-dimensionnelle, spectrométrie de masse, MUDPIT, double-hybride…), conduit à la production de données de nature diverses qui sont intrinsèquement liées au processus d'acquisition et de traitement (protocoles, conditions expérimentales, méthodes d'analyse…). Si la gestion interne des données est du ressort des centres de production (voir la session LIMS), un autre aspect concerne la mise à disposition de ces données au sein de la communauté scientifique. Ainsi de nombreuses bases de données existent pour les données de gels 2D [1], d'interactions (DIP, BIND, MINT…) et, dans une moindre mesure, de spectrométrie de masse (OPD). Néanmoins, la constitution de ces bases de données ne répond que partiellement aux besoins liés à une logique de dissémination et d'échange des données de protéomique, dans la mesure où ce n'est pas leur vocation première ; de fait, la question se pose aujourd'hui de définir des standards de compatibilité dans une logique d'intégration, de collecte, de publication ou d'utilisation par des tiers [2,3]. La relative jeunesse de la protéomique et son évolution constante rendent particulièrement difficile la définition de données clés dans la somme de résultats produits. Par exemple, selon les outils de production et les différents logiciels utilisés, la diversité des formats et la manière dont les données sont structurées rendent difficiles la comparaison et l'échange des données produites. Par ailleurs, tout comme les études du transcriptome, ce domaine d'activité produit des données qui sont interprétables en fonction du contexte qui a permis de les générer. Une représentation standard des méthodes utilisées et des données générées par les expériences de protéomique, analogue au projet MIAME [4] a été proposée : le modèle PEDRo (Proteomics Experiment Data Repository). Cette représentation basée sur un formalisme UML permet de représenter les connaissances du domaine des données expérimentales en protéomique (génération et traitement d'échantillons biologiques, expériences de spectrométrie de masse, résultatsd'analyse in silico). Un diagramme de classe a été défini pour fournir un modèle conceptuel servant de base à une implémentation sous forme de schéma XML et relationnel [5].
Cette présentation se propose de définir les enjeux liés à la standardisation de formats d'échanges de données en protéomique à la lumière des initiatives actuellement développées.
[1] World-2Dpage - http://au.expasy.org/ch2d/2d-index.html
[2] Prince, J.T. et al. The need for a public proteomics repository. 2004. Nat. Biotechnol. 22 : 471-472
[3] Hermjakob, H. et al. The HUPO PSI's molecular interaction format - a community standard for the represnetation of protein interaction data. Nat. Biotechnol. 22 : 177-183
[4] Taylor, C. et al. A systematic approach to modeling, capturing and disseminating proteomics experimental data. 2003. Nat. Biotechnol. 21 : 247-254
Retour au programme
Compte-rendu synthétique des discussions
Rhône-Alpes Genopole a organisé une journée technique du Réseau National Genopole consacrée à l'informatique et à la bioinformatique pour la protéomique. Cette journée s'est déroulée le mardi 1er juin 2004 dans les locaux de l'INRIA Rhône-Alpes à Montbonnot (près de Grenoble).
L'objectif premier de la journée était de faire se rencontrer les responsables des plates-formes de protéomique afin de se concerter sur les choix des outils logiciels destinés à recueillir, à gérer, à analyser et à échanger les données produites.
La communauté concernée a très bien répondu à l'appel à participation. Le programme et les résumés des interventions sont disponibles. Plus de 80 personnes ont participé à la journée, dont le programme laissait une place importante pour les discussions et les échanges.
Une première discussion a suivi les présentations sur les LIMS, infrastructures logicielles destinées à gérer le flot de production de données. La question fondamentale est ici de savoir s'il faut acquérir des systèmes commerciaux ou bien développer des systèmes spécifiquement adaptés, ou adaptables, aux besoins des plates-formes. Les systèmes commerciaux permettent de bénificier d'un produit performant « clef en mains » ; cependant les exposés ont montré l'existence de limites importantes pour l'utilisation de tels systèmes : les systèmes achetés, à des prix plutôt élevés, sont peu, voire pas du tout, modifiables et adaptables par le client. En particulier, les schémas de données sous-jacents ne sont pas accessibles ou pas documentés. Il est difficile d'y adjoindre des modules destinés à l'analyse des données. Plus surprenant encore, la persistance de ces données n'est pas toujours assurée. À l'inverse, le développement de systèmes spécifiques présente, s'il est bien mené, la garantie de disposer de systèmes conformes aux besoins. Par contre, les LIMS sont des logiciels complexes, dont le coût de développement est élevé. Dans ce contexte, Christophe Bruley a présenté une démarche qui consiste à intégrer des composants existants, disponibles à coût faible, voire nul, au sein d'une architecture modulaire, aisément configurable et extensible. Bien entendu, le développement de cette architecture présente un coût en termes d'hommes.mois de conception et de programmation. Mais ce coût pourrait à l'évidence être partagé au sein du réseau national génopole et au-delà. De même, les plates-formes RIO sont aussi concernées par ces problèmes de LIMS. Parmi les organismes de recherche représentés lors de cette journée, l'INRA a exprimé très clairement son intérêt pour cette démarche.
Il a donc été décidé de créer un groupe de travail sur ces problèmes de LIMS avec plusieurs objectifs convergents : mieux cerner les besoins en matière de recueil, de gestion et d'analyse des données protéomiques, évaluer et comparer les offres commerciales et les développements spécifiques, poursuivre les réflexions autour d'une proposition concertée de développement d'une architecture permettant d'intégrer des composants existants et facilement adaptables aux spécificités des différentes plates-formes. Ce groupe devrait être rapidement en mesure de définir un projet pour la réalisation d'un LIMS pour les plates-formes de protéomique du RNG et de RIO. Il devra définir le périmètre du projet, puis proposer une répartition des tâches à réaliser au niveau de chaque plate-forme, ainsi qu'un agenda précis, et enfin préciser les moyens humains et matériels nécessaires pour le mener à bien. L'animation de ce groupe a été confiée à Christophe Bruley (CEA, Rhône-Alpes Genopole).
Une seconde discussion a porté sur les échanges de données protéomiques et sur les initiatives de définition de formats standards. Plus particulièrement, la proposition MIAPE (Minimum Information About A Proteomics Experiment) a été considérée et l'avis général est qu'il est nécessaire que la communauté nationale s'implique dans son élaboration et son affinement. L'objectif de MIAPE est de spécifier l'ensemble des informations minimales qui doivent accompagner tout jeu de données protéomiques, en particulier lors d'une publication, afin qu'il puisse être analysé ou réanalysé dans un contexte différent de son contexte d'obtention. Il a donc été proposé de constituer un second groupe de travail sur cette problématique des formats d'échange afin d'être en mesure de participer de façon crédible et active au travail du groupe qui élabore le standard MIAPE. L'animation de ce second groupe a été confié à Yves Vandenbrouck, responsable de la bioinformatique du Département de Réponse et Dynamique Cellulaire (DRDC), de la Direction des Sciences de la Vie du CEA. L'objectif est d'arriver à une stratégie commune avec nos collègues de l'Institut Suisse de Bioinformatique (SIB) très fortement impliqués dans la protéomique. Plus précisement, il est proposé par Christine Hoogland (SIB) et Yves Vandenbrouck de participer activement au MIAPE en travaillant à l'élaboration de « guidelines » (directives, régles métiers, protocoles, schéma d'acquisition et de traitement, définition et structuration d'éléments de processus), basées sur le modèle MIAME. L'idée étant de pouvoir présenter au prochain HUPO (Chine, 25-28 octobre) au moins une première version d'un document compatible avec le standard MIAPE, pour au moins un ou deux principaux processus de production de données.
Ces deux groupes de travail auront besoin d'un budget de fonctionnement qui est sollicité auprès du Réseau National Génopole (RNG). Si le premier groupe ne suppose que l'engagement de missions sur le territoire national, le second implique des déplacements à l'étranger en fonction des lieux de réunion choisis au sein d'HUPO.
Retour à la présentation de la journée |