PepspotDB: a database for the storage and analysis of experiments based on peptide array technology = PepspotDB: una banca dati per l'immagazzinamento e l'analisi di esperimenti basati sulla tecnologia degli array di peptidi

Costa, S

doi:10.58015/costa-stefano_phd2009-08-05

The mapping of the “interactome” (i.e. the network comprising all possible physical protein-protein interactions naturally occurring within a cell or an organism) of living organisms is a key asset to promote the advancement of Systems Biology. Notwithstanding the numerous insights we have gained from the study of protein-protein interaction networks, currently available interactomes present several shortcomings, one of the more crucial being the lack of information regarding the regions involved in the interactions. Especially important in this respect are several families of conserved protein domains (e. g. SH2, SH3, WW, EVH1) that mediate protein-protein interactions by binding to short linear motifs. Our group has recently devised a strategy based on peptide array technology to study on a large scale the target recognition specificity of domains binding to short peptides. Our approach consists of an experimental and a computational part: 1) the domains are profiled by testing them with ad hoc designed peptide arrays; 2) Neural Network based predictors are trained for each of the profiled domains and the predictions are combined in a Bayesian framework with information coming from multiple orthogonal sources to obtain an integrated interaction confidence score. The approach has been applied to the identification of all human protein-protein interactions mediated by SH2 domains. To support the projects employing our approach, we have developed a brand new database-centered application, called PepspotDB, specifically designed to facilitate the storage and analysis of molecular interaction assays exploiting peptide array technology. We hope that PepspotDB will grow enough to become a prominent resource for the storage, analysis and retrieval of peptide chip data. PepspotDB comes with a traditional relational database, where experimental results, computational predictions and data imported from the literature or other external sources are stored, a rich web application, providing a user-friendly, yet powerful, interface to the database, and a set of tools to automatically process raw experimental data, identify promising candidate binders and visualize sequence logos. At the time of writing, PepspotDB contains more than 5 million records, comprising about 80 experiments and 55,548 domain-peptide interactions involving 70 SH2 domains and 7,972 unique peptides. These numbers are bound to more than double as new experiments involving other domain families are completed. Scientists studying protein-protein interactions mediated by domains recognizing linear peptides may find PepspotDB a precious resource to foster their own research.

La mappatura dell'interattoma (la rete composta da tutte le possibili interazioni fisiche proteina-proteina che avvengono naturalmente in una cellula o in un organismo) degli organismi viventi è una risorsa essenziale per promuovere l'avanzamento della Systems Biology. Senza sminuire le tante preziose lezioni che abbiamo appreso dallo studio delle reti di interazioni proteina-proteina, occorre però onestamente riconoscere che gli interattomi attuali presentano diverse limitazioni, tra cui cruciale è la scarsità di informazione sulle regioni proteiche coinvolte nel legame. A questo proposito, risultano particolarmente importanti alcune famiglie di domini proteici (ad es. SH2, SH3, WW, EVH1), capaci di mediare interazioni proteina-proteina legandosi a brevi motivi lineari. Recentemente, il nostro gruppo ha sviluppato una strategia basata sulla tecnologia degli array di peptidi per studiare, su larga scala, la specificità di riconoscimento dei domini che legano brevi sequenze peptidiche. Il nostro approccio consta di una parte sperimentale ed una computazionale: 1) il profilo di riconoscimento di ciascun dominio viene determinato saggiando l'interazione fra il dominio e un array di peptidi appositamente progettato; 2) una rete neurale viene “addestrata” su ciascuno dei profili ottenuti e le predizioni vengono integrate, mediante un approccio statistico di tipo Naїve Bayes, con informazioni eterogenee e indipendenti fra loro, al fine di ottenere un punteggio globale di affidabilità dell'interazione. Questo approccio è stato impiegato per identificare tutte le interazioni tra coppie di proteine umane mediate da domini SH2. A supporto dei progetti che adottano l'approccio descritto, abbiamo sviluppato una nuova applicazione basata su banca dati, chiamata PepspotDB, pensata specificamente per facilitare l'immagazzinamento e l'analisi di saggi di interazione molecolare che fanno uso della tecnologia degli array di peptidi. Nutriamo la speranza che PepspotDB possa maturare al punto da diventare una risorsa di spicco per il recupero e l'analisi di dati provenienti da esperimenti con array di peptidi. PepspotDB è composto da una classica banca dati relazionale, dove vengono immagazzinati risultati sperimentali, predizioni computazionali e dati estratti dalla letteratura o altre fonti d'informazione esterne, una applicazione web, che fornisce una interfaccia semplice, ma potente, alla banca dati e un insieme di strumenti per il trattamento semi-automatico dei dati sperimentali “grezzi”, l'identificazione di buoni candidati partner di legame e la visualizzazione di logo di sequenze. Al momento della stesura di questa tesi, PepspotDB contiene più di 5 milioni di record, che comprendono circa 80 esperimenti e 55.548 interazioni dominio-peptide fra 70 domini SH2 e 7.972 peptidi distinti. Questi numeri si raddoppieranno presto e continueranno a crescere man mano che vengono completati nuovi esperimenti su domini appartenenti ad altre famiglie. Ci auguriamo che gli scienziati interessati allo studio delle interazioni proteina-proteina mediate da domini che riconoscono brevi peptidi lineari possano trovare in PepspotDB un valido alleato per promuovere la propria ricerca.

Costa, S. (2009). PepspotDB: a database for the storage and analysis of experiments based on peptide array technology = PepspotDB: una banca dati per l'immagazzinamento e l'analisi di esperimenti basati sulla tecnologia degli array di peptidi [10.58015/costa-stefano_phd2009-08-05].