Integration of protein interaction and protein localization data

Ceol, A

doi:10.58015/ceol-arnaud_phd2008-08-29

The application on a genomic scale of new powerful proteomics tools has resulted in the accumulation of an unprecedented amount of information about the concentration and distribution of biological molecules in the cell and their interactions. My thesis work has focused on the development of methods for retrieval and storage of experimental data relating to protein interaction and protein localization. To this end I have developed three databases: MINT, Domino and CellMINT, and I have worked on methods to integrate different evidence and to rank the reliability of experimental information. The MINT database initiated as a single group effort and was designed to collect experimentally verified protein-protein interactions. Over the past three years, MINT has undergone an extensive revision. It is now based on community standards and has the ambition to cover all published protein-protein interaction data by sharing curation load and exchanging data with other major databases. As a further extension of our effort to better describe the topology of protein interactions I have also developed a database structure to store and present information about the specific domains that are involved in an interaction. Many protein interactions are mediated by small protein modules binding to short linear peptides. Protein-protein interaction databases are not optimized to store and present this kind of data and do not show, for instance, how many proteins can simultaneously bind a common partner or compete for a single domain/site of the same protein. In order to store this important information I designed DOMINO, an open-access database comprising more than 6390 interactions mediated by protein-interaction domains. A convenient graphic tool permits to directly visualize the protein domains/sites implicated in the interactions in each partner protein. A third project focused on the development of a database for the storage of information about protein localization in sub-cellular compartments. Cell fractionation technology and fluorescence-based microscopy have enabled the investigation of the spatial distribution of gene products inside a living cell. Recent reports have described global maps of organelles and a large list of proteins localized in sub-cellular compartments. The amount, and complexity, of data that has been made available and its complexity is such that new methods for information storage and data integration are required. To this end, I have created a repository for results of protein localization experiments that is accessible through a public web-server and where information about experimental evidence is captured in a computer readable format. The experimental dataset was extended to include â inferred localizationâ obtained by transferring to the ortholog proteins of any organism the experimentally established localization, as determined in more thoroughly investigated model systems. Finally we have used information on the localization of interaction partners to annotate proteins for which no experimental evidence is available. This repository can be used to retrieve information about the localization of a specific protein or a set of proteins, to confront or confirm protein localizations from disparate and sometimes contradictory experimental evidence, and for validation of other types of genome wide data, such as protein interactions. A common problem in these three projects is that approximately 90% of the information that can be retrieved from the literature derives from large-scale experiments. Since these datasets are often affected by a large number of false positives, each piece of evidence is not equally trustable and its reliability should be rated by considering the number of independent supporting evidence and complementary genome wide datasets.

L'approccio allo studio del genoma attraverso gli strumenti della proteomica ha portato all'accumulo di una grande mole di informazioni riguardo la concentrazione e distribuzione delle molecole biologiche e loro interazioni. In questo lavoro di tesi mi sono proposto di sviluppare metodi per il recupero e l' archiviazione di dati sperimentali relativi all' interazione e localizzazione proteica. Sono state quindi sviluppate tre banche dati: MINT, Domino e CellMINT , allo scopo di integrare i diversi risultati sperimentali e valutare l'affidabilità delle informazioni sperimentali. MINT è nata per collezionare dati relativi alle interazioni proteina-proteina verificate sperimentalmente. Negli ultimi tre anni questa banca dati è stata ampiamente rielaborata ed ora gestisce le informazioni secondo parametri standard definiti dalla comunità scientifica. MINT ha, ad oggi, l'ambizione di collezionare tutti i dati noti di interazione proteina-proteina attraverso la condivisione e lo scambio con le altre principali banche dati. In questo lavoro di tesi ho anche sviluppato strumenti per descrivere meglio la topologia delle interazioni proteiche. A tale scopo è stata sviluppata una banca dati, Domino, che cataloga i dati noti riguardo specifici domini di interazione proteica. Molte interazioni tra macromolecole sono infatti mediate da porzioni di esse con una specifica attività biologica e le banche dati di interazione note non hanno, al momento, la capacità di immagazzinare e presentare questo tipo di informazione. Esse non sono, pertanto, in grado di mostrare quante proteine possano legare contemporaneamente uno specifico substrato o competere per uno stesso dominio/sito di legame della stessa proteina. La banca dati Domino è a libero accesso e raccoglie più di 6390 interazioni di questo tipo, essa è inoltre dotata di uno strumento grafico che permette di visualizzare direttamente le interazioni dei domini/siti di legame che interagiscono con la proteina di interesse. La terza ed ultima parte di questo lavoro di tesi è focalizzata sullo sviluppo di una banca dati per la raccolta di informazione sulla localizzazione di proteine all'interno di compartimenti sub-cellulari. Recenti studi hanno permesso di comporre la mappa globale degli organelli cellulari e una lunga lista di proteine in essi localizzate. Le tecnologie di frazionamento cellulare e fluorescenza hanno reso possibile l'indagine della distribuzione dei prodotti genici all'interno della cellula. La massa e la complessità di tali informazioni rendono indispensabili nuovi strumenti per immagazzinare e integrare le informazioni note. A tale scopo è nata CellMINT, all'interno della quale è raccolta l'informazione proveniente da esperimenti di localizzazione. Partendo dai dati di localizzazione cellulare, è stata ampliata la banca dati, applicando tali evidenze sperimentali a proteine ortologhe di diversi organismi. Infine abbiamo usato l'informazione di questa banca dati per definire le proteine per cui non è disponibile alcuna informazione di localizzazione cellulare. Cell MINT può quindi essere usata per recuperare informazione riguardo alla localizzazione di specifiche proteine o set di proteine, per confrontare o confermare la localizzazione di interazioni proteiche consultando disparate e talvolta contraddittorie evidenze sperimentali. Inoltre CellMint può essere uno strumento utile per validare altri tipi di dati riguardo al genoma in generale. E' importante sottolineare, tuttavia, il limite dei tre progetti da me portati avanti per questo lavoro di tesi. Circa il 90% dell'informazione recuperata dalla letteratura scientifica deriva da esperimenti â su larga scalaâ e i dati in essi raccolti presentano spesso un gran numero di falsi positivi. Le evidenze sperimentali in essi raccolte non sono pertanto ugualmente affidabili e la loro credibilità dovrebbe essere validata stimando il numero di evidenze che indipendentemente la supportano.

Ceol, A. (2008). Integration of protein interaction and protein localization data [10.58015/ceol-arnaud_phd2008-08-29].