Projekt: Genomsequenz-Datenbank (GenDB)
Weitere Information finden Sie auf der Projekthomepage
Kooperationsprojekt
zwischen der
- Forschungsgruppe Datenbanken und Informationssysteme (DBIS), Institut für Informatik, Uni Innsbruck und der
- Abteilung Genetische Epidemiologie, Prof. Dr. med F. Kronenberg, der Medizinischen Universität Innsbruck
Start
Oktober 2006
Ziel
Entwicklung einer skalierbaren Genom-Datenbank zur effizienten Speicherung, intelligentem Retrieval und "in-der-Datenbank-Verarbeitung" von Genom und Labor Massendaten, insbesondere von Phenotyp und Genotyp Daten
Beschreibung
Genomsequenzierung und das Erfassen und Speichern riesiger Datenmengen ist in der letzten Zeit zu einer der größten Aufgaben der Bioinformatik geworden. Genetische Daten weisen viele spezielle Merkmale auf, die das Verwalten solcher Informationen erschweren. Dies liegt vor allem daran, dass diese Daten im Vergleich zu anderen Bereichen komplex, sowie Menge und Umfang der Variabilität sehr hoch sind. Zudem können sich Schemata sehr schnell ändern. In einer Kooperation zwischen der Forschungsgruppe Datenbanken und Informationssysteme (DBIS) am Institut für Informatik der Universität Innsbruck und der Genetischen Epidemiologie der Medizinischen Universität Innsbruck wird eine Datenbank zur Verwaltung von Phäno- und Genotypen entworfen. Neben Speicherung sämtlicher Information zu Krankheiten, demographischer Daten, Laborparameter, soll vor allem Augenmerk auf die sogenannte SNP-Analyse gelegt werden, bei welcher mittelfristig mehrere tausend, langfristig über eine Million SNPs möglich sind. SNP steht für "Single Nucleotide Polymorphism" und bezeichnet Sequenzvarianten, die sich lediglich an einer einzigen Stelle von einer anderen vorkommenden Sequenz unterscheiden. Die große Anzahl der SNPs entsteht, um zuverlässige Ergebnisse bei der Suche nach Krankheitsgenen erzielen zu können. Skalierbarkeit der Datenbank und eine konfigurierbare Exportschnittstelle zu gängigen Auswertungsprogrammen stellen weitere Eckpfeiler der Arbeit dar. Mit Hilfe einer solchen Datenbank werden diese großen Datenmengen, welche bei heutigen Genomsequenzierungen anfallen, verwaltbar, was zu erheblicher Zeitersparnis führt und weiters einen Vergleich verschiedener Sequenzen möglich macht.

Einige interessante Details
- Development of a scalable architecture for storage, retrieval and evaluation of Gen-Data
- Currently about 150 Gen-data per person, in future, up to 1 Mio. Gen-data per person.
- Each of currently 30 test series includes about 10.000 Persons (fast growing!)
- very dynamic, high scalability important (by orders of magnitude)!
- Data Safety and Security
- PID data, Pheno and Geno data:
- Strict requirements due to data protection laws
- World wide exchange of different, heterogeneous data sources
- Geno-types, Pheno-types, Lab-Data, Assay-Data (Repository): Heterogenity at all levels: in systems, schemata and modelling
- schema and data integration problem
- Efficiency in the analysis process:
- Push down of great parts of the analysis programs into the database finding: coherencies, dependencies, relationships, next neighbours,...
Weitere Projekte: HaploGrep, CONAN
Kontakte:
- Dipl.-Ing. Sebastian Schönherr, Universität Innsbruck
- Dipl.-Ing. Hansi Weissensteiner, Universität Innsbruck
- Dr. Anita Brandstätter, Medizinische Universität Innsbruck
- Prof. Dr. Günther Specht, Universität Innsbruck
- Prof. Dr. med. Florian Kronenberg, Medizinische Universität Innsbruck