formation gratuit :: File Repository RSS

Cours bases de données RSS

Quel est le point d'une base de données?


Cela peut sembler une question triviale. Les dépôts centraux de gigaoctets d'informations connexes sont devenus une partie essentielle de la recherche de tous les scientifiques. Par conséquent, s'interroger sur leur utilité, c'est un peu comme demander pourquoi nous avons besoin d'oxygène. Mais comme les bases de données augmentation, à la fois en taille et en nombre, et de veiller à ce qu'ils soient aussi utiles que possible, nous devons considérer exactement ce qu'ils sont utilisés pour.
Une base de données est un outil pour découvrir ce que l'information est déjà connue, et la qualité d'une base de données repose sur trois choses: l'exhaustivité, l'exactitude et l'accessibilité. Une base de données doit être complète et à jour, son contenu doit être fiable, ou au moins avec une précision bien documenté. Enfin, pour être vraiment utile une base de données devrait être simple à utiliser - celui qui, ou quoi, lui vient de renseignements doit obtenir ce qu'ils veulent dans une forme qu'ils peuvent comprendre.
Le désir de fournir des informations complètes conduit à une prolifération de bases de données. Pour être vraiment complet est une tâche impossible, si les bases de données s'efforcer d'être complète dans certaines limites bien proscrits, mais tous ensemble différent de limites engendre une nouvelle base de données. Par exemple, presque toutes les initiatives du génome a son propre référentiel distinct pour toutes les séquences de son organisme particulier.
Les limites peuvent également être définies par des données qui sont utiles à une communauté particulière. Un exemple en est l'Alliance pour la signalisation cellulaire (AFC), le but avoué est de cartographier et documenter l'ensemble du réseau d'interactions formées par les voies de signalisation de la cellule. C'est une commande très grand, donc plutôt que de tenter de curé d'informations pour toutes les cellules à la fois, la collection est initialement limité à deux types de cellules cliniquement pertinentes: les lymphocytes de souris et les cardiomyocytes. Conjointement, les CAA développe une base de données des «Pages de molécule», contenant des informations disponibles sur les molécules impliquées dans la signalisation cellulaire de mammifère.
À bien des égards ces pages Molecule formeront plus d'une encyclopédie qu'une base de données conventionnel, par conséquent, garantir l'exactitude de leur contenu devient important. Les pages de molécules AFC seront régulièrement actualisés, rédigés par d'éminents chercheurs et soumis à une forme d'examen par les pairs. La production de ces pages constitue donc une forme de publication. En effet Nature collabore avec les CAA pour aider à examiner et la distribution de ces ressources.

En biologie structurale nous avons un des plus anciens établi des bases de données biologiques, la banque de données de protéines. Incroyablement, il a été effectivement mis en place en 1971, lorsque seule une poignée de structures cristallines de résolution atomique avait été résolu. Qu'est-ce catalysée sa formation étaient avancées dans l'infographie, qui, malgré l'absence de plus de 32K de mémoire de la CPU à travailler avec, a permis aux molécules de la taille des protéines à afficher relativement facilement. Pour les programmes graphiques de travailler efficacement sur l'ensemble de base de données, les fichiers nécessaires pour être dans un format standard, y compris des préoccupations fondamentales que si les coordonnées ont été mesurées en centimètres ou en pouces. Avec la création de l'APB, il était possible de regarder toutes les structures protéiques connues de la même façon.
Depuis sa création, l'APB a parcouru un long chemin - littéralement, ayant emménagé depuis un emplacement centralisé au Brookhaven National Laboratory à un consortium regroupant trois sites, l'un autant que le Centre de San Diego Supercomputing. Plus important encore, le contenu est passé de quelques structures à bien plus de 15.000 aujourd'hui, et il est en bonne voie pour avoir 45.000 entrées en 2005. L'intégralité de l'APB a été assurée par la politique de journaux, dont Nature Structural Biology, d'exiger que les structures ne peuvent pas être publiés dans leurs pages sans dépôt simultané. La précision de la base de données est contrôlé par des suites de vérification des programmes qui visent à détecter les erreurs dans les coordonnées quand ils sont soumis.
Le volume de cisaillement de l'information maintenant stockées dans l'APB met une prime supplémentaire de la cohérence de format de données, une situation qui vaut pour toutes les bases de données. De plus en plus de bases de données sont interrogés, non pas par des utilisateurs humains mais automatiquement par des programmes bioinformatiques, pour identifier les tendances et les connexions de plus en plus subtiles dans les données disponibles. Format de données compatible s'applique à la fois aux données expérimentales primaires et autres informations associées. Dans le cas des premières, coordonnées APB ainsi que l'information annotée d'une structure devra être décrit dans l'ontologie commune et établis.
En fin de compte, il ya beaucoup à gagner à établir si ce n'est pas cohérent, alors formats et l'ontologie au moins interopérables dans tout un éventail de bases de données. Avec cette compatibilité, morceaux de logiciels appelés «agents intelligents» seront en mesure d'extraire des informations liées à des bases de données et tout dans lequel il peut se trouver. Cette normalisation pourrait presque supprimer la nécessité de bases de données pour être complet parce que les données seraient disponibles à partir de plus d'une source. Dans le même temps, en comparant les informations glanées auprès de plusieurs sources pourrait fournir une évaluation de l'exactitude de ces données. Considérez ceci: en standardisant la façon dont les coordonnées atomiques sont documentés, l'APB a prouvé une aubaine inestimable pour la biologie structurale. Comment beaucoup plus utile à la bioinformatique, sous toutes ses formes, serait normalisation des bases de données elles-mêmes?