Blog

Qu’est-ce que FlyBase ?

J’inaugure ici ce qui sera (peut-être) une série de notes sur mon nouveau travail. Après une quinzaine d’années passées à travailler à la paillasse comme chercheur en biologie moléculaire et cellulaire, je suis aujourd’hui conservateur scientifique (biocurator) et ontologiste pour le site FlyBase. En quoi consiste ce travail ?

Dans cette première note, je vais commencer par présenter FlyBase.

FlyBase est une MOD

FlyBase est ce qu’on appelle une MOD, une Model Organism Database. De nos jours en biologie, il y a plusieurs bases de données qu’on peut qualifier, entre autres choses, de « génériques », en ce qu’elles contiennent des données pour n’importe quelle espèce. Pour n’en citer que quelques-unes et parmi les plus connues : GenBank pour les séquences nucléotidiques, UniProt pour les protéines (et PDB, Protein Data Bank, pour leurs structures 3D), PubMed pour les références bibliographiques…

Une Model Organism Database, de son côté, est une base de données qui réunit (ou vise à réunir) toutes les données scientifiques relatives à un organisme modèle donné. La plupart des organismes modèles couramment utilisés en biologie ont leur propre MOD :

FlyBase est donc la MOD des mouches. De toutes les mouches du genre Drosophila, en théorie… mais en pratique, elle est surtout consacrée à Drosophila melanogaster, puisque c’est de loin la principale espèce de Drosophile utilisée dans les labos de recherche. FlyBase est l’une des plus anciennes MOD, créée en 1992.

Derrière FlyBase

FlyBase est développée, maintenue et alimentée par quatres équipes : trois aux États-Unis (au sein des universités de Harvard, de New Mexico, et de l’Indiana), et une au Royaume-Uni au sein de l’université de Cambridge, dont je fais partie.

Ces équipes sont constituées de développeurs, pour écrire le code qui fait tourner le site web ainsi que les différents outils associés, d’administrateurs système, pour gérer les différentes machines et services (serveurs web, serveurs de fichier, serveurs de base de données, etc.), et des « conservateurs scientifiques » (en anglais curator ou biocurator), pour alimenter la base de données.

Que trouve-t-on sur FlyBase ?

FlyBase se décrit officiellement comme A Database of Drosophila Genes & Genomes. Bien que FlyBase ne soit en réalité pas limitée à traiter de « gènes et [de] génomes », cette description rend bien compte du fait que les gènes de Drosophila melanogaster ont une place de choix dans FlyBase, et qu’une grosse partie des données leurs sont consacrées.

Pour chaque gène, FlyBase essaie ainsi de fournir (liste non-exhaustive):

Dans une (possible) prochaine note, j’essayerai (peut-être) d’expliquer comment ces données sont représentées sous une forme « informatiquement exploitable », et comment elles arrivent jusque dans FlyBase.