"Compartimentation chromosomique."
S. Hazout, A. de Brevern, F. Loirat,
A. Badel-Chagnon, C. André* et P. Vincens.
INSERM U155 - Equipe de Bioinformatique Moléculaire (EBM),
Université Paris 7, case 7113, 2 place Jussieu,
75251 Paris Cedex 05 FRANCE
*Département de Biomathématiques, CHU La Pitie-Salpétriere, Paris.
La compartimentation chromosomique d'un génome se situe à deux niveaux: celle que l'on peut appeler "compartimentation a grande échelle" qui consiste à définir des larges zones susceptibles d'avoir une évolution moléculaire différente (par exemple, les métaduplications intra-génomiques) ou de posséder des propriétés génomiques particulières (par exemple, les exons et les introns), et celle cite "à faible échelle", consistent à catégoriser l'ensemble des zones similaires observées dans un génome a partir d'une étude fine des duplicats.
Ces deux visions sont complémentaires, la première permet d'avoir une vision générale de l'organisation des chromosomes sous la forme d'une succession de fragments codes (par exemple, dits semblables au sens de leur composition en di-ou tri-nucléotides) de même taille, la seconde permet de connaître les "régions de forte similitude", de préciser les transferts de matériel génétique (régions codantes ou non) intra et inter-chromosomiques, et finalement de les intégrer dans un modèle d'évolution de génome.
La compartimentation chromosomique revient donc a classer les zones le long des séquences nucléiques et à établir une représentation simplifiée de l'organisation structurale des chromosomes d'un génome. Les techniques d'apprentissage "non-supervisée", c'est a dire ne faisant pas intervenir a priori une connaissance biologique, que nous avons mises au point, vent au nombre de deux: seq-new et Hybrid Chromosome Model (HXM).
Le principe général de la méthode seq-new est de fragmenter une séquence de plusieurs kilobases (de 200 a 1400) en une suite limitée de codes (chacun des codes caractérisant une composition moyenne en di- ou tri-nucléotides des fragments de 0,5 ou 1 kb), ceci aboutissant a une représentation sous forme de codes-barres. Le principe de cette approche est similaire a celui de la méthode de classification "k-means" (Hartigan et Wong, 1979). La "phase d'interprétation" consiste à extraire des règles (motifs répétés ou éléments périodiques) des chaînes de codes symbolisant les chromosomes. Cette phase a été réalisée par la seconde méthode permettant une recherche des motifs similaires.
Le principe général de la seconde approche Hybrid Chromosome Model (HXM) est celui d'un apprentissage non-supervisé et autorégressif, similaire à celui des cartes de Kohonen (1988), cependant la représentation est unidimensionnelle. L'objectif est de compacter au mieux un ensemble de séquences nucléiques dans une séquence hybride "d'apparence probabiliste". Ainsi chaque séquence est représentée dans le même schéma, celui du chromosome hybride, et donc il est possible de trouver des similitudes "grossières" entre les chromosomes d'un même génome a travers cet hybride.
Nous avons applique ces techniques aux régions subtélomériques des 16 chromosomes de la Levure, car celles-ci présentent des régions homologues importantes, telles les régions Y' et le core X. Dans la première approche, nous avons utilisé un codage en 10 classes. Chaque classe caractérise une composition trinucléotidique donnée et est représentée par une bande. Chaque chromosome est ainsi représenté sous forme d'un code-barre, l'intensité lumineuse des bandes étant fonction du ratio en bases (C+G)/(A+T). L'organisation des chromosomes apparaît extrêmement différente. La recherche des motifs répétés (c'est a dire une succession donnée de codes observée dans différentes régions chromosomiques) a permis d'obtenir des résultats qui semblent pertinents, mais qu'il faudra par la suite valider par l'étude fine des duplications. Dans la seconde approche, l'analyse du chromosome hybride permet de mettre en évidence les grandes zones homologues des régions subtélomériques.
En conclusion, divers outils d'analyse de séquences nucléiques de grande taille qui ont été élaborés vont permettre d'obtenir une description globale des chromosomes sous forme de codes-barres, ou de larges zones de similitude. L'étude fine de la compartimentation chromosomique a debuté. Un logiciel étiqueté ASSIRC (Vincens et al., 1998) de recherche systématique des duplicats intra ou interchromosomes a été mis au point. Le projet futur est d'étudier la cohérence entre les résultats des compartimentations a grande et a faible échelles.
Références
Vincens P., Buffat L., Andre C., Chevrolat J.P., Boisvieux J.F. and Hazout S. (1998), A strategy for finding regions of similarity in complete genome sequences, Bioinformatics, 14,715-725.
Hartigan J.A and Wong M.A. (1979) A k-means clustering algorithm. , Applied Statistics, 28, 100-108.
Kohonen T. (1988), Introduction to neural computing,
Neural Networks, 1, 3-16.
Last modification : 25 October 2006
back