Prédiction de la structure 3D locale des protéines aux moyens de Blocs Protéiques par une approche Bayésienne.
Alexandre de Brevern, Catherine Etchebest et Serge Hazout
INSERM U155 - Equipe de Bioinformatique Moléculaire (EBM),
Université Paris 7, case 7113, 2 place Jussieu,
75251 Paris Cedex 05 FRANCE
La séquence protéique contient l'information nécessaire au repliement de la protéine, toutefois les différentes méthodes de simulation de ce repliement ne sont pas adéquates dès que la taille de la protéine devient trop importante ou quand la séquence ne possède pas de similitude forte avec celle d'une protéine de structure tridimensionnelle connue.
L'utilisation d'une approche locale des protéines, en les découpant en petits fragments, successifs et chevauchants, est une des méthodes nouvelles les plus intéressantes. Elle a été principalement utilisée pour caractériser et recoder des protéines intégralement ou seulement en partie (Unger et al., 1989; Schuchhardt et al.,1996;Fetrow et al., 1997). Plus récemment, elle a été utilisée pour la prédiction locale (Bystroff et Baker, 1998).
Nous avons développé une méthodologie de prédiction de la structure locale à partir de la séquence : (i) une phase d'apprentissage et de codage de la structure 3D locale par une méthode d'apprentissage non supervisée donnant un ensemble fini de Blocs Protéiques (BPs) caractéristiques; constituant un alphabet structural qui permet de recoder les structures 3D protéiques et (ii) une phase de prédiction par un approche bayésienne : les BPs sont utilisés pour la prédiction locale de la structure par une approche bayésienne basée sur les occurrences des acides amines dans une fenêtre donnée pour chaque BP.
Deux améliorations de la stratégie ont été réalisées : (i) Elimination de la phase d'apprentissage des chaînes d'acides aminés extraites des séquences protéiques qui diminuent le pouvoir prédictif des BPs à partir de la séquence. (ii) Classification des chaînes d'acides aminés associées à un BP donné en "sous-familles séquentielles" (a priori un BP peut être généré par différentes catégories de séquences).
Les résultats de cette étude sont: (i) après une étude de qualité basée a la fois sur le taux de prédiction et la précision de la reconstruction protéique pour des nombres de BPs de 10 à 34, nous avons sélectionné un nombre de 16 BPs comme meilleur compromis. Le taux de prédiction était de 34% avec un écart angulaire sur les angles est inférieur à deux degrés en moyenne. (ii) Les améliorations ont permis de passer à 40% de prédiction et à plus de 70% en conservant 3 possibilités de BPs. (iii) Une règle de décision a été mise au point et permet soit de localiser les zones de "haute prédictabilité structurale" à partir de la séquence, soit de déterminer la combinatoire locale nécessaire pour obtenir le bloc réel avec un risque d'erreur donné.
L'approche élaborée peut être utilisée comme outil de prétraitement des structures protéiques pour la recherche d'homologies structurales, et, l'amélioration des techniques d'enfilage protéique (ou "threading").
Bystroff C. & Baker D. (1998), Prediction of local structure in proteins using a library of sequence-structure motifs, J. Mol. Biol., 281, 565-77.
Fetrow J.S., Palumbo M.J. & Berg J. (1997), Patterns, structures, and amino acid frequencies in structural building blocks, a protein secondary structure classification scheme, Proteins, 27, 249-71.
Schuchhardt J., Schneider G., Reichelt J., Schomburg D. & Wrede P. (1996), Local Structure motifs of proteins backbones are classified by self-organizing neural networks, Prot. Eng., 9, 833-42.
Unger R., Harel D., Wherland S. & Sussman J.L. (1989),
A 3D building blocks approach to analyzing and predicting structure of proteins,
Proteins, 5, 355-73.
Last modification : 25 October 2006.
back
symposium website Groupe de Graphisme & Modélisation Moléculaire.