La Pharmacogénomique

Dossier

Les comparaisons ne manquent pas pour illustrer l’ampleur du défi. Le déchiffrage du génome n’est que le premier kilomètre d’un marathon, disent certains. Pour d’autres, la carte du génome est comme un annuaire téléphonique plein de noms et d’adresses de gens dont on ne sait pas ce qu’ils font dans la vie et comment ils interagissent entre eux. Ou encore, le génome n’est que le casting du drame moléculaire qui constitue la biologie humaine, et il ne reste plus qu’à trouver le scénario !

Autrement dit, les choses « sérieuses » ne font que commencer. Les grands laboratoires pharmaceutiques l’ont bien compris et se sont presque tous dotés d’un secteur génomique. SmithKline Beecham a lancé le mouvement en 1993 en signant un accord de 125 millions de dollars avec Human Genome Sciences, une société spécialisée dans l’identification de gènes impliqués dans les maladies. D’autres ont suivi, en signant, elles aussi des accords et/ou en créant des structures de recherche propres : Glaxo Wellcome, Roche, Aventis, Merck, Johnson & Johnson, etc. Novartis, par exemple, a investi 250 millions de dollars dans un Genomics Institute of the Novartis Foundation, en Californie.

La génomique est désormais la « nouvelle frontière » de la recherche pharmaceutique. Les grands laboratoires y voient la source des nouvelles molécules de demain. En effet, selon Andersen Consulting, pour maintenir une croissance de 10 % par an, un gros laboratoire devra lancer chaque année au moins cinq nouveaux produits significatifs, c’est-à-dire dotés d’un potentiel de vente de 350 millions de dollars par an. Et, les laboratoires interrogés par le même consultant prévoyaient en 1998, qu’en 2000, 60 % des cibles thérapeutiques seraient issues de la génomique.

Le passage du génome à de nouvelles molécules médicamenteuses suscite une floraison de technologies. Technologies pour repérer les gènes dans le génome et identifier ceux impliqués dans les maladies, puis étudier leur expression dans la cellule, identifier les protéines pour lesquelles ils codent, et leurs interactions, établir la structure de ces protéines, trouver les molécules susceptibles d’agir sur elles, etc. Aucun laboratoire pharmaceutique, fût-il le plus gros, ne peut espérer les développer toutes à lui seul. D’autant que, parmi ces technologies, certaines risquent de se révéler des culs-de-sac ! « Nous sommes avant tout des intégrateurs de technologies, mais nous n’avons pas vocation à les développer », déclare par exemple François Meyer, directeur général recherche-développement France d’Aventis Pharma. Le groupe a organisé sa génomique autour de trois centres : en France, aux États-Unis et en Allemagne, qui ont pour mission « d’implanter et d’appliquer toutes les technologies nécessaires à la découverte de nouvelles cibles thérapeutiques ». D’autre part, il a de nombreuses collaborations extérieures.

L’heure est donc plus que jamais à la coopération. On estime que les gros laboratoires pharmaceutiques externalisent déjà 20 % de leur budget à la découverte de nouvelles molécules. Et, selon la dernière étude d’Ernst & Young sur les biotechnologies européennes, la majorité des accords passés en 1999 entre les sociétés spécialisées et les laboratoires concernait des sociétés « boîte à outils ».

Et ces dernières années ont vu une montée en puissance de la génomique dans ces accords. Les plus optimistes prévoient que les premiers médicaments issus de la génomique arriveront sur le marché dans quatre à cinq ans. La génomique devrait fournir des cibles plus pertinentes, avec de meilleures chances de succès et permettre d’éliminer beaucoup plus rapidement les candidats-médicaments présentant des problèmes de toxicité.

Identifier les gènes responsables des maladies

Ce que l’on attend pour très bientôt, c’est en fait un « brouillon », qui, après remise en ordre, permettra d’obtenir la séquence de 90 % de notre génome. Les machines actuelles (comme le dernier modèle 3700 de PE Biosystems), sont capables de séquencer plusieurs centaines de milliers de bases par jour, mais, comme elles ne peuvent travailler que sur des fragments d’ADN relativement courts, elles fournissent des séquences qui se chevauchent partiellement. Il faut donc les ordonner afin d’éliminer les répétitions et construire un enchaînement continu. De plus, certaines parties du génome sont plus difficiles à séquencer que d’autres, et l’obtention d’un génome à 100 % sera coûteuse. Réordonnancer les séquences, qui continuent d’arriver dans les bases de données au rythme de 15 millions de bases supplémentaires par jour, et combler les trous devrait prendre deux à trois ans, estiment les spécialistes. Le Human Genome Project, consortium public international, qui procède à une analyse systématique des 23 chromosomes, avance dans son travail. Aujourd’hui, la séquence complète des deux plus petits chromosomes (21 et 22), est entièrement terminée et publiée.

Combien y-a-t-il exactement de gènes dans nos chromosomes ? 30 000, 100 000, 120 000 ? Les enchères sont ouvertes. Mais, quel que soit le résultat final, une chose est bien sûre : identifier tous ces gènes et comprendre leur fonction sera un travail de longue haleine. Le Centre national de séquençage d’Évry, dirigé par Jean Weissenbach, donne une fourchette de 28 000 à 34 000 gènes, un chiffre très inférieur aux prévisions précédentes.

Le résultat du séquençage se présentera sous forme d’énormes fichiers informatiques renfermant d’interminables suites de bases A, T, G et C. Le génome en compte 3 milliards ! La phase suivante, qui a déjà commencé, consiste à identifier le long de ces séquences celles qui codent des protéines (les gènes). Difficulté : chez l’homme et les mammifères, les gènes représentent que 3 à 5 % du génome, et, pour compliquer les choses, ils sont rarement d’un seul tenant, mais entrecoupés de séquences non codantes.

Les séquences sont stockées dans des bases de données publiques, comme la GenBank aux États-Unis, ou privées, comme celle de Celera, la société de Craig Venter. Leur dépouillement est typiquement un travail pour ordinateur.

Les bio-informaticiens ont mis au point des logiciels autour de divers algorithmes établis sur des propriétés particulières des séquences codantes, pour repérer les gènes. Mais aucun n’est vraiment satisfaisant : on a constaté par exemple que, en comparant les gènes identifiés par des méthodes biologiques sur des organismes simples (des vers, par exemple) à ceux prédits par le calcul, les pourcentages d’erreurs atteignent 50 % ! Aussi faut-il recouper les résultats de plusieurs méthodes différentes.

Poissons et souris à la rescousse

Une des stratégies est donc de comparer le génome humain avec celui d’autres organismes. Dans cette optique, Celera a entrepris de déchiffrer celui de la souris.

En France, le Génoscope (Centre national de séquençage) a choisi un petit poisson qui, en tant que vertébré, possède un jeu de gènes proche du nôtre, mais condensé sur 385 millions de paires de base. De plus, les parties non codantes se sont différenciées de celles de l’homme au cours de l’évolution. Il « suffit » alors de comparer les deux génomes pour repérer les gènes. Il a quand même fallu un an et demi d’efforts, en collaboration avec la start-up française Gene-IT, pour mettre au point l’outil informatique capable de faire ce travail qui a permis de conclure que l’homme possède effectivement 28 000 à 34 000 gènes, soit à peine deux fois plus qu’une mouche !

Pour la recherche pharmaceutique, il s’agit de trouver parmi ces gènes ceux qui sont impliqués dans les maladies. On sait en effet que de nombreuses maladies ont une composante génétique qui fait que certains individus sont plus susceptibles de les contracter que d’autres.

La pharmacogénomique

On a déjà trouvé un terme pour désigner l’utilisation de ces connaissances dans la recherche de médicaments : la pharmacogénomique. En associant la génomique à la mise au point de nouvelles molécules, elle permettra d’obtenir des médicaments « mieux ciblés, plus efficaces, avec moins d’effets secondaires, et moins chers », explique Günther Heinrich, P-DG d’Epidauros Technologies, une société de biotechnologies allemande. Les principes actifs seront conçus pour traiter une maladie donnée, mais, surtout, pour s’adresser à un malade donné. Selon son profil génétique et ses susceptibilités à développer des effets secondaires ou des résistances.

Une méthode très en faveur à l’heure actuelle utilise les SNP (pour Single Nucléotide Polymorphism), aussi appelés « snips ». Les SNP sont des variations génétiques individuelles ne touchant qu’une seule base. Certains d’entre eux n’affectent pas du tout le fonctionnement des gènes, mais « il existe dans des régions régulatrices des gènes, des SNP hautement néfastes qui affectent la quantité de protéines que ceux-ci codent », explique Dorothée Foernzler, de la société Roche.

Si les SNP intéressent tant les « chasseurs de gènes », c’est qu’ils sont très nombreux (3 millions, estime-t-on), facilement détectables, bien répartis dans le génome, et qu’ils se prêtent bien à l’analyse informatique. Ainsi, en comparant les génomes de sujets sains avec ceux de sujets malades, il est possible de déterminer quels SNP sont le plus souvent associés à une maladie donnée et de repérer du même coup les gènes impliqués dans cette maladie. D’une manière générale, tous les laboratoires pharmaceutiques s’intéressent vivement à la pharmacogénomique, qui devrait permettre un jour de prescrire les médicaments en fonction du génotype du malade et d’éviter la mauvaise surprise d’avoir à retirer un médicament du marché à cause d’effets secondaires découverts tardivement.

Des stratégies différentes

Les SNP sont devenus un véritable enjeu. Ainsi, La société française de biotechnologie Genset et le groupe pharmaceutique français Sanofi Synthélabo ont signé, en avril, un nouveau contrat de recherche en pharmacogénomique. « Nous facturons un service et, si Sanofi utilise nos données et améliore ses molécules candidates pour soigner une maladie du système nerveux central, elle nous versera des royalties, explique François Thomas, vice-président de Genset et responsable du département de pharmacogénomique. En revanche, la stratégie scientifique est différente de nos autres contrats de pharmacogénomique, avec Pharmacia & Upjohn ou Abbott par exemple. » Au lieu de rechercher, chez des malades, les gènes de prédisposition à l’efficacité ou à la toxicité d’un médicament, Genset va étudier en quoi les récepteurs, cibles des molécules thérapeutiques, diffèrent d’un individu à l’autre. Ces données permettront à la société pharmaceutique de sélectionner les bonnes molécules et ainsi d’optimiser son portefeuille. Aux États-Unis, de nombreuses sociétés de biotechnologies se sont lancées sur cette piste. Ainsi, Human Genome Science (voir schéma page précédente) a bâti un mélange de bioinformatique, de gestion de propriété intellectuelle, de recherche fondamentale et de développement thérapeutique. L’entreprise s’apprête à lancer les essais cliniques d’au moins un médicament « post génomique ».

Millennium Pharmaceuticals (Massachusetts), a déjà six candidats thérapeutiques « post génome ». Hyseq a développé sa propre technologie de puces à ADN, le HyChip, et travaille avec un petit portefeuille de gènes rares. Cette société californienne a déjà fourni, à l’américain Chiron, trente et un candidats de traitements potentiels en oncologie.

Sur la piste de la post génomique, la bioinformatique se développe. Son objectif n’est pas tant de rechercher directement de nouvelles cibles pour les médicaments du futur que de donner à l’industrie pharmaceutique et à ses partenaires le maximum d’informations, sous la forme d’énormes bases de données. Incyte Pharmaceuticals (rebaptisé Incyte Genomics) est l’un des pionniers de cette approche. Son portefeuille inclut des bases de données de séquences (LifeSeq), d’expression (LifeExpress), ou microbiennes (PathoSeq).

Mais des challengers sont déjà là. Le plus connu est évidemment Celera Genomics, mais il est un peu tôt pour dire si son avance supposée dans le séquençage brut du génome constitue un réel avantage. Reste que Celera a récemment lancé sur le Web, ses premiers outils commerciaux de bio-informatique, le « Discovery System », et des services d’analyse pour simplifier le développement pharmaceutique. Autre candidat aux dents longues : Gene Logic. GeneExpress 2000 est décrite comme la plus grande base de données d’expression génétique dans les tissus humains et animaux. Elle s’appuie sur seize centres de collecte de tissus, recueillis dans des conditions contrôlées, et analysés avec des batteries de puces à ADN, GeneChips, d’Affymetrix. Pour mettre tous les atouts de son côté, Gene Logic a même absorbé OncorMed, expert dans l’utilisation pratique des puces à ADN. Aujourd’hui, Gene Logic fait croître sa base de données au rythme de 400 séquences génétiques par mois (800 à la fin de l’année) et a deux « chaînes de production » (plus une troisième en construction) pour les analyser. Mais tout ceci n’est qu’un début.

« On est loin d’avoir encore tous les outils, particulièrement en bio-informatique. Les disciplines continuent à se ramifier. En particulier, il faut s’attendre à voir émerger plusieurs branches de la pharmacogénomique », juge Rachel Leheny, analyste en biotechnologies chez Warburg Dillon Read.

Craignant un monopole, une dizaine de laboratoires pharmaceutiques (Roche, BMS, Novartis, Aventis ...) et le Wellcome Trust, rejoints récemment par IBM et Motorola, ont fondé en 1999 un consortium, doté d’un budget de 45 millions de dollars sur deux ans, avec pour mission de rechercher et de mettre à la disposition de tous les chercheurs 300 000 SNP. À ce jour, plus de 100 000 ont déjà été publiés. D’autres institutions travaillent dans le même sens, comme, en France, le Centre national de génotypage, ou, au Royaume-Uni, le Medical Research Council.

Des outils à trouver pour augmenter la productivité

William Haseltine (Human Genome Science), pense que l’après génome a besoin de meilleurs outils d’analyse de l’expression des gènes, en particulier in situ : « Nous avons besoin de trouver de nouvelles façons d’évaluer la réponse physiologique des cellules, des tissus et des organes dans le corps lui-même. Cela devrait conduire à une nouvelle gamme d’applications dérivées des sciences physiques. » Pour lui, il ne s’agit pas seulement de développer de nouveaux produits mais d’inventer « l’équivalent d’une nouvelle anatomie, à l’échelle de la cellule et du génome ». Les défis de l’après-génome pour les laboratoires pharmaceutiques seront de maîtriser les nouveaux outils de la génomique et les intégrer dans leur plate-forme technologique, en équilibrant au mieux compétences externes et internes, afin d’identifier les cibles thérapeutiques les plus pertinentes parmi une pléthore de candidates.

La recherche de nouveaux SNP ou leur détection ont suscité le développement de technologies spécifiques. Le défi est maintenant d’augmenter la productivité de ces méthodes pour fournir les millions de données réclamées par les calculs statistiques. Et à un moindre coût. Le coût d’un génotype est actuellement de 1 à 2,5 dollars pièce. Il devrait baisser jusqu’à 10 cents, estime-t-on chez le suisse Roche.

Ainsi, une société spécialisée comme Genset est capable, à l’heure actuelle, de faire chaque jour plusieurs dizaines de milliers de génotypages (détermination du polymorphisme d’un individu) par les méthodes classiques. Elle porterait cette capacité à plusieurs centaines de milliers en faisant appel à la microfluidique, une technique qui permet de réaliser des centaines d’opérations chimiques et biologiques en parallèle dans des microcircuits, ou « labopuce », tenant sur quelques centimètres carrés de silicium. « En biologie, nous sommes en train de passer de la lampe au transistor, en matière d’échelle, de coût et de maniabilité », explique Marc Vasseur, directeur scientifique de Genset. Avec son partenaire, le CEA, la société va consacrer 50 millions de francs sur deux ans au projet et espère sortir un premier prototype en 2001. Un autre exemple intéressant de matériel est fourni par l’américain Orchid Biocomputer qui développe un système de détection des SNP à haut débit fondé sur sa propre technologie et utilisant lui aussi la microfluidique. Le SNPstream est en quelque sorte un outil d’appoint qui permet à un système d’analyse de l’ADN de comparer directement un échantillon génétique à des mutations et à des susceptibilités diverses. PE Biosystems (Perkin Elmer) étudie également un séquenceur capillaire à haut débit adapté à l’analyse des polymorphismes.

D’autres misent sur la spectrométrie de masse, en jouant sur la différence de masse entre les quatre nucléotides (A, T, G, C) pour détecter les SNP. Ainsi, Rapigene (Seattle) propose un système, le Masscode, qui permet de détecter 40 000 SNP par jour. En France, la start-up GenOdyssée compte atteindre un débit de 30 000 par jour en janvier 2001 avec son procédé breveté qui permet l’analyse conjointe de quinze échantillons par DHPLC (Denaturing High Performance Liquid Chromatography), un procédé classique.

Autre technique en plein développement : les puces à ADN. Elles pourraient être la clé d’une autre technologie de pointe, celle des ordinateurs bio-moléculaires. Un concept encore très différent de la bioinformatique, mais qui consiste à utiliser des structures moléculaires, y compris des acides nucléiques, pour effectuer le supercalcul. La tâche est difficile, mais elle peut être accomplie avec un degré étonnant de parallélisme, impossible pour les ordinateurs conventionnels. Pour de telles machines, le résultat recherché se retrouve transcrit dans le langage des bases de l’ADN. Pour lire les résultats, surtout s’ils viennent rapidement et en parallèle, des puces à ADN seraient l’idéal, rapprochant encore un peu informatique et biotechnologies. Les puces à ADN, petits carrés de verre ou de silicium portant des fragments d’ADN contenant les SNP que l’on veut détecter, sont mises en présence d’un échantillon d’ADN d’un individu. Si ce dernier contient les SNP recherchés, ceux-ci sont « pêchés » par leurs homologues fixés sur la puce, puis visualisés par fluorescence. Gros avantage de la méthode : elle permet de détecter un très grand nombre de « snips » en une seule opération. Affymetrix, pionnier des puces à ADN, propose des produits spécialisés, ainsi qu’Incyte et d’autres sociétés. Motorola, avec son unité BioChip Systems et, fort de son expérience dans les microsystèmes, s’est lancé sur ce créneau en collaboration avec des sociétés de biotechnologie, comme Genometrix, un pionnier des biochips, et compte sortir ses premiers produits avant la fin 2000.

La bio-informatique

Les bases de données d’Incyte, comme celle de ses concurrents, ont évidemment d’autant plus de valeur qu’elles sont fournies avec des outils d’analyse puissants. Un exemple évident est celui du Data mining, un outil purement informatique développé en grande partie pour fournir un support d’aide à la décision aux grandes entreprises dans des cas complexes. Les anglais d’Oxford Molecular Group, par exemple, vendent, entre autres, le logiciel SeqStore, un produit qui tourne avec la grande base de données Oracle et permet aussi bien la gestion des données que leur analyse. À court terme, on peut s’attendre à une multiplication de tels produits...

Au-dessus de ces logiciels d’analyse, on trouve des solutions plus complexes, allant jusqu’à l’accès à de grandes bases de données externes. Ces solutions intégrées visent typiquement l’ensemble d’une entreprise et peuvent tourner sur un Intranet. C’est dans cette optique que Pharmacia & Upjohn s’est entendu avec l’allemand Lion Bioscience. Lion va fournir sa plate-forme bio-informatique intégrée, bioScout, et l’adapter aux systèmes bio-informatiques de Pharmacia & Upjohn.

Une telle solution intégrée est plus lourde, mais permet d’offrir plus de services dans un cadre coopératif, ce dont une grande entreprise a besoin. Et, puisque ce genre de solution peut être installé dans le cadre d’un Intranet, pourquoi ne pas franchir la dernière étape et passer à l’échelle planétaire ? C’est le maître plan de Pangea : amener la bio-informatique sur le Web. À ce jeu, l’entreprise a été battue d’une longueur par eBioinformatics, le premier « portail » de la bio-informatique. Avec son BioNavigator, chercheurs et ingénieurs peuvent avoir accès à la fois à l’information génétique de grandes banques de données, comme GenBank, et à des outils d’analyse pointus. Un autre site, le GeneSolutions de Hyseq, adopte une approche plus modeste qui permet aux chercheurs d’accéder à de l’information génétique de base, avec de petits prix pour de petites séquences au lieu d’avoir à acheter d’immenses groupes de données.

Pangea, lui, prépare le lancement d’un site plus ambitieux, Double Twist. Pangea combine un investissement considérable en serveurs et architecture réseaux avec ses propres outils logiciels pour offrir aux chercheurs une interface où ils n’ont pas à se préoccuper de bricolage informatique.

Mais le projet va plus loin. L’utilisateur occasionnel de Double Twist pourra faire sa recherche gratuitement, mais, s’il a besoin des outils logiciels les plus sophistiqués, il entre dans un système payant. D’autre part, la capacité de calcul permet de rapprocher des informations essentielles. Pour l’heure, la bioinformatique est un eldorado. La quantité d’informations à corréler est telle que le marché est ouvert à tous. Mais attention à l’avenir, toutefois ! L’étude de marché de Front Line avertissait que la croissance phénoménale allait se calmer après 2005.

Les outils du changement

L’accélération de la recherche de médicaments est évidemment l’objectif principal de la bio-informatique. Mais le but doit être atteint avec une combinaison d’outils assez différents. On est loin des logiciels pionniers, comme l’algorithme de recherche Blast. Un produit comme le GeneWorld de Pangea Systems, l’un des outils qui travaillent en coulisse du site Double Twist, est avant tout un logiciel d’analyse et d’annotation de séquences. D’autres logiciels sont dédiés plus exclusivement à la simulation. Ils sont eux aussi des adaptations de concepts de logiciels connus aux besoins précis du secteur. Les anglais de Molecular Simulations, par exemple, disposent de tout un arsenal de logiciels et de modules associés - certes non spécifiques aux biotechnologies! - permettant un travail de dégrossissage. Il est par exemple possible, désormais, de prédire une structure tridimensionnelle à partir d’une séquence de protéine, ce qui améliore très sensiblement la possibilité de prédire les fonctionnalités associées. Et, avec l’arrivée de la bio-informatique sur le Web, il va falloir développer une nouvelle catégorie d’outils logiciels ou d’architectures de matériel. Un problème d’informatique pur et dur que les progrès de la génomique rendent capital, aujourd’hui. Pour mieux comprendre l’interaction d’une protéine cible avec un médicament, les chercheurs ont besoin de connaître sa structure tridimensionnelle, c’est-à-dire la façon dont la chaîne d’acides aminés qui la composent se replie sur elle-même. Les techniques classiques (diffraction X, RMN) sont longues et coûteuses. C’est pourquoi, fin 1999, IBM a annoncé son intention de consacrer 100 millions de dollars à la conception d’un super-ordinateur (un petaflop), baptisé « Blue Gène », capable de calculer la structure 3D d’une protéine à partir de sa séquence d’acides aminés et des structures déjà connues et stockées dans les bases de données.

Trouver les cibles thérapeutiques et identifier les circuits métaboliques

Il ne se passe pas de mois sans qu’une équipe de scientifiques annonce avoir localisé ou identifié un gène impliqué dans telle ou telle maladie. Pourtant, les nouveaux médicaments tant espérés se font toujours attendre. On connaît par exemple les gènes majeurs impliqués dans le cancer du sein depuis plus de six ans, mais aucun médicament n’a encore été annoncé.

Rien de vraiment étonnant : le gène en luimême n’est d’aucune utilité pour le chercheur en pharmacie, dont le but est de trouver des « cibles thérapeutiques », en général des protéines avec une fonction connue, sur lesquelles il pourra faire agir des molécules candidat-médicament. En effet, « le génome ne donne que 10 % de l’information nécessaire pour comprendre ce qui se passe dans la machinerie cellulaire », explique François Iris, directeur scientifique de Valigen, une société de génomique française. Pour passer du gène à la cible, le chercheur doit démêler l’écheveau complexe d’interactions biologiques en utilisant les outils d’une nouvelle discipline, la génomique « fonctionnelle ».

C’est aujourd’hui le goulet d’étranglement de la recherche en pharmacie, estiment les spécialistes. Mais, aussi, une occasion unique, pour les laboratoires de « mettre la main » sur des cibles exclusives. Jusqu’ici, en effet, les chercheurs ont travaillé sur environ 500 cibles dont 45 % sont des récepteurs membranaires et 30 % des enzymes. Or, selon Jürgen Drews, un consultant qui a dirigé la recherche de Hoffmann-La Roche pendant douze ans, la génomique fonctionnelle a le potentiel de multiplier le nombre de cibles d’au moins un facteur dix !

Au fur et à mesure que tous les laboratoires vont avoir accès aux même informations sur les gènes, c’est l’habileté et la rapidité à les exploiter afin de trouver des cibles pertinentes pour telle ou telle maladie qui va faire la différence. L’enjeu est tel qu’une firme comme Bayer, réalisant son retard dans le domaine, n’a pas hésité, en 1997, à signer un contrat de 465 millions de dollars avec la société américaine Millennium pour la « livraison » de 225 cibles sur cinq ans.

Le mot-clé de la génomique fonctionnelle est « biological pathway », que l’on peut traduire par circuit métabolique et physiologique. C’est le chemin qui relie les gènes à leurs fonctions biologiques. Un chemin qui a tout du labyrinthe ! On sait en effet que la plupart des gènes codent pour plusieurs protéines ; ces protéines sont ensuite modifiées de diverses façons, et ces modifications ne sont pas indiquées par le message génétique ; enfin, elles peuvent réagir entre elles et avec celles codées par d’autres gènes dans des cascades de réactions ! Et toutes ces protéines sont des cibles potentielles parmi lesquelles il faut choisir les plus pertinentes. Trouver le fil d’Ariane qui permettra de s’orienter dans ce labyrinthe exige de mettre en oeuvre plusieurs moyens différents. « On cherche à rassembler un faisceau d’évidences », explique Hervé Costes, chercheur chez Glaxo Wellcome. Partant du gène identifié, le biologiste commence le plus souvent par interroger les bases de données : existe-t-il déjà des gènes présentant des similitudes dans leur séquence et dont on connaît la fonction ? Ainsi, le programme de recherche Blast de la GenBank, aux États-Unis, le plus largement utilisé, reçoit plus de 50 000 interrogations par jour. Cela suppose que les bases de données soient « annotées », c’est-à-dire qu’elles contiennent des informations sur les fonctions des gènes.

Mais le problème de la représentation informatique et formalisée de ces annotations et de leur exploitation en automatique est encore loin d’être résolu. De plus, elles ne sont pas toutes fiables. Avec l’accumulation de connaissances nouvelles, « on va bientôt s’apercevoir qu’un bon tiers des annotations actuellement dans les bases de données sont fausses ! » n’hésite pas à dire François Iris (Valigen).

Autre approche très utilisée : on recherche dans quels tissus ou organes s’exprime le gène, ce qui donne une idée de ses fonctions possibles. Pour cela, on teste la présence d’ARN messagers dans différents tissus. On peut aussi, par la même méthode, comparer les niveaux d’expression des gènes dans des tissus sains et des tissus malades. Si un gène est sur- ou sous-exprimé dans un tissu malade, on peut penser que les protéines qu’il code jouent un rôle dans la maladie.

Technique en pointe dans ce domaine : la puce et le « micro array » à ADN. Permettant de détecter la présence de milliers d’ARN à la fois, ils représentent un outil inappréciable pour tous les chercheurs si l’on considère qu’une maladie est presque toujours dépendante de plusieurs gènes. On trouve aujourd’hui sur le marché des puces à ADN, commercialisées par Affymetrix et spécialisées par tissus, par pathologies, etc. Les informations sur les niveaux d’expression nourrissent, elles aussi des bases de données. Incyte a été l’un des premiers à se lancer dans cette activité avec sa base LifeExpress. D’autres ont suivi, comme Gene Logic, qui alimente sa base GeneExpress à partir de collecte de tissus qui sont analysés au moyen de puces à ADN.

La comparaison avec le génome d’autres organismes peut fournir, elle aussi, des indices sur la fonction des gènes humains. Parmi les « cobayes » les plus utilisés : la levure, la drosophile, la souris et le petit ver C. Elegans très prisé (il ne comporte que 959 cellules, dont on connaît bien les fonctions ; son génome est connu et facile à manipuler, et son cycle de vie est de trois à quatre jours seulement). Par manipulation du génome de ces organismes, il est possible de déterminer la fonction d’un gène en observant les modifications sur leur développement ou leur métabolisme, de la « neutralisation » de ce gène (on parle alors d’animaux « knock-out ») ou au contraire de sa « surexpression ».

Mais il n’y pas toujours une forte corrélation entre les niveaux d’expression de différents gènes et l’abondance relative des protéines qu’ils codent. Cette constatation est à l’origine du développement rapide, depuis quelques années, d’une nouvelle discipline : la protéomique. Le protéome est en quelque sorte une photographie instantanée de toutes les protéines qui sont exprimées à un moment donné dans une cellule. Une tâche énorme : une cellule humaine contient 10 000 protéines en moyenne, dont les concentrations vont de 100 à 10 millions de copies !

Pour simplifier les choses, le chercheur procède le plus souvent en comparant le protéome d’une cellule malade avec celui d’une cellule saine, ce qui permet d’identifier rapidement les protéines intéressantes. Le décryptage du protéome repose sur deux techniques principales : l’électrophorèse bidimensionnelle, qui sépare les protéines, et la spectrométrie de masse, qui permet de les identifier à des concentrations infimes. Le processus est déjà fortement automatisé. Ainsi, un laboratoire comme celui de Roche, à Bâle, est capable d’identifier plusieurs milliers de protéines par jour et dispose aujourd’hui d’une base de données de 100 000 protéines humaines.

Mais cela n’est rien en regard des projets de Craig Venter, qui, après son succès avec le génome, veut récidiver avec le protéome. Celera construit une installation capable de séquencer 1 million de protéines par jour ! D’autre part, la société étudie une puce à protéine qui, à l’instar de la puce à ADN, pourrait identifier plusieurs milliers de protéines à la fois. Ciphergen, une société américaine, étudie, elle aussi une puce du même type.

Déchiffrer les interactions entre protéines

D’autres sociétés se sont spécialisées dans l’étude des interactions entre protéines. C’est le cas de Myriad Genetics et de Curagen aux États-Unis, d’Hybrigenics en France, de Genome Pharmaceuticals en Allemagne. La connaissance de ces interactions est indispensable pour reconstituer les voies métaboliques d’une cellule. La technologie la plus utilisée pour déterminer si deux protéines réagissent entre elles est la méthode dite du « double hybride ». La construction d’une « carte d’interactions protéiques » exige de multiples essais où l’on teste les protéines deux à deux. Chez Myriad Genetics, par exemple, quatorze robots sont dévolus à cette tâche. La société a le projet de déterminer 1 million d’interactions entre protéines humaines qui seront ensuite « réarrangées » dans une carte avec l’aide de l’ordinateur.

L’intégration de toutes les données collectées sur les fonctions des gènes et leurs différents niveaux d’expression, sur le protéome et les interactions entre protéines, etc., permet de construire le « biological pathway ». Le processus fait largement appel à l’informatique, qui fournit l’accès aux banques de données et aux logiciels pour les exploiter. La société Valigen développe un outil intégré, appelé Pathway tracking, en collaboration avec la société allemande Lion Bioscience (Heidelberg), dans le cadre d’un projet Eurêka. Elle en a testé le concept sur le cancer du sein : partant de séquences de gènes identifiées par expression différentielle, elle a repéré « deux points d’intervention » sur le circuit métabolique qui, selon elle, pourraient se prêter à l’action simultanée de médicaments spécifiques.

Tout connaître de la fonction d’un gène apparaît comme la démarche la plus logique pour identifier les cibles les plus intéressantes. Mais le processus est long. Certains préfèrent prendre des raccourcis. C’est le cas d’Aventis Pharma. Tout d’abord, le groupe a choisi de travailler sur des familles de gènes. « Cela permet d’optimiser les moyens, par exemple au niveau de la fabrication des puces à ADN, et de regrouper le savoir au niveau de la chimie », explique François Meyer. Aventis Pharma s’intéresse ainsi à la famille des GPCR, des récepteurs impliqués dans de nombreuses maladies.

Après avoir sélectionné une trentaine de gènes par des méthodes classiques (data mining dans les bases de données, expression différentielle dans des tissus, etc.), les chercheurs n’ont pas tenté de déterminer leur fonction. Ils les ont fait s’exprimer dans des cellules qui ont servi de cibles pour le criblage à haut débit par des chimiothèques « focalisées », c’est-àdire construites autour de structures chimiques connues pour agir sur les récepteurs en question. Entre autres, six cibles, concernant l’obésité, ont été isolées, et les premiers « hits », molécules ayant une action sur ces cibles, identifiées.

Dossier |