« Toute ma vie, je n’ai jamais pu me résigner au savoir parcellisé, je n’ai jamais pu isoler un objet d’études de son contexte, de ses antécédents, de son devenir ». Edgar Morin, introduction à la pensée complexe.
Le concept de pensée complexe exprime une forme de pensée acceptant les imbrications de chaque domaine de la pensée et la transdisciplinarité. Le terme de complexité est pris au sens de son étymologie « complexus » qui signifie « ce qui est tissé ensemble », dans un enchevêtrement d’entrelacements (plexus). (1)
Il est intéressant de transposer cette réflexion aux cohortes prospectives, de patients ou en population générale, outils précieux de la recherche en épidémiologie.
Depuis Framingham (2) l’utilisation de cohortes à des fins d’études sur la santé des populations a consisté à simplifier les problèmes pour mieux les comprendre. Cette tendance naturelle issue des fondements et de l’histoire des sciences a prôné une simplification pour obtenir une modélisation approximative, suivi par une complexification par étapes. Plus concrètement, les outils disponibles (informatique, modélisation, puissance de calcul, laboratoire, etc.) ne permettaient pas d’étendre le champ d’investigation mais l’apport considérable de savoirs était jugé comme suffisant.
La connaissance appelant la connaissance, il y a aujourd’hui la nécessité d’une prise en compte multifactorielle des problématiques pour pousser plus en avant la compréhension des phénomènes sous-jacents. Les cohortes seules sont impuissantes à les résoudre en terme de collecte (pas assez de données) et les modélisations classiques ne fournissent qu’une explication partielle des signaux (il faut de nouveaux algorithmes pour tenir compte de toute la complexité et des nombreuses interdépendances). Les phénomènes que l’on cherche à comprendre nécessitent tant de variables qu’il est quasiment impossible d’anticiper celles qu’il faudrait collecter. Pour ajouter à la complexité, ces variables peuvent être des données externes comme le taux de pollution atmosphérique à une adresse donnée, les doses de pesticides épandus dans une région ou encore les zoonoses affectant une zone géographique.
Depuis une décennie, une rupture technologique sans précédent se profile. Elle est provoquée par la combinaison de nombreuses avancées : données en provenance de l’internet des objets et de l’open data, ouverture des bases médico-administratives, développement de l’intelligence artificielle et puissance des algorithmes, capacités de stockage et de traitements répartis (cloud), progrès et démocratisation des biotechnologies comme le séquençage.
- Aujourd’hui, ces technologies sont en mesure de réconcilier « l’offre et la demande » : i.e complexifier les modèles pour affiner la compréhension de la nature profonde des phénomènes étudiés en assemblant et intégrant :
les données de plusieurs cohortes tout en maintenant la rigueur scientifique des études ;
des données environnementales et animales ; - des données « -omiques » (génétique, épigénétique, protéomique, lipidomique, microbiote…)à partir d’auto-prélèvements ;
- l’utilisation des réseaux sociaux pour ce qu’ils disent de la vie des individus mais aussi comme des variables utiles de modèles de liens entre ces derniers ;
- le traitement du langage naturel pour récupérer des informations non prévues à des fins d’études dans des documents non ou semi-structurés (comptes rendus médicaux, données des réseaux sociaux, etc.) ;
- l’utilisation d’objets connectés et des technologies mobiles pour créer de vaste cohortes en population où il sera possible d’étudier simultanément de nombreux paramètres vitaux en temps réel ;
- des modèles issus de l’intelligence artificielle et/ou des prétraitements (« feature engineering »), ainsi que des outils performants de « data visualisation » suffisamment puissants pour représenter les mécanismes complexes sous-jacents ;
- etc.
A en croire le nombre d’appels à projets de recherche européens centrés sur cette démarche collaborative entre plusieurs cohortes et de l’ajout de données « en vie réelle », nos institutions ne s’y sont pas trompées.
Alors est-ce finalement cela le « big data » en santé ? peut-être …
Dans les faits, combiner les technologies citées précédemment implique de travailler sur de nombreux aspects autres que techniques mais tout aussi complexes. Nous parlons ici des questions éthiques et légales, des contraintes financières, de la conduite du changement et de l’adoption des nouvelles méthodes sans perdre de vue la rigueur scientifique, la reproductibilité et la transférabilité des résultats épidémiologiques ou cliniques.
Ces nouvelles pratiques bouleversent l’ordre établi, mais pour revenir à Edgar Morin, ce n’est pas parce que la complétude est impossible actuellement qu’il faut renoncer à la complexité.
1. « Edgar Morin, La stratégie de reliance pour l’intelligence de la complexité, in Revue Internationale de Systémique, vol 9, N° 2, 1995 »
2. Elle est réalisée depuis 1948 dans la ville de Framingham, Massachusetts, aux États-Unis, choisie pour sa représentativité de la population globale américaine et la proximité universitaire (Harvard Medical School, l’une des institutions initiatrices du projet) afin d’étudier les facteurs de risque de maladies cardiovasculaires. https://www.framinghamheartstudy.org/