Data Santé, des exemples concrets

Data Santé, des exemples concrets

Dans ce second article, vous allez découvrir comment l’intelligence artificielle peut se mettre au service de la santé (Data Santé). N’hésitez pas à relire ou découvrir mon premier article sur l’utilisation du Machine Learning pour une médecine personnalisée.

Depuis ce début 2020, il y a eu de très nombreuses publications sur le sujet, par exemple le MIT qui vient d’annoncer que l’une de ses intelligences artificielles a pu concevoir un antibiotique surpuissant.

James Collins, l’un des concepteurs de l’IA explique “Notre approche a révélé une étonnante molécule qui est sans doute l’un des antibiotiques les plus puissants qui n’ait jamais été découvert”.

Ce modèle de Machine Learning offre une nouvelle méthode de recherche qui serait bien trop coûteuse par rapport aux approches traditionnelles. Les chercheurs ont programmé l’IA pour qu’elle scanne une base de données comportant des centaines de millions de composés chimiques. Les premiers résultats montrent que l’IA a identifié  23 antibiotiques potentiels et non toxiques pour l’homme qui se rapproche de la molécule découverte en seulement 3 jours.

Envie d’en savoir plus, c’est ici : http://news.mit.edu/2020/artificial-intelligence-identifies-new-antibiotic-0220

Pour ma part, j’ai surtout assisté à 3 conférences Dataquitaine sur Bordeaux quit traitaient de nombreux sujets dont la Data Santé :   http://www.dataquitaine.com/conference-ia-ai-datascience-ro-bordeaux-2020

Je vais surtout me concentrer pour vous expliquer les technologies utilisés qui sont de plus en plus accessibles pour les néophytes en vous détaillant ces grandes parties :
> Contexte 
> Objectifs
> Méthode 
> Résultats

Projet Data Santé : Apprentissage profond pour la segmentation du rachis lombaire à partir de scans DXA

Contexte

Dans cette première conférence, François De Guoi a d’abord expliqué les techniques d’ostéodensitométrie qui permettent de mesurer la densité de l’os. La segmentation du rachis est cruciale mais très compliquée car il y a une forte variabilité des pixels dans l’os, la tâche est longue pour les opérateurs et il peut avoir beaucoup de bruits.

Objectifs

Le chercheur a défini trois grands objectifs :

  • Valider la segmentation automatique du rachis
  • Implémenter et optimiser la méthode via du Deep Learning
  • Comparer la segmentation IA via la segmentation Expert

Méthode

Pour entraîner le modèle de Deep Learning, son équipe s’est appuyé sur des données cliniques, ils ont validé la protocole de segmentation par un expert et utilisé un réseau de neurone basé sur U-net

Résultats

L’IA donne des résultats similaires à la configuration par un expert et l’IA est surtout meilleure que la segmentation constructeur. Les temps de calcul sont seulement de 3 secondes sur un ordinateur standard, désormais il faut procéder à une validation clinique et l’objectif est d’aller plus loin en faisant de la prédiction de fractures.

data santé pour la segmentation du rachis lombaire

Projet Data Santé : La radiomique comme outil d’aide à la décision en cancérologie de Loïc Ferrer

Contexte 

La radiomique est une méthode d’étude scientifique basée sur les données dont le but était d’extraire un grand nombre de paramètres, parmi lesquels les plus intéressants statistiquement étaient sélectionnés pour ensuite en déduire une hypothèse scientifique. 

De nombreux exemples ont été donné par Loïc Ferrer

> Cancer du poumon 

Objectifs : prédire quelle est la classe du temps de progression du cancer ( early / late )

Méthode : Utilisation des arbres de décision ( Random Forest ) avec des données cliniques

> Méningiomatose

Objectifs : distinguer les différents profils d’évolution ( decrease-stable, stable, moderate increase, strog increase )

Méthode : Utilisation de la méthode latent class mixed model 

Résultats

A chaque fois, les résultats étaient correct mais j’ai beaucoup aimé les challenges à relever face à une communauté très réfractaire :

  • Reproductibilité des résultats
  • Adapter pour chaque maladie
  • Explicabilité du modèle de Machine Learning
  • Evaluation de l’incertitude
data santé pour la cancerologie

Projet Data Santé : Classification automatique du langage de données du service hospitalier des urgences de Loïck Bourdois

Objectifs

Le projet TARPON consiste à comprendre les résumés écrits par les urgentistes, la question de savoir si on peut classifier automatiquement les déclarations basé sur la nomenclature CIM-10. ( CIM : Classification Internationale des Maladies )

Méthode 

Le Data Scientist va utiliser l’état de l’art en traitement automatisé du langage pour catégoriser les textes des urgences.

Il se base notamment sur GPT-2 créé par Open-AI et des modèles créés pour l’anglais.

GPT-2 est normalement un générateur de texte très sophistiqué mais on peut détourner son utilisation en ajoutant un token à la fin de la phrase ( ici TARPON ) puis le numéro de classification qu’on attend.

Ensuite, en utilisant le générateur de texte avec ce token ( TARPON ) le générateur va sortir la segmentation 

Résultats

J’ai beaucoup aimé les comparaisons entre des classifications semi-supervisés et des classifications supervisés, de très bons résultats ont été obtenu dans les deux cas.

data santé pour classifier automatiquement les déclarations basé sur la nomenclature CIM-10

Quels outils pour faire de la Data Santé ?

Il existe deux grands outils pour faire de la Data Science

  • le langage R qui est très fonctionnel avec des modules prêts à l’emploi pour analyser ses données; le top pour les statistiques

  • le langage Python , plus complexe à maîtriser, satisfaisant pour les statistiques, mais il est plus aisé de faire des opérations non statistiques

  • Les deux langages sont très stables et bien documentés, il existe deux nombreuses formations disponibles sur Internet

> Si vous préfèrez R

Je vous conseille d’installer R-Studio, vous pouvez suivre un tutoriel ici : https://dataseolabs.com/fr/installer-r-rstudio/

Ensuite, vous pouvez  importer votre premier fichier CSV après avoir 

  1. créer un projet
  2. créer un script R
  3. cliquez sur le bouton importer 

Ensuite vous pouvez créer votre premier script et cliquez sur “Source ”pour lancer tout le script ou “Run” pour exécuter une ligne à la fois, attention dans ce cas il faut bien commencer par la première ligne.

Concernant le code à utiliser, il est expliqué et donné dans chacun des packages, il faut surtout être coaché sur la préparation de données, la configuration de l’algorithme et enfin l’exploitation des résultats.

Voici des pointeurs vers les documentations des méthodes citées précédemment:
> Random Forest

https://cran.rstudio.com/web/packages/randomForestExplainer/vignettes/randomForestExplainer.html

> Package LCMM 

https://cran.r-project.org/package=lcmm/vignettes/introduction.html

> U-Net

https://github.com/rstudio/keras/blob/master/vignettes/examples/unet.R

Pour le python, si vous me le demandez dans les commentaires, je peux donner aussi des exemples.

Dans les prochains articles, nous allons aborder les outils de visualisation pour bien comprendre ses données et ses résultats et ensuite les bases du Machine Learning pour déchiffrer et comprendre comment utiliser les algorithmes mentionnés.

Un mot sur l’auteur

Vincent Terrasi est co-fondateur de DATA SEO LABS où il intervient également en tant que formateur en Data Science. Après une école d’ingénieur en informatique et 7 ans entrepreneuriat, il a également travaillé pour les groupes M6 Web et OVH Cloud. Depuis 2018, il s’est spécialisé dans les formations en présentiel et à distance.

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

Fermer le menu