Machine Learning pour la médecine personnalisée

Machine Learning pour la médecine personnalisée

Le Machine Learning ou Apprentissage Automatique en français est de plus en plus présent en médecine afin de proposer une médecine personnalisée. Il existe de nombreux champs d’applications : détecter les cancers, prédire l’évolution d’épidémies, l’efficacité d’un traitement. Il est un outil essentiel pour appuyer le médecin dans la compréhension de mécanismes complexes, la réalisation d’études : analyse de données, statistiques.

Pour utiliser le Machine Learning, il faut des algorithmes ( des recettes à appliquer à la lettre ), des données et être formé sur les concepts de base . En médecine, bien que la plupart des données soient verrouillées par diverses institutions, le site « data.world » propose plus de 3667 ensembles de données de santé gratuits que nous allons utiliser pour vous former sur le Machine Learning.

Nous vous proposons de nombreux articles en commençant par :
– la Data dans tous ses états
– le Language R
– les Outils de de visualisation
– le Machine Learning
– le Deep Learning

A quoi sert le Machine Learning ?
Machine Learning Use-cases

La Data dans tous ses états pour le Machine Learning

Que dit la la loi sur l’exploitation de données ?

La loi impose des règles très strictes dans le domaine de la santé, même en ce qui concerne les données stockées dans des bases publiques.

  • SNIIRAM : Système National d’Information Interrégimes de l’Assurance Maladie
  • SNDS : Système National des Données de Santé)
  • PMSI : Programme de Médicalisation des Systèmes d’Information

La loi de modernisation du système de santé (2016) a assoupli quelque peu ces règles, prévoyant un accès à ces données dans des perspectives de recherche. https://www.snds.gouv.fr/SNDS/Protection-de-la-donnee

Comment préparer les données pour le Machine Learning ?

Il existe de nombreuses étapes dans la préparation de données

  • Importer les données : vous allez apprendre à importer un fichier CSV ou charger un ensemble d’images de haute qualité
  • Combiner les données : souvent il faut comprendre comment combiner deux ou plusieurs jeux de données
  • Reconstruire les données manquantes : les données peuvent être déclaratives ou tout simplement non testés sur un temps donné. Il est important de savoir trouver des solutions pour reconstruire les données
  • Normaliser les données : les données sont souvent sur des intervalles différents. Il existe de nombreuses méthodes pour normaliser ses données que nous allons vous expliquer
  • Dédupliquer : parfois, il peut exister des doublons donc il est important de les détecter et de les supprimer
  • Vérifier et Enrichir : Trouver les anomalies et ajouter des données calculées qui vont enrichir le jeu de données.
  • Exporter les données : c’est terminé, vous avez un jeu de donnée préparé. Il faut sauvegarder ses données avant de les utiliser pour le Machine Learning.

Quelle équipe faut-il mettre en place ?

  • Le Solitaire alias le data doctor : c’est un médecin qui a décidé de suivre des cours avancés en informatique. Il sait programmer au moins un langage de programmation ( comme R ou Python ) et utiliser des algorithmes de Machine Learning.
  • La MVT ( Minimum Viable Team ) ou l’équipe de 2 personnes : il s’agit d’un médecin qui comprend les enjeux et les mécanismes du Machine Learning mais qui travaille avec un développeur qui lui teste des idées.
  • La Task force : c’est un médecin ou plusieurs médecins qui travaillent avec un data scientist et un développeur. Ils vont tout superviser, préparer les données et utiliser les algorithmes de Machine Learning. Le médecin se place en Maître d’ouvrage.

Comment appliquer les 5 W sur vos données pour le Machine Learning ?

Voici quelques questions très importantes à vous poser avant d’utiliser des données pour le ML ( Machine Learning )

  • Who : D’où viennent les données ? Il faut vérifier la fiabilité des sources, contrôler le degré de précision et les comparer à d’autres données
  • What : Qu’essayez-vous de démontrer ? Quel est le lien entre les données et les patients ?
  • When : De quand datent vos données ? Attention aux jeux de données avec des données trop anciennes ou sans mise à jour récente.
  • Where : Géolocalisation des données, il est important de vérifier si les données sont bien localisés par une ville ou des coordonnées géographiques.
  • Why : Démontrer la cause à effet ? Il faut identifier des corrélations en partant des bonnes données.

Quels outils faut-il utiliser pour le Machine Learning ?

Il existe de nombreux outils pour faire du Machine Learning et préparer les données.

Nous vous conseillons d’utiliser R, un langage de programmation qui dispose du logiciel RStudio ( libre de droit ) pour manipuler les données et faire du Machine Learning. J’ai de nombreuses fois enseigné l’utilisation du logiciel à des débutants qui le prennent rapidement en main. Les prochains articles vont vous permettre de tester de nombreux exemples par vous-même.
Au départ, R était surtout utilisé dans les domaines des statistiques et des mathématiques. Aujourd’hui il est, avec Python, l’un des deux outils les plus utilisés en data science.

Conclusion

Cette article a pour vocation à vous donner envie d’utiliser le Machine Learning pour améliorer vos travaux de recherche. N’hésitez pas à laisser vos commentaires, ils nous permettront de répondre précisément, par des articles, à vos interrogations.

Un mot sur l’auteur

Vincent Terrasi est co-fondateur de DATA SEO LABS où il intervient également en tant que formateur en Data Science. Après une école d’ingénieur en informatique et 7 ans entrepreneuriat, il a également travaillé pour les groupes M6 Web et OVH Cloud. Depuis 2018, il s’est spécialisé dans les formations en présentiel et à distance.

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.