Version en date du mercredi 30 novembre 2016

Déroulement idéal

Le déroulement idéal d’un travail de thèse (et de tout travail de recherche) est le suivant :

  1. Trouver un directeur de thèse
  2. Trouver un sujet
    1. Soit une idée originale, issue d’une observation empirique ou d’une intuition, qu’elle émane de l’interne ou du directeur plus expérimenté
    2. Soit généralement un travail dans la lignée de la thématique du directeur ou de son service
  3. Rédiger un court synopsis du projet : objectifs, hypothèses, type d’étude
  4. Aller voir, le plus tôt possible et en compagnie du directeur, un méthodologiste en consultation avec le synopsis
    Le CHRU dispose de deux services d’accueil qui peuvent être contactés directement ou en passant par le Guichet Unique de la DRI (Direction de la Recherche et de l’Innovation) qui orientera vers la bonne structure (rechclin-innov@chru-nancy.fr)
    • la PARC (Plateforme d’Aide à la Recherche Clinique) propose une consultation de Méthodologie, Data management et Statistiques ouverte à tous les spécialistes du CHRU quelle que soit la thématique du projet (w.munier@chru-nancy.fr)
    • le CIC-EC (Centre d’Investigations Cliniques - Évaluations Cliniques) offre un soutient restreint aux projets qui s’inscrivent dans ses thématiques de recherche (eval@chru-nancy.fr)
  5. Le méthodologiste peut aider et guider pour les étapes suivantes :
  6. Rédiger un protocole expliquant le type d’étude, les objectifs et hypothèses, le déroulement de l’étude, l’inclusion des patients, les variables recueillies, etc.
  7. Dans le cas de patients du CHRU, le protocole doit être signé par un méthodologiste et revu par la DRI
  8. D’autres demandes (CNIL, comité d’éthique, etc.) peuvent être nécessaires en fonction de la recherche prévue
  9. Déroulement de l’étude et recueil des données.
    Le méthodologiste peut fournir des outils pour recueillir les données de manière plus fiable et plus facile, ainsi que guider sur quelles données recueillir et sous quelle forme
  10. Analyse des données et interprétation des résultats.
    Des données recueillies correctement dans le cadre d’un protocole bien conçu permettent une analyse plus rapide et plus simple, et des résultats plus pertinents et plus intéressants

Le recueil de données

Généralités

Plusieurs cas de figure existent quant au recueil de données.

En cas d’étude prospective, ou rétrospective avec recueil d’information dans les dossiers médicaux, il est préférable d’utiliser un outil dédié au recueil de données, plutôt qu’un tableur (Excel, OpenOffice, etc.). Un tel outil peut vous être proposé par le méthodologiste. Il permet un recueil plus rapide, plus simple, et doté de contrôles de saisie permettant d’éviter la plupart des fautes de frappes.

À noter qu’en cas de besoin de sélection de dossiers patients selon certains critères (service d’hospitalisation, dates de séjour, diagnostics, actes chirurgicaux, âge, sexe, etc.), le DIM (Département d’Information Médicale) peut vous aider à identifier les dossiers pertinents. La demande se fait par email au secrétariat du DIM (secretariat-dim@chru-nancy.fr). Un formulaire de demande vous sera transmis, qu’il faudra faire signer par le(s) chef(s) de service(s) concernés pour autoriser l’accès aux données.

Dans le cas d’une étude rétrospective pour laquelle les données ont déjà été collectées dans une base de données, ou qu’il est trop tard et que le recueil est déjà effectué, plusieurs règles de bonne pratique sont à respecter pour présenter les données de manière exploitable.
Très souvent, la majorité du temps d’analyse est passée à nettoyer les données, corriger les erreurs de saisie, et retransformer des variables improprement collectées, afin de les rendre exploitables pour l’analyse. Il ne reste alors plus beaucoup de temps pour pouvoir conduire des analyses correctes et intéressantes, sans compter l’exploration d’autres pistes éventuellement suggérées par les premières analyses.
Avoir une base de données «propre» et bien remplie permet d’arriver rapidement à l’analyse et à produire des résultats utilisables.

Règles

Voici une liste de règles à respecter lors de la constitution d’une base de données statistiques :

  • Identifier l’unité statistique. Il s’agit généralement du patient, mais peut aussi être une hospitalisation, un acte, une grossesse, etc.

  • Identifier les variables pertinentes à garder pour l’analyse et qui permettront de répondre aux questions posées par les hypothèses.
    Un grand nombre de variables est inutile, il est préférable d’avoir beaucoup de sujets avec un nombre restreint de variables pertinentes, que peu de sujets avec des dizaines de variables dont souvent beaucoup vont être absentes

  • Les données doivent tenir dans un seul tableau contenant :
    • une lignée par unité statistique (par patient)
    • une colonne par variable
    • un point de donnée unique par cellule
  • Seul le contenu écrit de chaque case doit encoder de l’information.
    Les mises en forme, styles, couleurs de remplissage ou de texte, sont ignorés. S’il y a une information complémentaire à ajouter, le faire sous la forme d’une nouvelle variable. Éviter les commentaires entre parenthèses après une valeur dans une case.

  • La première ligne (et elle seule) doit comporter le nom de chaque variable. Chaque nom de variable doit être unique, et indicatif de la donnée recueillie.
    Différents logiciels de statistique acceptent diverses formes de nom de variable, mais pour être le plus compatible possible, les noms de variables doivent rester courts, et composés uniquement de caractères alphanumériques (pas d’espaces, de symboles, de caractères spéciaux, ou d’accents. L’underscore ( _ ) est accepté). Essayer au mieux d’avoir des noms de variables cohérents entre eux.

  • La table de données peut être accompagnée d’un dictionnaire expliquant chaque variable (par exemple : poids = poids actuel en kg)

  • La première colonne doit contenir un identifiant anonyme de sujet (une liste croissante de numéros uniques).
    IL NE FAUT ABSOLUMENT AUCUNE DONNÉE NOMINATIVE OU INDIRECTEMENT NOMINATIVE (numéro de dossier, de séjour, etc.) dans la table de données.
    Il est conseillé de garder de côté dans un fichier séparé, sur un ordinateur du CHRU, une liste de correspondance n° d’anonymisation <=> identifiants du patient, qui permettra le cas échéant de retourner au dossier du patient en cas de problème avec ses données.
    On rappellera au passage qu’il est ABSOLUMENT INTERDIT de conserver des données médicales identifiantes sur un ordinateur personnel/clé USB/etc. Il s’agit d’informations sensibles (vous ne voudriez pas que votre dossier médical circule dans la nature), et il est si facile de perdre une clé USB ou se faire voler son portable…
    Dans le pire des cas, ne transporter que le fichier «anonymisé», idéalement sur un support de stockage chiffré.

  • Les variables recueillies peuvent être de différents types :
    • quantitative
      Un nombre, généralement issu d’une mesure (le poids, un dosage, l’âge, etc.). Un seul nombre doit apparaître dans chaque case, toujours exprimé dans la même unité (pas de mélange entre mg et mmol, m et cm, g et kg, etc.). L’unité ne doit pas apparaître dans la case.
      Attention au séparateur de décimales («,» en français, «.» chez les anglo-saxons), et à ne pas les mélanger par inadvertance. Les tableurs alignent les données textuelles d’un côté des cases, et les données numériques de l’autre. Si une donnée normalement numérique n’apparaît pas du bon côté, ou pas alignées avec le contenu des cases de la même colonne, il faut vérifier qu’il n’y a pas de faute de frappe («.» à la place de «,», ou une espace avant ou après le nombre)

    • qualitative
      Une catégorie (parmi plusieurs idéalement pré-déterminées, et mutuellement exclusives) à laquelle appartient le sujet (sexe, groupe de traitement, présence d’un antécédent particulier, statut vital, etc.). Une seule catégorie doit apparaître dans la case.
      Attention à l’écriture des niveaux ! Par exemple, vérifier que la case sexe ne mélange pas «H», «h», «homme» et «masculin». Tous les patients appartenant à la même catégorie doivent avoir le même code (attention notamment aux majuscules et accents). La fonction Filtre du tableur permet de détecter les différents niveaux.
      Il est possible également, pour limiter les erreurs, de coder les informations avec des nombres, en précisant le codage dans un fichier annexe (par exemple : Sexe : 1 = masculin, 2 = féminin)

    • date
      Il est toujours préférable de rentrer une date plutôt qu’une durée, puisque les durées sont faciles à calculer à partir des dates de début et de fin. Les dates s’expriment différemment, et d’une manière facile à porter à confusion, en français (jj/mm/aaaa) et en anglais (mm/jj/aaaa). Pour éviter tout problème, entre les versions d’Excel notamment, et les différents logiciels de statistiques, il est préférable de rentrer les dates sous cette forme universelle et inambiguë : aaaa-mm-dd, qui a l’avantage d’avoir un ordre de classement «alphabétique» qui est aussi chronologique. Si le jour est inconnu, renseigner le 15 pour le jour dans la date. Si le mois est inconnu, renseigner 06 à la place du mois.

    • données calculées
      Inutile de calculer les variables résultant d’un calcul (IMC, osmolalité, etc.), que ce soit avec une formule dans le tableur, ou pire, à la main ! Détailler plutôt les variables à créer et les formules pour les calculer dans le synopsis.

    • valeurs manquantes
      Dans tous les cas, une valeur manquante (ou non applicable, par exemple «date de décès» chez un patient en vie, ou encore incertaines) doit être renseignée par une case vide (ni espace, ni point d’interrogation, ni NA/NC/aucun/etc.)

  • Cas particuliers
    • analyse de survie
      Si l’étude concerne la survie (avant décès, ou récidive, ou n’importe quel évènement d’intérêt), trois variables sont nécessaires pour réaliser l’analyse :
      • la date de départ : inclusion, opération, diagnostic, etc.
      • la date de point : date de dernières nouvelles, ou la date de l’évènement pour les patients présentant l’évènement
      • présence de l’évènement : “Oui” ou “Non”, selon que l’évènement a eu lieu ou non pour ce patient
    • mesures répétées longitudinales
      L’unité statistique ici est la visite, auxquelles généralement on recueille les mêmes variables dépendantes du temps. Il est recommandé d’avoir une ligne par visite, et de renseigner à chaque fois le numéro d’anonymat du patient, la date de la visite, et les variables dépendantes du temps. Les variables constantes (sexe, date de naissance, etc.) doivent être répétées à chaque ligne pour le même patient.
      Dans la plupart des cas où il n’y a que deux mesures (inclusion et sortie), garder un patient par ligne et suffixer les noms de variables communes entre les deux temps avec _T0 et _T1 par exemple.

  • L’ordre des variables
    L’ordre de présentation des variables ne va bien évidemment rien changer aux résultats, mais un ordre logique permet au méthodologiste de se familiariser plus facilement avec les données.
    En général, l’ordre suit le schéma suivant :
    • Identifiant
    • Groupe (Cas/Témoin, Traitement/Contrôle, etc.)
    • Données démographiques
    • Données fixes (antécédents, constantes, etc)
    • Données à l’inclusion
    • Données à la sortie

  • Vérification des données
    Pour chaque variable il faut vérifier, à l’aide des recommandations ci-dessus,
    • que le formatage est correct
    • que les données numériques sont purement numériques
    • que les données catégorielles ont des niveaux bien codés
    • que les données d’un patient ne sont pas incohérentes entre elles (date de décès ultérieure à la date d’inclusion par exemple)
    • que les données manquantes sont bien signalées par de simples cases vides
    • que les variables présentes sont pertinentes pour les analyses demandées

Pourquoi le format article ?

Désormais, en tous cas pour les internes de spécialité, la thèse doit se présenter sous la forme d’un article qui doit être soumis à une revue scientifique à comité de lecture.
Ceci émane de la même volonté que celle ayant amené la LCA a être une épreuve aux ECN : afin que les patients bénéficient toujours des meilleures soins, les médecins doivent rester au courant des dernières avancées en matière de diagnostic, de thérapeutique, et de tout ce qui fait l’exercice médical. Les données les plus récentes et complètes se trouvant dans la littérature scientifique, il est important que tout médecin sache a minima comment lire, interpréter, et critiquer cette littérature afin d’en tirer la meilleure information.

Il est également important que chacun, même si tout le monde ne fera pas une carrière hospitalo-universitaire ou de la recherche, ait au moins eu l’expérience une fois du travail de production d’un article scientifique, et ce afin que d’être le mieux armé pour critiquer (que ce soit positivement ou négativement) le travail des autres, en ayant soi-même vécu le processus.
Les thèses non publiées dans une revue font partie de ce qu’on appelle la «littérature grise», un travail scientifique non revu par un comité de lecture, et plus difficile d’accès car non indexé.
Publier (ou au moins tenter de publier, seule la soumission à une revue est demandée pour l’instant) sa thèse permet à la fois de faire valider son travail ainsi que le valoriser en le rendant accessible au reste de la communauté médicale.

Même si ceci concerne à première vue les internes de spécialité, les recommandations énoncées, notamment en ce qui concerne le recueil de données, restent complètement applicables aux travaux de thèse des internes de médecine générale.

Rédaction de l’article

Il faut la commencer le plus tôt possible, en parallèle de l’avancement des autres étapes.

La première chose à faire est d’explorer la connaissance existante sur le domaine en faisant de la recherche documentaire.
Il est conseillé d’utiliser un gestionnaire de bibliographie tel que Zotero (logiciel libre entièrement gratuit), qui permet de sauvegarder des références et les classer, directement depuis le navigateur web, ainsi que d’insérer automatiquement avec le style voulu les références dans le texte ainsi que la bibliographie complète à la fin.
C’est cette recherche documentaire préalable qui permet généralement de cerner l’hypothèse précise de l’étude, qu’elle brille par son absence de la littérature, ou qu’elle n’ait que mal ou peu été explorée jusque là.

L’ensemble de l’article doit suivre une progression logique, où rien ne doit sortir de nulle part.

L’état de l’art et le contexte doivent être renseignés par la bibliographie dans l’Introduction, et amener logiquement à un objectif.
L’objectif, avec les restrictions pratiques et éthiques éventuelles, doit amener au design de l’étude (Méthode), aux données recueillies (Matériel) et au type d’analyses statistiques envisagées pour tester les différentes hypothèses.
Les données et les analyses produisent les Résultats.
L’interprétation des résultats et leur confrontation avec l’existant alimentent la Discussion.
La discussion permet de donner une Conclusion répondant à la question posée dans les hypothèses.

Enfin, il est recommandé de rédiger son article en anglais, afin de viser une plus large diffusion et une meilleure reconnaissance du travail.

Introduction

Elle doit, de manière référencée, présenter la problématique de manière assez large et amener jusqu’à l’objectif lui-même.

Matériel et Méthode

La section doit décrire le déroulement de l’étude et des analyses de manière précise et détaillée. Une sorte de recette de cuisine de la recherche, rien ne doit sembler être laissé au hasard.

Si un protocole a été rédigé, ces deux sections sont quasiment déjà écrites. Le méthodologiste peut vous assister pour la rédaction de la partie méthode.

Résultats et Discussion

Les sections Résultats et Discussion ne peuvent évidemment être écrites qu’après avoir conduit la recherche et analysé les données.
Cependant lors de la recherche bibliographique initiale, il est important de garder de côté les références de travaux proches de celui envisagé, que les résultats soient concordants ou contradictoires à ceux attendus, afin de pouvoir les discuter dans l’article et faire rentrer les résultats dans un cadre plus large.

Résultats

La partie résultats doit être absolument factuelle, une présentation brute des résultats de l’analyse, avec chiffres, tableaux et figures à l’appui. Il n’y a que peu de place à l’interprétation ici.

Discussion

Celle-ci en revanche permet de mettre le résultat important en exergue, de le confronter aux résultats pré-existants, d’en discuter les forces et faiblesses, et idéalement de suggérer une application pratique en clinique si les résultats sont concluants et actionnables.

Conclusion

Un court paragraphe résumant les résultats principaux, et permettant d’ouvrir, avec la fin de la discussion, sur d’autres pistes de recherche.

Déroulement «sub-optimal»

Ce qui suit est un scénario fictif qui n’a absolument jamais eu lieu.

  1. Se rendre compte en dernière année d’internat qu’il faut faire une thèse
  2. Se voir offrir un sujet impossible à traiter logistiquement/logiquement/éthiquement/dans les temps/…
  3. Recueillir, dans la douleur, des données inexploitables et ne répondant pas à une question précise, en grande quantité, chez un faible nombre de patients mal sélectionnés
  4. Ou hériter d’une base de données mal constituée et inexploitable
  5. Se rendre compte trois semaines avant la soutenance qu’il faut faire des stats et contacter au mieux un méthodologiste du CHRU, ou un interne de santé publique aléatoire
  6. Demander à ce que l’on s’occupe de vous, et que «c’est pas pour grand chose, “juste des stats”»
  7. Ne pas comprendre pourquoi ça prend autant de temps
  8. Devoir retourner dans les dossiers pour collecter des données manquantes cruciales pour l’analyse
  9. Paniquer. Beaucoup. Tout le temps

Pour résumer

  • Consulter un méthodologiste avec votre directeur, et ce le plus tôt possible lors de l’élaboration du projet
    La présence du directeur de thèse est importante, puisqu’il est généralement l’instigateur du sujet, qui touche à son domaine ultra-spécialisé, et est le mieux placé pour clarifier les subtilités du projet.
  • Élaborer, avec son aide, un protocole permettant de répondre au mieux à la question de recherche, en définissant bien les variables utiles pour minimiser le risque d’avoir à retourner au dossier
  • Recueillir un minimum de variables pertinentes et bien renseignées, pour un maximum de patients
  • Vérifier votre base de données avant de l’envoyer pour analyse
  • Communiquer les données le plus rapidement possible au méthodologiste, pour pouvoir répondre à tout questionnement quant à des valeurs suspectes (typiquement valeurs extrêmes causées par une erreur de saisie, dont il va falloir retrouver les véritables valeurs)
  • Commencer à rédiger dans l’article les parties qui peuvent l’être sans les résultats, et préparer les références pour la discussion.

Si vous suivez ces recommandations, vous gagnerez un temps précieux, vous arracherez moins les cheveux, et les chances seront plus grandes d’obtenir des résultats intéressants et utilisables en pratique !
Bonne chance à tous !

Un projet similaire de guide de la thèse est en cours d’élaboration au niveau de la fac, plus détaillé, avec d’avantages d’informations de contact, et la mise à disposition de formulaires et de modèles de documents. Vous serez avertis de sa disponibilité.
Ce guide lui-même est amené à évoluer et s’enrichir, n’hésitez donc pas à revenir le consulter !

Exemples

Variable quantitative

Id Taille
1 150
2 1,75
3 ?
4 1.82

Attention à la cohérence des unités, et au séparateur de décimales. Uniquement des cases vides en cas de donnée manquante.

Id Taille Ou Taille
1 150 1,5
2 175 1,75
3
4 182 1,82

Variable qualitative multiple, et/ou non mutuellement exclusive

Plutôt que d’avoir une collection d’antécédents renseignés comme suit :

Id Atcd
1 HTA depuis 2008, Tabac (20 PA), Fracture d’un métacarpien
2 Obésité, HTA
3 Appendicite en 96, tabagique
4 aucun, tabac ?

Ou, un peu mieux, comme ça :

Id Atcd1 Atcd2 Atcd3
1 HTA Tabac Fracture de méta
2 Obésité HTA
3 Tabac Appendicite
4 aucun

Il est préférable de se débarrasser des informations non pertinentes, et correctement renseigner celles qui le sont. Dans un travail de cardiologie par exemple, les antécédents chirurgicaux retrouvés ici ne seront pas utiles, et une bonne présentation serait :

Id Atcd_HTA Atcd_Tabac Atcd_Obesite
1 Oui Oui Non
2 Oui Non Oui
3 Non Oui Non
4 Non Non

Ressources supplémentaires

Ce guide reste non exhaustif, et d’autres ressources plus complètes existent.

Le Dr. Amoghly-Rahimi a soutenu en mai 2011 une thèse intitulée Réalisation des thèses et mémoires de médecine générale : Détermination des besoins et élaboration d’un document pédagogique destiné aux étudiants du diplôme d’étude spécialisé de médecine générale.
Ce document est disponible ici.

Le Pr. Hervé Maisonneuve a publié, en collaboration avec les laboratoires Sanofi, un Guide pratique du thésard, disponible ici.


Maxime Wack
Référent des Internes de Santé Publique