Score de propension et variables instrumentales dans l’analyse des données de vie réelle

Score de propension

Le score de propension est une méthode utilisée lorsque l’on veut comparer une prise en charge (un examen complémentaire, un médicament donné) à une autre. La comparaison directe des 2 groupes (exposé vs non exposé au médicament par exemple) pourrait être valide et simple si l’exposition avait été attribuée au hasard. En vie réelle, ce n’est pas le cas et les patients recevant ou non un traitement diffèrent souvent par d’autres caractéristiques que le fait d’avoir reçu le traitement (maladie plus avancée, échec de l’autre traitement comparé, plus jeune…). Ces caractéristiques peuvent, en elles-mêmes, influencer le résultat entre les 2 groupes indépendamment de l’effet du traitement. C’est un phénomène de sélection particulier qui peut être à l’origine du biais d’indication. Par exemple, si la chimiothérapie néoadjuvante est associée à de moins bons résultats que la chimiothérapie adjuvante, ce n’est pas parce qu’elle est moins efficace, c’est qu’elle est prescrite aux patientes atteintes de cancers du sein plus avancés, au pronostic plus sombre.

L’idée du score de propension est de calculer la probabilité qu’un patient reçoive le traitement d’intérêt A plutôt que l’autre traitement, B. Pour modéliser cette probabilité, on utilise un modèle logistique qui, à partir des informations connues de chaque patient, calcule la probabilité qu’il a, a priori, d’avoir le traitement A. Chaque patient est ainsi, selon ses caractéristiques mesurées, associé à une probabilité, une propension à recevoir le traitement (ou un score). Pour s’exonérer des différences entre les patients des 2 groupes qui auraient pu influencer le type de traitement reçu, on va restreindre la comparaison entre les 2 groupes en appariant chaque patient ayant reçu le traitement A à un patient ayant reçu le traitement B sur leur score de propension.

L’appariement sur la valeur exacte du score est rarement possible mais on peut définir une proximité (caliper) entre 2 scores pour augmenter les possibilités de l’appariement. Ainsi, théoriquement, en moyenne, les patients comparés ne diffèrent que par le traitement reçu. À l’extrême, on pourrait, plutôt que d’apparier sur le score calculé, faire un appariement exact : chacun des sujets ayant reçu le traitement A est apparié à un sujet du groupe B ayant exactement les mêmes caractéristiques en dehors du traitement reçu bien sûr. Cette méthode d’appariement exact peut sembler plus puissante puisque les sujets comparés sont alors identiques pour toutes leurs caractéristiques. Son inconvénient majeur est qu’elle nécessite un effectif très important de patients pour pouvoir apparier l’ensemble des sujets. L’appariement sur le score de propension permet d’augmenter la probabilité d’appariement, et donc de ne pas restreindre la comparaison à un sous-échantillon de taille trop réduite.

L’appariement est une des options offertes par le score de propension, on peut aussi conduire une analyse en ajustant ou en pondérant (Inverse Probability of Treatment and Weighting, IPTW) sur ce score de propension. Il existe des polémiques dans la littérature sur les manières d’utiliser le score de propension et il est prudent d’envisager l’une ou l’autre méthode en analyses de sensibilité. Le score de propension est une méthode très utilisée dans les analyses comparatives de données de vie réelle. Elle nécessite toutefois des effectifs non négligeables car l’effet du traitement ne peut être estimé que sur la partie appariée de l’échantillon, ce qui limite parfois grandement la puissance de la comparaison.

Une des grandes limites de la méthode du score de propension tient au fait que certaines caractéristiques prises en compte par le clinicien pour prescrire plutôt le médicament A que le B ne sont pas toujours connues ni recueillies. En cas de tels facteurs non observables, des méthodes statistiques plus sophistiquées ont été proposées.

Une de ces méthodes consiste à enrichir le score de propension de variables empiriques diverses comme le nombre de consultations de chaque patient, le nombre de médecins différents consultés, le nombre de patients suivis par le médecin prescripteur… Ces variables permettent de rendre compte de différences d’état de santé préexistants, avant traitement, entre les patients A et B. Le score de propension construit avec l’ensemble de ces variables, en plus des caractéristiques cliniques, prend le nom de score de propension à haute dimension. Sa construction nécessite de très nombreuses variables qu’il n’est pas habituel de recueillir dans le cadre d’une étude ad hoc et l’utilisation de ce score se limite en pratique à l’analyse des grandes bases de données médicoadministratives (Garbe et al. 2013).

Variables instrumentales

Un autre groupe de méthodes a été développé, celui de l’utilisation de variables instrumentales. Cette méthode a fait l’objet de nombreuses publications méthodologiques et reste difficile à appréhender et à mettre en œuvre sereinement (Chen et Briesacher 2011 ; Hernan et Robins 2006 ; Martens et al. 2006 ; Brookhart et al. 2006). Une variable instrumentale, si elle vérifie les 3 conditions détaillées plus loin, permet d’estimer l’effet d’un traitement en situation de facteurs de confusion non mesurés. Les 3 conditions indispensables pour une variable instrumentale sont :

elle doit être associée avec le traitement ;
elle ne doit pas être associée avec les facteurs de confusion ;
elle ne doit pas être associée avec le résultat autrement que par son association avec le traitement.

Les relations entre la variable instrumentale, les facteurs de risque, le traitement et le résultat sont figurés dans la figure suivante.

Boite a outils-COTTU-dia1

Quelles sont les variables instrumentales utilisées dans la littérature ? Une revue publiée en 2011 (Chen et Briesacher 2011) dresse le portrait des 5 différents types de variables instrumentales utilisées dans 26 publications (retenues après l’examen de 785 publications) :

Variations régionales de différents indices (pourcentage de patients sous chimiothérapie, pourcentage de patients opérés par région…) ;
Habitudes de prescription au niveau de la structure hospitalière (nombre de scanners par patients, nombre de patients sous anticoagulants…) ;
Préférences du clinicien (chirurgie proposée ou non au patient vu avant le patient inclus dans l’étude, type de traitement prescrit au patient précédent…) ;
Histoire du patient, statut socioéconomique : nombre d’interventions orthopédiques, nombre de prise d’antiacides ;
Événements temporels : temps d’autorisation de mise sur le marché des traitements.

L’utilisation des variables instrumentales est croissante dans les études sur données de vie réelle. Les hypothèses nécessaires à la validité de la variable instrumentale choisie sont difficiles à vérifier et cette validité est le plus souvent largement hypothétique. Son utilisation est alors le plus souvent complétée par d’autres approches dans le cadre d’études de sensibilité (Stukel et al. 2007).

Illustration

L’article de Delaloge et al. se proposait de décrire, à partir de données de vie réelle (real world data), la survie globale de patientes atteintes d’un cancer du sein métastatique HER2– traitées en première ligne selon 2 modalités : taxane (paclitaxel) avec ou sans un anti-VEGF (bévacizumab). Au total, 3 426 patientes ont été incluses, 1 299 dans le groupe taxane seule et 2 127 dans le groupe taxane + anti-VEGF. Les auteurs ont estimé le risque relatif de décès (hazard ratio) associé au groupe taxane + anti-VEGF par rapport au groupe taxane selon plusieurs méthodes : (i) brut, sans ajustement, (ii) ajusté sur l’ensemble des facteurs pronostiques, (iii) ajusté sur le score de propension et (iv) apparié sur le score de propension selon 2 seuils de proximité (1 % et 2 %). Les résultats étaient les suivants (figure 2).

Boite a outils-COTTU-dia2

Toutes les estimations, quelle que soit la méthode statistique utilisée pour prendre en compte un possible biais d’indication, étaient en faveur d’une amélioration de la survie globale dans le groupe taxane + anti-VEGF par rapport au groupe taxane seul. On notera que dans cet exemple, les estimations centrales des risques relatifs variaient très peu, entre 0,67 et 0,76. Ce n’est pas toujours le cas et il est nécessaire de prendre en compte au mieux les facteurs liés aux choix explicites ou implicites de l’option thérapeutique. Ces méthodes restent toutefois exposées à la non-prise en compte de certaines caractéristiques ; leurs résultats doivent donc être interprétés avec beaucoup de prudence.