Table des matières

¡@

Études de cas pour le Congrès annuel 2006 de la Société statistique du Canada

Étude de cas:

Couplage d'enregistrements - maintenance de registre

Dernière modification le 2006-04-20

The Survey Methods Section sponsors a one-day Workshop on Record Linkage Methods on Sunday May 28.

Anglais

Liste de Participants

Please check this page regularly for updates, corrections, and answers to frequently-asked questions!

 

Acknowledgements

Statistics Canada has provided this Case Study. Sponsors include: Patricia Whitridge (Elections Canada), Karla Nobrega (Department of National Defense), and Shannon Drew (Elections Canada). Please address queries about the data to Dr. Peggy Ng, York University, or Nevin Chan, MSc., University of Toronto.

 

 

Objectifs

Le but de cette étude de cas est d'initier les étudiants aux concepts du couplage d'enregistrements. De nombreux domaines recourent aux techniques de couplage d'enregistrements pour mettre à jour le contenu de registres ou pour combiner les informations contenues dans des registres et des sondages avant d'analyser l'ensemble de données ainsi couplées. Les études de migration et de taux de survie requièrent souvent l'utilisation de techniques de couplage d'enregistrements pour combiner des informations de sources différentes.

 

Données

Les ensembles de données sont composés de données entièrement synthétiques construites à l'aide de SAS 9.1 pour simuler des données de registre aux seules fins de cette étude de cas. Les fichiers synthétiques ont des fréquences de noms, de date de naissance et de date de décès similaires à un échantillon de résidents de la province de l'Île-du-Prince-Édouard. Aucune information relative à des personnes réelles n'est utilisée dans cette étude de cas.

 

Les ensembles de données sont les suivants : « register » (registre), « births » (naissances), « drivers » (conducteurs) et « deaths » (décès). Les dispositions de fichiers sont indiquées par Data Layout.xls

 

Register

Le « registre » est une base de données synthétique qui représente la population de l'Î.-P.-É. Le fichier contient un ID unique, ainsi que le nom, la date de naissance et les coordonnées des résidents de la province de of l'Î.-P.-É. C'est ce fichier que nous souhaitons maintenir pour servir de base à des études actuelles et futures.

 

Births (nouveaux entrants dans la population )

Dans un registre, les « naissances » correspondent aux personnes qui entrent dans la population d'intérêt, par exemple en emménageant dans une région d'intérêt ou en atteignant un certain âge. Le fichier de données sur les naissances contient des informations sur les coordonnées actuelles et antérieures des personnes, ainsi que leur nom au complet et leur date de naissance. Puisque les sources de données sont mises à jour de manière indépendante, il est possible que le registre pointe vers l'ancienne adresse ou la nouvelle.

 

Drivers

Les informations contenues dans les fichiers « conducteurs » aident à saisir les déménagements et les « naissances » dans un registre. Les résidents du Canada peuvent obtenir un premier permis de conduire, en obtenir un nouveau (dans une autre province) ou mettre à jour leur permis actuel (dans la même province). Ce fichier contient des informations sur les noms, l'adresse et la date de naissance.

 

Deaths

Le fichier « décès » contient des informations simulées contenues dans un registre d'état civil. Les données incluent les informations suivantes : noms, adresse, date de naissance et date de décès.

 

Couplage d'enregistrements - couplage exact

Le couplage d'enregistrements est un cadre qui permet de rapprocher des enregistrements correspondants de deux ou plusieurs sources de données (ou de trouver des doublons dans un fichier). Il existe deux grandes approches en matière de couplage de fichiers de données : le couplage exact et le couplage statistique. Le couplage exact diffère du couplage statistique de plusieurs façons. La différence la plus importante est que dans un couplage exact, on présume que les individus auxquels se rapportent les deux fichiers sont les mêmes, tandis que dans un couplage statistique on présume que les individus proviennent de la même population, mais il n'est pas nécessaire de présumer qu'il s'agit des mêmes individus dans les deux fichiers. Dans le cadre de cette étude de cas, nous nous concentrerons sur les techniques de couplage exact, puisque nous travaillons sur un registre et que nous devons maintenir des informations exactes sur la population d'intérêt. 

Les identificateurs uniques sont rares. Il est donc nécessaire d'utiliser des variables d'identification telles que le nom de famille, les prénoms, la date de naissance, etc., afin de relier les enregistrements de deux sources. Dans de nombreux cas, ces caractéristiques d'identification ne sont pas particulières à un individu donné. Elles peuvent changer avec le temps, elles peuvent avoir été enregistrées de manière erronée ou elles peuvent manquer dans certains enregistrements. Dans cette étude de cas, nous souhaitons effectuer un couplage exact, c'est à dire relier des données relatives à l'impôt, aux décès et aux naissances pour les mêmes personnes dans chaque fichier, afin de mettre à jour le registre.

 

Couplage d'enregistrements dèterministe

Une correspondance existe dans un couplage dèterministe lorsqu'un nombre suffisant d'identificateurs concordent entre deux enregistrements. Dans le cas le plus simple et le plus restrictif, tous les identificateurs doivent concorder. Des rˆogles plus souples (hièrarchiques) peuvent ˆ§tre utilisèes, selon lesquelles un sous-ensemble prèdèfini d'identificateurs suffit ˆj « dèterminer » un couplage.

L'une des principales limites du couplage dèterministe est le fait que chaque identificateur soit considèrè comme ètant de qualitè ègale. Une concordance d'un identificateur n'offre pas plus de preuve de couplage qu'une concordance d'un autre quelconque. Il est donc impossible de dèpartir les situations oˆ{ un enregistrement correspond ˆj deux (ou plusieurs) autres par le mˆ§me nombre d'identificateurs.

En pratique, les identificateurs diffˆorent quant au volume d'informations qu'ils contiennent sur un individu. Les donnèes rèelles contiennent des valeurs manquantes ou incorrectes et certains identificateurs sont codès de maniˆore plus fiable que d'autres. Une seule valeur mal saisie peut faire èchouer un couplage, mˆ§me si le couplage est parfaitement prouvè par les autres identificateurs, ou ˆj l'inverse, une valeur mal saisie peut donner lieu ˆj un couplage erronè.

¡@

Couplage d'enregistrements probabiliste

Une façon de tenir compte de cette diffèrence est en recourant au couplage probabiliste. Cette mèthode ne s'intèresse pas uniquement au nombre d'identificateurs qui correspondent, mais ˆj la nature de ceux-ci. Une correspondance pour trois identificateurs forts aura prioritè sur une correspondance pour trois plus faibles, tandis que la mèthode du couplage dèterministe aurait rèsultè en une situation d'ègalitè. Fellegi et Sunter (1969) ont prèsentè cette idèe dans un cadre mathèmatique formel. Outre cette approche, les rèseaux neuronaux, les graphes bipartis et la logique floue ont tous ètè utilisès dans divers projets de couplage.

L'importance d'un identificateur se mesure en calculant le volume d'information transmis par les valeurs de la variable. Les variables qui peuvent avoir de nombreuses valeurs diffèrentes, comme le jour ou le mois de naissance, contiennent ordinairement plus d'informations que celles avec peu de valeurs, comme le sexe. Il est beaucoup plus probable, par exemple, que deux enregistrements sèlectionnès au hasard aient le mˆ§me sexe que la mˆ§me date d'anniversaire. Une concordance d'anniversaire est donc considèrèe comme une preuve beaucoup plus forte de couplage qu'une concordance de sexe, puisqu'il est beaucoup plus probable que la concordance du sexe est entiˆorement due au hasard. Cette information, la probabilitè pour que deux paires alèatoires aient les mˆ§mes valeurs, est utilisèe conjointement avec la probabilitè pour que deux paires rèelles aient les mˆ§mes valeurs pour estimer les chances de vrai couplage.

De nombreux domaines utilisent les techniques de couplage d'enregistrements pour mettre ˆj jour les informations contenues dans des registres et produire des rapports et des analyses sur la base de l'ensemble de donnèes ˆj jour.

 

Mèthodes
 

Sèlection de variables

Les variables utilisèes dans un projet de couplage doivent ˆ§tre sèlectionnèes en fonction des critˆores suivants :

        Permanent ¡V existe ˆj la naissance et demeure inchangè

        Universal ¡V chaque membre de la population l'a

        Raisonnable ¡V les personnes ne s'opposent pas ˆj la divulgation de l'information

        ˆ[conomique

        Simple   

        Disponible

        Connu

        Prècis

        Unique.

Puis, une fois les variables identifièes, les fichiers doivent ˆ§tre nettoyès et standardisès.

Nettoyage (prè-traitement) du Fichier

Tout ensemble de donnèes prèsente des erreurs. Nous devons minimiser ces erreurs et, surtout, standardiser les fichiers.

 

-        Standardiser le nom

            L'ètudiant peut standardiser le nom de diffèrentes façons :

                     Supprimer les espaces, tirets ou autres caractˆores

            Deux mèthodes communèment utilisèes pour standardiser les noms sont :

                     Soundex

                     NYSIIS

¡@

-        Standardiser les dates

            Supprimer les espaces, tirets ou autres caractˆores

            Garantir un format et un ordre communs pour le jour, le mois et l'annèe

¡@

-        Standardiser les donnèes gèographiques

            Supprimer les espaces, tirets ou autres caractˆores

            Code postal

            Sous-composantes du code postal (RTA : règion de tri d'acheminement)

-        ˆ[valuer les donnèes manquantes

¡@

Couplage d'enregistrements

Plusieurs mèthodes peuvent ˆ§tre utilisèes pour coupler les donnèes. Dans le cadre de cette ètude de cas, nous nous concentrerons sur le couplage d'enregistrements probabiliste, mais n'hèsitez pas ˆj travailler avec d'autres mèthodes comme les rèseaux neuronaux, les graphes bipartis et la logique floue.

¡@

¡@

Couplage d'enregistrements probabiliste:  Fellegi-Sunter

Dans ce type de couplage, toutes les paires possibles sont comparèes afin de dèterminer celles qui sont le plus vraisemblable. Chaque paire est èvaluèe ˆj l'aide de rˆogles. Chacun des rèsultats de chaque rˆogle se voit associer un poids; ces poids sont ajoutès pour toutes les rˆogles pour obtenir un poids total, qui est utilisè pour èvaluer la vraisemblance d'une vraie paire.

¡@

Rˆogles

Une rˆogle consiste ˆj comparer deux champs. Ainsi, on pourra comparer la correspondance du mois de naissance dans deux fichiers.

¡@

Rèsultats

Chaque rˆogle permet de crèer une sèrie de rèsultats. Ainsi, la comparaison du mois de naissance produit les rèsultats potentiels suivants :

¡@

Concordance ¡V les mois se correspondent parfaitement

Non-concordance ¡V les mois sont èloignès de plus de 2 mois

Concordance partielle ¡V les mois sont èloignès de 2 mois au plus

Notez que les rèsultats sont gènèralement indèpendants.

¡@

Poids

Pour chaque rèsultat d'une rˆogle, nous calculerons un poids. Il s'agit de la combinaison de certaines probabilitès. Nous devons calculer les valeurs suivantes :

 

P(Concordance|Paire)

P(Concordance|Pas de paire)

P(Non-concordance|Paire)

P(Non-concordance| Pas de paire)

 

Il n'est peut-ˆ§tre pas èvident qu'il pourrait y avoir autre chose que 1 ou 0, mais les donnèes comportent des erreurs si bien que mˆ§me lorsque les choses constituent une « vraie paire », elles ne concordent pas forcèment.

¡@

Sur la base du mois de naissance, si nous examinons le rèsultat de la concordance, nous savons qu'il existe 12 mois, si bien qu'en prenant deux personnes au hasard, la probabilitè pour qu'il ait concordance du mois mais qu'elles ne soient pas une paire est de 1/12. Par consèquent, la probabilitè de non-concordance pour deux personnes qui ne sont pas une paire est de 11/12.

¡@

Nous pouvons aussi faire des suppositions sur la qualitè du codage et de la saisie des donnèes. Si le taux d'erreur est faible, nous pourrons supposer qu'il y a une probabilitè de 90 % pour que les donnèes soient saisies correctement. Si deux enregistrements forment rèellement une paire, alors avec les erreurs de donnèes, la probabilitè pour qu'ils concordent est de 0,90, tandis que la probabilitè pour qu'ils ne concordent pas, s'ils forment une vraie paire, est de 0,1.

¡@

Les rapports de ces chiffres sont la chance pour qu'il ait concordance sur une vraie paire, comparèe ˆj celle d'une fausse paire. Un modˆole incluant des exemples de calculs de poids est fourni dans le fichier Example Weights.xls.

¡@

Poids global

Le poids global est la somme des poids pour chaque rèsultat.

¡@

Blocs

Puisque cette mèthode compare toutes les paires possibles, il est raisonnable de ne crèer que des paires qui pourraient correspondre. Une façon de procèder est de crèer des blocs. Seuls les enregistrements inclus dans un mˆ§me bloc sont mis en correspondance. Par exemple, si nous sommes relativement certains que le sexe est codè correctement dans les fichiers, nous pourrions ne comparer que les paires d'hommes et de femmes, sèparèment.

¡@

Seuils

La notion de seuil s'illustre bien par un diagramme. Le graphique suivant montre la fonction de frèquence thèorique des poids globaux. Nous voyons que cette fonction est bi-mode. Le premier groupe correspond aux vraies paires, le second aux fausses. Les deux distributions se chevauchent. Il faut choisir deux seuils. Les èlèments au-dessus du seuil supèrieur sont considèrès comme de vraies paires, ceux en dessous du seuil infèrieur comme de vraies non-paires et ceux entre les deux seuils comme des paires « possibles ». Ces derniˆores doivent ˆ§tre rèvisèes manuellement afin de dèterminer si elles sont, en rèalitè, de vraies ou de fausses paires. Le seuil doit ˆ§tre dèfini de façon ˆj minimiser le volume de rèvision manuelle, tout en minimisant les erreurs de classification de type I et de type II.

 

 

ˆ[valuation du couplage

Combien de paires avons-nous dècouvert? Avec quelle prècision? Avons-nous crèè beaucoup de fausses paires?

¡@

¡@

Histogrammes

This helps to not only decide on threshold levels, but also helps to decide on the discriminating power of the rule set we are using.  The following two graphs illustrate this.  In the first example, only two rules are used in the calculation of the global weight. We can see that the distribution is not bi-modal and to distinguish between true and false pairs would be nearly impossible.  In the second example, 15 rules are used and we can see that the two populations are much more easily separated. 

 

Exemple 1

Exemple 2

 

Taux de couplage

Le nombre de paires crèèes sera gènèralement infèrieur ˆj 100 pour-cent. Mˆ§me avec un grand nombre de rˆogles et un long processus de rèvision manuel, certains couples seront manquès.

¡@

¡@

Taux d'erreur

Pour chaque zone du graphique, nous pouvons sèlectionner un petit èchantillon de paires et dèterminer par rèvision manuelle le nombre de vraies et de fausses paires. Le nombre de fausses paires au-dessus du seuil supèrieur devrait ˆ§tre proche de 0 %, le taux dans la zone grise plus èlevè; dans la zone en dessous du seuil infèrieur le taux devrait approcher les 100 %. Nous pouvons calculer le nombre de vraies et de fausses paires et estimer la probabilitè pour qu'une paire ait ètè manquèe et la probabilitè pour qu'une fausse paire ait ètè crèèe.

¡@

¡@

Logiciel

Il est facile de crèer un programme (sous SAS ou Excel) pour effectuer un couplage d'enregistrements. Voici nèanmoins une liste de plusieurs progiciels de couplage d'enregistrements disponibles sur le marchè : LINKS: A Record Linkage Package, GRLS, The Link King: Record Linkage and Consolidation Software, Netrics: Intelligent Record Matching™ software, Identity Search Server, et Surematch.

¡@

LINKS est un progiciel gratuit de couplage d'enregistrements dèveloppè ˆj l'Universitè du Manitoba; GRLS (Generalized Record Linkage Software) est un progiciel de couplage d'enregistrements dèveloppè et commercialisè par Statistique Canada; Link King est une application SAS/AF gratuite qui utilise les algorithmes probabilistes dèveloppès par MEDSTAT pour le projet de base de donnèes intègrè de la Substance Abuse and Mental Health Administration (SAMHSA); Netrics: Intelligent Record Matching™ software est un logiciel amèricain commercial qui utilise un modˆole de correspondance par apprentissage automatique; Identity Search Server™ (ISS) est un logiciel amèricain commercial qui offre des fonctions de recherche, de mise en correspondance, de dècouverte des doublons et de couplage de relations pour toutes formes de donnèes d'identification ˆj l'aide d'indexes « flous »; Surematch est un logiciel gratuit qui permet de standardiser, d'effectuer des recherches phonètiques, de mettre en correspondance, de rèviser, de mettre les majuscules correctement et de supprimer les doublons dans une base de donnèes.

 

Glossaire des termes

Divers termes sont utilisès dans le cadre du couplage d'enregistrements. Certains ont ètè dèfinis dans : Newcombe, H.B. (1988). Handbook of Record Linkage Methods for Health and Statistical Studies, Administration and Business. Oxford, U.K. Oxford University Press, pp. 103-106.

Les termes utilisès dans cet ouvrage sont les suivants :

Groupage ¡V Utilisation d'informations de mise en sèquence (p. ex., les versions phonètiquement codèes des noms de famille) pour diviser les fichiers en « poches ». Normalement, les enregistrements ne sont comparès entre eux que s'ils proviennent de la mˆ§me « poche », c.-ˆj-d. que leurs informations de blocage sont identiques. L'objectif est d'èviter d'avoir ˆj comparer les ènormes nombres de paires d'enregistrements qui seraient gènèrès si chaque enregistrement du fichier initiant les recherches pouvait former une paire avec chaque enregistrement du fichier ètudiè.

¡@

Dènominateur ¡V Cela se rapporte habituellement au dènominateur d'un RAPPORT DE FRˆ[QUENCE, c.-ˆj-d. la frèquence d'un rèsultat de comparaison donnè entre des paires d'enregistrements NON COUPLˆ[ES regroupèes au hasard. Le terme peut ègalement s'appliquer ˆj l'un de deux composants de toute CHANCE. 

¡@

Rapport de frèquence ¡V Frèquence d'un rèsultat de comparaison donnè entre des paires d'enregistrements correctement COUPLˆ[ES, divisèe par la frèquence correspondante entre des paires NON COUPLˆ[ES regroupèes au hasard. Le rèsultat de comparaison peut se dèfinir de n'importe quelle façon, par exemple en tant que pleine concordance, concordance partielle, non-concordance plus extrˆ§me ou par toute combinaison de valeurs pour les deux enregistrements qui sont comparès. Le RAPPORT DE FRˆ[QUENCE peut ˆ§tre spècifique pour la valeur donnèe d'un identificateur en cas de concordance, pour la valeur de la portion de concordance d'un identificateur en concordance partielle ou encore non spècifique pour la valeur.

¡@

Frèquence gènèrale ¡V Moyenne pondèrèe des frèquences des diverses valeurs d'un identificateur parmi les enregistrements individuels (c.-ˆj-d. non couplès) du fichier ètudiè. Elle est non spècifique pour la valeur. Les frèquences spècifiques ˆj la valeur sont ègalement obtenues de la mˆ§me source. 

¡@

Frèquence globale ¡V Frèquence d'un rèsultat de comparaison entre paires d'enregistrements, lorsque ce rèsultat est dèfini en termes non spècifiques pour la valeur de l'identificateur. Le rèsultat peut ˆ§tre une pleine concordance, une concordance partielle or une non-concordance plus extrˆ§me. Les paires d'enregistrements peuvent ˆ§tre celles d'un fichier COUPLˆ[ ou des paires NON COUPLˆ[ES regroupèes au hasard. Dans le cas particulier des rèsultats de pleine concordance, les frèquences globales et gènèrales sont numèriquement ègales, mais elles correspondent ˆj des concepts diffèrents. La frèquence globale, bien qu'elle soit non spècifique pour la valeur, reflˆote toujours la pleine dèfinition de la portion de non-concordance de cette dèfinition. Une frèquence gènèrale ne le peut pas car elle se fonde sur un fichier d'enregistrements individuels (c.-ˆj-d. non couplès).

¡@

Rapport de frèquence global ¡V Rapport de la frèquence globale pour un rèsultat de comparaison particulier entre paires d'enregistrements COUPLˆ[ES, divisèe par la frèquence correspondante entre paires NON COUPLˆ[ES. Ceci èquivaut ˆj la CHANCE globale. Les RAPPORTS DE FRˆ[QUENCE GLOBAUX pour les rèsultats de concordance et de concordance partielle sont souvent convertis par la suite en cette contrepartie spècifique ˆj la valeur pendant le processus de couplage. La conversion se fait par un ajustement vers le haut quand la portion de concordance de l'identificateur a une valeur rare et un ajustement vers le bas quand la valeur est commune.

¡@

Couplage ¡V Dans le sens le plus large, le COUPLAGE D'ENREGISTREMENTS est le rapprochement d'informations de deux ou plusieurs enregistrements dont on pense qu'ils se rapportent ˆj la mˆ§me « entitè ». Dans le cas d'une ètude èconomique ou sociale, les « entitès » en question peuvent ˆ§tre des fermes ou des entreprises. Dans le cas d'une ètude de santè, les « entitès » d'intèrˆ§t sont gènèralement des individus ou des familles. C'est dans ce dernier sens que le terme est employè dans cet ouvrage.

¡@

Couplè ¡V Dans le cadre de la dèfinition prècèdente du « couplage d'enregistrements », les paires d'enregistrements COUPLˆ[ES sont des paires dont on pense qu'elles se rapportent au mˆ§me individu ou ˆj la mˆ§me famille (ou autre type d'entitè). Les paires d'enregistrements regroupèes et jugèes ne pas se rapporter au mˆ§me individu ou ˆj la mˆ§me famille s'appellent des paires « NON COUPLˆ[ES ». Les deux sortes de paires sont ègalement parfois appelèes « COUPLES » ET « NON COUPLˆ[ES », respectivement. ˆY nos fins, le terme implique qu'une dècision a ètè prise concernant l'exactitude probable de la correspondance. 

¡@

En correspondance ¡V Ce terme est utilisè de diffèrentes façons dans la littèrature relative au couplage d'enregistrements. Dans cet ouvrage, cependant, il ne se voit accorder aucune signification technique particuliˆore et implique simplement la mise en paire d'enregistrements sur la base d'une similaritè (ou dissemblance) donnèe quelconque. Par exemple, au dèbut d'une opèration de couplage, les enregistrements des deux fichiers COUPLˆ[S sont normalement mis en correspondance pour y rechercher la concordance du code du nom de famille. Les paires rèsultantes peuvent ègalement ˆ§tre appelèes « paires candidates » pour le couplage, mais cette emphase est plus approprièe dans les phases ultèrieures du processus, lorsque le nombre de paires concurrentes a baissè. On fait souvent rèfèrence aux paires d'enregistrements comme ètant « mises en correspondance correctement », « faussement mises en correspondance » ou « mises en correspondance au hasard ».

¡@

Numèrateur ¡V Ceci renvoie habituellement au numèrateur dans un RAPPORT DE FRˆ[QUENCE, c.-ˆj-d. la frèquence d'un rèsultat de comparaison donnè entre des paires d'enregistrements dont on pense qu'elles sont correctement COUPLˆ[ES. IL peut aussi s'appliquer ˆj l'un des deux composants de toute CHANCE. 

¡@

Chance ¡V Ce mot est utilisè dans son sens ordinaire mais il s'applique dans diverses situations. Concernant un rèsultat particulier de la comparaison d'un identificateur donnè, il est synonyme avec le RAPPORT DE FRˆ[QUENCE pour ce rèsultat. Concernant les RAPPORTS DE FRˆ[QUENCE accumulès pour un enregistrement donnè, il se rapporte ˆj la CHANCE RELATIVE totale. Il s'applique aussi ˆj la CHANCE ABSOLUE totale.

¡@

Rèsultat ¡V Ceci renvoie ˆj tout rèsultat de la comparaison d'un identificateur particulier (ou d'identificateurs enchaînès) sur une paire d'enregistrements ou de la comparaison d'un identificateur particulier sur un enregistrement avec un autre identificateur logiquement connexe sur l'autre. Il peut se dèfinir de presque n'importe quelle façon, par exemple comme une CONCORDANCE, une CONCORDANCE PARTIELLE, une NON-CONCORDANCE plus extrˆ§me, toute autre SIMILARITˆ[ ou DISSEMBLANCE ou encore comment l'absence d'un identificateur sur un enregistrement comparè ˆj sa prèsence ou absence sur l'autre. Un rèsultat peut ˆ§tre spècifique pour une valeur particuliˆore d'un identificateur (p. ex., telle qu'elle apparaît sur l'enregistrement ètudiè) ou pour toute partie de cet identificateur, surtout en cas de concordance ou de concordance partielle; il peut ˆ§tre non spècifique pour la valeur; il peut aussi ˆ§tre spècifique pour un type particulier de NON-CONCORDANCE dèfini en fonction d'une paire quelconque de valeurs comparèes.

¡@

Valeur ¡V On dit d'un identificateur (p. ex., une initiale) qu'il a plusieurs « valeurs » diffèrentes (p. ex., initiale « A », initiale « B », etc.). Les noms de famille, les prènoms et les lieux de naissance ont de nombreuses valeurs possibles. D'autres identificateurs ont tendance ˆj avoir moins de valeurs qui doivent ˆ§tre distinguèes les une des autres.

¡@

Poids ¡V Dans la littèrature, ce terme a ètè largement appliquè aux logarithmes de diverses entitès, telles que:

  • un RAPPORT DE FRˆ[QUENCE pour un rèsultat spècifiè de la comparaison d'un identificateur donnè;
  • le produit de tous les RAPPORTS DE FRˆ[QUENCE pour une paire d'enregistrements donnèe;
  • le NUMˆ[RATEUR d'un RAPPORT DE FRˆ[QUENCE particulier;
  • le Dˆ[NOMINATEUR d'un RAPPORT DE FRˆ[QUENCE particulier;
  • toute estimation d'un tel numèrateur ou dènominateur, qui n'est pas obtenu directement d'un fichier de paires d'enregistrements mises en correspondance.

L'utilisation du logarithme est une pure convenance de calcul; celui-ci n'affecte en rien la logique sauf pour la faire paraître plus compliquèe. Le terme « POIDS » a donc ètè employè avec modèration dans cet ouvrage. Nous avons prèfèrè faire rèfèrence directement ˆj la frèquence source, au RAPPORT DE FRˆ[QUENCE ou aux estimations de ceux-ci, dans la mesure du possible.

 

Frequently Asked Questions

Please check this section regularly for updates.

 

¡@

Rèfèrences

Vous trouverez une trˆos bonne bibliographie sur le couplage d'enregistrements ˆj l'adresse suivante:

http://www.hcp.med.harvard.edu/statistics/survey-soft/docs/WinklerReclinkRef.pdf

 

D'autres articles sont situès aux adresses suivantes :

http://www.act.cmis.csiro.au/rohanb/PAPERS/record_linkage.pdf

http://www.fcsm.gov/working-papers/RLT_1997.html

¡@

Pour nous contacter...

Lorsque vous aurez commencè votre travail d'analyse, vous vous poserez sans doute quelques questions. N'hèsitez pas ˆj nous les soumettre, plutôt que de chercher ˆj en deviner la rèponse! Vous pouvez diriger vos questions vers moi et j'afficherai les rèponses aux questions frèquemment demandèes sur les pages Web. Vous ˆ§tes ègalement libres de contacter ceux qui ont prèparè les exercices, auquel cas vous ˆ§tes priès de m'envoyer une copie de toute votre correspondance pour que je puisse sèlectionner des questions frèquemment demandèes. Vous pouvez bien entendu soumettre vos questions en français ou en anglais.

 

Adresse postale:

Dr. Peggy Ng
Professor, Applied Statistics and Management Science,

School of Administrative Studies, Atkinson Faculty,

York University, Toronto

Tèlèphone: (416) 736-2100 x 77167
E-mail: peggyng@yorku.ca

 

 

Quelques liens SSC

Retour ˆj la Sociètè statistique du Canada