Banque de données administratives longitudinales (DAL)

Information détaillée pour 1982 à 2008

Statut :

Active

Fréquence :

Annuelle

Numéro d'enregistrement :

4107

La Banque de données administratives longitudinales (DAL) est un fichier longitudinal conçu comme outil de recherche sur le revenu et la démographie.

Date de la parution - 19 janvier 2011

Aperçu

La Banque de données administratives longitudinales (DAL) est un fichier longitudinal conçu comme outil de recherche sur le revenu et la démographie. Elle comprend un échantillon de 20 % du Fichier T1 annuel sur les familles (numéro d'enregistrement 4105) et de la banque de données longitudinales sur les immigrants (numéro d'enregistrement 5057). Les variables ont été harmonisées dans la mesure du possible, et on peut coupler les données sur les personnes d'année en année, à partir de 1982. De nouvelles données sont ajoutées au fichier chaque année.

Le fichier longitudinal contient de nombreuses variables démographiques annuelles au sujet des personnes représentées, de même que des renseignements sur le revenu annuel, à la fois pour le particulier et sa famille de recensement pour l'année. Pour les immigrants établis entre 1980 et 2012, le fichier renferme aussi des caractéristiques-clés au moment de l'établissement.

La nature longitudinale de la DAL permet d'effectuer des recherches personnalisées relativement aux phénomènes dynamiques, ainsi que de dégager des tendances transversales représentatives. Ce sont surtout les ministères gouvernementaux qui se servent des données pour évaluer les programmes et soutenir les recommandations stratégiques. Les universitaires, les conseillers privés et les chercheurs de Statistique Canada utilisent également ces données pour analyser la situation socioéconomique.

Période de référence : L'année civile

Sujets

  • Immigration et diversité ethnoculturelle (anciennement Diversité ethnique et immigration)
  • Imposition des particuliers et des ménages
  • Marché du travail et revenu
  • Revenu du ménage, revenu familial et personnel
  • Revenu, pensions, dépenses et richesse

Sources de données et méthodologie

Population cible

La population d'intérêt comprend tous les membres des familles canadiennes (les familles dont au moins une personne habite au Canada). Les données portent sur toutes les personnes ayant complété une déclaration de revenu T1 pour l'année de référence ou ayant reçu la Prestation fiscale canadienne pour enfants (PFCE), sur les conjoints faisant partie des non déclarants (y compris les renseignements sur les traitements et salaires figurant dans le fichier T4), sur les enfants non déclarants (données d'identification provenant de trois sources : fichier de la PFCE, fichier des naissances et fichier historique) et sur les enfants ayant produit une déclaration et indiqué l'adresse de leurs parents. L'élaboration des données régionales sur les familles repose sur le concept de la famille de recensement, qui comprend le père, la mère et les enfants vivant à la même adresse, de même que la personne hors famille. Dans le cadre des projets longitudinaux, il est possible de coupler seulement les données des années où il existe un identificateur fiable : seules les personnes qui ont rempli une déclaration de revenus T1 ou qui ont reçu une PFCE et la majorité de leurs conjoints et enfants de moins de 19 ans non déclarants qui ont déjà produit une déclaration disposent d'un identificateur fiable et peuvent être suivis au fil des ans. Cela limite l'analyse longitudinale représentative aux particuliers qui ont commencé à produire des déclarations de revenus et à leur partenaire. Toutefois, ce groupe constitue environ 75 % des estimations démographiques officielles.

Élaboration de l'instrument

Cette méthodologie ne s'applique pas.

Échantillonnage

Il s'agit d'une enquête longitudinale par échantillon.

La base de sondage est construite à partir de la publication annuelle du Fichier sur la famille T1. Seuls les enregistrements des particuliers qui ont un numéro d'assurance sociale peuvent être choisis, et leur taux d'échantillonnage est de 20 %. Un échantillon de 20 % de la banque de données longitudinales sur les immigrants est inclus. Les unités d'enquête sont les particuliers, mais on conserve également les renseignements sur les caractéristiques de leur famille pendant l'année de référence. Aucune stratification n'est effectuée puisque le poids d'échantillonnage est égal pour toutes les unités. L'échantillonnage est effectué une fois pour chaque enregistrement, de telle sorte que, si une personne est choisie dans une année de référence particulière, elle sera aussi choisie dans n'importe quelle autre année ultérieure (ou antérieure) dans la mesure où elle est présente dans le Fichier sur la famille T1.

Sources des données

Les données sont tirées de fichiers administratifs et sont dérivées de diverses enquêtes de Statistique Canada et/ou d'autres sources.

Les déclarations de revenus sont principalement remplies au printemps suivant l'année de référence. Les fichiers T1 sont habituellement reçus de l'Agence du revenu du Canada (ARC) un an et un mois après la fin de la période de référence pour les renseignements sur le revenu. Le fichier sur les familles T1 est généralement prêt pour l'extraction un an et demi après la fin de la période de référence pour les renseignements sur le revenu. Une fois que le fichier T1 sur les familles est disponible, les données administratives longitudinales sont tirées de ce fichier et ensuite liées aux années précédentes. Il s'agit d'un procédé qui prend approximativement deux mois.

Toutes les données administratives et longitudinales sont des microenregistrements extraits des publications annuelles du Fichier sur la famille T1, qui en constituent la base. L'entrée pour numéro d'enregistrement 4105 contient d'autres renseignements détaillés sur les sources de ce fichier. Un autre fichier recoupé contenant des numéros d'assurance sociale est transmis chaque année par l'Agence du revenu du Canada. Son utilisation permet un couplage fiable entre les années pour les personnes dont le numéro d'assurance sociale change au fil du temps. Les caractéristiques-clés de l'échantillon de 20% des immigrants récents sont obtenues par couplage avec un extrait de la banque de données longitudinales sur les immigrants.

Détection des erreurs

Presque toutes les détections d'erreurs et les vérifications des champs de revenu ont lieu durant la conception du fichier des familles T1. Les valeurs aberrantes sont relevées et la plausibilité de ces enregistrements est vérifiée manuellement. De plus, les différents éléments de certaines formules mathématiques sont vérifiés et les problèmes de saisie relevés sont également corrigés. Toutes les vérifications sont effectuées au niveau des microenregistrements. Pendant l'échantillonnage et le traitement des données administratives longitudinales d'une nouvelle année de référence du Fichier des familles T1 annuel, quelques comparaisons longitudinales de la cohérence au niveau des microenregistrements sont effectuées. En particulier, une valeur constante et uniforme pour chaque particulier est attribuée pour le sexe, l'année de naissance et l'année de décès.

Imputation

Aucune imputation n'est effectuée lorsque l'on dégage des données administratives longitudinales du Fichier sur la famille T1. Pour obtenir des détails sur la création des familles et les imputations effectuées pendant la construction du Fichier sur la famille T1, veuillez consulter cette entrée dans la BMDI. En général, si un particulier identifiable n'était pas un déclarant lors d'une année précise, très peu de variables de revenu sont disponibles pour cette période de référence.

Estimation

Les tableaux CANSIM 204-0001 et 204-0002 est tiré de la Banque de données administratives longitudinales (DAL). De façon générale, deux types d'estimations sont tirées des DAL. Les estimations des caractéristiques individuelles transversales et toutes les estimations longitudinales se font normalement sans étalonnage et sans rajustement pour tenir compte de la non-réponse. Une simple pondération constante selon l'inverse du taux d'échantillonnage est suffisante pour permettre d'obtenir les estimations. Les estimations des caractéristiques des familles sont semblables, bien que les grandes familles soient plus susceptibles d'être choisies. Il faut donc utiliser une pondération variable des familles pour établir les estimations. Normalement, le calcul de la variance est direct, mais il se peut que certains calculs nécessitent une méthode légèrement plus complexe, comme la méthode Rao-Demnati ou, dans le cas des sous-populations suffisamment petites, une technique bootstrap.

Évaluation de la qualité

La plupart des procédures de contrôle de la qualité sont effectuées lors de la conception du Fichier des familles T1. Une fois à l'étape de l'intégration des enregistrements d'une nouvelle année dans les données administratives longitudinales, les principaux outils utilisés sont les comparaisons des totaux de contrôle avec ceux du Fichier des familles T1 en entier pour assurer un échantillon représentatif et faire en sorte que les champs ont été déterminés correctement. Une certaine analyse des tendances historiques est également effectuée.

Contrôle de la divulgation

La Loi interdit à Statistique Canada de rendre publique toute donnée susceptible de révéler de l'information obtenue en vertu de la Loi sur la statistique et se rapportant à toute personne, entreprise ou organisation reconnaissable sans que cette personne, entreprise ou organisation le sache ou y consente par écrit. Diverses règles de confidentialité s'appliquent à toutes les données diffusées ou publiées afin d'empêcher la publication ou la divulgation de toute information jugée confidentielle. Au besoin, des données sont supprimées pour empêcher la divulgation directe ou par recoupement de données reconnaissables.

L'accès aux données confidentielles est limité à un petit nombre de personnes au sein de la Division. Les utilisateurs doivent faire part à ces personnes de leurs besoins; ces dernières extraient ensuite les données. Avant d'être communiquées, les données font l'objet de mesures de non divulgation rigoureuses :

1. Un poids de perturbation est utilisé dans tous les calculs des comptes, des montants ou des autres analyses statistiques.
2. Toute cellule doit contenir un minimum de 5 répondants choisis (ou familles), à défaut de quoi on la supprime.
3. On examine chaque cellule où il est possible qu'un déclarant (ou une famille) prédomine; si un problème de ce genre est décelé, la cellule est supprimée.
4. Les suppressions primaires sont suivies de suppressions complémentaires, le but étant d'éviter que le l'information supprimée puisse être trouvée par recoupement. Il s'agit d'un processus itératif, où chaque suppression complémentaire peut rendre nécessaire une autre suppression complémentaire. Des modèles sont créés de manière à réduire la chose le plus possible.
5. Enfin, les comptes et montants sont arrondis; plus précisément, les comptes de l'échantillon sont arrondis au multiple de cinq le plus près et les montants au multiple de 100 $ le plus près ou 10 $ si le montant est plus petit que 1 000 $.
6. Les totaux et pourcentages sont établis à partir des comptes et des montants moyens arrondis pour éviter de contrer la procédure de non divulgation.
À l'extérieur de ces règles générales, il peut arriver qu'un comité doive procéder à une évaluation unique des cas spéciaux.

Révisions et désaisonnalisation

L'ensemble de données ne fait pas l'objet de calendarisation, d'étalonnage ou de désaisonnalisation. Dans le cas de certains projets pour lesquels l'ensemble de données est utilisé, il est possible d'effectuer le rajustement des pondérations pour tenir compte du taux de production (p. ex., comparativement aux estimations démographiques officielles) ou d'établir des données repères au moyen des totaux de contrôle T4 pour les revenus d'emploi. En général, aucun rajustement n'est effectué, et il n'existe pas de politique de révisions régulières.

Les montants en dollars sont toujours exprimés en dollars courants, comme c'est le cas sur les déclarations de revenus. Pour certaines analyses, il est possible de procéder à la déflation, à l'inflation ou au maintien des montants en dollars constants en utilisant des indices appropriés permettant d'établir des comparaisons sur plusieurs années.

Exactitude des données

Les détails de l'exactitude des données transversales se trouvent dans l'entrée pour le fichier sur la famille T1 (numéro d'enregistrement 4105). Les principales différences par rapport au fichier sur la famille T1 sont les composantes longitudinales et d'échantillonnage.

Comme le taux d'échantillonnage est relativement élevé à 20 %, la variation attribuable à l'échantillonnage est plutôt basse pour les populations relativement petites. Par exemple, pour les chiffres de population de personnes ayant des caractéristiques particulières, le coefficient de variation (CV) attribuable à l'erreur d'échantillonnage est de 20 % ou moins lorsque la population compte 100 unités ou moins, de moins de 10 % lorsque la population excède 400 unités et de moins de 2 % pour les populations de 10 000 personnes ou plus. Lorsque l'on calcule les pourcentages d'une population ayant des caractéristiques particulières, le CV attribuable à l'échantillonnage serait inférieur à 10 % dans la mesure où le chiffre de population est de 400 habitants ou plus et où le pourcentage estimé est de 50 % ou plus, ou si le chiffre de population est de 1 000 personnes ou plus, et le pourcentage estimé supérieur à 20 %.

Dans le cas des projets longitudinaux, la couverture sera inférieure à celle observée dans toute année transversale simple : la restriction principale est l'incapacité de suivre les particuliers sans identificateur fiable. De plus, le particulier doit normalement faire partie de toutes années à l'étude. Par exemple, lorsque l'on étudie les transitions d'un an, 95,9 % des particuliers qui ont un enregistrement pour l'année de référence du revenu 2004 en ont également un en 2005. L'émigration ou le décès expliquent 0,8 % du groupe original de 2004, donc 3,2 % demeure sans explication; il pourrait s'agir de non-déclarants ou de déclarants en retard en 2005. Lorsque l'on étudie la composition de la cohorte de 2005, 94,9 % étaient également dans le fichier de 2004, 2,7 % n'avaient jamais déclaré ou étaient arrivés au Canada en 2005, et 2,3 % étaient des non-déclarants ou des déclarants en retard en 2004 (parmi eux, 56,3 % avait déclaré en 2003). L'étude sur des périodes prolongées donnerait lieu à davantage d'observations où il manque au moins un an de données sur le revenu.

Signaler un problème sur cette page

Quelque chose ne fonctionne pas? L'information n'est plus à jour? Vous ne trouvez pas ce que vous cherchez?

S'il vous plaît contactez-nous et nous informer comment nous pouvons vous aider.

Avis de confidentialité

Date de modification :