Banque de données administratives longitudinales (DAL)
Information détaillée pour 1982 à 2021
Statut :
Active
Fréquence :
Annuelle
Numéro d'enregistrement :
4107
La Banque de données administratives longitudinales est un fichier longitudinal conçu comme outil de recherche sur le revenu et la démographie.
Date de la parution - 10 novembre 2023
Aperçu
La Banque de données administratives longitudinales (DAL) est un fichier longitudinal conçu comme outil de recherche sur le revenu et la démographie. Elle comprend un échantillon de 20 % du Fichier des familles T1 annuel (numéro d'enregistrement 4105). Le fichier longitudinal de la DAL contient de nombreuses variables démographiques annuelles sur les personnes qui figurent dans cette base de données, y compris l'année d'établissement des immigrants récents et une alerte d'indicateur d'immigration, ainsi que le revenu annuel des personnes et celui de leur famille de recensement.
De plus, depuis 2017, une variable clé de couplage est disponible dans la Base de données longitudinale sur l'immigration (numéro d'enregistrement 5057), ce qui permet aux chercheurs de relier toutes les caractéristiques des immigrants ayant présenté une déclaration de revenus figurant dans la Base de données longitudinale sur l'immigration à leurs enregistrements dans la DAL, depuis 1982 jusqu'à aujourd'hui.
La nature longitudinale de la DAL permet d'effectuer des recherches personnalisées relativement aux phénomènes dynamiques, ainsi que de dégager des tendances transversales représentatives. Ce sont surtout les ministères gouvernementaux qui se servent des données pour évaluer les programmes et soutenir les recommandations stratégiques. Les universitaires, les conseillers privés et les chercheurs de Statistique Canada utilisent également ces données pour analyser la situation socioéconomique.
Période de référence : Les années civiles. Année civile « y » pour le revenu; fin de l'année civile « y » pour l'âge; point dans le temps (en général, en avril de l'année civile « y+1 ») pour les renseignements sur l'adresse.
Période de collecte : Les déclarations de revenus sont principalement remplies au printemps suivant l'année de référence. Les fichiers T1 pour l'année civile « y » sont reçus de l'Agence du revenu du Canada en janvier de l'année « y+2 ».
Sujets
- Immigration et diversité ethnoculturelle
- Imposition des particuliers et des ménages
- Marché du travail et revenu
- Revenu du ménage, revenu familial et personnel
- Revenu, pensions, dépenses et richesse
Sources de données et méthodologie
Population cible
La population visée est constituée des personnes ayant présenté une déclaration de revenus au gouvernement fédéral. Plus précisément, toutes les personnes qui ont un numéro d'assurance sociale et qui ont rempli une déclaration de revenus T1 pour l'année en question sont comprises. La population comprend également un petit nombre de membres de la famille des déclarants qui n'ont pas eux-mêmes présenté de déclaration T1, mais qui avaient un numéro d'assurance sociale et qui ont soit bénéficié de l'Allocation canadienne pour enfants, soit reçu un feuillet T4 - État de la rémunération payée, soit ont été inscrits à titre de personnes à charge sur la déclaration T1 de leur conjoint ou de leur conjointe.
Élaboration de l'instrument
Cette méthodologie ne s'applique pas.
Échantillonnage
Il s'agit d'une enquête longitudinale par échantillon.
La base de sondage est conçue en se fondant sur la publication annuelle du Fichier des familles T1. Seuls les enregistrements des particuliers qui ont un numéro d'assurance sociale peuvent être choisis, et leur taux d'échantillonnage est de 20 %. Les caractéristiques clés des immigrants récents sont disponibles par couplage à la Base de données longitudinales sur l'immigration (numéro d'enregistrement 5057). Les unités d'enquête sont les particuliers, mais les renseignements sur les caractéristiques de leur famille pendant l'année de référence sont également conservés. Aucune stratification n'est effectuée puisque le poids d'échantillonnage est égal pour toutes les unités. L'échantillonnage est effectué une fois pour chaque enregistrement, de telle sorte que, si une personne est choisie dans une année de référence particulière, elle sera aussi choisie dans n'importe quelle autre année ultérieure (ou antérieure) dans la mesure où elle est présente dans le Fichier des familles T1.
Dans le cadre des projets longitudinaux, il est possible de coupler seulement les données des années où il existe un identificateur fiable : seules les personnes qui ont rempli une déclaration de revenus T1 ou qui ont reçu l'Allocation canadienne pour enfants et la majorité de leurs conjoints et enfants de moins de 19 ans non déclarants qui ont déjà produit une déclaration disposent d'un identificateur fiable et peuvent être suivis au fil des ans. Cela limite l'analyse longitudinale représentative aux particuliers qui ont commencé à produire des déclarations de revenus et à leur partenaire. Toutefois, ce groupe représente environ 75 % des estimations démographiques officielles.
Sources des données
Les données sont tirées de fichiers administratifs et sont dérivées de diverses enquêtes de Statistique Canada et/ou d'autres sources.
Les déclarations de revenus sont principalement remplies au printemps suivant l'année de référence. Les fichiers T1 sont habituellement reçus de l'Agence du revenu du Canada (ARC) un an et un mois après la fin de la période de référence pour les renseignements sur le revenu. Le fichier des familles T1 (FFT1) est généralement prêt pour l'extraction un an et demi après la fin de la période de référence pour les renseignements sur le revenu. Une fois que le FFT1 est disponible, les données administratives longitudinales sont tirées de ce fichier et ensuite liées aux années précédentes. Il s'agit d'un processus qui prend quelques mois.
Toutes les données administratives et longitudinales sont des microenregistrements extraits des publications annuelles du FFT1, qui en constituent la base. Voir le numéro d'enregistrement 4105 (Estimations annuelles du revenu des familles de recensement et des particuliers [Fichier des familles T1]), qui contient d'autres renseignements détaillés sur les sources de ce fichier. Un autre fichier recoupé contenant des numéros d'assurance sociale est transmis chaque année par l'ARC. Son utilisation permet d'effectuer un couplage fiable entre les années pour les personnes dont le numéro d'assurance sociale change au fil du temps. Les caractéristiques clés des immigrants récents sont obtenues par couplage avec les données de la Base de données longitudinales sur l'immigration. En outre, l'information des comptes d'épargne libre d'impôt et un groupe de variables se rapportant aux personnes titulaires d'actions dans des sociétés privées sous contrôle canadien sont disponibles dans la Banque de données administratives longitudinales.
Détection des erreurs
Presque toutes les détections d'erreurs et les vérifications des champs de revenu ont lieu durant la conception du fichier des familles T1. Les valeurs aberrantes sont relevées et la plausibilité de ces enregistrements est vérifiée manuellement. De plus, les différents éléments de certaines formules mathématiques sont vérifiés et les problèmes de saisie relevés sont également corrigés. Toutes les vérifications sont effectuées au niveau des microenregistrements. Pendant l'échantillonnage et le traitement des données administratives longitudinales d'une nouvelle année de référence du Fichier des familles T1 annuel, quelques comparaisons longitudinales de la cohérence au niveau des microenregistrements sont effectuées. En particulier, une valeur constante et uniforme pour chaque particulier est attribuée pour le sexe, l'année de naissance et l'année de décès.
Imputation
Aucune imputation n'est effectuée pour les données administratives longitudinales dérivées du Fichier des familles T1. Pour obtenir des renseignements plus détaillés sur la création des familles et les imputations effectuées pendant la conception du Fichier des familles T1, veuillez consulter le numéro d'enregistrement 4105 (Estimations annuelles du revenu des familles de recensement et des particuliers [Fichier des familles T1]) de la Base de métadonnées intégrée. En général, si un particulier identifiable n'était pas un déclarant lors d'une année précise, très peu de renseignements sur le revenu sont disponibles pour cette année en question.
Estimation
Les tableaux de données 11-10-0024-01, 11-10-0025-01, 11-10-0026-01, 11-10-0054-01, 11-10-0055-01, 11-10-0056-01, 11-10-0058-01, 11-10-0059-01 et 11-10-0061-01 sont produits en utilisant les données de la Banque de données administratives longitudinales. Les estimations des caractéristiques individuelles transversales et toutes les estimations longitudinales se font normalement sans étalonnage et sans rajustement pour tenir compte de la non-réponse. Une simple pondération constante selon l'inverse du taux d'échantillonnage est suffisante pour permettre d'obtenir les estimations. Les estimations des caractéristiques des familles sont semblables, bien que les grandes familles soient plus susceptibles d'être choisies. Il faut donc utiliser une pondération variable des familles pour établir les estimations. Normalement, le calcul de la variance est direct, mais il se peut que certains calculs nécessitent une méthode légèrement plus complexe, comme la méthode Rao-Demnati ou, dans le cas des sous-populations suffisamment petites, une technique bootstrap.
Évaluation de la qualité
La plupart des procédures de contrôle de la qualité sont effectuées lors de la conception du Fichier des familles T1. Une fois à l'étape de l'intégration des enregistrements d'une nouvelle année dans les données administratives longitudinales, les principaux outils utilisés sont les comparaisons des totaux de contrôle avec ceux du Fichier des familles T1 en entier pour assurer un échantillon représentatif et faire en sorte que les champs ont été déterminés correctement. Une certaine analyse des tendances historiques est également effectuée.
Contrôle de la divulgation
La Loi interdit à Statistique Canada de rendre publique toute donnée susceptible de révéler de l'information obtenue en vertu de la Loi sur la statistique et se rapportant à toute personne, entreprise ou organisation reconnaissable sans que cette personne, entreprise ou organisation le sache ou y consente par écrit. Diverses règles de confidentialité s'appliquent à toutes les données diffusées ou publiées afin d'empêcher la publication ou la divulgation de toute information jugée confidentielle. Au besoin, des données sont supprimées pour empêcher la divulgation directe ou par recoupement de données reconnaissables.
Seuls les employés et les personnes réputées être employées de Statistique Canada peuvent obtenir l'autorisation d'accéder aux microdonnées confidentielles. Avant leur diffusion, les données agrégées font l'objet de mesures rigoureuses de non-divulgation:
1. Un poids de perturbation est utilisé dans tous les calculs des chiffres, des montants ou des autres analyses statistiques.
2. Toute cellule doit contenir un minimum de cinq répondants choisis (ou familles), à défaut de quoi elle est supprimée.
3. Chaque cellule où il est possible qu'un déclarant (ou une famille) prédomine est vérifiée; si un problème de ce genre est décelé, la cellule est supprimée.
4. Les suppressions primaires sont suivies de suppressions complémentaires, le but étant d'éviter que l'information supprimée puisse être trouvée par recoupement. Il s'agit d'un processus itératif, où chaque suppression complémentaire peut rendre nécessaire une autre suppression complémentaire. Des modèles sont créés de manière à réduire la chose le plus possible.
5. Enfin, les chiffres et les montants sont arrondis; les chiffres de l'échantillon sont arrondis au multiple de cinq le plus près et les montants au multiple de 100 $ le plus près (ou 10 $ si le montant est plus petit que 1 000 $).
6. Les totaux et les pourcentages sont établis à partir des chiffres et des montants moyens arrondis pour éviter de contrer les procédures de non-divulgation.
Outre ces règles générales, il peut arriver qu'un comité doive effectuer une évaluation unique des cas spéciaux.
Révisions et désaisonnalisation
L'ensemble de données ne fait pas l'objet de calendarisation, d'étalonnage ou de désaisonnalisation. Dans le cas de certains projets pour lesquels l'ensemble de données est utilisé, il est possible d'effectuer le rajustement des pondérations pour tenir compte du taux de production (p. ex., comparativement aux estimations démographiques officielles) ou d'établir des données repères au moyen des totaux de contrôle T4 pour les revenus d'emploi. En général, aucun rajustement n'est effectué, et il n'existe pas de politique de révisions régulières.
Les montants en dollars sont toujours exprimés en dollars courants, comme c'est le cas sur les déclarations de revenus. Pour certaines analyses, il est possible de procéder à la déflation, à l'inflation ou au maintien des montants en dollars constants en utilisant des indices appropriés permettant d'établir des comparaisons sur plusieurs années.
Exactitude des données
Les détails de l'exactitude des données transversales se trouvent dans l'entrée pour le Fichier des familles T1 (numéro d'enregistrement 4105 - (Estimations annuelles du revenu des familles de recensement et des particuliers [Fichier des familles T1]). Les principales différences par rapport au Fichier des familles T1 sont les composantes longitudinales et d'échantillonnage.
Comme le taux d'échantillonnage est relativement élevé, à savoir 20 %, la variation attribuable à l'échantillonnage est plutôt faible pour les populations relativement petites. Par exemple, pour les chiffres de population de personnes ayant des caractéristiques particulières, le coefficient de variation (c.v.) attribuable à l'erreur d'échantillonnage est de 20 % ou moins lorsque la population compte 100 unités ou plus, de moins de 10 % lorsque la population excède 400 unités et de moins de 2 % pour les populations de 10 000 personnes ou plus. Lorsque le calcul des pourcentages d'une population ayant des caractéristiques particulières est effectué, le c.v. attribuable à l'échantillonnage serait inférieur à 10 % dans la mesure où le chiffre de population est de 400 habitants ou plus et où le pourcentage estimé est de 50 % ou plus, ou si le chiffre de population est de 1 000 personnes ou plus, et que le pourcentage estimé est supérieur à 20 %.
Dans le cas des projets longitudinaux, la couverture sera inférieure à celle observée dans toute année transversale simple : la restriction principale est l'incapacité de suivre les particuliers sans identificateur fiable. De plus, le particulier doit faire partie de toutes les années à l'étude. Par exemple, lorsque les transitions d'un an sont examinées, 95,9 % des particuliers qui ont un enregistrement pour l'année de référence du revenu 2013 en ont également un en 2014. L'émigration ou le décès expliquent 0,8 % du groupe original de 2013, donc un pourcentage de 3,2 % demeure sans explication; il pourrait s'agir de non-déclarants ou de déclarants tardifs en 2014. Lorsque la composition de la cohorte de 2014 est examinée, 94,9 % des particuliers étaient également dans le fichier de 2013, 2,7 % de ceux-ci n'avaient jamais produit une déclaration de revenus ou étaient arrivés au Canada en 2014, et 2,3 % étaient des non déclarants ou des déclarants tardifs en 2013 (parmi eux, 56,3 % avaient produit une déclaration de revenus en 2012). L'étude sur des périodes prolongées donnerait lieu à davantage d'observations où il manque des données sur le revenu pour au moins un an.
Documentation
- Couplage de la Banque de données administratives longitudinales (1982 à 2016) et de la Base de données sur les congés des patients (1997-1998 à 2016-2017)
- Dictionnaire Données administratives longitudinales
Dernière révision : 10 novembre 2023
- Date de modification :