Banque de données administratives longitudinales (DAL)

Information détaillée pour 1982 à 2014

Statut :

Active

Fréquence :

Annuelle

Numéro d'enregistrement :

4107

La Banque de données administratives longitudinales (DAL) est un fichier longitudinal conçu comme outil de recherche sur le revenu et la démographie.

Date de la parution - 21 novembre 2016

Aperçu

La Banque de données administratives longitudinales (DAL) est un fichier longitudinal conçu comme outil de recherche sur le revenu et la démographie. Elle comprend un échantillon de 20 % du Fichier T1 annuel sur les familles (numéro d'enregistrement 4105) et de la banque de données longitudinales sur les immigrants (numéro d'enregistrement 5057). Les variables ont été harmonisées dans la mesure du possible, et on peut coupler les données sur les personnes d'année en année, à partir de 1982. De nouvelles données sont ajoutées au fichier chaque année.

Le fichier longitudinal contient de nombreuses variables démographiques annuelles au sujet des personnes représentées, de même que des renseignements sur le revenu annuel, à la fois pour le particulier et sa famille de recensement pour l'année. Pour les immigrants établis entre 1980 et 2014, le fichier renferme aussi des caractéristiques-clés au moment de l'établissement.

La nature longitudinale de la DAL permet d'effectuer des recherches personnalisées relativement aux phénomènes dynamiques, ainsi que de dégager des tendances transversales représentatives. Ce sont surtout les ministères gouvernementaux qui se servent des données pour évaluer les programmes et soutenir les recommandations stratégiques. Les universitaires, les conseillers privés et les chercheurs de Statistique Canada utilisent également ces données pour analyser la situation socioéconomique.

Période de référence : Les années civiles, 1982 à 2014. Année civile « y » pour le revenu ; fin de l'année civile « y » pour l'âge ; moment spécifique (en général ; en avril de l'année civile « y+1 ») pour les renseignements sur l'adresse.

Période de collecte : Les déclarations de revenus sont principalement remplies au printemps suivant l'année de référence. Les fichiers T1 pour l'année civile « y » sont reçus de l'Agence du revenu du Canada (ARC) en janvier de l'année « y+2 ».

Sujets

  • Diversité ethnique et immigration
  • Imposition des particuliers et des ménages
  • Marché du travail et revenu
  • Revenu du ménage, revenu familial et personnel
  • Revenu, pensions, dépenses et richesse

Sources de données et méthodologie

Population cible

La population visée est constituée des personnes ayant présenté une déclaration de revenus au gouvernement fédéral. Plus spécifiquement, toutes les personnes qui possèdent un numéro d'assurance sociale et qui ont rempli une déclaration de revenus T1 pour l'année en question sont comprises. La population comprend également un petit nombre de membres de la famille des déclarants qui n'ont pas eux-mêmes présenté de T1, mais qui avaient un numéro d'assurance sociale et qui ont soit bénéficié de Prestations fiscales canadiennes pour enfants, soit reçu un feuillet T4 État de la rémunération payée, soit ont été inscrits à titre de personnes à charge sur la déclaration T1 de leur conjoint ou de leur conjointe.

Élaboration de l'instrument

Cette méthodologie ne s'applique pas.

Échantillonnage

Il s'agit d'une enquête longitudinale par échantillon.

La base de sondage est construite à partir de la publication annuelle du Fichier sur la famille T1. Seuls les enregistrements des particuliers qui ont un numéro d'assurance sociale peuvent être choisis, et leur taux d'échantillonnage est de 20%. Un échantillon de 20% de la banque de données longitudinales sur les immigrants (5057) est inclus. Les unités d'enquête sont les particuliers, mais on conserve également les renseignements sur les caractéristiques de leur famille pendant l'année de référence. Aucune stratification n'est effectuée puisque le poids d'échantillonnage est égal pour toutes les unités. L'échantillonnage est effectué une fois pour chaque enregistrement, de telle sorte que, si une personne est choisie dans une année de référence particulière, elle sera aussi choisie dans n'importe quelle autre année ultérieure (ou antérieure) dans la mesure où elle est présente dans le Fichier sur la famille T1.

Dans le cadre des projets longitudinaux, il est possible de coupler seulement les données des années où il existe un identificateur fiable : seules les personnes qui ont rempli une déclaration de revenus T1 ou qui ont reçu une PFCE et la majorité de leurs conjoints et enfants de moins de 19 ans non déclarants qui ont déjà produit une déclaration disposent d'un identificateur fiable et peuvent être suivis au fil des ans. Cela limite l'analyse longitudinale représentative aux particuliers qui ont commencé à produire des déclarations de revenus et à leur partenaire. Toutefois, ce groupe constitue environ 75% des estimations démographiques officielles.

Sources des données

Collecte des données pour cette période de référence : 1982-01-01 à 2014-12-31

Les données sont tirées de fichiers administratifs et sont dérivées de diverses enquêtes de Statistique Canada et/ou d'autres sources.

Les déclarations de revenus sont principalement remplies au printemps suivant l'année de référence. Les fichiers T1 sont habituellement reçus de l'Agence du revenu du Canada (ARC) un an et un mois après la fin de la période de référence pour les renseignements sur le revenu. Le fichier sur les familles T1 est généralement prêt pour l'extraction un an et demi après la fin de la période de référence pour les renseignements sur le revenu. Une fois que le fichier T1 sur les familles est disponible, les données administratives longitudinales sont tirées de ce fichier et ensuite liées aux années précédentes. Il s'agit d'un procédé qui prend approximativement deux mois.

Toutes les données administratives et longitudinales sont des microenregistrements extraits des publications annuelles du Fichier sur la famille T1, qui en constituent la base. L'entrée pour numéro d'enregistrement 4105 contient d'autres renseignements détaillés sur les sources de ce fichier. Un autre fichier recoupé contenant des numéros d'assurance sociale est transmis chaque année par l'Agence du revenu du Canada. Son utilisation permet un couplage fiable entre les années pour les personnes dont le numéro d'assurance sociale change au fil du temps. Les caractéristiques-clés de l'échantillon de 20 % des immigrants récents sont obtenues par couplage avec un extrait de la banque de données longitudinales sur les immigrants. En outre l'information des Comptes d'épargne libre d'impôt (CELI) de 2009 à 2014 a été ajoutée à la banque de Données administratives longitudinales (DAL).

Détection des erreurs

Presque toutes les détections d'erreurs et les vérifications des champs de revenu ont lieu durant la construction du fichier T1 sur les familles. Les enregistrements aberrants sont identifiés et la plausibilité de ces derniers est vérifiée manuellement. De plus, les différents éléments de certaines formules mathématiques sont vérifiés et les problèmes de saisie visibles sont également corrigés. Pendant l'échantillonnage et le traitement des données administratives longitudinales d'une nouvelle année de référence du Fichier sur la famille T1 annuel, on effectue quelques comparaisons longitudinales de la cohérence au niveau des microenregistrements. En particulier, nous attribuons au sexe, à l'année de naissance et à l'année de décès une valeur constante et uniforme pour chaque particulier.

Imputation

Aucune imputation n'est effectuée lorsque l'on dégage des données administratives longitudinales du Fichier sur la famille T1. Pour obtenir des détails sur la création des familles et les imputations effectuées pendant la construction du Fichier sur la famille T1, veuillez consulter cette entrée dans la BMDI - 4105. En général, si un particulier identifiable n'était pas un déclarant lors d'une année précise, très peu de variables de revenu sont disponibles pour cette période de référence.

Estimation

Les tableaux CANSIM 204-0001, 204-0002, 204-0101, 204-0102, et 204-0103 sont tirés de la Banque de données administratives longitudinales (DAL). De façon générale, deux types d'estimations sont tirées des DAL. Les estimations des caractéristiques individuelles transversales et toutes les estimations longitudinales se font normalement sans étalonnage et sans rajustement pour tenir compte de la non-réponse. Une simple pondération constante selon l'inverse du taux d'échantillonnage est suffisante pour permettre d'obtenir les estimations. Les estimations des caractéristiques des familles sont semblables, bien que les grandes familles soient plus susceptibles d'être choisies. Il faut donc utiliser une pondération variable des familles pour établir les estimations. Normalement, le calcul de la variance est direct, mais il se peut que certains calculs nécessitent une méthode légèrement plus complexe, comme la méthode Rao-Demnati ou, dans le cas des sous-populations suffisamment petites, une technique bootstrap.

Évaluation de la qualité

La plupart des procédures de contrôle de la qualité sont effectuées lors de la construction du Fichier sur la famille T1. Une fois à l'étape de l'intégration des enregistrements d'une nouvelle année dans les données administratives longitudinales, les principaux outils utilisés sont les comparaisons des totaux de contrôle avec ceux du Fichier sur la famille T1 en entier pour assurer un échantillon représentatif et faire en sorte que les champs ont été déterminés correctement. On a également recours à une certaine analyse des tendances historiques.

Contrôle de la divulgation

La Loi interdit à Statistique Canada de rendre publique toute donnée susceptible de révéler de l'information obtenue en vertu de la Loi sur la statistique et se rapportant à toute personne, entreprise ou organisation reconnaissable sans que cette personne, entreprise ou organisation le sache ou y consente par écrit. Diverses règles de confidentialité s'appliquent à toutes les données diffusées ou publiées afin d'empêcher la publication ou la divulgation de toute information jugée confidentielle. Au besoin, des données sont supprimées pour empêcher la divulgation directe ou par recoupement de données reconnaissables.

Seuls les employés et les personnes réputées être employées de Statistique Canada peuvent obtenir l'autorisation d'accéder aux microdonnées confidentielles. Avant leur diffusion, les données agrégées font l'objet de mesures rigoureuses de non-divulgation:

1. Un poids de perturbation est utilisé dans tous les calculs des comptes, des montants ou des autres analyses statistiques.
2. Toute cellule doit contenir un minimum de 5 répondants choisis (ou familles), à défaut de quoi on la supprime.
3. On examine chaque cellule où il est possible qu'un déclarant (ou une famille) prédomine; si un problème de ce genre est décelé, la cellule est supprimée.
4. Les suppressions primaires sont suivies de suppressions complémentaires, le but étant d'éviter que le l'information supprimée puisse être trouvée par recoupement. Il s'agit d'un processus itératif, où chaque suppression complémentaire peut rendre nécessaire une autre suppression complémentaire. Des modèles sont créés de manière à réduire la chose le plus possible.
5. Enfin, les comptes et montants sont arrondis; plus précisément, les comptes de l'échantillon sont arrondis au multiple de cinq le plus près et les montants au multiple de 100 $ le plus près ou 10 $ si le montant est plus petit que 1 000 $.
6. Les totaux et pourcentages sont établis à partir des comptes et des montants moyens arrondis pour éviter de contrer la procédure de non divulgation.
À l'extérieur de ces règles générales, il peut arriver qu'un comité doive procéder à une évaluation unique des cas spéciaux.

Révisions et désaisonnalisation

L'ensemble de données ne fait pas l'objet d'annualisation, d'établissement de données repères ou d'ajustements saisonniers. Dans le cas de certains projets où l'on emploie l'ensemble de données, on peut choisir de rajuster les pondérations pour tenir compte du taux de production (p. ex., comparativement aux estimations démographiques officielles) ou d'établir des données repères à l'aide des totaux de contrôle T4 pour les revenus d'emploi. En général, aucun rajustement n'est effectué, et il n'existe pas de politique de révisions régulières.
Les montants en dollars sont toujours exprimés en dollars courants, comme sur les déclarations de revenus. Pour certaines analyses, on peut choisir de procéder à la déflation, à l'inflation ou au maintien des montants en dollars constants à l'aide des indices appropriés permettant d'établir des comparaisons sur plusieurs années.

Exactitude des données

Les détails de l'exactitude des données transversales se trouvent dans l'entrée pour le fichier sur la famille T1 (numéro d'enregistrement 4105). Les principales différences par rapport au fichier sur la famille T1 sont les composantes longitudinales et d'échantillonnage.

Comme le taux d'échantillonnage est relativement élevé à 20%, la variation attribuable à l'échantillonnage est plutôt basse pour les populations relativement petites. Par exemple, pour les chiffres de population de personnes ayant des caractéristiques particulières, le coefficient de variation (CV) attribuable à l'erreur d'échantillonnage est de 20 % ou moins lorsque la population compte 100 unités ou moins, de moins de 10% lorsque la population excède 400 unités et de moins de 2% pour les populations de 10 000 personnes ou plus. Lorsque l'on calcule les pourcentages d'une population ayant des caractéristiques particulières, le CV attribuable à l'échantillonnage serait inférieur à 10% dans la mesure où le chiffre de population est de 400 habitants ou plus et où le pourcentage estimé est de 50% ou plus, ou si le chiffre de population est de 1 000 personnes ou plus, et le pourcentage estimé supérieur à 20%.

Dans le cas des projets longitudinaux, la couverture sera inférieure à celle observée dans toute année transversale simple : la restriction principale est l'incapacité de suivre les particuliers sans identificateur fiable. De plus, le particulier doit normalement faire partie de toutes années à l'étude. Par exemple, lorsque l'on étudie les transitions d'un an, 95,9% des particuliers qui ont un enregistrement pour l'année de référence du revenu 2013 en ont également un en 2014. L'émigration ou le décès expliquent 0,8% du groupe original de 2013, donc 3,2 % demeure sans explication; il pourrait s'agir de non-déclarants ou de déclarants en retard en 2014. Lorsque l'on étudie la composition de la cohorte de 2014, 94,9% étaient également dans le fichier de 2013, 2,7% n'avaient jamais déclaré ou étaient arrivés au Canada en 2014, et 2,3% étaient des non-déclarants ou des déclarants en retard en 2013 (parmi eux, 56,3% avait déclaré en 2012). L'étude sur des périodes prolongées donnerait lieu à davantage d'observations où il manque au moins un an de données sur le revenu.

Documentation

Date de modification :