Banque de données administratives longitudinales (DAL)

Information détaillée pour 1982 à 2014

Statut :

Active

Fréquence :

Annuelle

Numéro d'enregistrement :

4107

La Banque de données administratives longitudinales (DAL) est un fichier longitudinal conçu comme outil de recherche sur le revenu et la démographie.

Date de la parution - 21 novembre 2016

Aperçu
Sources de données et méthodologie
Exactitude des données
Documentation

Aperçu

La Banque de données administratives longitudinales (DAL) est un fichier longitudinal conçu comme outil de recherche sur le revenu et la démographie. Elle comprend un échantillon de 20 % du Fichier T1 annuel sur les familles (numéro d'enregistrement 4105) et de la banque de données longitudinales sur les immigrants (numéro d'enregistrement 5057). Les variables ont été harmonisées dans la mesure du possible, et on peut coupler les données sur les personnes d'année en année, à partir de 1982. De nouvelles données sont ajoutées au fichier chaque année.

Le fichier longitudinal contient de nombreuses variables démographiques annuelles au sujet des personnes représentées, de même que des renseignements sur le revenu annuel, à la fois pour le particulier et sa famille de recensement pour l'année. Pour les immigrants établis entre 1980 et 2014, le fichier renferme aussi des caractéristiques-clés au moment de l'établissement.

La nature longitudinale de la DAL permet d'effectuer des recherches personnalisées relativement aux phénomènes dynamiques, ainsi que de dégager des tendances transversales représentatives. Ce sont surtout les ministères gouvernementaux qui se servent des données pour évaluer les programmes et soutenir les recommandations stratégiques. Les universitaires, les conseillers privés et les chercheurs de Statistique Canada utilisent également ces données pour analyser la situation socioéconomique.

Période de référence : Les années civiles, 1982 à 2014. Année civile « y » pour le revenu ; fin de l'année civile « y » pour l'âge ; moment spécifique (en général ; en avril de l'année civile « y+1 ») pour les renseignements sur l'adresse.

Période de collecte : Les déclarations de revenus sont principalement remplies au printemps suivant l'année de référence. Les fichiers T1 pour l'année civile « y » sont reçus de l'Agence du revenu du Canada (ARC) en janvier de l'année « y+2 ».

Sujets

Immigration et diversité ethnoculturelle (anciennement Diversité ethnique et immigration)
Imposition des particuliers et des ménages
Marché du travail et revenu
Revenu du ménage, revenu familial et personnel
Revenu, pensions, dépenses et richesse

Sources de données et méthodologie

Population cible

La population visée est constituée des personnes ayant présenté une déclaration de revenus au gouvernement fédéral. Plus précisément, toutes les personnes qui ont un numéro d'assurance sociale et qui ont rempli une déclaration de revenus T1 pour l'année en question sont comprises. La population comprend également un petit nombre de membres de la famille des déclarants qui n'ont pas eux-mêmes présenté de déclaration T1, mais qui avaient un numéro d'assurance sociale et qui ont soit bénéficié de l'Allocation canadienne pour enfants, soit reçu un feuillet T4 - État de la rémunération payée, soit ont été inscrits à titre de personnes à charge sur la déclaration T1 de leur conjoint ou de leur conjointe.

Élaboration de l'instrument

Cette méthodologie ne s'applique pas.

Échantillonnage

Il s'agit d'une enquête longitudinale par échantillon.

La base de sondage est construite à partir de la publication annuelle du Fichier sur la famille T1. Seuls les enregistrements des particuliers qui ont un numéro d'assurance sociale peuvent être choisis, et leur taux d'échantillonnage est de 20%. Un échantillon de 20% de la banque de données longitudinales sur les immigrants (5057) est inclus. Les unités d'enquête sont les particuliers, mais on conserve également les renseignements sur les caractéristiques de leur famille pendant l'année de référence. Aucune stratification n'est effectuée puisque le poids d'échantillonnage est égal pour toutes les unités. L'échantillonnage est effectué une fois pour chaque enregistrement, de telle sorte que, si une personne est choisie dans une année de référence particulière, elle sera aussi choisie dans n'importe quelle autre année ultérieure (ou antérieure) dans la mesure où elle est présente dans le Fichier sur la famille T1.

Dans le cadre des projets longitudinaux, il est possible de coupler seulement les données des années où il existe un identificateur fiable : seules les personnes qui ont rempli une déclaration de revenus T1 ou qui ont reçu une PFCE et la majorité de leurs conjoints et enfants de moins de 19 ans non déclarants qui ont déjà produit une déclaration disposent d'un identificateur fiable et peuvent être suivis au fil des ans. Cela limite l'analyse longitudinale représentative aux particuliers qui ont commencé à produire des déclarations de revenus et à leur partenaire. Toutefois, ce groupe constitue environ 75% des estimations démographiques officielles.

Sources des données

Collecte des données pour cette période de référence : 1982-01-01 à 2014-12-31

Les données sont tirées de fichiers administratifs et sont dérivées de diverses enquêtes de Statistique Canada et/ou d'autres sources.

Les déclarations de revenus sont principalement remplies au printemps suivant l'année de référence. Les fichiers T1 sont habituellement reçus de l'Agence du revenu du Canada (ARC) un an et un mois après la fin de la période de référence pour les renseignements sur le revenu. Le fichier sur les familles T1 est généralement prêt pour l'extraction un an et demi après la fin de la période de référence pour les renseignements sur le revenu. Une fois que le fichier T1 sur les familles est disponible, les données administratives longitudinales sont tirées de ce fichier et ensuite liées aux années précédentes. Il s'agit d'un procédé qui prend approximativement deux mois.

Toutes les données administratives et longitudinales sont des microenregistrements extraits des publications annuelles du Fichier sur la famille T1, qui en constituent la base. L'entrée pour numéro d'enregistrement 4105 contient d'autres renseignements détaillés sur les sources de ce fichier. Un autre fichier recoupé contenant des numéros d'assurance sociale est transmis chaque année par l'Agence du revenu du Canada. Son utilisation permet un couplage fiable entre les années pour les personnes dont le numéro d'assurance sociale change au fil du temps. Les caractéristiques-clés de l'échantillon de 20 % des immigrants récents sont obtenues par couplage avec un extrait de la banque de données longitudinales sur les immigrants. En outre l'information des Comptes d'épargne libre d'impôt (CELI) de 2009 à 2014 a été ajoutée à la banque de Données administratives longitudinales (DAL).

Détection des erreurs

Presque toutes les détections d'erreurs et les vérifications des champs de revenu ont lieu durant la conception du fichier des familles T1. Les valeurs aberrantes sont relevées et la plausibilité de ces enregistrements est vérifiée manuellement. De plus, les différents éléments de certaines formules mathématiques sont vérifiés et les problèmes de saisie relevés sont également corrigés. Toutes les vérifications sont effectuées au niveau des microenregistrements. Pendant l'échantillonnage et le traitement des données administratives longitudinales d'une nouvelle année de référence du Fichier des familles T1 annuel, quelques comparaisons longitudinales de la cohérence au niveau des microenregistrements sont effectuées. En particulier, une valeur constante et uniforme pour chaque particulier est attribuée pour le sexe, l'année de naissance et l'année de décès.

Imputation

Aucune imputation n'est effectuée pour les données administratives longitudinales dérivées du Fichier des familles T1. Pour obtenir des renseignements plus détaillés sur la création des familles et les imputations effectuées pendant la conception du Fichier des familles T1, veuillez consulter le numéro d'enregistrement 4105 (Estimations annuelles du revenu des familles de recensement et des particuliers [Fichier des familles T1]) de la Base de métadonnées intégrée. En général, si un particulier identifiable n'était pas un déclarant lors d'une année précise, très peu de renseignements sur le revenu sont disponibles pour cette année en question.

Estimation

Les tableaux CANSIM 204-0001, 204-0002, 204-0101, 204-0102, et 204-0103 sont tirés de la Banque de données administratives longitudinales (DAL). De façon générale, deux types d'estimations sont tirées des DAL. Les estimations des caractéristiques individuelles transversales et toutes les estimations longitudinales se font normalement sans étalonnage et sans rajustement pour tenir compte de la non-réponse. Une simple pondération constante selon l'inverse du taux d'échantillonnage est suffisante pour permettre d'obtenir les estimations. Les estimations des caractéristiques des familles sont semblables, bien que les grandes familles soient plus susceptibles d'être choisies. Il faut donc utiliser une pondération variable des familles pour établir les estimations. Normalement, le calcul de la variance est direct, mais il se peut que certains calculs nécessitent une méthode légèrement plus complexe, comme la méthode Rao-Demnati ou, dans le cas des sous-populations suffisamment petites, une technique bootstrap.

Évaluation de la qualité

La plupart des procédures de contrôle de la qualité sont effectuées lors de la conception du Fichier des familles T1. Une fois à l'étape de l'intégration des enregistrements d'une nouvelle année dans les données administratives longitudinales, les principaux outils utilisés sont les comparaisons des totaux de contrôle avec ceux du Fichier des familles T1 en entier pour assurer un échantillon représentatif et faire en sorte que les champs ont été déterminés correctement. Une certaine analyse des tendances historiques est également effectuée.

Contrôle de la divulgation

La Loi interdit à Statistique Canada de rendre publique toute donnée susceptible de révéler de l'information obtenue en vertu de la Loi sur la statistique et se rapportant à toute personne, entreprise ou organisation reconnaissable sans que cette personne, entreprise ou organisation le sache ou y consente par écrit. Diverses règles de confidentialité s'appliquent à toutes les données diffusées ou publiées afin d'empêcher la publication ou la divulgation de toute information jugée confidentielle. Au besoin, des données sont supprimées pour empêcher la divulgation directe ou par recoupement de données reconnaissables.

Seuls les employés et les personnes réputées être employées de Statistique Canada peuvent obtenir l'autorisation d'accéder aux microdonnées confidentielles. Avant leur diffusion, les données agrégées font l'objet de mesures rigoureuses de non-divulgation:

1. Un poids de perturbation est utilisé dans tous les calculs des chiffres, des montants ou des autres analyses statistiques.
2. Toute cellule doit contenir un minimum de cinq répondants choisis (ou familles), à défaut de quoi elle est supprimée.
3. Chaque cellule où il est possible qu'un déclarant (ou une famille) prédomine est vérifiée; si un problème de ce genre est décelé, la cellule est supprimée.
4. Les suppressions primaires sont suivies de suppressions complémentaires, le but étant d'éviter que l'information supprimée puisse être trouvée par recoupement. Il s'agit d'un processus itératif, où chaque suppression complémentaire peut rendre nécessaire une autre suppression complémentaire. Des modèles sont créés de manière à réduire la chose le plus possible.
5. Enfin, les chiffres et les montants sont arrondis; les chiffres de l'échantillon sont arrondis au multiple de cinq le plus près et les montants au multiple de 100 $ le plus près (ou 10 $ si le montant est plus petit que 1 000 $).
6. Les totaux et les pourcentages sont établis à partir des chiffres et des montants moyens arrondis pour éviter de contrer les procédures de non-divulgation.

Outre ces règles générales, il peut arriver qu'un comité doive effectuer une évaluation unique des cas spéciaux.

Révisions et désaisonnalisation

L'ensemble de données ne fait pas l'objet de calendarisation, d'étalonnage ou de désaisonnalisation. Dans le cas de certains projets pour lesquels l'ensemble de données est utilisé, il est possible d'effectuer le rajustement des pondérations pour tenir compte du taux de production (p. ex., comparativement aux estimations démographiques officielles) ou d'établir des données repères au moyen des totaux de contrôle T4 pour les revenus d'emploi. En général, aucun rajustement n'est effectué, et il n'existe pas de politique de révisions régulières.

Les montants en dollars sont toujours exprimés en dollars courants, comme c'est le cas sur les déclarations de revenus. Pour certaines analyses, il est possible de procéder à la déflation, à l'inflation ou au maintien des montants en dollars constants en utilisant des indices appropriés permettant d'établir des comparaisons sur plusieurs années.

Exactitude des données

Les détails de l'exactitude des données transversales se trouvent dans l'entrée pour le Fichier des familles T1 (numéro d'enregistrement 4105 - (Estimations annuelles du revenu des familles de recensement et des particuliers [Fichier des familles T1]). Les principales différences par rapport au Fichier des familles T1 sont les composantes longitudinales et d'échantillonnage.

Comme le taux d'échantillonnage est relativement élevé, à savoir 20 %, la variation attribuable à l'échantillonnage est plutôt faible pour les populations relativement petites. Par exemple, pour les chiffres de population de personnes ayant des caractéristiques particulières, le coefficient de variation (c.v.) attribuable à l'erreur d'échantillonnage est de 20 % ou moins lorsque la population compte 100 unités ou plus, de moins de 10 % lorsque la population excède 400 unités et de moins de 2 % pour les populations de 10 000 personnes ou plus. Lorsque le calcul des pourcentages d'une population ayant des caractéristiques particulières est effectué, le c.v. attribuable à l'échantillonnage serait inférieur à 10 % dans la mesure où le chiffre de population est de 400 habitants ou plus et où le pourcentage estimé est de 50 % ou plus, ou si le chiffre de population est de 1 000 personnes ou plus, et que le pourcentage estimé est supérieur à 20 %.

Dans le cas des projets longitudinaux, la couverture sera inférieure à celle observée dans toute année transversale simple : la restriction principale est l'incapacité de suivre les particuliers sans identificateur fiable. De plus, le particulier doit faire partie de toutes les années à l'étude. Par exemple, lorsque les transitions d'un an sont examinées, 95,9 % des particuliers qui ont un enregistrement pour l'année de référence du revenu 2013 en ont également un en 2014. L'émigration ou le décès expliquent 0,8 % du groupe original de 2013, donc un pourcentage de 3,2 % demeure sans explication; il pourrait s'agir de non-déclarants ou de déclarants tardifs en 2014. Lorsque la composition de la cohorte de 2014 est examinée, 94,9 % des particuliers étaient également dans le fichier de 2013, 2,7 % de ceux-ci n'avaient jamais produit une déclaration de revenus ou étaient arrivés au Canada en 2014, et 2,3 % étaient des non déclarants ou des déclarants tardifs en 2013 (parmi eux, 56,3 % avaient produit une déclaration de revenus en 2012). L'étude sur des périodes prolongées donnerait lieu à davantage d'observations où il manque des données sur le revenu pour au moins un an.

Documentation

Dictionnaire Données administratives longitudinales
Dernière révision : 16 janvier 2017.
- Format : Dictionnaire Données administratives longitudinales - ARCHIVÉ - HTML[ARCHIVÉ - HTML] Dictionnaire Données administratives longitudinales - ARCHIVÉ - PDF, 2574.57[ARCHIVÉ - PDF, 2574.57 kb]

Date de modification :: 2016-11-18

Sélection de la langue

Recherche et menus

Recherche