Recensement de la population - contre-vérification des dossiers (CVD)

Information détaillée pour 10 mai 2016

Statut :

Active

Fréquence :

Aux 5 ans

Numéro d'enregistrement :

3902

Après chaque recensement depuis le Recensement de 1961, la Contre-vérification des dossiers (CVD) a permis d'évaluer le sous-dénombrement de la population au recensement. La CVD estime le nombre de personnes omises lors du recensement.

Date de la parution - 29 mars 2018 (Estimations provisoires); 27 septembre 2018 (Estimations finales)

Aperçu

Après chaque recensement depuis la Recensement de 1961, la Contre-vérification des dossiers (CVD) a permis d'évaluer le sous-dénombrement de la population au recensement. La CVD estime le nombre de personnes omises lors du recensement. Les résultats de la CVD sont combinés aux estimations du nombre de personnes dénombrées plus d'une fois provenant de l'Étude sur le surdénombrement du Recensement afin de calculer le sous-dénombrement net.

Le sous-dénombrement de la population est considéré comme l'une des plus importantes sources d'erreurs touchant les données du recensement. Il introduit un biais négatif dans la mesure où les chiffres publiés par le recensement sous-estiment les vrais totaux de la population. Le surdénombrement par contre, introduit un biais positif car les données du recensement surestiment alors les vrais totaux de la population. Ces deux sources d'erreur peuvent également fausser les répartitions des caractéristiques de la population estimées à partir des données du recensement si les personnes surdénombrées et omises ne possèdent pas les mêmes caractéristiques que les personnes dénombrées une seule fois.

Période de référence : Journée du recensement

Période de collecte : Après le recensement

Sujets

  • Population et démographie

Sources de données et méthodologie

Population cible

La population cible est identique à celle du recensement. Le recensement s'adresse à tous les hommes, femmes et enfants qui vivent au Canada le jour du recensement ainsi qu'aux citoyens canadiens temporairement à l'étranger, soit sur une base militaire, en mission diplomatique, en mer ou à quai à bord d'un navire marchand enregistré au Canada. Les personnes au Canada qui détiennent le statut de résident non permanent, un permis de séjour pour étudiant ou un permis de travail, ainsi que les personnes à leur charge, font également partie du recensement.

Les bases de sondage utilisées par l'enquête ne couvrent pas les personnes émigrées ou hors pays lors du recensement précédent qui n'ont pas rempli de questionnaire du recensement et qui sont revenues durant la période intercensitaire (« Canadiens de retour dans une province »), de même que les personnes de retour des territoires dans les provinces et celles qui étaient dans des réserves indiennes ou établissements indiens partiellement dénombrés au recensement précédent et dénombrés dans le présent recensement. Pour cette raison, la population observée n'inclut pas ces populations, estimées à un total de 260 000 personnes pour la CVD de 2011.

Élaboration de l'instrument

Avant la CVD de 2016, les utilisateurs des données de la CVD ont été consultés pour discuter de changements possibles, mais le contenu de l'instrument de collecte de la CVD est demeuré relativement stable à travers le temps. Trois versions du questionnaire ont été utilisées pour la CVD de 2016 : une pour les réponses par la personne choisie, une pour les réponses par procuration et une pour les cas où la PC était décédée avant le 10 mai 2016. Chaque version a été révisée par le Centre de ressources en conception de questionnaires de Statistique Canada.

Le principal mode de collecte était par interviews téléphoniques assistées par ordinateur (ITAO). L'application ITAO comprenait le contenu des trois questionnaires, avec des cheminements et formulations différents selon le type de répondant. L'application a été testée en profondeur avant la collecte.

Échantillonnage

Il s'agit d'une enquête transversale par échantillon.

Un plan d'échantillonnage aléatoire systématique stratifié a été utlisé pour sélectionner un échantillon de personnes.

La base de sondage a été formée à partir de six sources indépendantes du Recensement de 2016. Les cinq premières ont été utilisées pour la sélection d'un échantillon servant à l'estimation du sous-dénombrement dans les dix provinces tandis que les estimations pour les trois territoires étaient calculées grâce aux échantillons tirés de la dernière base seulement.

Au niveau des provinces, les deux premières bases couvrent les personnes qui faisaient partie de la population cible du Recensement de 2011. Elles sont représentées par toutes les personnes dénombrées au Recensement de 2011 en plus des personnes omises par le recensement, représentées par la portion de l'échantillon de personnes de la CVD de 2011 qui ont été classifiées comme omises. Afin de représenter les personnes qui se sont ajoutées à la population cible depuis le recensement précédent, les naissances et les immigrants intercensitaires (c.-à-d. entre les Recensements de 2011 et 2016) ont été ajoutés, de même que les résidents non permanents en date du jour du recensement. La base de sondage des trois territoires est formée à partir de leur fichier d'assurance-santé respectif.

Le plan d'échantillonnage variait d'une base à l'autre. Dans la base du Recensement 2011, le plan d'échantillonnage était un plan stratifié à un seul degré. La population a été stratifiée par province de résidence, sexe, âge et état matrimonial. Les personnes dénombrées au Recensement de 2011 dans des réserves indiennes formaient des strates séparées. Dans la base des territoires, le plan d'échantillonnage était également un plan stratifié à un degré. La population était stratifiée par territoire de résidence, sexe et âge.

La base des personnes omises est une base de sondage échantillonnale puisqu'il n'existe pas de liste de toutes les personnes omises au Recensement de 2011. L'échantillon de cette base était constitué de tous les cas classés « omis » lors de la CVD de 2011. L'échantillon n'est pas stratifié comme tel, quoi qu'il y ait une stratification implicite, car les cas omis en 2011 provenaient de bases et de strates différentes.

La base des naissances a été stratifiée par province de résidence de la mère. La base des immigrants et celle des résidents non permanents (détenteurs de permis et revendicateurs de statut de réfugié) étaient aussi stratifiées par province.
Lorsqu'on utilise des bases de sondage multiples, comme c'est le cas pour la CVD, la possibilité existe qu'une personne soit incluse dans plus d'une base. Par exemple, une personne qui est incluse dans la base des immigrants pouvait être au Canada en mai 2011 avec un permis de travail et aurait été alors dénombrable au Recensement de 2011. Elle serait donc à la fois dans la base des immigrants, et dans celle du recensement si elle était dénombrée ou dans celle des personnes omises si elle était omise. Il est donc important d'identifier tous les cas de chevauchement de base, sinon les estimations produites risquent d'être trop élevées puisque des personnes se trouveraient à être comptées deux fois dans les bases de sondage. Autant que possible ce chevauchement a été identifié lors de la construction des bases de sondage, mais une partie a également été identifiée plus tard en utilisant l'information fournie par les répondants.

Il a été décidé que la taille totale de l'échantillon de 2016 serait similaire à celle de la CVD de 2011. La répartition de l'échantillon a été effectuée en deux étapes. Premièrement, l'échantillon national a été réparti entre les provinces en utilisant une combinaison d'une répartition à variance égale afin d'obtenir la même variance pour toutes les estimations provinciales du taux de sous-dénombrement et d'une répartition optimale, de façon à produire l'estimation nationale du taux de sous-dénombrement affichant la variance la moins élevée. Deuxièmement, on a fait la répartition des échantillons provinciaux entre les strates des provinces. Cette répartition a été déterminée grâce à la méthode de répartition optimale, basée sur les taux historiques de sous-dénombrement, les taux historiques de non-réponse et la taille de la strate. La base des personnes omises représentait une exception, puisque toutes les personnes considérées comme des personnes omises lors de la CVD de 2011 ont été choisies.

La répartition résultante n'est qu'approximativement optimale étant donné que des hypothèses ont dû être émises à propos de la taille de certaines populations, notamment le nombre prévu de naissances et d'immigrants intercensitaires, au moment de faire la répartition. L'échantillon total final réparti parmi les bases était de 70 467 personnes:
- 53 663 pour la base du recensement;
- 4 745 pour la base des omis;
- 4 026 pour la base des naissances;
- 2 958 pour la base des immigrants;
- 2 480 pour la base des résidents non permanents;
- 2 595 pour les territoires.

Dans chaque strate, la liste des personnes était triée selon certains critères, puis un échantillon aléatoire systématique était sélectionné. Ceci assurait d'une bonne représentativité de l'échantillon pour chacun des critères de tri. Les variables de tri variaient en fonction de la base de sondage. Pour la base du recensement, la population était triée par type de logement (privé ou collectif), âge et région géographique. Pour les strates des réserves indiennes, le tri se faisait aussi par sexe (pour le reste de la base du recensement, le sexe était une variable de stratification). Pour la base des naissances, un tri par année de naissance de l'enfant et âge de la mère était fait. Les strates de la base des immigrants étaient triées par année d'immigration et âge. Pour la base des résidents non permanents, le tri se faisait par type de permis et statut de réfugié, sexe et âge. Pour les strates de la base des territoires, le tri se faisait par géographie et âge.

Sources des données

Collecte des données pour cette période de référence : janvier 2017 à juin 2017

Il s'agit d'une enquête à participation obligatoire.

Les données sont obtenues directement auprès des répondants.

Bien que l'Enquête CVD de 2016 ait été multimodale, le principal mode de collecte était l'Interview Téléphonique Assistée par ordinateur (ITAO). L'application d'ITAO a été conçue à partir d'un grand nombre des normes fixées pour l'ensemble des questionnaires d'ITAO utilisés à Statistique Canada. L'application était formée de divers modules interreliés et accessibles par l'interface générique des bureaux régionaux. Les intervieweurs ont été affectés aux cas en fonction de la langue et en fonction des cas qui exigeaient du dépistage ou non. Par définition, la collecte était par procuration pour les personnes choisies (PC) de moins de 18 ans ou les personnes présumées décédées. On a aussi utilisé les réponses par procuration lorsque la PC n'était pas disponible pendant la période de collecte ou lorsqu'elle était difficile à joindre.

L'interview ITAO prenait en moyenne moins de 15 minutes. Cependant, le temps réel consacré à chaque cas était beaucoup plus long, étant donné le nombre de tentatives de contact requises et tout le travail de dépistage à effectuer.

Des questionnaires papier dans les deux langues officielles étaient disponibles pour les PC contactées par téléphone et qui demandaient un questionnaire papier. Les personnes choisies que le bureau régional (BR) ne réussisait pas à joindre par téléphone et qui avaient une adresse postale valide (selon la détermination du BR) ont reçu une trousse du bureau central (BC) comprenant les différentes versions du questionnaire, une lettre expliquant l'enquête, et des instructions pour choisir le bon questionnaire ainsi que la façon de le remplir. Enfin, des intervieweurs sur place ont mené certaines interviews en utilisant le questionnaire papier. La saisie des données à partir des questionnaires papier a été effectuée au BC à l'aide du système d'ITAO. Il faut beaucoup de coordination pour opérationnaliser un système de collecte multimodale séquentielle comme la CVD de 2016. Sur les 12 790 questionnaires remplis, 94,8 % l'ont été par ITAO, 4,6 % par autodénombrement et 0,5 % par interview sur place.

De nombreuses sources de données administratives ont été utilisées lors des différentes opérations de la CVD. Pour construire les bases de sondage, les données des statistiques de l'état civil sur les naissances intercensitaires ont été utilisées, tout comme les données administratives provenant de Immigration, Réfugiés et Citoyenneté Canada au sujet des immigrants et des résidents non permanents et les fichiers de l'assurance-santé de chacun des trois territoires. Afin de mettre à jour l'information géographique, en particulier pour l'échantillon du recensement et des omis dont l'information datait de 2011, on procède à un appariement aux fichiers de l'Agence de revenu du Canada (ARC) dont celui d'Impôt sur le revenu des particuliers de 2010 à 2015 et ceux de prestations fiscales canadiennes pour enfants de 2015-2016. On vérifie également si des personnes sélectionnées sont décédées à l'aide des fichiers de l'ARC et des données de la statistique de l'état civil. Dans le cadre de la préparation de l'échantillon, les cas ont fait l'objet d'un appariement avec les données fiscales et des fichiers téléphoniques pour trouver les coordonnées à jour de la PC et des membres de son ménage. Ces différents fichiers de données administratives sont obtenus par Statistique Canada en vertu de l'article 13 de la Loi sur la statistique.

Voir le(s) Questionnaire(s) et guide(s) de déclaration .

Détection des erreurs

L'application ITAO comportait une vérification automatisée pour s'assurer que les données étaient recueillies pour la bonne personne. Une vérification similaire a été faite après la collecte. L'application ITAO comportait également plusieurs vérifications à propos des données manquantes ou incohérentes. Les interviewers avaient la possibilité de changer les données qu'ils avaient saisies. Les données étaient soumises à des vérifications après collecte pour les données manquantes, incomplètes ou incohérentes. La classification de chaque personne échantillonnée comme dénombrée, omise, ou hors cible a été faite après le traitement post collecte. Afin d'obtenir la plus haute qualité de classification, tous les cas potentiellement classés comme omis ont été revus en profondeur.

Imputation

Des imputations déterministes ont été utilisées pour quelques données manquantes, incomplètes ou incohérentes.

Estimation

L'estimation de la CVD se divise en deux parties. D'abord, il y a la pondération des personnes choisies (PC) qui est suivie du calcul du sous-dénombrement du recensement.

Le poids initial d'une PC de la base des personnes omises de 2011 correspond au poids final qui lui a été attribué lors de la Contre-vérification des dossiers (CVD) de 2011 au moment où la PC avait été classée comme omise. Pour les PC des autres bases de sondage, les poids initiaux sont attribués en fonction de l'inverse des probabilités de sélection dans l'échantillon.

Pour réduire les biais, les poids initiaux des répondants devaient être rajustés pour tenir compte de la non-réponse. Le poids des personnes pour lesquelles une classification n'avait pas pu être établie (appelées non-répondants) a été redistribué parmi les personnes pour lesquelles une classification a été établie (appelées répondants). Cette redistribution s'est faite en s'assurant que le poids des non-répondants qui présentent certaines caractéristiques a été redistribué parmi des groupes de répondants présentant les mêmes caractéristiques. Les caractéristiques utilisées étaient : l'information disponible sur la base de sondage, différents indicateurs fiscaux de même que l'information provenant de la collecte.

L'ajustement des poids initiaux pour tenir compte de la non-réponse était suivi par deux étapes de calage. La première était pour les bases des territoires. Après avoir rajusté les poids initiaux, on observe que traditionnellement l'estimation de personnes dénombrées dans les territoires est inférieure au chiffre comparable du recensement. Cette situation semble due à une sous couverture de la population cible du recensement dans les fichiers d'assurance-santé. Pour pallier cette sous-couverture, les poids des PC sélectionnées dans les territoires ont été rajustés afin que l'estimation du nombre de personnes dénombrées par âge et sexe égale le chiffre comparable du recensement pour ce territoire. Trois groupes d'âge ont été utilisés. Le deuxième calage était pour la base du recensement. Des variables auxiliaires fortement corrélées avec les classifications de la CVD de dénombré, décédé et omis ont été dérivées pour chaque personne sur la base du recensement. Les poids des répondants de l'échantillon provenant de la base du recensement ont ensuite été ajustés de façon à ce que les totaux estimés pour ces variables auxiliaires correspondent aux totaux connus de la base.

Finalement, le poids des PC de la base du Recensement de 2011 qui avaient été dénombrées plus d'une fois en 2011 étaient ajustés à la baisse pour tenir compte du fait que ces PC avaient plus d'une chance d'être sélectionnées.

On estime le sous-dénombrement de la population du recensement par le nombre pondéré de personnes omises moins le nombre de personnes exclues de la version CVD de la Base de données des réponses du Recensement (BDR CVD) de 2016. La BDR CVD est une version antérieure à la base de données finale des réponses du Recensement de 2016 qui était disponible avant la fin du traitement du recensement. Il y a quelques différences mineures entre la BDR CVD et les versions ultérieures des bases de données du recensement. En particulier, la BDR CVD, une base des données des personnes, comprend tous les enregistrements du recensement pour les personnes sauf trois exceptions. La première exception concerne les enregistrements du recensement imputés dans le cadre des imputations de ménages au complet. Le deuxième groupe concerne les enregistrements du recensement avec des noms invalides ou incomplets, ou des dates de naissance invalides ou incomplètes. Ce groupe est également connu comme étant les « dénombrements incomplets ». Le troisième groupe se rapporte à tous les enregistrements du recensement qui ont été ajoutés tardivement, après le début du traitement de la CVD.

Finalement, pour les besoins du calcul de variance des estimations de la CVD. la méthode du bootstrap était utilisée. Cinq cent poids bootstrap ont été créés.

Évaluation de la qualité

Les vérifications avant diffusion ont consistées en une comparaison avec d'autres sources de données publiées (chiffres du recensement du nombre de personnes dénombrées, estimations de la population des personnes décédées, émigrants, et la migration interne), et en une analyse des tendances historiques. De plus, il y a eu un processus exhaustif d'attestation après la diffusion des données provisoires avec les coordonnateurs statistiques provinciaux et territoriaux et d'autres clients clés.

Contrôle de la divulgation

La loi interdit à Statistique Canada de divulguer toute information recueillie qui pourrait dévoiler l'identité d'une personne, d'une entreprise ou d'un organisme sans leur permission ou sans en être autorisé par la loi. Diverses règles de confidentialité s'appliquent à toutes les données diffusées ou publiées afin d'empêcher la publication ou la divulgation de toute information jugée confidentielle. Au besoin, des données sont supprimées pour empêcher la divulgation directe ou par recoupement de données reconnaissables.

Aucune donnée au niveau micro n'est diffusée. Aucun tableau n'est produit pour les petites régions. Par ailleurs, il n'y a pas de cellules de nature délicate.

Révisions et désaisonnalisation

Cette méthodologie ne s'applique pas à ce programme statistique.

Non-réponse

Plusieurs mesures ont été prises pour minimiser l'impact de la non-réponse sur les estimations de la CVD. Premièrement, la majorité des cas ont été résolus sans recourir à la collecte. Des lettres d'introduction ont été envoyées aux PC avant la collecte. Le BC a fourni des pistes pour le dépistage, à l'aide de nombreux fichiers administratifs, afin d'aider à trouver chaque PC. La période de collecte, qui s'étendait sur six mois, permettait de multiples tentatives de contact pour chaque cas, de même qu'un dépistage intensif. La collecte multimodale, où des questionnaires ont été postés et des interviews en personne ont été réalisées pour les PC les plus difficiles à contacter, a aussi aidée à compléter plus d'interviews.

Il est important de noter que la définition d'un non-répondant, pour la classification, et, par conséquent, pour l'estimation, diffère de la définition habituelle d'un non-répondant, selon laquelle la collecte de données est tentée, mais non terminée. Il en est ainsi parce que pour procéder à la classification, on utilise des données de plusieurs sources, dont l'une peut être la collecte.

Exactitude des données

Les données de la CVD sont combinées avec les résultats de l'Étude sur le surdénombrement du Recensement et les données de la base de données finale du recensement pour estimer l'erreur de couverture de la population. Les erreurs-types sont fournies pour chaque estimation des tableaux de diffusion.

Date de modification :