Enquête nationale auprès des apprentis (ENA)

Information détaillée pour 2015

Statut :

Active

Fréquence :

Occasionnelle

Numéro d'enregistrement :

3160

Il y a actuellement un besoin criant d'ouvriers hautement qualifiés au Canada. L'apprentissage de métiers est une source importante de travailleurs qualifiés pour l'économie canadienne. L'enquête nationale auprès des apprentis recueille des renseignements pour comprendre les questions liées à l'apprentissage de métiers. Ceci inclut les facteurs qui influencent sur l'achèvement et la certification des apprentis, et ce, avant, pendant et après leur participation à l'apprentissage d'un métier.

Date de la parution - 29 mars 2017

Aperçu

Ce nouveau cycle de l'ENA aidera à décrire et à mieux comprendre le parcours des apprentis et leurs expériences, y compris ce qui motive les personnes à se tourner vers les métiers spécialisés, les expériences à l'égard de la formation en apprentissage, et les résultats du marché du travail durant et après un programme d'apprentissage. Cette information permettra de veiller à ce que les systèmes d'apprentissage au Canada demeurent solides et continuent d'être un appui à l'économie canadienne en pleine évolution.

Les objectifs spécifiques consistaient à mieux comprendre :

- les parcours vers l'apprentissage et les raisons pour lesquelles les personnes ne se sont pas inscrites plus tôt;
- la progression dans le cadre d'un programme d'apprentissage et l'achèvement de celui-ci, y compris les obstacles à l'entrée et à l'achèvement;
- les expériences de certains groupes, comme les femmes, les Autochtones, les immigrants et les personnes ayant une incapacité;
- le financement de la formation en apprentissage.

Sujets

  • Éducation, formation et apprentissage
  • Formation professionnelle et niveau de scolarité
  • Résultats éducationnels
  • Travail

Sources de données et méthodologie

Population cible

L'enquête vise les apprentis inscrits dans les dix provinces et les trois territoires, selon deux types (statuts) d'apprentis et uniquement pour certaines années de référence. Les deux statuts visés sont les finissants et les décrocheurs. La population cible a été déterminée en deux étapes : au moment de la création de la base de sondage et au moment de la collecte.

Tout d'abord, la population cible a été déterminée au moment de la création de la base de sondage. Les finissants et les décrocheurs visés sont ceux qui ont terminé ou cessé leur programme d'apprentissage entre 2011 et 2013, et qui n'étaient inscrits à aucune formation d'apprentissage au 31 décembre 2013.

Puis, au moment de la collecte, il a été décidé de garder dans la population cible les apprentis sélectionnés dans l'échantillon qui avaient eu des activités d'apprentissage (c.-à-d. finissants ou décrocheurs) entre 2010 et 2013. Si elles n'avaient pas eu d'activités d'apprentissage entre ces deux années, ces personnes étaient considérées comme hors du champ de l'enquête.

Élaboration de l'instrument

Statistique Canada a élaboré le questionnaire de l'ENA en partenariat avec Emploi et développement social Canada (EDSC). Plusieurs outils et méthodes ont été utilisés pour élaborer le questionnaire de l'ENA:

- Des versions précédentes d'enquêtes faites sur le sujet de l'apprentissage de métiers, dont l'Enquête nationale auprès des apprentis de 2007;
- Des panels de discussions avec des experts internes et externes du sujet matière;
- Des questions standards de d'autres enquêtes de Statistique Canada comme, par exemple, l'utilisation de questions de l'Enquête sur la population active pour recueillir les données sur le travail des apprentis. De plus, d'autres questions provenant du contenu harmonisé de Statistique Canada ont également été utilisées;
- Le Centre de ressources en conception de questionnaire (CRCQ) de Statistique Canada pour mettre sur pied la mise à l'essai du questionnaire en utilisant le processus d'essai qualitatif en effectuant des entrevues individuelles avec des apprentis;
- Des changements au questionnaire ont été faits après chaque mise à l'essai et approuvés par le CRCQ et EDSC.

Échantillonnage

Il s'agit d'une enquête transversale par échantillon.

Un échantillon stratifié à un degré a été conçu pour cette enquête et, selon le budget alloué à l'enquête, un échantillon total d'environ 29 000 répondants a été déterminé. L'objectif principal du plan d'enquête était de faire en sorte que, dans la mesure du possible, les domaines intéressant les analystes soient bien représentés dans l'enquête, tout en respectant les contraintes budgétaires. Les analystes sont notamment intéressés par l'estimation de chiffres, de proportions, de moyennes et de médianes (p. ex. l'âge, la durée de la formation, le salaire) à l'intérieur de chaque domaine d'intérêt. Dans chaque secteur de compétence, les domaines d'intérêt sont le statut de l'apprenti au moment de la collecte (statut final) et les onze principaux groupes de métiers utilisés dans le Système d'information sur les apprentis inscrits. À l'échelon national, les métiers désignés Sceau rouge (qui sont au nombre de 45) et le sexe constituaient aussi des domaines d'intérêt. Comme les femmes représentent une proportion très faible de tous les apprentis, il n'est pas possible de calculer des estimations selon le sexe pour les provinces et les territoires, bien qu'on puisse être en mesure de le faire à l'échelon national.

Sources des données

Collecte des données pour cette période de référence : 2015-09-08 à 2016-03-31

Il s'agit d'une enquête à participation volontaire.

Les données sont obtenues directement auprès des répondants.

- Les fichiers IDENT (pour les trimestres 2014Q2, 2014Q1, 2013Q4, 2013Q3 et 2012Q4), ainsi que la Base de sondage pour les enquêtes auprès des ménages, ont été utilisés afin d'obtenir les informations de contact (principalement le numéro de téléphone) les plus à jour possible.
- La variable de revenu du fichier T1FF a été utilisée comme variable auxiliaire dans le cadre de l'imputation de la variable de revenu personnel du répondant.

Voir le(s) Questionnaire(s) et guide(s) de déclaration .

Détection des erreurs

Suite à la collecte, les fichiers individuels de données brutes ont été regroupés et ont subi une série d'étapes de traitement normalisé pour épurer les données et en assurer l'uniformité, augmentant de ce fait leur utilité. Ces vérifications ont été faites au microniveau et macroniveau.

La vérification de l'enchaînement des questions consiste à reproduire l'enchaînement de l'ordre des questions utilisé dans l'application et accorde la valeur « saut valide » aux questions qui ne s'appliquent pas au répondant. La valeur « non déclaré » a été attribuée aux non-réponses. Il s'agit de questions qui s'appliquaient au répondant, mais auxquelles le répondant n'a pas répondu. Dans une application par ITAO, ces valeurs sont habituellement accordées lorsque la réponse appartient à la catégorie « refus » ou « ne sais pas ».

De plus, divers types de contrôles ont été faits afin de détecter l'information manquante ou incohérente. Par exemple, des contrôles ont été effectués afin de vérifier les liens logiques entre les réponses. Les valeurs aberrantes ont été identifiées et ensuite mises à jour durant l'étape de l'imputation.

Imputation

L'imputation est le processus qui fournit des valeurs valides concernant les variables qui ont été retenues pour être modifiées, soit en raison de renseignements invalides ou de renseignements manquants. Les nouvelles valeurs sont établies de façon à préserver la structure sous-jacente des données et à garantir que les enregistrements qui en résultent passeront tous les contrôles requis. Autrement dit, l'objectif n'est pas de reproduire les véritables valeurs des microdonnées, mais d'établir des enregistrements intrinsèquement cohérents qui permettront de produire de bonnes estimations agrégées.

Nous pouvons faire la distinction entre trois types de non-réponses. Il y a non-réponse complète lorsque le répondant ne fournit pas le nombre minimal de réponses. Ces enregistrements sont supprimés et seront pris en compte au moment du processus de pondération (voir le section 12.0 dans le guide de l'utilisateur de l'ENA 2015). Il y a non-réponse lorsque le répondant ne donne pas une réponse à une question, mais qu'il passe à la question suivante. Ces non-réponses sont habituellement traitées en utilisant le code « non déclaré » ou en ayant recours à l'imputation. Enfin, il y a non-réponse partielle lorsque le répondant fournit le nombre minimal de réponses, mais qu'il ne termine pas l'interview. Ces enregistrements peuvent être traités comme des cas de non-réponse complète ou de non réponse à plusieurs questions.

Dans le cas de l'ENA, la technique de l'imputation par donneur a été utilisée pour compenser les données manquantes dans les cas de non réponse à une question et de non réponse partielle.

Estimation

L'Enquête nationale auprès des apprentis (ENA) est une enquête probabiliste. Dans le cadre de cette enquête, comme pour toute enquête probabiliste, l'échantillon est sélectionné de façon à représenter le plus fidèlement possible une population de référence — la population des apprentis — à une date précise. Par conséquent, chaque unité dans l'échantillon doit représenter un certain nombre d'unités dans la population. Si la base de sondage utilisée était parfaite (c. à d. qu'elle couvrait exactement la population d'intérêt) et que toutes les unités sélectionnées ont été dépistées, qu'on a communiqué avec celles-ci et qu'elles ont répondu au questionnaire de l'enquête, alors le poids déterminé par le plan d'échantillonnage attribué à chaque unité devrait représenter précisément et exactement le nombre d'apprentis compris dans la population cible. En pareil cas, l'utilisation de ce poids produira des estimations non biaisées. Toutefois, ce n'est pas le cas lorsque les enquêtes se trouvent aux prises avec la non réponse et des bases de sondage imparfaites. Des corrections de la pondération sont traditionnellement utilisées pour tenir compte de ces différents problèmes. Les profils de réponse doivent être examinés attentivement afin d'apporter les corrections appropriées pour tenir compte de la non réponse. On a constaté que la non réponse ne se produit pas de façon aléatoire ou uniforme dans la population, car différents taux de réponse ont été obtenus pour diverses sous populations. L'utilisation de techniques appropriées permettra de corriger le biais dû à la non réponse qui pourrait exister. De même, on a remarqué que les cas de personnes hors du champ de l'enquête ne se produisent pas de façon aléatoire dans la population et ont été observés à un taux très élevé, comme le montre le tableau 9.2 dans le guide de l'utilisateur de l'ENA 2015.

Cette enquête peut être perçue comme une enquête comportant deux phases : la première phase correspond à la sélection de l'échantillon selon la strate, et la deuxième phase, à un ajustement combiné de la non réponse et des unités hors du champ de l'enquête.

L'échantillon de l'ENA peut être divisé en plusieurs groupes selon les résultats de la collecte (voir le diagramme 1, section 12.0 dans le guide de l'utilisateur de l'ENA 2015). Tout d'abord, l'échantillon est divisé en unités résolues (R) et non résolues (U). Dans le cas de l'ENA, une unité résolue est une unité pour laquelle suffisamment d'information a été recueillie pendant la collecte pour déterminer si elle fait partie ou non du champ de l'enquête. Toutes les unités non résolues sont non répondantes au moment de la collecte. Puis, à l'intérieur de chacun des deux groupes, l'échantillon peut être divisé en unités faisant partie du champ de l'enquête (I) et en unité hors du champ de l'enquête (OOS). Enfin, les unités résolues faisant partie du champ de l'enquête peuvent être réparties entre les répondants (R) et les non répondants (NR). Les unités résolues représentent 61 % de l'échantillon, tandis que les unités non résolues représentent 39 % de celui-ci. Les unités non résolues sont constituées des unités non résolues faisant partie du champ de l'enquête (U IS) et des unités non résolues hors du champ de l'enquête (U OOS), selon des proportions inconnues. Les unités résolues comprennent trois groupes : les cas résolus de répondants faisant partie du champ de l'enquête (R IR), qui représentent 80 % des unités résolues, les cas résolus de non répondants faisant partie du champ de l'enquête (R INR), qui représentent seulement 5 % des unités résolues, et les unités résolues hors du champ de l'enquête (R OOS), qui représentent 15 % des cas résolus.

Plusieurs problèmes clés se posent relativement à la pondération de l'ENA. L'un de ces problèmes a trait au fait que nous ne savons pas si les unités non résolues font partie ou non du champ de l'enquête. Comme nous savons que 15 % des unités résolues sont hors du champ de l'enquête, nous supposons qu'une proportion significative des unités non résolues est aussi hors du champ de l'enquête. Il est aussi possible que le fait d'être hors du champ de l'enquête constitue un facteur de la non résolution (non réponse qu'on ne peut ignorer), mais cela est très difficile à évaluer. Comme les unités hors du champ de l'enquête ne font pas partie de la population d'intérêt, elles ne seront pas incluses dans le calcul des estimations de l'enquête (total, moyenne, rapport, etc.). Toutefois, elles ont une incidence sur la variabilité de ces estimations, en raison de l'incertitude concernant la population cible ou les totaux de domaines. Par conséquent, il est important d'estimer le plus précisément possible la proportion d'unités non résolues qui sont hors du champ de l'enquête, afin que la somme des poids de la partie comprise dans le champ de l'enquête rende compte le mieux possible des totaux véritables de la population cible et des domaines qui la constituent. Un autre problème a trait au fait qu'on ne dispose pas de chiffres connus de la population cible et qu'aucun étalonnage en fonction des totaux connus n'est possible. Pour toutes ces raisons, les poids sont calculés en trois étapes.

Étape 1. Poids de sélection

Au moment de la sélection, un poids de sondage initial est attribué à chaque apprenti, qui représente l'inverse de sa probabilité de sélection. Comme le plan de sondage de l'ENA est stratifié selon l'échantillonnage aléatoire simple à l'intérieur des strates, la probabilité de sélection de l'apprenti est indiqué dans la section 12.0 dans le guide de l'utilisateur de l'ENA 2015.

Étape 2. Prévision des unités non résolues qui font partie du champ de l'enquête en modélisant la probabilité de faire partie du champ de l'enquête ou non

Cette étape consiste à calculer la probabilité de faire partie du champ de l'enquête (ou d'être hors du champ de l'enquête) pour chaque unité non résolue. En utilisant les cas résolus comme données d'analyses étant donné que leur statut a été déterminé, un modèle de régression logistique a été élaboré au moyen des variables de la base de sondage comme variables explicatives (comme la province, le statut dans la base de sondage, le métier, l'année d'inscription, l'âge et le sexe). À partir de la probabilité du modèle logistique, des groupes homogènes d'inclusion (GHI) dans le champ de l'enquête ont été constitués (voir section 12.0 dans le guide de l'utilisateur de l'ENA 2015).

Étape 3 : Ajustement pour la non-réponse

Après l'étape 2, les cas non résolus peuvent être classés comme de la non-réponse dans le champ de l'enquête. Par conséquent, un ajustement typique de la non réponse (ajustement de deuxième phase) peut être appliqué aux unités dans le champ de l'enquête seulement. À cette fin, des groupes homogènes de réponse (GHR) ont été constitués. Ils sont déterminés au moyen d'une régression logistique, afin de prévoir la probabilité d'être un répondant, et d'une méthode de mise en grappes fondée sur la probabilité de réponse modélisée (voir section 12.0 dans le guide de l'utilisateur de l'ENA 2015).

Évaluation de la qualité

Les politiques et procédures internes de Statistique Canada ont été suivies afin d'assurer la grande qualité des données. Aux fins de leur validation, les résultats de l'ENA de 2015 ont été soumis à plusieurs procédures, décrites ci-dessous.
Aux différentes étapes de la conception de l'enquête, des mesures ont été prises pour en assurer la qualité. Par exemple, les méthodologistes ont évalué la qualité de la base de sondage, pour veiller à ce que l'enquête soit réalisée auprès d'une population complète et exacte. En outre, les taux de réponse ont été surveillés de près tout au long de l'étape de la collecte, pour s'assurer que le nombre de réponses était suffisant et permettait de produire des estimations de qualité aux fins de l'analyse des données. Par ailleurs, la collecte des données de l'ENA a été effectuée au moyen d'interviews téléphoniques assistées par ordinateur (ITAO), ce qui a permis d'intégrer des vérifications à l'application, de sorte que certaines d'entre elles ont pu être effectuées au moment de l'interview (p. ex. vérifications de la validité). En outre, à l'étape du traitement des données, on a assuré la qualité des données en vérifiant les valeurs aberrantes pour certaines variables clés, comme le revenu et l'âge, en plus d'avoir vérifié la cohérence.
Les données de l'ENA de 2015 ont été comparées avec celles d'autres enquêtes, dont le Recensement de 2011, l'Enquête nationale auprès des ménages et l'Enquête sur la population active, afin de garantir la cohérence des données par rapport aux variables et aux tendances de nature similaire. Les données de l'ENA de 2015 ont été comparées avec celles du cycle précédent de l'enquête (2007), afin de déceler tout résultat inhabituel ou inattendu. La fréquence de toutes les variables de l'ENA de 2015 a été passée en revue par des spécialistes sujet-matière, à l'échelle nationale, afin de vérifier si les réponses à des questions semblables étaient cohérentes et correspondaient à des tendances connues dans le domaine. Des tableaux croisés de variables semblables ont été créés pour s'assurer que les résultats se tenaient et ne sortaient pas de l'ordinaire. Une validation des renseignements de la base de sondage a aussi été réalisée pour trois variables (statut, métier et année) afin d'en vérifier l'exactitude. En outre, un contrôle de toutes les vérifications avec avertissement et vérifications de la cohérence a été effectué pour s'assurer que les règles ont été appliquées à chaque question du questionnaire et que l'enchaînement prévu du questionnaire a été respecté.

Contrôle de la divulgation

La loi interdit à Statistique Canada de divulguer toute information recueillie qui pourrait dévoiler l'identité d'une personne, d'une entreprise ou d'un organisme sans leur permission ou sans en être autorisé par la Loi sur la statistique. Diverses règles de confidentialité s'appliquent à toutes les données diffusées ou publiées afin d'empêcher la publication ou la divulgation de toute information jugée confidentielle. Au besoin, des données sont supprimées pour empêcher la divulgation directe ou par recoupement de données reconnaissables.

Afin de prévenir toute divulgation de données, une analyse de confidentialité est faite au moyen du Système généralisé de contrôle de la divulgation (G-Confid) de Statistique Canada. G-Confid est utilisé pour la suppression primaire (divulgation directe), ainsi que pour la suppression secondaire (divulgation par recoupements). Il y a divulgation directe lorsque la valeur dans une cellule de totalisation se compose de peu de déclarants ou que la cellule est dominée par quelques entreprises. Il y a divulgation par recoupements lorsque des renseignements confidentiels peuvent être extraits indirectement en rassemblant des renseignements provenant de différentes sources ou séries de données.

Révisions et désaisonnalisation

Cette méthodologie ne s'applique pas à cette enquête.

Exactitude des données

Pour juger de la qualité d'une estimation et en calculer les coefficients de variation, il faut d'abord établir l'écart-type. L'écart-type d'une estimation est également requis pour déterminer les intervalles de confiance. L'Enquête nationale auprès des apprentis (ENA) utilise un plan d'échantillonnage relativement simple, mais puisque l'étalonnage se fait en plusieurs étapes, il n'existe pas de formule simple permettant de calculer les estimations de la variance. Par conséquent, il faut utiliser une méthode par approximation, à savoir la méthode bootstrap. À l'aide des poids bootstrap et du progiciel BootVar, dont il sera question à la sous-section ci-dessous, les coefficients de variation et les autres mesures de variance peuvent être calculés avec précision.

1. Méthode bootstrap pour l'estimation de la variance
1) Un échantillon aléatoire simple de n-1 des n unités dans l'échantillon est sélectionné pour lequel chaque strate est prélevée indépendamment avec remise. Comme la sélection est effectuée avec remise, une unité peut être choisie plus d'une fois.
2) Cette étape est répétée R fois afin d'obtenir R échantillons bootstrap. Un poids bootstrap initial moyen est calculé à partir des R échantillons pour chaque unité échantillonnée dans la strate.
3) Les étapes 1 et 2 sont répétées à B reprises, où B est une valeur élevée, ce qui donne B poids bootstrap initiaux.
4) Pour chaque B échantillons produits à l'étape 3, les poids sont ajustés selon la même technique utilisée pour la pondération courante : correction pour la non-réponse, étalonnage, etc., ce qui permet d'obtenir B poids bootstrap moyens finaux pour chaque unité dans l'échantillon.
5) La variation des B estimations possibles correspondant aux B poids bootstrap est comparée à la variance de l'estimateur fondé sur la pondération courante; la variance peut donc être estimée par ce moyen.

Pour l'ENA, R=1 et B=1 000.

2. Progiciels statistiques pour l'estimation de la variance
2.1 BootVar
Les poids bootstrap sont fournis et doivent être utilisés pour calculer l'estimation de la variance. BootVar est un programme macro qui peut être utilisé pour calculer la variance en utilisant les poids bootstrap; il est disponible en format SAS. Ce progiciel à macro-instruction permet de calculer les variances pour les totaux, les rapports, les différences entre rapports, ainsi qu'effectuer des régressions linéaires et logistiques.

Le progiciel BootVar peut être téléchargé à partir du site Web des Centres de données de recherche de Statistique Canada.

2.2 Autres progiciels
Le module SAS/STAT du logiciel SAS propose des procédures, telles que SURVEYFREQ, SURVEYMEANS ou SURVEYREG, qui permettent de calculer la variance en fournissant les poids bootstrap, au moyen de l'option VARMETHOD=BRR de la procédure choisie.

D'autres logiciels commerciaux sont en mesure de bien calculer la variance d'échantillonnage avec les poids bootstrap fournis (p. ex. SUDAAN [avec l'option DESIGN = BRR], WesVar et Stata9.

Ces méthodes peuvent être adaptées pour l'ENA en se fondant sur l'article : Phillips, Owen. 2004. « Comment utiliser les poids bootstrap avec WesVar et SUDAAN », Bulletin technique et d'information des Centres de données de recherche, vol. 1, no 2, no 12-002-XWF au catalogue de Statistique Canada.

Date de modification :