La Base de données ouvertes sur les établissements d'enseignement (BDOEE)

Information détaillée pour août 2019

Statut :

Active

Fréquence :

Occasionnelle

Numéro d'enregistrement :

5301

En vue d'explorer l'utilisation des données ouvertes pour produire les statistiques officielles et de soutenir la recherche géospatiale dans divers domaines, le Laboratoire d'exploration et d'intégration des données (LEID) a entrepris un projet en vue de créer une base de données sur les établissements d'enseignement qui soit accessible, harmonisée et fondée sur les données ouvertes ayant été publiées par plusieurs ordres de gouvernement au Canada.

Date de la parution - 19 août 2019

Aperçu

La base de données ouverte sur les établissements d'enseignement (BDOEE) est une compilation de données extraites de sources ouvertes et d'Internet sur les emplacements et les types d'établissements d'enseignement au Canada; initialement publiées par les gouvernements municipaux, régionaux et provinciaux. Il s'agit d'un répertoire centralisé et harmonisé de données sur les établissements d'enseignement mis à disposition sous Licence du gouvernement ouvert - Canada. La base de données devrait être mise à jour périodiquement à mesure que de nouvelles données ouvertes seront diffusées par les sources gouvernementales.

Les données ouvertes sont avantageuses, car elles sont accessibles gratuitement à tous les utilisateurs. Les particuliers, les organismes officiels et non officiels et les entreprises peuvent utiliser ces données et d'autres renseignements pour mener des recherches et promouvoir l'innovation dans un grand nombre de domaines.

Cet ensemble de données figure parmi les divers ensembles de données créés dans le cadre de l'Environnement de couplage de données ouvertes (ECDO). L'ECDO est une initiative exploratoire qui vise à accroître l'utilisation et l'harmonisation des données ouvertes provenant de sources faisant autorité en fournissant une série d'ensembles de données diffusés en vertu d'une licence unique, ainsi que du code source libre pour relier ces ensembles de données. On peut accéder aux ensembles de données et au code de l'ECDO sur le site Web de Statistique Canada à l'adresse suivante :
https://www.statcan.gc.ca/fra/ecdo

Période de référence : la période de référence pour ces données est variable. Pour plus de renseignements sur la période de référence d'un ensemble de données particulier, veuillez consulter le portail de données ouvertes de ce fournisseur de données.

Sources de données et méthodologie

Population cible

Un établissement d'enseignement est un lieu physique dont l'activité première consiste à donner un enseignement à un ensemble d'élèves ou de participants. Tous les établissements d'enseignement au Canada sont pris en compte dans cet ensemble de données. Cela inclut tous les niveaux d'éducation, les écoles privées et publiques sans exclusions quant au mode de financement, au type d'exploitant, au domaine, à la confession, au type d'élève, au lieu, etc. Il convient de souligner que les établissements dans les réserves et hors réserve sont couverts dans cette base de données.
Compte tenu de cette définition, la base de données couvre des établissements tel que les services d'éducation de la petite enfance, la maternelle, les établissements primaires, secondaires et postsecondaires, et des centres de formation professionnelle précis (comme les écoles de coiffure). La base de données n'inclut pas les établissements d'enseignement virtuels et les garderies.

Élaboration de l'instrument

Ce type de méthodologie ne s'applique pas à ce programme statistique.

Échantillonnage

Ne s'applique pas.

Sources des données

Collecte des données pour cette période de référence : 2019-01-01 à 2019-07-31.

Les ensembles de données individuels ont été téléchargés du portail de données ouvertes respectif du gouvernement les ayant publiés. En plus des bases de données faisant l'objet d'une licence ouverte, la BDOEE comprend également un ensemble de listes accessibles au public d'établissements d'enseignement dont l'inclusion a été autorisée par les fournisseurs de données.

La première composante de traitement de la base de données comprenait le reformatage des données sources au format CSV et la mise en correspondance des attributs de l'ensemble de données original avec les noms des variables normalisées (colonnes). Les données d'adresse concaténées ont été analysées et séparées dans les variables de lieu respectives au moyen de libpostal, une solution de traitement du langage naturel pour l'analyse des adresses. Les fichiers et les champs de données originaux ont été convertis dans des formats et des champs normalisés à l'aide du logiciel personnalisé OpenTabulate. Déduplication a été fait au moyen de la mise en correspondance floue et parfaite de chaînes de caractères.

Détection des erreurs

Pendant le traitement, les inscriptions comportant un code postal incorrect ou un format de codage de la province/territoire de deux lettres ont été séparées des données nettoyées et identifiées comme étant erronées, puis elles ont été corrigées manuellement. Un nombre limité d'inscriptions ont été corrigées manuellement lorsqu'il était évident que l'analyse n'avait pas été réalisée correctement.

Imputation

Les sources de données originales utilisent diverses normes, classifications et nomenclatures pour décrire le niveau d'éducation ou les années scolaires. La Classification internationale type de l'éducation (CITE) est utilisée pour fournir une définition normalisée du niveau d'éducation et permet l'imputation des niveaux de la CITE d'un établissement à partir de ses années scolaires ou niveau d'éducation correspondant dans les données originales.

Les niveaux de la CITE sont obtenus directement à partir des années scolaires indiquées dans les données du fournisseur, si des années sont accessibles. Autrement, le niveau d'éducation est converti en années scolaires, qui sont ensuite mises en correspondance avec les niveaux de la CITE.

Les noms de subdivision de recensement (SDR) proviennent de deux attributs différents dans les données. Le premier attribut est les coordonnées géographiques, à savoir la latitude et la longitude. Le second attribut est le nom de la ville, pour lequel une mise en correspondance parfaite est faite entre le nom de la municipalité de chaque établissement d'enseignement et une liste de noms de SDR.

Estimation

Cette méthodologie ne s'applique pas à ce programme statistique.

Évaluation de la qualité

La validation de l'ensemble de données n'a pas été entreprise, car les données fournies ont été recueillies telles quelles.

Contrôle de la divulgation

Cette méthodologie ne s'applique pas.

Révisions et désaisonnalisation

Cette méthodologie ne s'applique pas à cette enquête.

Exactitude des données

Cette méthodologie ne s'applique pas.

Date de modification :