Base de données ouverte des serres (BDOS)

Information détaillée pour 2023-2024

Statut :

Active

Fréquence :

Occasionnelle

Numéro d'enregistrement :

5443

Afin de soutenir la recherche, la planification et la politique dans divers domaines, le Laboratoire d'exploration et d'intégration des données (LEID) a entrepris un projet visant à créer une base de données accessible et harmonisée sur les infrastructures piétonniaires au Canada.

Date de la parution - 18 août 2025

Aperçu

La Base de données ouvertes sur les serres (BDOS) est une collection des serres numérisées et de leur emplacement au Canada offerte en vertu de la Licence du gouvernement ouvert du Canada.

La BDOS est un produit dérivé des données ouvertes qui tire parti de l'imagerie à moyenne et haute résolution de la Terre provenant de différentes sources, comme des portails de données ouvertes, des partenariats et des ententes contrôlées par des administrations municipales ou provinciales, ou fournie par des entreprises qui détiennent une offre à commande nationale avec le gouvernement fédéral ou par des agences spatiales internationales. Ce projet utilise des méthodes de pointe, l'intégration des données et des technologies de pointe pour réduire le fardeau d'intervention des exploitants de serres. Dans le cadre de ces efforts, la BDOS est utilisée comme outil pour les nouvelles technologies créées pour automatiser la collecte de données sur les serres au Canada.

Période de référence : La période de référence pour ces données varie. Pour plus d'informations sur la période de référence d'un ensemble de données spécifique, veuillez consulter la documentation sur les métadonnées.

Période de collecte : Mai à octobre de l'année pour la période de référence 2021-2024

Sujets

  • Agriculture et alimentation (anciennement Agriculture)
  • Cultures et horticulture

Sources de données et méthodologie

Population cible

Statistique Canada définit une serre et les produits de serreNote de bas de page4 comme un espace pour faire pousser des semis, des plantes en pots, des plantes à massif, des boutures et autre matériel de multiplication, ainsi que des fruits et légumes cultivés pour la vente dans une structure permanente, fermée chauffée artificiellement et faite de plastique, de plexiglas, de polyfilm ou de verre.

Par conséquent, il se peut que d'autres bâtiments qui ne correspondent pas à la définition de serre mentionnée ci-dessus soient inclus dans l'ensemble de données en fonction de leurs caractéristiques visuelles communes. La base de données ne comprend pas de couplages avec les renseignements des entreprises, qui différencieraient les installations agricoles de celles qui n'ont aucun usage agricole.

Un travail minimal de vérification et de validation de la forme des bâtiments est effectué au moyen de méthodes de numérisation et d'apprentissage automatique dans les cas où la validation des bâtiments saisis dans la base de données présente des caractéristiques visuelles comparables. L'ensemble de données détecte les serres sans faire de distinction quant à leur type, aux cultures qui y sont cultivées, ni à toute autre caractéristique pouvant aider à leur classification. La base de données ne comprend pas de couplages avec les renseignements des entreprises et ne renvoie pas aux enquêtes de Statistique Canada, aux registres des entreprises, aux données fiscales ou à d'autres sources, ce qui lui permet de maintenir une composante de base de données ouverte.

Élaboration de l'instrument

Ce type de méthodologie ne s'applique pas à ce programme statistique.

Échantillonnage

Ne s'applique pas.

Sources des données

Il s'agit d'une enquête à participation volontaire.

Les données proviennent de diverses enquêtes de Statistique Canada et/ou d'autres sources.

La création de la version 2 de la BDOS comprenait deux étapes principales de traitement de l'information : premièrement, le traitement des données d'observation de la Terre; deuxièmement, la création et le formatage de l'ensemble de données superposant les données d'observation de la Terre et mettant en correspondance les attributs de l'ensemble de données original avec les noms des variables standards (colonne). La version 2 de la BDOS comporte deux méthodes d'élaboration, à savoir la numérisation manuelle et l'apprentissage automatique.

Les deux méthodes permettant de compiler les données dans la base de données géographiques en fichier de format shapefile final sont décrites ci-dessous :

Numérisation
- Chaque donnée d'observation de la Terre a été extraite, décompressée et convertie en format TIF si elle n'était pas déjà dans ce format lors de l'acquisition.
- L'imagerie Sentinel-2 a été visualisée dans le logiciel du SIG à l'aide de services Web, ce qui a permis de supprimer les étapes de téléchargement et de traitement de l'imagerie, et de créer de nouvelles classes d'entités géographiques pour chaque région d'intérêt.
- Les serres visuellement comparables à des serres connues ont été repérées dans l'observation de la Terre, et un nouvel enregistrement a été numérisé au sein de la classe d'entités.
- Dans les cas où un bâtiment abritant une serre figurait dans la version 1 de la BDOS, mais n'était pas visible dans la version 2, les polygones de serre ont été supprimés.
- Une fois chaque région traitée, les tableaux d'attributs ont été complétés avec les renseignements corrects et à jour.
- Une fois l'ensemble des régions couvertes, les différentes classes d'entités ont été fusionnées pour constituer le fichier final de la BDOS.
Imagerie en super-résolution
- Le modèle de super-résolution est un réseau de neurones présentant l'architecture suivante :
-- une couche CGR (Convolution+GroupNorm+unité linéaire rectifiée) de taille 1 x 3 x 3, suivie d'un bloc DenseNet (réseau de neurones densément connectés) 1 x 3 x 3;
-- une couche CGR 1 x 1 x 1, suivie d'une couche d'attention à plusieurs têtes;
-- une couche CG (Convolution+GroupNorm) 1 x 1, suivie d'un bloc DenseNet 3 x 3;
-- une couche CG 1 x 1, suivie d'un suréchantillonage, d'une autre couche CG 1 x 1, puis d'un autre bloc DenseNet 3 x 3;
-- une couche CGR 1 x 1, suivie d'une couche de convolution 1 x 1 et d'une fonction sigmoïde.
- L'architecture du modèle est fondée sur une analyse documentaire (Wang et coll., 2022; Dong et coll., 2016; Kawulok et coll., 2020; Fuoli et coll., 2021).
- La première étape lors de l'exécution du modèle consiste à télécharger l'imagerie Sentinel-1 et Sentinel-2. Veiller à une projection commune, puis fournir les images au modèle de super-résolution afin d'obtenir des images en super-résolution des sites demandés.
- S'assurer que les images en super-résolution sont reprojetées avec la même projection que celle du fichier de format shapefile des serres numérisées manuellement.
Détection par apprentissage automatique
- Le modèle de détection est un réseau de neurones qui repose sur l'architecture U-Net pour la segmentation d'images, fondé sur l'article scientifique de Ronneberger O. et coll.
- L'architecture a été modifiée pour utiliser ResNet34 comme partie pour l'encodage afin d'améliorer la stabilité de l'entraînement.
- Le modèle a été entraîné à l'aide d'imagerie en super-résolution et d'étiquettes de serres numérisées manuellement.
- En ce qui concerne la détection, la première étape consiste à transmettre l'imagerie en super-résolution au modèle de détection des serres fondé sur l'apprentissage automatique.
- On obtient alors en sortie un fichier de format shapefile contenant les détections de serres.
- Pour cette version, les faux positifs ont été supprimés en croisant les serres détectées avec les fichiers de format shapefile des serres connues (numérisées manuellement).
- À l'avenir, des étapes de traitement des données après la collecte permettront de supprimer les faux positifs sans devoir compter sur les polygones de serres connues. Par exemple, cela pourrait se faire en utilisant une couche de l'Indice de végétation par différence normalisée.
- Enfin, le fichier de format shapefile des serres numérisées manuellement est fusionné avec les détections issues du modèle d'apprentissage automatique.

Les champs de données originaux étaient l'identificateur et la forme uniques indiqués automatiquement à partir du logiciel. De nouveaux champs ont été créés pour fournir des renseignements sur la source des données d'imagerie, la méthode de collecte, l'emplacement du centroïde X et Y et la province.

Détection des erreurs

Bien que des efforts aient été déployés pour s'assurer que toutes les serres étaient détectées et que d'autres types de bâtiments n'étaient pas inclus, certains bâtiments pourraient être identifiés par erreur, ou il se pourrait que des serres aient été omises de l'image source. Si de telles erreurs sont relevées, elles seront corrigées dans les versions futures de la BDOS.

Les données incluses dans la BDOS sont attribuables à une inspection visuelle seulement, et elles ne sont pas couplées à des bases de données, des enquêtes ou des sources privées officielles.

Imputation

Toutes les serres numérisées de la version 2 de la BDOS étaient en référence à l'imagerie à l'intérieur d'une certaine période, fournie par l'imagerie satellite de l'ESA. En général, outre le traitement et la numérisation des caractéristiques dans l'ensemble de données, l'imagerie a été utilisée telle quelle et elle peut ainsi créer des erreurs dans la base de données finale, où les caractéristiques n'ont pu être déterminées correctement dans certains cas. Compte tenu de la nature de l'acquisition des données et de l'élaboration de la base de données, il est possible que certaines erreurs soient détectées dans le produit géographique final.

Estimation

Ce type de méthodologie ne s'applique pas à ce programme statistique.

Évaluation de la qualité

En raison des différentes normes adoptées dans les données originales, les mesures prises pour normaliser les données ont pu donner lieu à des erreurs. Les principes clés de la méthodologie utilisée étaient d'éviter les faux positifs et les modifications importantes des données. La méthodologie et les limites de chaque technique sont décrites ci-dessous. Les techniques de nettoyage simples, comme la suppression des espaces et de la ponctuation, ne sont pas décrites.

Pour ce qui est de la méthodologie d'apprentissage automatique, le processus de normalisation consistait à traiter les étiquettes et les images selon la même projection et à garantir l'harmonisation pour l'entraînement du modèle d'apprentissage automatique.

L'Enquête annuelle sur les cultures de serre, les pépinières et les gazonnières (EACSPG) de Statistique Canada est un recueil d'information sur la production des serres, les stocks des pépinières et les gazonnières produits au Canada, et les données de cette enquête sont souvent utilisées pour mener des analyses sur les tendances du marché. Puisque l'EACSPG n'est pas fondée sur les renseignements de la BDOS, et que la BDOS ne repose pas non plus sur les données de l'EACSPG, il est peu probable que les renseignements et la superficie totale pour une province ou une région soient comparables. Les données demeurent séparées les unes des autres afin de permettre à la BDOS d'être publiée et utilisée par le public grâce à la licence d'utilisation de données ouvertes.

Contrôle de la divulgation

Cette méthodologie ne s'applique pas.

Révisions et désaisonnalisation

Ce type de méthodologie ne s'applique pas à ce programme statistique.

Exactitude des données

Modèle de super-résolution
L'évaluation de la qualité des prédictions en super-résolution a été réalisée de la manière suivante :

- En examinant l'erreur absolue moyenne et la racine de l'erreur quadratique moyenne pour chaque bande.
-- Un seuil de tolérance coulissant a été appliqué à chaque fenêtre pour l'erreur absolue moyenne et la racine de l'erreur quadratique moyenne. Pour chaque fenêtre de 100 x 100 pixels, l'erreur absolue moyenne et la racine de l'erreur quadratique moyenne minimales ont été prises en compte, en autorisant un décalage jusqu'à 8 pixels.
-- Cette méthode par fenêtre coulissante permet d'accepter des images légèrement décalées (p. ex. un décalage constant de 5 pixels vers la gauche) par rapport aux images au sol.
-- Le fait d'autoriser de tels décalages favorise considérablement les images plus détaillées. Le modèle ne peut pas déterminer avec certitude le décalage entre les images Sentinel à 10 m et les images au sol. Sans cette tolérance de décalage, une image floue sans réelle amélioration serait favorisée par rapport à une image détaillée légèrement décalée de quelques pixels.

- On compare le ratio de l'erreur absolue moyenne des images à super-résolution à une valeur de référence, constituée d'un suréchantillonnage cubique d'une image Sentinel-2 ressemblant le plus possible à l'image cible (même ratio pour la racine de l'erreur quadratique moyenne). Si ce ratio est inférieur à un, cela signifie que la super-résolution dépasse le rendement de la méthode de référence pour la bande correspondante. Le même seuil de fenêtre coulissante a été utilisé à la fois pour la méthode de référence et la super-résolution.

- Une inspection visuelle des résultats en super-résolution a également été effectuée, en les comparant aux images d'entrée et aux images au sol à haute résolution.

Modèle de détection des serres
L'ensemble de données comprenait 1 209 serres, dont 749 ont été utilisées pour l'entraînement et 460 pour les essais. Le modèle de détection des serres a obtenu une cote F1 au niveau des pixels de 80 % lors des essais. Le taux de rappel était de 87 %, ce qui signifie que le modèle détectait systématiquement les vraies serres, et le taux de précision s'établissait à 75 %. La cote F1 au niveau des objets était plus élevée, atteignant 91 %. La majorité des erreurs de rendement provenaient des faux positifs. Après un examen plus approfondi, les faux positifs se sont avérés être des erreurs dans les images à super-résolution qui apparaissent sous des formes visuellement distinctes du paysage environnant, mais qui présentaient des caractéristiques similaires à celles des serres. Il y avait aussi des cas où certains bâtiments devenaient flous lors du processus de super-résolution, prenant l'apparence de toits de serres; à l'inverse, certaines serres dans l'imagerie d'origine devenaient floues après le processus de super-résolution. Ces erreurs dans les images à super-résolution ont donc contribué aux erreurs dans les résultats de détection des serres.

Date de modification :