Utilisation de l'en-tête pour le web sémantique et les extraits enrichis#
Lors de la rédaction d'un contenu sur Geotribu, que ce soit une revue de presse, un article, un guide de contribution ou autre, on insiste beaucoup sur l'en-tête du fichier, comme l'illustre ce guide.
Pourquoi ? car c'est ainsi que le site génère des données structurées standardisées qui sont notamment utilisées pour les extraits enrichis des moteurs de recherche.
Web sémantique et données structurées#
La structuration des données géographiques, ça vous semble important ? Eh bien, c'est la même chose quand il s'agit des pages webs. C'est d'ailleurs le principe fondateur de ce qu'on appelle plus communément le web sémantique : intégrer des données structurées dans le contenu des pages de façon à faciliter le travail d'indexation et de mise en relation des contenus.
Evidemment les structures répondent à des standards dont l'élaboration est liée aux acteurs de l'industrie mais aussi aux initiatives communautaires. Les schémas de données, qui gèrent le relationnel, sont documentés et regoups sur le site : schema.org. C'est ce site et cette dynamique qui ont inspiré schema.data.gouv.fr.
Ces données sont également utilisées par les moteurs de recherche et favorisent le référencement ou plutôt permettent un affichage enrichi dans les pages de résultats, d'où le nom donné par Google : extrait enrichi (rich snippet en anglais).
Il existe de nombreux schémas décrivant différents types d'objets : Article, WebSite, Author, Organization, etc. Les personnes qui travaillent sur les portails de données ouvertes connaissent bien le sujet puisqu'il existe un schéma standardisé pour les jeux de données qui permet notamment de faire indexer ses données dans le moteur dédié de Google : Dataset Search.
Processus#
Au moment de la transformation des fichiers markdown en fichiers HTML, le site génère un objet au format JSON-LD (JSON Linked Data), intégré à la page HTML, à partir de plusieurs éléments :
- l'en-tête fournit l'essentiel des informations : date, auteur(s), mots-clés, description, image, etc.
- l'URL : permet d'affiner le type de contenu, notamment pour distinguer un article d'une revue de presse.
- le fichier de l'auteur s'il respecte le nommage
team/{pnnn}.md
Les informations sont manipulées avec la syntaxe Jinja, utilisée par Mkdocs, dans le template main.html
.
Exemple du bloc permettant de gérer les contenus avec plusieurs auteurs :
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 |
|
Exemples de données structurées générées sur Geotribu#
Les données structurées sont stockées en JSON-LD (JSON Linked Data) sous forme de script intégré dans l'en-tête du fichier HTML (balise head
). Pour y accéder, il suffit d'ouvrir le fichier source (Ctrl+U sur le navigateur) ou d'utiliser un validateur ou visualiseur dédié (il y en a plein sur le net).
Page d'accueil#
On y intègre les métadonnées principales du site, ainsi que des informations fonctionnelles, notamment le moteur de recherche, conformément au schéma Sitelink :
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 |
|
Article#
Exemple pour cet article :
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 |
|
Revue de presse#
Exemple pour cette GeoRDP :
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 |
|
Ressources#
- le schéma d'un article sur schema.org
- le validateur de schéma
- description de l'extrait enrichi de type Article dans la documentation de Google
- Google propose un site pour tester les extraits enrichis.
-
étape où un contributeur propose d'intégrer ses modifications dans le socle principal du projet. Voir la documentation de GitHub. ↩
Commentaires
Ce contenu est sous licence Creative Commons BY-NC-SA 4.0 International