all repos — blog @ main

Code and content for 5ika.ch

content/posts/web-semantique-et-communs-digitaux.md (view raw)

 1---
 2Title: Web sémantique et communs digitaux
 3Date: 2024-02-19
 4---
 5
 6> Cet article est une version originale de celui que j'ai écrit pour [le blog d'Octree](https://octree.ch/blog/semantic-web-digital-commons-open-data).
 7
 8Le Web d’aujourd’hui est rempli de contenus. Chaque seconde, nous partageons des milliards d’informations entre humains: postes sur les réseaux sociaux, articles de blog, produits à vendre, pages de wiki, menu de restaurant, bulletins scolaires etc…
 9
10Bien que partagées numériquement, ces ensembles de lettres, mots et phrases ont du sens uniquement pour les humains qui les lisent. Aux yeux d'une machine, le Web ne représente que des suites de symboles qu'elle doit stocker et afficher sur un écran. C'est ainsi que l'a conçu son créateur Tim Berners-Lee au début des années 90: des documents textuels décentralisés et reliés entre eux par hyperliens.
11
12Une dizaine d'années plus tard, Sir Berners-Lee et d'autres se sont rendu-compte que cette approche "par document" ne suffirait pas aux besoin grandissant de la société numérique: celle-ci a besoin que la machine _comprenne_ la donnée afin de pouvoir la traiter, l'organiser et la générer (coucou l'IA). C'est ainsi qu'est né le concept de _Web sémantique_.
13
14> If you think of the web today as turning all the documents in the world into one big book, then think of the Semantic Web as turning all the data into one big database, or one big mathematical formula.
15>
16> Tim Berners-Lee, [The Semantic Web](https://www.w3.org/2000/Talks/0906-xmlweb-tbl/text.htm)
17
18Pour faire simple, le Web sémantique est une manière différente du HTML de représenter les données que l'on s'échange à travers Internet pour que la machine puisse la comprendre.
19
20Comment ça fonctionne ? Rien de très compliqué. Prenons ce (petit) document HTML:
21
22```html
23<p>
24  Jane Doe est une développeuse qui travaille chez
25  <a href="https://octree.ch">Octree</a>.
26</p>
27```
28
29La machine ne saurait le comprendre pleinement mais si l'on souhaite faire du Web sémantique, on stockerait plutôt quelque chose qui ressemble à cela:
30
31```
32Jane est une personne avec le prénom Jane et le nom Doe
33Jane a pour métier "développeur/euse"
34Jane a pour lieu de travail Octree
35Octree est une organisation
36Octree a pour site web https://octree.ch
37```
38
39Techniquement, il y a plusieurs manières de représenter ces infos en utilisant une syntaxe de la famille [RDF](https://fr.wikipedia.org/wiki/Resource_Description_Framework). Voilà un exemple avec la syntaxe Turtle:
40
41```
42@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .
43@prefix foaf: <http://xmlns.com/foaf/0.1/> .
44@prefix ex: <http://example.org/> .
45
46:Jane rdf:type foaf:Person ;
47    foaf:firstName "Jane" ;
48    foaf:lastName "Doe" ;
49    foaf:jobTitle ex:development ;
50    foaf:workplace :Octree .
51
52:Octree rdf:type foaf:Organization ;
53    foaf:homepage <https://octree.ch> .
54```
55
56Grâce à cette représentation des données dite _sémantique_, la machine est capable d'identifier différents sujets (Jane, Octree, le métier 'développement') et des liaisons entre ces sujets.
57
58Avec ce principe de liens caractérisés entre sujets, on peut ainsi créer une grande toile d'informations reliées et obtenir un réseau de connaissances. C'est l'idée derrière le projet [Linked Open Data Cloud](http://cas.lod-cloud.net/) qui vise à connecter les données d'une multitude de sources (médicales, gouvernementales, géographiques, scientifiques, médiatiques,...) dans le but de créer de nouvelles connaissances en croisant les informations.
59
60Le Web sémantique permet donc d'abattre les silos en créant des bases de données qui ne sont pas propres à un service ou un produit. Mieux! Il permet de créer de nouveaux services plus respectueux des utilisateurs en leur redonnant la main sur leurs données comme c'est le cas avec le [projet Solid](https://solidproject.org/) qui développe une manière alternative de consommer et d'échanger des données. Un autre exemple saillant: le Fediverse (porté notamment par le service Mastodon) fonctionne grâce au protocole ActivityPub, lui-même reposant essentiellement sur les technologies du Web sémantique.
61
62L'IA profite également des avantages du Web sémantique. Le fonctionnement des LLMs, forme la plus publiquement connue d'IA aujourd'hui, consiste à ingérer une très grande quantité de données textuelles et constituer des modèles statistiques afin de prédire quel mot va suivre le précédent pour générer un nouveau texte (en très résumé). C'est une grande avancée ! Mais cela est également extrêmement énergivore (dans un contexte où la consommation d'énergie est un problème) et pourrait être grandement amélioré grâce au Web sémantique: pas besoin de faire de nombreux calculs et indexations si les informations sont déjà traitées et présentes dans un format compréhensible par la machine. Il n'y a qu'à se servir!
63
64Chez Octree, nous avons commencé à mettre en place et utilisé des données sémantiques. Afin de prendre en main les concepts et technologies, nous avons suivi un projet de "sémantisation" qui consistait à centraliser les données des diverses outils que l'on utilise (Notion, Harvest, GitLab, Jelastic,...) dans une même base de données en format RDF. Cela nous permet désormais de pouvoir faire des requêtes transversales sur notre activité afin de créer des métriques facilitant la prise de décision. Par exemple, pour nous aider à cerner un besoin d'engagement: Combien de temps telle personne a passé sur des projets de type "civic tech" ?
65
66Ce succès nous a permis ensuite de proposer un projet de sémantisation à l'un de nos clients cherchant à se rendre moins dépendant d'une solution ERP privée limitée dans ses possibilités. Ce projet est toujours en cours et il reste encore des questions à résoudre mais nous avons pu sans trop de difficulté libérer les données de l’entreprise et les mettre à disposition d'un Odoo.
67
68Cette maîtrise du Web sémantique est importante pour nous car elle ouvre de grandes portes pour l'Open Data qui nous est chère. De part sa conception, ce Web pas si alternatif que ça met avant tout l'accent sur l'ouverture et le partage des données afin de créer un réseau de connaissance commun. C'est donc une brique de base inévitable pour nos prochains projets, mais aussi pour défendre un Web libre.
69
70Ça vous intrigue ? On discute volontiers avec vous sur le sujet !