Enrichissez votre vocabulaire


Jean-François Ferland - 14/11/2007

Le Web sémantique, en théorie, ferait du Web une grande banque de données. Bien du chemin reste à parcourir, mais les entreprises peuvent déjà tirer profit du recours aux concepts formels.

Bien qu’il suscite beaucoup de passions quant à son application pratique, le principe du Web sémantique est encore peu connu hors des cercles des développeurs. Pourtant, les entreprises pourraient en tirer plusieurs avantages pour optimiser les recherches et les interactions via le Web.

Michel Gagnon, professeur adjoint au Département de génie informatique à l’École Polytechnique Montréal, compte parmi ses intérêts de recherche le Web sémantique. Alors que le Web est pour l’instant un ensemble de ressources documentaires, sous forme de textes et d’images, il explique que le Web sémantique vise à ajouter une couche au-dessus pour le transformer en banque de données.

« On parle du Web sémantique, mais pas de la façon comme on l’entend pour la langue où l’on définit ce que veut dire une phrase énoncée. C’est plutôt l’idée de rendre de l’information explicite avec formalisme et avec des concepts partagés par d’autres », précise-t-il.

Philosophie numérique

Le Web sémantique, qui n’est pas simple à décrire, repose sur deux langages de modèles de données ou d’ontologies, soit RDF (Resource Definition Framework) et OWL (Web Ontology Language). Une ontologie, selon Wikipédia, est « un ensemble structuré de concepts permettant de donner un sens aux informations » et « un modèle de données qui représente un ensemble de concepts dans un domaine et les rapports entre ces concepts. »

« RDF sert à rendre explicites des ressources décrites sur le Web, à établir des relations entre elles, à faire une taxonomie des types de ressources. Par exemple, on dirait qu’un « restaurant » est « un endroit où l’on sert des repas », mais aussi « un établissement commercial ». OWL est un modèle de données qui pousse plus loin la complexité de la description des ressources. Mais RDF, qui est un modèle de données beaucoup plus simple, est le plus adopté dans le monde du Web sémantique », résume M. Gagnon.

Réduire les barrières

Les applications pratiques du Web sémantique laissent entrevoir un potentiel d’amélioration des recherches d’informations et des interactions en réseau, autant à l’intérieur d’une organisation que sur la Grande Toile.

Benoît Piette est président du W3Québec, un organisme sans but lucratif qui fait la promotion des normes, des standards et des bonnes pratiques du Web. Il explique que le Web sémantique peut élargir les possibilités d’accès à l’information des utilisateurs finaux par le biais du langage naturel et de concepts reconnus.

« Dans un moteur de recherche comme Google, qui utilise des mots-clés, si on dit « Je veux voir un spectacle entre telle et telle date, dans telle ville, dans tel style de musique », le moteur ne sera pas capable de trouver l’information.

Avec le Web sémantique, les salles de spectacle pourraient mettre en ligne des métadonnées qui indiqueraient quel groupe joue tel style de musique à telle date, dans un format normalisé et compréhensible pour l’ordinateur. L’utilisateur aurait un agent informatisé qui poserait la question sur l’Internet et, comme un robot, parlerait à un serveur qui lui dirait que l’information se trouve à tel endroit.

« Pour un intranet d’entreprise, on pourrait définir un format de vocabulaire pour exprimer tous les concepts d’un modèle d’affaires, et à l’aide de langages spécialisés, on pourrait lier ensemble les documents et les informations. Un agent informatique poserait des questions qui seraient liées au modèle d’affaires, mais qui seraient spécifiques au travail d’une personne [pour interroger] l’Intranet en entier », ajoute-t-il.

Web hybride

Le Web sémantique, pour les communications de machine à machine, peut également faciliter la création d’applications hybrides. « Chaque application a sa base de données dont il faut en connaître la structure pour y chercher de l’information. Avec le Web sémantique, où tout est normalisé, on peut extraire des données propriétaires de ces bases de données et les mettre de façon générique sur le Web pour qu’elles soient réutilisables », explique M. Piette, en référant au langage de requêtes SparQL qui sert à interroger les données en format RDF.

« On prend actuellement des applications qui se basent sur des documents HTML, à partir de mots. Le pas suivant, avec le Web sémantique, est d’ajouter de l’information formelle dans un format non ambigu », relate Michel Gagnon. « Par exemple, on dirait que « Toqué! » est le nom d’une chose de la classe des restaurants, qui offre tel type de menu. En s’attachant à un concept universel, si tous les restaurants de Montréal mettaient du contenu sémantique sur leurs sites, une application de suggestion de restaurants pourrait facilement utiliser ces contenus. »

Abolir les frontières

Le Web sémantique peut faciliter la compréhension des contenus par les machines, mais aussi par les humains grâce à l’abolition des barrières linguistiques ou culturelles.

« RDF permet de décrire de manière formelle que « Michel Gagnon » est « un professeur » à « l’école Polytechnique ». Cette information est disponible sur mon site, mais en français. Lorsque mise en format RDF, l’information devient indépendante de la langue, alors qu’on ne réfère qu’aux concepts », explique M. Gagnon.

« Si on parle de crédits sur un site universitaire français, on ne sait pas s’il s’agit de la même notion qu’en Amérique du Nord. Une ontologie permettrait de voir si deux départements universitaires utilisent le même concept, en supposant qu’il y ait un consensus sur une ontologie qui décrit le monde académique », ajoute-t-il.

Enjeux

Le Web sémantique progresse rapidement, mais les travaux de recherche et développement ne sont pas terminés.

La problématique est qu’il faut s’entendre sur des normes, souligne Benoît Piette, de W3Québec. Tout comme il existe des normes de W3C qui sont complexes et complètes, en Web sémantique il y a des langages évolués et détaillés. Tout comme pour les services Web, certains ont dit que [ces langages] sont trop compliqués à implanter et ont inventé des microformats pour des applications très spécifiques, comme la géolocalisation. »

Par contre, M. Gagnon souligne que les personnes qui font consensus sur des concepts communs ne proviennent pas du même horizon. « Les concepts du Dublin Core Metadata Initiative, qui sont utilisés en bibliothéconomie, ont été définis par un organisme institutionnel. Le vocabulaire FOAF (Friend of a Friend) vient de la communauté des blogueurs qui a créé le concept de « personne » qui est utilisé partout. Du côté scientifique, des ontologies très complexes ont été faites, notamment en génome médical où il y a des millions d’articles à indexer. »

« Il y a différentes approches, bien des choses émergent, et on ne sait pas comment cela finira par s’établir… Mais ce sont les vocabulaires très simples qui s’implantent actuellement », souligne-t-il.

Tisser des liens… avec des fils

Selon les deux observateurs, les entreprises peuvent déjà se préparer et participer activement à l’avènement du Web sémantique, alors qu’elles ont déjà des composantes qui permettent d’en appliquer certaines approches.

« Les organisations qui ont des fils RSS peuvent ajouter de l’intelligence à leurs fils qui seraient réutilisables par des moteurs de recherche spécialisés, pour permettre la recherche autrement que par mot-clé. Cen n’est que 1 % du Web sémantique, mais c’est utilisable tout de suite », indique M. Piette.

« Dans un cadre interne ou inter-entreprises, ceux qui ont une architecture orientée service et des fils RSS peuvent prendre une application de vente qui produit un fil RSS et une autre application qui s’y abonne pour aller chercher de l’information. Le même fil est réutilisable pour afficher un tableau de vente. Ce n’est pas du Web sémantique, mais c’est une étape qui permet de s’y rendre. »

« Les entreprises qui ont un intergiciel ESB (Enterprise Service Bus) ont déjà l’infrastructure pour transformer les formats XML. Si on s’entend sur un format XML normalisé qui contient un vocabulaire et un schéma, on peut facilement en transformer les données. L’ESB alors sert de point d’entrée pour poser des questions à l’ensemble des systèmes », ajoute M. Piette.

Engouement

Michel Gagnon, pour sa part, remarque que plusieurs entités passent à l’action. « Des entreprises le font déjà, par exemple dans le monde l’édition où l’on manipule une grande quantité d’information. L’éditeur de base de données Oracle vient d’annoncer son soutien à RDF, et des entreprises ont commencé à migrer leurs bases de données dans un format utilisable pour le langage de requêtes SparQL », note le professeur de l’École Polytechnique.

« Pour une entreprise, il y a un attrait pour structurer l’information à l’aide des formats RDF ou OWL, pour en faciliter l’agrégation et les mises en correspondances. L’industrie des composants électroniques s’est fait un vocabulaire qu’elle commence à penser à traduire en format RDF. Des industries voient un besoin de standardiser leur vocabulaire et d’en faire un avantage. »

M. Gagnon note aussi qu’un bouillonnement s’entame au niveau de la description conceptuelle des services Web, alors qu’il œuvre à des projets de développement d’ontologies pour deux industries.

« De plus en plus, le modèle d’architecture orienté vers les services Web s’impose. Il existe des protocoles d’accès et de description en XML simple, mais on propose des ontologies pour décrire les services Web de manière conceptuelle. Si des entreprises d’un secteur industriel qui ont des services Web partageaient une ontologie, cela faciliterait l’agrégation et la composition de services Web », explique-t-il.

L’œuf ou la poule

Toutefois, il est difficile d’établir quand ou comment le Web sémantique prendra forme ou deviendra un phénomène de masse. Mais comme pour plusieurs concepts technologiques, l’atteinte de conditions idéales pourrait accélérer l’adoption de ce que certains croient être « le Web 3.0. »

« À un moment donné, quelqu’un fera une application très facile à utiliser, et le phénomène partira (sic) comme pour le Web 2.0. Le Web sémantique aura son « killer » application, ou bien une application qui en tirera ses racines », estime M. Piette.

« Le goulot d’étranglement est clairement au niveau des ontologies. Cela demande des investissements, en temps, en argent et en ressources humaines. Aussi, on ne sait pas comment le phénomène de la « saucisse Hygrade » s’appliquera. Présentement il n’y en a pas beaucoup d’ontologies, les gens se demandent pourquoi on en ferait une, et ce qu’elle rapportera… Mais une fois qu’une ontologie existera et que beaucoup de personnes y adhéreront, cela fera boule de neige », conclut M. Gagnon.

Jean-François Ferland est journaliste au magazine Direction informatique.


À lire aussi cette semaine: Projet réaliste ou utopie, le Web 3.0 semble bien lancé Perspectives : le Web sémantique Repères : le Web sémantique




Tags: , ,

À propos de Jean-François Ferland

Jean-François Ferland a occupé les fonctions de journaliste, d’adjoint au rédacteur en chef et de rédacteur en chef au magazine Direction informatique.


Google+