Fing
17/12/2008

Evri : le moteur de recherche sémantique


Evri.com Updated Profile Page Tour from Evri on Vimeo

Christophe Deschamps regarde dans le détail Evri, un moteur de recherche sémantique, qui donne la possibilité d’interroger l’actualité grâce à un langage de requête qui permet de structurer précisément son besoin selon en précisant une source (une personne, une entité) une action (recevoir, donner…), et une cible (objet, type d’information). Le moteur permet ainsi de faire une requête via sa taxonomie qui décrit ses sources (en utilisant non plus le nom d’une personne, mais sa description, comme une requête sur les hommes politiques ou sur les acteurs). Plus que pertinent.

26/11/2008

L'avenir de l'information : nouvelles tendances, nouvelles formes, nouveaux usages

A quoi ressemblera le monde de l’information demain ? Pour Amanda West de Thomson Reuters, l’information demain sera intelligente. C’est-à-dire qu’elle utilisera des applications sémantiques, des métadonnées pour donner de l’information sur les données, pour aider à structurer ce qui ne l’est pas (structuring the unstructured). Les bases de données permettent de lier les documents, les gens, les lieux, les produits, les informations sur les sociétés : mais pour cela, il est nécessaire de structurer les données pour comprendre les relations entre les documents, entre les mots, les concepts, les noms. L’idée qui sous tend ce glissement vers l’intelligence des données, c’est qu’elles puissent être lisibles non seulement par des hommes mais aussi par des machines. OpenCalais, développé par Thomson Reuters est une plateforme qui accueille des données non structurées sur lesquelles le système applique un traitement en langage naturel sophistiqué et des techniques de machines apprenantes pour rendre les données intelligentes, c’est-à-dire, par exemple, pour qu’elles soient capables de repérer un nom ou un lieu dans un ensemble de documents et établir par ce biais des liens entre eux. OpenCalais sait structurer les données pour repérer dedans les sujets, les entités ou les types de contenus (évènements, etc.). En s’appuyant sur OpenCalais, Reuers a développé de nombreux outils comme un outils de messagerie collaborative ou Reuters Real State, une plateforme communautaire pour surveiller des marchés, ou encore OneSource Tax.


Wilfried Runde de la Deutsche Welle est confronté au même types de difficultés. Pour alimeter les medias du groupe média allemand il faut être capable de diffuser sur une multitude de tuyaux (le téléphone mobile, la radio, la télé, le web, etc.) et via une multitude de cannaux : sur YouTube, iTunes, MySpace, Facebook, Netvibes… Un média aujourd’hui se doit d’être disponible sur toutes les plateformes. Mais cela pose quelques problèmes, parce qu’il faut jongler avec de plus en plus de plateformes, de systèmes, de technologies. Il y a un réel besoin d’optimiser les outils et la gestion des flux d’information, de mieux gérer les métadonnées, de créer des filtres, de rendre les archives à la demande disponible, etc.

Selon le Foreign Policy de Novembre-Décembre 2008, YouTube aura bientôt une plus grande influence mondiale sur la façon de raconter les évènements internationaux que n’importe quel média. D’où le besoin de regarder les outils qui permettent dès à présent de chercher dans les contenus vidéos comme Blinkx, VideoSurf ou Hulu. Et inventer de nouveaux médias en ligne, remarquables, comme Monocle, MediaStorm ou Fullstory (pas trouvé !).

Frank van Hamelen, de l’université d’Amsterdam, s’est lui interrogé sur ce à quoi ressemblera l’univers de l’information demain. Comment le construirons-nous ?

Aujourd’hui, l’univers de l’information est fait de pages web liées, écrite pas les gens pour les gens et utilisées seulement par les gens. Mais beaucoup de ces pages proviennent pourtant de données utilisables par des ordinateurs. Reste que nous ne savons pas encore lier les données. Pour cela, il faut parvenir à lier les métadonnées pour qu’elles soient utilisables par les ordinateurs et utiles aux gens.

Pour Frank van Hamelen cet avenir n’est pas si loin. Et d’évoquer le Linked Open Data Cloud qui montre aujourd’hui les liens existants entre les différents types de métadonnées. Les standards sont déjà là et ne cessent de progresser. On sait aujourd’hui accéder à des bases permettant d’identifier des chercheurs, des noms d’artistes, des noms de lieux géographiques, les livres ou les albums de musiques existants… On pourrait par exemple faire une requête sur une personne via tout ces protocoles pour trouver un scientifique, les articles qui parlent de lui, les livres qu’il a écrit, ses collaborateur voire son réseau social, etc. Ces bases de données de métadonnées sont chaque jour plus nombreuses. Il est possible d’utiliser ces bases de connaissances directement via les services web.

En 2006, on se demandait où nous allions trouver les données. En 2008, on se demande lesquelles nous allons choisir. Le succs de ces entrepôts de données, de ces bases de connaissances et de ces web services ne risque-t-il pas d’ailleurs de devenir un problème ?, s’interroge le chercheur. D’où son idée de développer un Large Knowledge Collider, une plateforme évolutive en permanence capable de comprendre le web des données, à l’image du LHC du Cern. Et d’évoquer MaRVIN, une plateforme distribuée pour la déduction massive de données en RDF.

L’univers de l’information de demain sera un web de données conclut-il, comme le fait déjà OpenCalais.