0

6 La navigation dans le manuel de Kentika est réservée aux utilisateurs identifiés



Scoring system : mettre en place et régler la pertinence

Régler la pertinence : un maillon "fort" de la recherche

Lorsqu'un utilisateur effectue une recherche, ou utilise une option pré-programmée permettant d'afficher une liste de résultats (exemples : dossiers, contenus de Kentapp...), il s'attend à ce que les documents les plus pertinents figurent en tête de liste. La moyenne du nombre de pages de listes de résultats d'une recherche consultés par un internaute se situe à 1.5. Aussi, aujourd'hui un moteur de recherche doit pouvoir identifier des résultats potentiellement pertinents en utilisant un certain nombre d'approximations mais en remontant les plus pertinents en tête.

Il est donc nécessaire de différencier ce qui est très pertinent de ce qui l'est moins pour un utilisateur, par rapport à une question posée ou à l'affichage du contenu d'un dossier.

Si des règles simples et génériques peuvent être mises en place, il est ensuite conseillé de porter une attention particulière à sa stratégie de détermination de la pertinence.

Le triptyque de base

Le tri d'une liste de résultats par pertinence utilise un "mix" qu'il convient d'équilibrer. Les trois composantes de ce "mix" sont :

- la pertinence d'un résultat par rapport à la requête effectuée ;

- la pertinence intrinsèque d'une ressource ;

- la pertinence de la ressource pour la personne qui a posé la question.

Les pertinences prises en compte

Pertinence par rapport à une requête

Lorsqu'un utilisateur effectue une recherche, cette dernière peut porter sur différentes rubriques. Ces rubriques n'ont cependant pas la même importance : un mot trouvé au début un titre doit avoir plus de poids que vers la fin d'un résumé. Une expression correspondant à un descripteur aura un poids plus important que si elle est trouvée dans le texte intégral.

Point fort : Kentika est une solution nativement multilingue. Quelle que soit la langue utilisée pour exprimer une requête, la pertinence du document sera identique.

Pertinence intrinsèque

Les documents mis à disposition ne présentent pas tous le même intérêt, même si ils répondent de la même manière à une question posée. Les critères permettant de définir, a priori, l'intérêt d'un document peuvent être très variables et dépendent de la nature du fonds. Kentika dispose de toute information sur le document lui-même et sur le flux d'intérêt qu'il provoque : tous ces éléments permettent de calculer un score a priori. Ainsi, un article du jour peut avoir plus d'intérêt qu'un article du mois dernier ; un texte de loi abrogé est moins pertinent qu'un texte en vigueur ; un ouvrage souvent emprunté est supposé plus intéressant qu'un qui ne sort jamais ; une photo ayant recueilli un nombre élevé de notes positives sera mise en avant ; un article de priorité haute devrait apparaître un de priorité basse.

Voir ci-après le réglage du score.

Pertinence pour la personne

Une base Kentika peut comporter une grande variété d'informations pour une grande variété de profils d'utilisateur. Lors d'une recherche, une personne préférerait voir apparaître en tête de liste les documents qui seraient issus du service auquel elle appartient. Ceci est particulièrement vrai lors de l'utilisation de Kentika Team qui permet de créer des équipes et d'y rattacher des personnes et des documents.

Pertinence à la recherche

Pertinence sur les champs texte

Lorsque Kentika trouve l'expression recherchée dans un champ texte (exemple : le titre, le commentaire, la zone de contenu ...), un poids relatif est également appliqué en fonction de la position relative de chaque mot de l'expression dans le champ dans lequel elle a été trouvée.

Pertinence sur un champ thesaurus

Lors d'une recherche, l'autopostage peut être activé. Kentika collecte alors l'ensemble des descripteurs utilisés et les considère comme pertinents par rapport à la question posée. Ainsi, si une recherche sur "Alpes" permet d'identifier un document indexé avec "Chamonix", ce dernier héritera du niveau de pertinence affecté au champ descripteur.

Pertinence sur les alias, les synonymes et les traductions

Lorsque Kentika effectue une recherche, en fait cela peut se traduire par un nombre significatif de requêtes unitaires. Tous les "chemins empruntés" par le moteur de recherches sont compilés et exploités pour déterminer la pertinence. Si on recherche avec l'expression "Voiture" ou "Macchina" ou encore "Automobile", un article indexé avec "Peugeot" sortira avec la même pertinence qu'un avec "Renault".

NB : ceci suppose que, dans le thesaurus, "Automobile" ait pour synonyme "Voiture", comme traduction "Macchina" et pour terme spécifique "Peugeot" et "Renault"

Pertinence sur la recherche plein texte

Lors d'une recherche dans les documents (via KDE) le moteur Lucene calcule la pertinence du document trouvé par rapport à la question posée. Cette pertinence est ensuite intégrée dans le calcul de pertinence comme si Kentika l'avait identifiée dans la base de données.

La mise en œuvre s'effectue simplement en paramétrant ses propres règles.

A partir de Kentika version 4

Dans "Préférences/Paramétrage" : sélectionner "Pertinence"

Pour ajouter un critère : cliquer sur le bouton "+" et sélectionner la rubrique voulue. Elle est ajoutée dans la liste au dessus et non niveau d'importance peut être saisie à l'aide du curseur correspondant. En plus du "Score" (voir ci-après), il est possible d'ajouter via cette interface jusqu'à 10 critères. Lors de l'exécution, Kentika peut traiter un nombre plus élevé de critères, cependant, ceci nécessite des calculs importants pénalisants les temps de réponse.

Le paramètre qui sera mis à jour lors de l'enregistrement a pour code "SiPE". Il est calculé dynamiquement et affiché dans la zone grisée en bas de l'écran. Si des stratégies de pertinence doivent être différentiées (exemple : par espace), il est possible de dériver ce critère dans le script de recherche (ceci nécessite des compétences de programmation).

Il est conseillé de tester le réglage sur différentes recherches avant de l'appliquer en indiquant la recherche en bas puis en cliquant sur le bouton "voir".

Avec Kentika version 3

Dans "Préférences/Serveur Web/Paramètres de connexion" : cliquez sur "Atomic Spécial" et cliquez sur la ligne du code "SiPE" (Critères de pertinence).

La valeur saisie peut être composée de plusieurs lignes construire de la manière suivante : n° du champ (voir dans structure) : poids du champ (compris entre 1 et 10)

Exemple de valeur conforme

21:5;141:3;131:1;9990:1;9999:1;score:5;1064=1341:3

Dans cet exemple, le titre (21) aura un poids de 5, un descripteur (141) : un poids de 3, le commentaire (131) / la zone de contenu (9990) / les fichiers liés (9999) : un poids de 1.

NB : l'ordre de déclaration des champs n'a aucune influence sur le résultat. Si un pertinence doit aussi être appliquée aux tables autres que "Document", il suffit de compléter la liste : Kentika ne retient que les champs appartenant à la table sur laquelle porte la recherche.

 

Pertinence intrinsèque : le champ "score"

Le score est calculé a priori et est indépendant de la recherche. Cependant, il est injecté dans le calcul de pertinence du résultat afin de privilégier certains documents. La valeur du score s'établit sur une échelle de 0 à 10, elle permet d'influer significativement sur la place qu'occupe chaque document dans un résultat.

Le champ "score" est utilisé dans le paramètre décrit ci-dessus en mentionnant simplement "score:" suivi du niveau d'importance que l'on souhaite donner à cette pertinence intrinsèque.

Le champ "score" peut être affiché dans une colonne de l'explorateur de données.

Concevoir une stratégie de "scoring"

Les fonds documentaires gérés dans Kentika sont variés, leurs utilisations aussi. Une stratégie de scoring doit tenir compte d'un ensemble de facteurs liés à la base documentaires. Le score est recalculé toutes les nuits via un script batch fourni et que l'on suggère d'adpter afin de prendre en compte ses spécificités.

Un document qui vient d'être ajouté à la base documentaire reçoit un score médian (5).

Pertinence pour la personne

La ligne correspondant à une pertinence relative s'exprime comme suit : Lorsque le champ X de l'utilisateur connecté est égal au champ Y d'un document, alors la pertinence de ce dernier est augmentée de N .

Dans l'exemple suivant :

1064=1341:3

on compare les valeurs du champ "1064" (Equipe d'appartenance) de l'utilisateur connecté aux valeurs du champ "1341" (Equipe propriétaire).

Auto-complétion

La pertinence est automatiquement mise en jeu dans les boites permettant de sélectionner une valeur correspondant à des caractères saisis.

Réglage du calcul du score

Le niveau d'importance (score) que l'on va attribuer à chaque document est un point très important et nécessite une réflexion préalable qui va prendre en compte quatre catégories de critères :

- les types de documents : quels sont ceux que l'on veut présenter prioritairement ? Exemple : un "article" a-t-il autant d'importance qu'un "rapport" ?

- l'obsolescence : un article du jour est potentiellement plus intéressant qu'un article de la semaine dernière ; un rapport de l'année est plus intéressant qu'un rapport de l'année dernière ;

- tout autre critère : un rapport issu de notre organisation est plus important qu'un rapport d'un autre organisme ;

- le niveau d'intérêt qu'a suscité un document (Machine learning).

Dans le paramétrage illustré ci-dessus :

  • par défaut, un document a un score de 5, puis 4 au delà d'un mois, 3 au delà de 3 mois...
  • un article a un score de 8 puis de 7 après une semaine, 6 après un mois...
  • un article gagne un point s'il est souvent consulté puis un point si son indice de lecture est élevé (nb : l'indice de lecture nécessite le module "Intelligence Artificielle" de Kentika)
  • un ouvrage gagne un point s'il est souvent emprunté

NB : la notion de "souvent" est déterminée par Kentika en tenant compte des moyennes.

Chaque document a un score dont la valeur est calculée chaque nuit. L'échelle est, par défaut, de 0 à 10. Cependant, il est possible renforcer ou diminuer la valeur d'un document en provoquant un score supérieur à 10, voire négatif.

Les requêtes "Score..." permettent de compléter et de renforcer ou diminuer le score. Par exemple : si les articles issus d'Archimag doivent bénéficier d'un score supérieur à la moyenne, il suffit de créer une requête portant sur les documents de type "Article" pour lesquels la source est "Archimag" et dont le nom serait "Score+3" pour faire gagner 3 points en moyenne à ces articles.

Le graphique de répartition des niveaux de score, soit global, soit par type de documents, permet de vérifier si le score est bien "étagé". Dans l'exemple ci-dessus, si un article de plus de n années devait avoir un score égal à 0, une requête de score sur la date de parution permettrait de compléter ce qui est proposé en standard (et qui ne permet que de faire perdre que 4 points et donc avoir un plancher à 8-4 = 4).