0

6 La navigation dans le manuel de Kentika est réservée aux utilisateurs identifiés



Kentika et les "bons robots"

Kentika et les "bons" robots

Kentika permet de filtrer les robots qui sont à l'origine de plus de 80% des connexions sur le Web et qui peuvent provoquer de gros problèmes de performances s'ils sont laissés libre de consulter toutes les pages du portail (en plus de fausser complètement les logs de consultations des invités réels).

Cependant, pour un site ouvert au public, il est parfois important de laisser les "bons" robots, ceux qui indexent les sites pour les proposer dans leurs listes de résultats, faire leur travail sur le portail publié par Kentika.

Quoi qu'il arrive, il est important de commencer par se demander ce que l'on souhaite que les utilisateurs puissent retrouver sur son portail. En effet, les robots ajoutent une charge au serveur quoi qu'il en soit, donc il est important de ne laisser ces robots n'accéder qu'au minimum nécessaire de votre portail.

Indexation simple

Si tout ce dont vous avez besoin, c'est que votre site ressorte avec des informations génériques dans les moteurs de recherche, la meilleure solution est de déclarer les robots d'indexation comme robots ("R"). Dans ce cas, quelle que soit la page qu'ils demandent, il verront les informations données dans Préférences > Sites, dans le champ "Nom" et le champs "Commentaire", mais n'auront pas accès à votre base. Si besoin, vous pouvez dériver la ressources "Robots.htm" pour personnaliser les informations qui apparaissent à cet endroit.

Attention, dans ce cas, il est probable que votre portail remonte assez bas dans les moteurs de recherche, sauf si un utilisateur cherche spécifiquement votre portail.

Robots.txt

Le fichier robots.txt permet de donner des suggestions d'indexations aux robots. Les "bons" robots obéissent aux directives du fichier robots.txt, et vous pouvez le modifier en changeant la ressource du même nom.

Cette ressource permet d'indiquer des pages que l'on souhaite que les robots ignorent et n'indexent pas. Là encore, il faut déterminer les pages à indexer, en essayant de garder le minimum. Souvent, indexer la page d'accueil suffit :

User-agent: *
Disallow: /
Allow: Main.htm

Pour empêcher l'indexation des notices (ce qui n'emp6echera pas d'indexer les listes, et donc les informations des notices qui remontent dans ces listes) :

Disallow: /Record.htm

Ou alors la GED peut ne pas avoir in intérêt à être indexée :

Disallow: /GEIDEFile/
Disallow: /GED_*

Enfin, il est rarement nécessaire d'indexer les masques de recherche :

Disallow: /SelectMC.htm

Une autre directive intéressante est le délai de chargement des pages. Google ne le prend pas en compte (plus d'informations à ce sujet plus bas), mais les autres moteurs de recherche oui :

Crawl-Delay: 5

Il permet d'éviter de surcharger le serveur Web de Kentika avec plusieurs requêtes par secondes.

La temporisation

Une option, lors de la déclaration des robots dans Kentika, est de temporiser ("T") ces derniers. Cela a deux effets :

Le premier, plus évident, est de rallonger artificiellement le temps de chargement de toutes les pages demandées par le robot. Historiquement, cela avait un intérêt puisqu'en rallongeant le temps de chargement, cela évitait que le robot fasse plusieurs tentatives de connexion sur des délai rapprochés. Aujourd'hui, cela n'a plus d'intérêt puisque les robots peuvent demander plusieurs pages en parallèle sans attendre la fin du chargement de chaque page. En fait, ce fonctionnement est même pénalisant, puisque Google, par exemple, prend en compte le temps de chargement des pages pour faire remonter un site plus haut dans les résultats de recherche.

Il y a cependant un second effet qui est beaucoup plus intéressant : Lorsqu'un robot est déclaré en "T", Kentika ne lui calcule pas de "contexte". C'est-à-dire qu'on ne stocke par les changement qu'il fait dans l'interface (changement de mode d'affichage des listes, par exemple), on ne lui calcule par les catégories (filtres), on ne lui stocke pas les listes (donc il ne peut pas accéder à la deuxième page d'une liste, par exemple). Cela signifie que les temps de calcul des pages sont réduits, et le serveur doit consacrer moins de temps à calculer les pages servies au robot.

Pour utiliser ce second effet intéressant sans souffrir du premier, il suffit de mettre le paramètre WxTO à 0. Le délai rajouté artificiellement est alors de 0 seconde.

Note technique : Lorsqu'une page est chargée pour un robot déclaré en "T", la variable bDerive vaut alors Vrai. Cela peut être utilisé pour bloquer certaines parties du portail pour les robots déclarés en T.

La console Google

De manière générale, pour optimiser l'indexation de son portail sur Google, il est important d'activer la console de gestion auprès de Google. Cela permet de définir un certain nombre de paramètres, et de laisser Google remonter des anomalies détectées qui nuiraient à sa bonne indexation du portail.

Au minimum, il est possible d'utiliser cette console (ou une page accessible après l'activation de la console) pour augmenter le délai entre chaque requête, puisque Google ne prend pas en compte la directive "crawl-delay" du fichier robots.txt.