0

6 La navigation dans le manuel de Kentika est réservée aux utilisateurs identifiés



Acquisition - Océrisation - Indexation - Diffusion : dimensionner sa chaîne de traitement des documents

Acquisition - Océrisation - Indexation - Diffusion : dimensionner sa chaîne de traitement des documents

Kentika propose une chaîne complète et modulaire de traitement de documents papiers et électroniques.

Vous déterminez le mode opératoire le mieux adapté à vos objectifs, votre organisation, vos contraintes. Le présent document va vous aider à définir le process en phase avec votre projet en détaillant chacune des options possibles.

Ne sont abordés ici que les aspects liés aux documents ayant une origine "papier". Le traitement des documents déjà sous forme électronique est abordé sur le site web de Kentika.

Quelques notions importantes

OCR (ou océrisation) : consiste à reconnaître les caractères d'un texte. Les avantages sont : possibilité d'indexation full text (et donc de recherche dans le contenu), permettre un copier/coller du texte. Cette opération peut être réalisée avant indexation ou après (en mode service sur le serveur).

Solution recommandée : ABBYY

PDF : format Acrobat utilisé de préférence aujourd'hui à tout autre format (TIF par exemple). Il permet de traiter des documents composites (texte + images). Suivant le mode de création d'un fichier pdf, sa taille peut varier dans une rapport de 1 à 10. Un grand soin doit être apporté à la manière dont il est généré.

Montage : opération consistant à découper une image issue de la numérisation d'une page (d'un article par exemple) et à recomposer un document en restructurant la présentation. Elle permet une incrustation automatique d'élements d'indexation (exemple : nom du journal, date de parution). Cette opération est parfois appelé "clipping". Dans le cas d'articles de presse, ceci est particulièrement appréciable. Dans le cas de rapport ou de courrier, cette étape n'est pas utile.

Solution proposée : module PDF review

Full text : indexation d'un document afin de pouvoir effectuer des recherches rapides dans le contenu. Ceci permet d'envisager parfois une indexation moins détaillée. Dans d'autres cas, de retrouver un document à partir d'un élément de détail qui n'aurait pas été repris dans les métadonnées.

Solution proposée : module Full text

Optimisation : une image issue d'un scan couleur fait en moyenne 1 Mo pour une page A4. Si l'on génère un panorama de presse de 50 pages, cela fera 50 Mo. Si ce panorama est envoyé à 100 personnes, cela génère un trafic de de 5 Giga octets. La phase d'optimisation consiste à identifier les images réelles (une photo par exemple) et à les isoler du texte. Après optimisation, la page passera de 1Mo à 100 Ko (chiffre moyen). Dans notre exemple, le trafic ne serait plus que de 500 Mo.

Solution recommandée : ABBYY Finereader

Acquisition : numérisation

La numérisation et l'indexation peuvent être effectuées de différentes manières. Le (ou les, car ils ne sont pas exclusifs) process que vous aurez retenu(s) doi(ven)t tenir compte de vos objectifs et de votre organisation.

Numérisation en lot, importation en lot

Si vous disposez d'un scanner rapide et que vous avez besoin que les nouveaux documents soient acquis et mis en ligne rapidement, vous pouvez optez pour une numérisation en lot. A un fichier pdf correspondra ensuite une notice.

L'importation s'effectue via une programmation de la centrale d'importation. Vous paramétrez ensuite un dossier pour retrouver rapidement les documents importés mais non encore validés. Ce dossier peut être la sélection sur une rubrique "statut" par exemple. Vous affichez le contenu de ce dossier et vous complétez/validez chaque notice ainsi créée (cette étape n'est pas obligatoire mais recommandée pour une indexation de qualité).

Critères de choix de cette solution

+ Rapidité d'intégration dans la base et de mise en ligne.

+ La centrale d'importation peut se déclencher soit sur le serveur (via un répertoire partagé par exemple), soit sur un poste client riche. L'enrichissement de la notice peut être effectué via un client riche ou via un client web.

- Si l'OCR est effectué lors de la numérisation, vous n'aurez pas à le faire réaliser par le serveur (via ABBYY RS3 par exemple). Attention cependant : les logiciels d'OCR intégrés au scanner ne font en général pas d'optimisation de la taille du fichier.

- Si vous numérisez des articles, vous n'aurez pas la possibilité de réaliser de montage pour une présentation soignée.

Cette solution est particulièrement adaptée pour une reprise initiale d'un fonds ou encore lorsque des versements importants sont faits régulièrement.

Numérisation en lot, indexation unitaire - client riche

Tous les documents sont numérisés et déposés dans un répertoire. Lors de la saisie des notices correspondantes, vous déclarez ce répertoire en favori et vous demandez à ne présenter que les nouveaux documents.

En client web, vous procédez de la même manière. La différence est que vous ne pourrez ni désigner un répertoire ni demander à Kentika de ne vous présenter que les documents que vous n'avez pas encore indexés.

Critères de choix de cette solution

+ Rapidité de numérisation, utilisation d'un scanner partagé possible

+ Indexation de qualité dès l'intégration dans la base documentaire

- Pas d'optimisation

- Pas de montage

Indexation unitaire, numérisation via l'application fournie avec le scanner

Dans Kentika (client riche uniquement), vous créez une nouvelle notice. Vous déclenchez l'application fournie avec votre scanner en ayant pris soin de programmer l'enregistrement des fichiers dans le répertoire Newscan de votre répertoire temporaire (AKTemp). Lorsque la fiche en cours de saisie repasse au premier plan, le fichier que vous venez de numériser est automatiquement rattaché à la notice.

NB : cette solution implique que votre scanner soit connecté à votre poste de travail (ie : elle exclue les scanners en réseau ou en libre service).

Critères de choix de cette solution

+ Vous bénéficiez des possibilités de votre scanner et de son application (ocr, enregistrement direct en pdf)

+ L'opération est contrôlée en temps réel (numérisation ET indexation)

- Pas d'optimisation (si l'application effectue l'OCR en direct)

- Pas de montage (en général : simplement une option de sélection de zone)

Indexation unitaire, numérisation unitaire via un driver Twain

Dans Kentika (client riche uniquement), vous créez une nouvelle notice et vous déclenchez la numérisation à l'aide d'un driver Twain permettant de piloter votre scanner. Le résultat est fourni (et reste) au format jpeg (un document par page). Cette solution est bien adaptée aux images (exemple : photo, couverture d'ouvrage).

Critères de choix de cette solution

+ Simple à utiliser et à mettre en place

+ Permet de créer une imagette par page

- Pas d'optimisation

- Pas de montage

Indexation unitaire, numérisation et montage via DoKmaker

Grâce à ce module proposé par ip solutions, les opérations de clipping et de montage de pages sont réalisables depuis un navigateur.

Indexation unitaire, numérisation et montage via PDF Composer

Dans Kentika (client riche), vous créez une nouvelle notice et vous activez la table de montage. Vous numérisez chaque page ou récupérez les images issues de scanners, découpez les parties qui vous intéressent et les ré-assemblez afin de mettre cote à cote les différentes parties d'un même article, sur plusieurs pages si nécessaire. En appliquant une maquette de présentation, vous automatisez l'incrustation d'un cartouche d'informations pouvant contenir du texte fixe (exemple : le nom de votre organisation, une mention de copyright), du texte issu de la notice (nom du journal, date de parution, thème) ou encore des icônes (le logo du journal, une icône spécifique à chaque thème, votre logo). Le fichier pdf est généré à la validation de la fiche. Si vous avez opté pour ABBYY RS3 ou Pix2PDF, l'océrisation s'effectuera au niveau du serveur lui-même après archivage.

PDF Composer est une des fonctions proposées dans le module "PDF Review".

Critères de choix de cette solution

+ Qualité des documents produits

+ Homogénisation et personnalisation des présentations

- Moins adapté à des volumes nécessitant une approche "productiviste".

Océrisation

Cette étape, si elle est nécessaire, peut se faire soit en amont de l'indexation (lors de la numérisation et avant l'indexation), soit en aval (après indexation et validation de la notice descriptive).

Numérisation amont

Les fichiers que vous indexez dans Kentika sont déjà au format pdf et l'océrisation est déjà effectuée.

Une note technique détaille le fonctionnement avec Fine reader.

Critères de choix de cette solution

+ Solution peu coûteuse (des logiciels d'OCR sont aujourd'hui fournis avec la plupart des scanners)

- Ne permet ni montage ni optimisation

- Les temps de traitement sont plus importants

- Nécessite une installation sur chaque poste d'acquisition

- Ne peut océriser des documents reçus de tiers (exemple : reçu dans un email)

Numérisation aval

Un automate d'OCR est installé et programmé au niveau du serveur Kentika. Les fichiers sont d'abord archivés dans leur état d'origine (disponibilité immédiate) puis remplacés par le résultat optimisé et océrisé dès que ce dernier est disponible. Ils peuvent ensuite être indexés en Full text.

Kentika propose deux solutions : ABBY RS3 et Pix2PDF. Ces dernières peuvent être utilisées pour d'autres besoins que Kentika pour un meilleur amortissement de son investissement.

Critères de choix de cette solution

+ Optimise les fichiers (gain de place, diminution des temps de transfert et du trafic réseau)

+ Libère du temps machine au niveau des postes client (riche ou web)

- Investissement initial à budgéter

Indexation

L'indexation dans Kentika peut se faire à deux niveaux : les métadonnées (dans tous les cas), le contenu. Si vous avez opté pour la solution full text de Kentika, les documents que vous avez numérisés et océrisés seront automatiquement indexés et vous pourrez effectué des recherches simples (un mot ou une expression) ou avancées (avec des opérateurs de proximité, des suggestions de termes proches en cas de non réponse, un classement par pertinence).

Un des points forts de la solution est de permettre de mixer des critères provenant des métadonnées et une recherche dans le contenu (ce que les moteurs de recherches full text purs ne permettent pas en général).

Diffusion

Kentika inclut divers solutions de diffusion push (diffusion sélective d'informations, newsletter, diffusion sur abonnement) ou pull (web : moteur de recherche ou par exploration de menus-sous menu).

Dans le cas de panorama de presse, la composition de documents pdf comportant sommaire, signets et articles numérisés permet aux destinataires de les recevoir (ou le télécharger) puis d'en disposer librement sur leur ordinateur.

La solution PDF Review permet de composer et de diffuser des documents alliant qualité de présentation, facilité de navigation et simplicité de mise en oeuvre.

A propos des technologies proposées

Chez Kentika nous apportons un grand soin aux choix des technologies proposées avec notre solution. Nos soucis permanents sont :

- qualité et performances techniques

- pérennité des solutions

- interopérabilité des technologies entre elles

- dimension internationale

- support des éditeurs sélectionnés