Numérisation de documents au format PDF Partie 2

Reconnaissance du texte d’un document numérisé

Vous pouvez utiliser Acrobat pour reconnaître le texte d’un document numérisé au préalable et converti au format PDF. Le logiciel de reconnaissance optique des caractères (ROC) vous permet d’indexer, de corriger et de copier le texte d’un document PDF numérisé. La résolution d’origine du scanner doit avoir été définie sur 72 ppp ou plus pour appliquer la reconnaissance optique de caractères à un PDF.

Remarque :

une numérisation effectuée à 300 ppp génère le texte le plus adapté à la conversion. Avec une résolution de 150 ppp, la précision de la ROC est légèrement inférieure.

Reconnaissance du texte d’un document unique

1. Ouvrez le fichier PDF numérisé.
2. Sélectionnez Tous les outils > Scan et OCR > Dans ce fichier.
Les options de reconnaissance du texte sont affichées dans la boîte de dialogue contextuelle.
3. Dans la boîte de dialogue contextuelle, sélectionnez une étendue et une langue pour la reconnaissance du texte.
4. Sélectionnez éventuellement Paramètres pour ouvrir la boîte de dialogue Reconnaissance du texte, puis spécifiez les options selon vos besoins.
5. Sélectionnez Reconnaître le texte. Acrobat crée un calque de texte indexable dans votre fichier PDF — ou copie-colle le contenu dans un nouveau document.

Reconnaissance du texte de plusieurs documents

1. Sélectionnez Tous les outils > Scan et OCR > Dans plusieurs fichiers.
2. Dans la boîte de dialogue Reconnaître le texte, sélectionnez Ajouter des fichiers, puis Ajouter des fichiers, Ajouter des dossiers ou Ajouter des fichiers ouverts. Sélectionnez les fichiers ou le dossier. La boîte de dialogue Options de sortie s’affiche.
3. Dans la boîte de dialogue Options de sortie, spécifiez un dossier cible pour les fichiers de sortie et les préférences de dénomination de fichiers. Sélectionnez OK.
4. Dans la boîte de dialogue Reconnaissance du texte - Paramètres généraux, spécifiez les options voulues, puis sélectionnez OK.
Acrobat crée un calque de texte indexable dans votre fichier PDF — ou copie-colle le contenu dans un nouveau document.

Boîte de dialogue Reconnaissance du texte - Paramètres généraux

Langue du document Détermine la langue que le moteur de ROC doit utiliser pour identifier les caractères.

Sortie (Style de sortie PDF) Détermine le type de fichier PDF à générer. Toutes les options nécessitent une résolution d’entrée de 72 ppp ou plus (recommandé). Tous les formats appliquent aux images de texte la reconnaissance optique des caractères (ROC), la reconnaissance des polices et celle des pages, puis les convertissent en texte normal.

Image indexable Permet de s’assurer que le texte est disponible pour la recherche et sélectionnable. Cette option conserve l’image d’origine, applique un redressement selon les besoins et insère un calque de texte invisible. L’option choisie pour le paramètre Sous-échantillonner les images dans cette même boîte de dialogue indique si l’image est sous-échantillonnée et le niveau de sous-échantillonnage.

Image indexable (exacte) Permet de s’assurer que le texte est disponible pour la recherche et sélectionnable. Cette option conserve l’image d’origine et insère un calque de texte invisible (recommandée lorsque l’image doit être la plus fidèle possible à l’image d’origine).

Texte et images modifiablesSynthétise une nouvelle police personnalisée qui simule approximativement l’originale et conserve l’arrière-plan des pages dans une copie basse résolution.

Sous-échantillonner à Réduit le nombre de pixels des images en couleurs, en niveaux de gris et monochromes suite à la reconnaissance optique des caractères. Choisissez le degré de sous-échantillonnage à appliquer. Les options les plus élevées produisent un sous-échantillonnage moindre, et donc des fichiers PDF de résolution supérieure.

Correction du texte ROC dans un fichier PDF

Lorsque vous appliquez la ROC à une sortie numérisée, Acrobat analyse les images bitmap de texte et les remplace par des mots et des caractères. Si la substitution n’est pas certaine, Acrobat identifie le mot comme suspect. Les suspects s’affichent dans le fichier PDF à l’aide du bitmap d’origine et le texte est placé sur un calque invisible situé derrière la représentation bitmap du terme. Cette méthode permet de rechercher le terme, même lorsqu’il est affiché sous la forme d’une image bitmap.

Remarque : si vous essayez de sélectionner du texte dans un document PDF numérisé sans OCR ou d’effectuer une lecture audio sur un fichier image, Acrobat vous propose d’exécuter OCR. Si vous sélectionnez OK, la boîte de dialogue Reconnaître le texte s’ouvre et vous permet de sélectionner les options décrites en détail à la rubrique précédente.

1. Sélectionnez Tous les outils > Scan et OCR > Corriger le texte reconnu.
Acrobat identifie les erreurs de texte suspectées et affiche l’image et le texte dans la boîte de dialogue contextuelle. Tous les mots suspects sur la page sont inclus dans des zones de texte.
2. Sélectionnez la zone ou l’objet mis en surbrillance dans le document, puis effectuez la correction dans la zone Reconnu en tant que de la boîte de dialogue contextuelle. Sélectionnez Accepter.
Le suspect suivant est mis en surbrillance. Corrigez les éventuelles erreurs. Sélectionnez Accepter pour chaque correction.
3.Sélectionnez Fermer lorsque la tâche est terminée.

Articles connexes

Related Articles
Numérisation de documents au format PDF Partie 1
Avant de commencer Nous déployons actuellement une nouvelle expérience produit plus intuitive. Si l’écran présenté ici ne correspond pas à l’interface de votre produit, consultez l’aide pour votre expérience actuelle. Dans la nouvelle expérience, les ...
Documents PDF géographiques
À propos des fichiers PDF géographiques Un fichier géographique PDF contient les informations requises pour les données de lieu de référence géographique. Lors de l’importation de données géographiques dans un fichier PDF, Acrobat conserve les ...
Enregistrement d’un fichier au format PDF
Avant de commencer Nous déployons actuellement une nouvelle expérience produit plus intuitive. Si l’écran présenté ici ne correspond pas à l’interface de votre produit, consultez l’aide pour votre expérience actuelle. Dans la nouvelle expérience, les ...
Résolution des problèmes liés au scanner lors de la numérisation à l’aide d’Acrobat Partie 1
Problème Vous ne pouvez pas numériser un fichier à l’aide d’Adobe Acrobat et vous rencontrez l’un des problèmes suivants. Reportez-vous à la solution correspondante pour résoudre le problème que vous rencontrez lors de la numérisation d’un fichier. ...
Résolution des problèmes liés au scanner lors de la numérisation à l’aide d’Acrobat Partie 2
Correction du format de page lors de la numérisation (Applicable à Windows uniquement) Certains scanners n’indiquent pas les formats pris en charge à Acrobat lorsque l’option du scanner Masquer l’interface native du scanner est sélectionnée dans ...

Numérisation de documents au format PDF Partie 2

Numérisation de documents au format PDF Partie 2

Reconnaissance du texte d’un document numérisé

Reconnaissance du texte d’un document unique

Reconnaissance du texte de plusieurs documents

Boîte de dialogue Reconnaissance du texte - Paramètres généraux

Correction du texte ROC dans un fichier PDF

Articles connexes

Related Articles

Numérisation de documents au format PDF Partie 1

Documents PDF géographiques

Enregistrement d’un fichier au format PDF

Résolution des problèmes liés au scanner lors de la numérisation à l’aide d’Acrobat Partie 1

Résolution des problèmes liés au scanner lors de la numérisation à l’aide d’Acrobat Partie 2