close
    search Buscar

    Extraire du texte à partir d'images ou d'un PDF numérisé -

    Qui suis-je
    Aina Martin
    @ainamartin

    Commentaires sur l'article:

    avertissement de contenu

    Les images (au format jpeg, jpg, bmp, gif, png, etc…) et les PDF scannés ont un point commun : ils ne permettent pas de sélectionner, copier et extraire le texte qui s'y trouve. Par conséquent, si vous avez un document numérisé ou une image contenant un texte très important que vous devez modifier ou copier, la seule solution possible est d'utiliser un programme OCR.

    Un programme OCR est un outil doté d'une technologie interne de reconnaissance optique de caractères, une technologie très utile pour reconnaître et extraire du texte à partir d'images ou de PDF numérisés. L'un des meilleurs programmes dans ce domaine est certainement Elément PDF, que nous avons déjà vu à l'œuvre dans le guide sur comment extraire du texte d'un document PDF.



    PDFElement est compatible avec les ordinateurs Windows et Mac et est disponible dans une version "professionnelle" qui inclut la technologie OCR, utile pour extraire du texte à partir d'images ou de documents numérisés. Voyons ci-dessous comment cela fonctionne et à quel point il est simple d'extraire du texte à partir d'images.

    Comment extraire du texte à partir d'images ou de PDF numérisés

    Étape 1. Téléchargez et installez PDFElement sur votre ordinateur

    Voici les liens à partir desquels vous pouvez télécharger la version de démonstration entièrement gratuite :

     

    Après avoir installé et démarré le programme, vous verrez l'écran de démarrage suivant :

    Étape 2. Importer l'image numérisée ou le PDF

    Cliquez en bas à gauche FICHIER OUVERT ... et sélectionnez l'image numérisée ou le fichier pdf. Pour nos tests et pour cet article, nous avons spécialement créé une image JPEG (via « Paint ») et y avons mis du texte. Une fois cette image chargée dans le programme, voici ce qui est apparu :



    3 étape. Exécuter la fonction OCR

    Comme vous pouvez le voir sur la figure ci-dessus, le programme détecte automatiquement qu'il s'agit d'une image et vous demande si vous souhaitez effectuer une OCR afin de reconnaître le texte dans l'image. En cliquant sur EXÉCUTER L'OCR vous devrez d'abord sélectionner la langue du texte puis lancer l'analyse. Pendant l'analyse, cette fenêtre contextuelle apparaîtra vous informant d'attendre la fin de la procédure :

    4 étape. Extraction de texte


    Après l'OCR comme par magie tout le texte contenu dans l'image (ou dans le PDF scanné) sera "modifiable". C'est-à-dire que vous pouvez le copier, le modifier, le supprimer, le surligner, etc...


    À ce stade, vous pouvez tout enregistrer soit au format PDF, soit au format Word, Excel, Powerpoint (de la rubrique ACCUEIL cliquez simplement sur l'icône du format de sortie souhaité).

     

    un outil en ligne gratuit ? je ne peux rien télécharger

    • Essayez ceci : https://pdftotext.com/
      Mais je ne sais pas s'il prend en charge les PDF scannés...

  • vous avez été très clair, je vais essayer le programme, plus tard je rendrai compte du résultat. Merci

  • je n'ai pas encore essayé je te dirai

  • Extraire du texte à partir d'images ou d'un PDF numérisé -

    Audio Video Extraire du texte à partir d'images ou d'un PDF numérisé -
    ajouter un commentaire depuis Extraire du texte à partir d'images ou d'un PDF numérisé -
    Commentaire envoyé avec succès ! Nous l'examinerons dans les prochaines heures.