Extraire intelligemment le texte et les données d’un document avec OCR NER
Il s’agit d’un cours intitulé “Extraire intelligemment du texte et des données d’un document avec OCR et NER”.
Dans ce cours, vous apprendrez à créer votre propre reconnaissance d’entité nommée. L’objectif principal de ce cours est d’apprendre à trouver des éléments tels que des factures, des cartes de visite, des factures d’expédition, des documents de connaissement et bien plus encore à partir de documents numérisés comme celui-ci. Cependant, pour des raisons de confidentialité, nous n’avons examiné que la carte de visite. Mais vous pouvez utiliser le même cadre pour rédiger tout type de rapport financier. En suivant le programme ci-dessous, nous pourrons bientôt concrétiser le projet.
Pour réaliser ce projet, nous utiliserons deux des outils les plus importants de la science des données :
- Lorsqu’il s’agit d’ordinateurs, la vision est le nom de
- Il y a des gens qui travaillent avec le langage naturel.
Si vous souhaitez en savoir plus sur la vision par ordinateur, vous numérisez un papier, déterminez où se trouve le texte, puis récupérez le texte à partir d’une image. Sortez le titre du texte, nettoyez-le et lisez-le. Ensuite, nous ferons du traitement du langage naturel, c’est ce que nous allons faire.
Bibliothèques Python utilisées dans le module Computer Vision.
Bibliothèques Python utilisées dans le traitement du langage naturel
- spacieux
- Pandas
- Expression régulière
- Chaîne de caractères
Comme nous utilisons deux technologies majeures pour réaliser le projet, nous divisons le cours en plusieurs étapes pour une compréhension facile.
Étape 1 : Nous allons mettre en place le projet en installant des éléments et en respectant les règles.
- Configurez Python.
- Assurez-vous d’avoir tout ce dont vous avez besoin.
Étape 2 : Nous préparerons les données. Cela signifie que nous utiliserons Pytesseract pour obtenir un texte à partir d’images et aussi pour les nettoyer.
- Toutes les images que vous souhaitez afficher
- un regard sur Pytesseract
- Le texte peut être trouvé dans n’importe quelle image contenant du texte.
- Nettoyez et préparez le texte.
Étape 3 : Nous apprendrons comment marquer les données NER avec le marquage BIO.
- L’étiquetage manuel avec BIO est la façon dont vous le faites.
- B- Le début
- Je – Est à l’intérieur
- L’extérieur
Étape 4 : Nous ferons encore plus pour nettoyer le texte et préparer les données afin que nous puissions y entraîner l’apprentissage automatique.
- Les données d’entraînement Spacy doivent être prêtes avant de commencer
- Convertissez les données dans un format volumineux.
- Le modèle d’entité nommée sera formé à ce stade.
- Configuration du modèle NER
- Le modèle doit apprendre à faire ce qu’il doit faire.
Étape 6 : Nous utiliserons NER et un modèle pour prédire les titres et créer un pipeline de données pour l’analyse du texte.
- Jetez un œil aux modèles
- Ensuite, préparez et servez avec un présentoir.
- Lorsque vous prenez une photo, dessinez un cadre autour de celle-ci.
- Analyser les titres d’un texte pour les trouver.
Notre dernière étape consiste à créer une application de numérisation de documents. Nous le ferons en mettant tout ensemble.
Commençons à travailler sur le projet AI maintenant.