OCR pour l’extraction intelligente de données à partir de PDF et d’images avec NER
En suivant ce cours, vous apprendrez à effectuer une extraction intelligente de données à partir de fichiers PDF et d’images.
La technologie mondiale a placé les compétences cognitives en tête de liste, avec une grande attention portée à l’extraction intelligente de données. Cela devient plus compliqué car il existe de nombreux types de documents différents qui peuvent être utilisés, comme des documents pdf avec des données structurées, des documents pdf numérisés et des documents Word. Ce cours vise à vous aider à comprendre ces différents formats, puis à vous apprendre à faire une extraction intelligente de données avec les concepts Python, Pandas, OCR, Tesseract, PyTesseract, OpenCV, Spacy et NER.
Le cours vous montrera comment créer un pipeline commun même si vos données se présentent sous différents formats. Vous apprendrez à extraire des données à l’aide de l’OCR, à étiqueter les données avec Spacy et à former un modèle avec des données NER personnalisées. Ensuite, vous utiliserez le modèle pour prédire à quoi ressembleront vos données. Ensuite, à la fin, nous rassemblerons toutes les choses que nous avons apprises pour créer une application Smart Text Extractor.
Dans ce cours, vous découvrirez en détail le processus d’extraction de données textuelles. Tout d’abord, vous découvrirez les concepts technologiques, puis vous écrirez du code pour montrer comment ces concepts sont utilisés. Une procédure détaillée de code a été incluse pour toutes les implémentations de code, et 12 fichiers de code source qui les accompagnent peuvent être trouvés sur le site. De plus, le quiz à la fin du cours vous permet de voir dans quelle mesure vous avez réussi et où vous devez vous améliorer.