GitHub - canogerman/PDF_notes_XLS: Export pdf notes to file xls

Importador de notas PDF a Excel

Este script en Python está diseñado para extraer información de archivos PDF y almacenarla en una hoja de cálculo de Excel. Se requiere una carpeta con las notas en PDF, cuya ruta de acceso deberá actualizarse en el código. Las notas contienen: número de nota, referencia, fecha y el texto siempre comienza con "De mi mayor consideracion:" y finaliza en "Sin otro particular saluda atte.".

Resumen:

Importación de bibliotecas necesarias:
- os: Proporciona una forma de interactuar con el sistema operativo.
- re: Se utiliza para expresiones regulares.
- openpyxl: Se utiliza para crear y manipular archivos de Excel.
- fitz (PyMuPDF): Un enlace de Python para MuPDF, una biblioteca de renderizado de PDF.
- locale: Se utiliza para establecer el idioma predeterminado para el análisis de fechas.
Configuración del idioma predeterminado para el análisis de fechas en español.
Creación de un libro y hoja de Excel:
- Se crea un nuevo libro de Excel y se obtiene la hoja activa.
Creación de encabezados de columnas en la hoja de Excel:
- Se establecen las cabeceras de las columnas para "Número de Nota", "Referencia", "Fecha" y "Texto".
Búsqueda de archivos PDF en una carpeta específica:
- Se especifica una carpeta para buscar archivos PDF y se crea una lista de archivos PDF en esa carpeta.
Expresión regular para fechas en formato específico en español.
- Se define una expresión regular para buscar fechas en un formato específico.
Diccionario para mapear nombres de meses en español a números de mes.
Iteración a través de archivos PDF y extracción de información:
- Se itera a través de cada archivo PDF.
- Se abre cada archivo PDF utilizando PyMuPDF.
- Se inicializan variables para la información necesaria.
- Se lee el contenido de cada página del PDF.
- Se busca información específica en el texto, como el número de nota, referencia y fechas.
- La información se almacena en la hoja de Excel.
Guardado del libro de Excel:
- El libro de Excel se guarda en un archivo específico.

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
.gitattributes		.gitattributes
PDF_notes_XLS.py		PDF_notes_XLS.py
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

About

Uh oh!

Releases

Packages

Languages

canogerman/PDF_notes_XLS

Folders and files

Latest commit

History

Repository files navigation

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages