🕷️ Web Scraping & Data Automation (Python)

Este proyecto de automatización en Python está diseñado para la extracción masiva y el procesamiento de datos técnicos de productos mediante códigos EAN. Optimiza auditorías manuales, transformando horas de navegación web en segundos de ejecución automatizada.

🚀 Impacto y Valor

Eficiencia: Reducción del tiempo de auditoría manual en un 95%.
Precisión: Eliminación del error humano en la captura de referencias técnicas y datos ETIM.
Escalabilidad: Capacidad para procesar múltiples URLs y categorías de forma simultánea.

🛠️ Arquitectura del Código

El proyecto sigue una estructura modular para facilitar el mantenimiento y la escalabilidad:

comparador.py: El punto de entrada principal. Coordina el flujo lógico, realiza las llamadas de scraping y centraliza los datos obtenidos de ambos entornos.
utils.py: El motor de funciones técnicas. Contiene la lógica de extracción de datos, manejo del DOM mediante Playwright y limpieza de cadenas de texto.
informe.py: El módulo de generación de reportes. Contiene la función generar_html(datos), encargada de transformar los resultados en un informe visual interactivo.

📊 Generación de Resultados

Al finalizar la ejecución, el sistema genera automáticamente un informe visual de auditoría:

Procesamiento: El script principal envía los resultados comparados a informe.py.
Generación: Se crea un archivo llamado reporte_qa.html en la raíz del proyecto.
Visualización: El sistema utiliza la librería webbrowser para abrir automáticamente el informe en el navegador predeterminado.

El informe incluye:

Resumen de Errores: Contador dinámico de diferencias detectadas (❌).
Tablas Comparativas: Análisis detallado de SEO (Meta titles, H1, Breadcrumbs), imágenes de producto, menús de navegación, precios, atributos técnicos ETIM y validación del buscador.

🏁 Instalación y Ejecución

Este proyecto utiliza uv para la gestión de dependencias, lo que garantiza un entorno aislado y una ejecución rápida.

1. Preparar el entorno e instalar dependencias

Desde la raíz del proyecto, ejecuta el siguiente comando para instalar automáticamente todas las librerías necesarias:

# Instalar las dependencias necesarias
uv sync

2. Instalar navegadores de Playwright

Al utilizar Playwright para la automatización, es necesario descargar los binarios del navegador (Chromium/Firefox) la primera vez:

uv run playwright install

3. Ejecutar el proyecto

Para iniciar el scraping y la comparación de datos, ejecuta el archivo principal:

uv run comparador.py

Al terminar, el archivo reporte_qa.html se abrirá automáticamente en tu navegador.

🛠️ Stack Tecnológico

Lenguaje: Python (ES6+ logic flow).
Librerías de Scraping: Selenium / BeautifulSoup (según arquitectura).
Gestión de Datos: Procesamiento de estructuras JSON y extracción de atributos dinámicos del DOM.

📊 Funcionalidades Clave

Extracción de Atributos: Captura de referencias, fabricantes y descripciones técnicas.
Auditoría de Enlaces: Verificación de garantías, datasheets, menús de información adicional y fichas ETIM.
Validación Visual: Control de imágenes, migas de pan (breadcrumbs) y elementos del buscador.
Análisis de Compra: Scraping de datos de la caja de compra y disponibilidad.

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
OLD		OLD
screenshots		screenshots
.gitignore		.gitignore
.python-version		.python-version
CHANGELOG.md		CHANGELOG.md
README.md		README.md
comparador.py		comparador.py
informe.py		informe.py
main.py		main.py
pyproject.toml		pyproject.toml
reporte_qa.html		reporte_qa.html
utils.py		utils.py
uv.lock		uv.lock

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

🕷️ Web Scraping & Data Automation (Python)

🚀 Impacto y Valor

🛠️ Arquitectura del Código

📊 Generación de Resultados

El informe incluye:

🏁 Instalación y Ejecución

1. Preparar el entorno e instalar dependencias

2. Instalar navegadores de Playwright

3. Ejecutar el proyecto

🛠️ Stack Tecnológico

📊 Funcionalidades Clave

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

🕷️ Web Scraping & Data Automation (Python)

🚀 Impacto y Valor

🛠️ Arquitectura del Código

📊 Generación de Resultados

El informe incluye:

🏁 Instalación y Ejecución

1. Preparar el entorno e instalar dependencias

2. Instalar navegadores de Playwright

3. Ejecutar el proyecto

🛠️ Stack Tecnológico

📊 Funcionalidades Clave

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages