Este proyecto realiza un análisis distribuido de datos simulados de movilidad urbana en la Ciudad de México, utilizando Apache Spark.
Se procesaron más de 1000 registros simulados de viajes de bicicleta compartida en la CDMX para analizar:
- Horarios de mayor congestión.
- Rutas más concurridas.
- Estaciones de mayor actividad.
Se utilizó PySpark para manejar los datos de forma distribuida y Matplotlib para visualizar los resultados.
- Python 3.12+
- Apache Spark 3.5.0 (PySpark)
- Pandas
- Matplotlib
📎 Diagrama de flujo de vialidad.pdf
- 📜
main.py
— Código fuente principal - 🗺️
Diagrama de flujo de vialidad.pdf
— Diagrama del flujo de procesamiento - 📄
viajes_bici.csv
— Dataset base - 📄
rutas_populares.csv
— Rutas más utilizadas - 📄
resumen_origenes.csv
— Conteo por estación origen - 📄
resumen_destinos.csv
— Conteo por estación destino - 🧾
Practica_Spark.pdf
— Informe completo de la práctica
Durante el desarrollo de esta práctica se utilizó inteligencia artificial como asistencia técnica para:
- Generación de datasets simulados.
- Estructuración de código y corrección de errores.
- Formato y presentación del repositorio.
El uso fue documentado de manera responsable como apoyo al aprendizaje.
El proyecto permitió aplicar Apache Spark para procesamiento distribuido en un escenario urbano realista, logrando optimizar consultas, resúmenes y análisis masivos de movilidad de forma eficiente.