- Laura León - 17-10307
- Juan Cuevas - 19-10056
- Anya Marcano - 19-10336
Para instalar las dependencias necesarias para el proyecto, se debe ejecutar el siguiente comando en la terminal:
./env.sh --buildEsto instalará las dependencias necesarias para el proyecto y creará un entorno virtual en la carpeta venv.
Para activar el entorno virtual, se debe ejecutar el siguiente comando en la terminal:
source venv/bin/activateNota
En caso de que quiera desactivar el entorno virtual, se debe ejecutar el siguiente comando en la terminal:
deactivateY si desea eliminar el entorno virtual, se debe ejecutar el siguiente comando en la terminal:
./env.sh --clean
Para ejecutar el servidor de conexión, se debe ejecutar el siguiente comando en la terminal:
start-connect-server.sh --packages org.apache.spark:spark-connect_2.12:$SPARK_VERSIONNota
Para detener el servidor, se debe ejecutar el siguiente comando en la terminal:
stop-connect-server.sh
Para ejecutar el cliente de conexión, se debe ejecutar el siguiente comando en la terminal:
./main.py <n> <file>o
python main.py <n> <file>Nota
El arhivo
main.pytiene un hashbang que permite ejecutarlo directamente como un script de Python. Por lo que no es necesario ejecutar el comandopythonantes del archivo. Sin embargo, esto depende de la configuración de su sistema operativo y de la versión de Python que tenga instalada.
Donde <n> es el número de nodos y <file> es el archivo de texto que se desea procesar.
Para ejecutar el cliente de conexión, se debe ejecutar el siguiente comando en la terminal:
./main.py 3 data.csvPara entrenar los modelos, se debe ejecutar el siguiente comando en la terminal:
./train.pyEsto entrenará los modelos y guardará los resultados en la carpeta models.
Importante
Para poder entrenar los modelos, se debe de tener la Base de datos
spotify.sqliteen la carpeta la raíz del proyecto.Si desea descargar la base de datos, se puede hacer click en el siguiente enlace.
Para calcular la correlación entre las variables, se debe ejecutar el siguiente comando en la terminal:
./correlation.py <n>Donde <n> es el número de filas que se desea procesar para calcular la correlación (es opcional). Por defecto, el número de filas es 100000.
Advertencia
Es posible usar todo el Dataset, pero tomen en cuenta que son mas de 10.000.000 filas y puede tardar mucho tiempo en procesarse, o incluso puede que no se procese por exceder la memoria disponible.