Skip to content

Heizhem/Datathon

 
 

Repository files navigation

Proyecto Individual 2

🏥 Estancia hospitalaria 🏥

La hospitalización, o estancia hospitalaria, cuando es prolongada constituye una preocupación a nivel mundial debido a sus efectos negativos en el sistema de salud, aumentando los costos, generando deficiencia en la accesibilidad de prestación de servicios de salud, saturación de unidades de hospitalización y urgencias, por consiguiente, mayores efectos adversos como lo son las enfermedades intrahospitalarias.

El estudio de los procesos de atención en salud, así como el conocimiento de las características y perfiles de los usuarios con el objetivo de predecir la ocupación hospitalaria, es uno de los aspectos al que las autoridades de salud han prestado gran interés, pues permite no sólo garantizar los recursos necesarios para la atención del paciente, sino realizar ajustes respecto a la oferta y demanda de los servicios de salud y los implementos asociados. ​

Descripción del problema

Un importante Centro de Salud lo ha contratado con el fin de poder predecir si un paciente tendrá una estancia hospitalaria prolongada o no, utilizando la información contenida en el dataset asociado, la cual recaba una muestra histórica de sus pacientes, para poder administrar la demanda de camas en el hospital según la condición de los pacientes recientemente ingresados.

Para esto, se define que un paciente posee estancia hospitalaria prolongada si ha estado hospitalizado más de 8 días. Por lo que debe generar dicha variable categórica y luego categorizar los pacientes según las variables que usted considere necesarias, justificando dicha elección. ​

Criterio de evaluación

La solución propuesta debe incluir los siguientes ítems, por cada uno cumplido sumará 1 punto, siendo 1 la nota mínima y 5 la nota máxima:

  • Entrenamiento y predicción utilizando un Modelo de Machine Learning adecuado al problema (clasificación o regresión).
  • Análisis exploratorio de los datos (EDA).
  • División de dataset en train y test utilizando train_test_split, CV, KFold o similares.
  • Utilización de Pipelines en la producción del modelo.
  • Comentarios y redacción con la fundamentación de la solución propuesta, escrita en Markdown en el Jupyter Notebook (.ipynb) o bien en un documento aparte.

Métrica a utilizar

​ Como método de evaluación del desempeño del modelo, se utilizará la métrica de Exhaustividad (Recall) para las estadías hospitalarias largas, a partir de la matriz de confusión (Confusion Matrix).

$$ Recall=\frac{TP}{TP+FN}$$

Donde $TP$ son los verdaderos positivos y $FN$ los falsos negativos.

Como métrica adicional para verificar el desempeño de su modelo, también se utilizará la métrica de precisión (Accuracy) para las estadías hospitalarias largas.

$$ Accuracy=\frac{TP+TN}{P+N}$$

siendo $TP$ los verdaderos positivos, $TN$ verdaderos negativos y $P+N$ población total.

Archivos descripción

  • 'hospitalizaciones_train.csv': Contiene 410000 registros y 15 dimensiones, el cual incluye la información numérica de la cantidad de días de estancia hospitalaria.
  • 'hospitalizaciones_test.csv': Contiene 90000 registros y 14 dimensiones, el cual no incluye la información de la cantidad de días de estancia hospitalaria. ​

Descripción de las dimensiones

  • Available Extra Rooms in Hospital: Habitaciones adicionales disponibles en el hospital. Una habitación no es igual a un paciente, pueden ser individuales o compartidas.
  • Department: Área de atención a la que ingresa el paciente.
  • Ward_Facility_Code: Código de la habitación del paciente.
  • doctor_name: Nombre de el/la doctor/a a cargo del paciente.
  • staff_available: Cantidad de personal disponible al momento del ingreso del paciente.
  • patientid: Identificador del paciente.
  • Age: Edad del paciente.
  • gender: Género del paciente.
  • Type of Admission: Tipo de ingreso registrado según la situación de ingreso del paciente.
  • Severity of Illness: Gravedad de la enfermedad/condición/estado del paciente al momento del ingreso.
  • health_conditions: Condiciones de salud del paciente.
  • Visitors with Patient: Cantidad de visitantes registrados para el paciente.
  • Insurance: Indica si la persona posee o no seguro de salud.
  • Admission_Deposit: Pago realizado a nombre del paciente, con el fin de cubrir los costos iniciales de internación.
  • Stay (in days): Días registrados de estancia hospitalaria.

Acerca del repocitorio

A continuacion se describe cada notebook.

  • eda: notebook donde se realiza el eda
  • transformacion: se realizan las respécntivas codificaciones de las columnas sergun el tipo de dato
  • transformacion_test: se realiza la transformacio de el dataset hospital_test para crear el dataset pred con las predicciones
  • feature_engeneering: se analizan los features optimos para realizar el modelo
  • modelado: conta de la normalizacion , reduccion de mencionalidad por pca, los distintos modelos que probe y la creacion de las predicciones

About

Repositorio del PI02 de Data Science

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages

  • Jupyter Notebook 99.6%
  • Other 0.4%