functional covid_hosp_explore

dsweber2 · dsweber2 · commit 65b40949d043 · 2024-12-17T10:36:24.000-06:00
diff --git a/scripts/covid_hosp_explore.R b/scripts/covid_hosp_explore.R
@@ -41,7 +41,7 @@ forecaster_parameter_combinations_ <- rlang::list2(
     pop_scaling = FALSE,
     n_training = Inf
   ),
-  tidyr::expand_grid(
+  flatline_forecaster = tidyr::expand_grid(
     forecaster = "flatline_fc",
   ),
   # using exogenous variables
@@ -160,6 +160,7 @@ forecaster_grid <- forecaster_parameter_combinations_ %>%
   map(make_forecaster_grid) %>%
   bind_rows()
 forecaster_families_ <- setdiff(forecaster_parameter_combinations_ %>% names(), c("flusion_grf"))
+reports_dir <- "reports"
 
 scaled_pop_not_scaled <- list(
   forecaster = "scaled_pop",
@@ -575,8 +576,8 @@ rlang::list2(
   tar_target(
     external_forecasts,
     command = {
-      s3load("flusight_forecasts_2023.rds", bucket = "forecasting-team-data")
-      flusight_forecasts_2023
+      s3load("covid19_forecast_hub_2023.rds", bucket = "forecasting-team-data", verbose = FALSE)
+      full_results
     }
   ),
   tar_target(
@@ -586,8 +587,11 @@ rlang::list2(
         mutate(target_end_date = target_end_date + 3)
       cmu_forecast_dates <- ref_time_values_ + 3
       filtered_forecasts <- external_forecasts %>%
+        mutate(forecast_date = forecast_date + 5, target_end_date = target_end_date + 5) %>%
         filter(forecast_date %in% cmu_forecast_dates) %>%
-        rename(model = forecaster)
+        rename(model = forecaster) %>%
+        rename(prediction = value) %>%
+        filter(!is.na(geo_value))
       evaluate_predictions(predictions_cards = filtered_forecasts, truth_data = actual_eval_data) %>%
         rename(forecaster = model)
     }
@@ -610,7 +614,6 @@ rlang::list2(
     family_notebooks,
     command = {
       actual_eval_data <- hhs_evaluation_data %>%
-        select(-population) %>%
         mutate(target_end_date = target_end_date + 3)
       delphi_forecaster_subset <- forecaster_parameter_combinations[[forecaster_families]]$id
       outside_forecaster_subset <- c("COVIDhub-baseline", "COVIDhub-ensemble")
diff --git a/scripts/flu_hosp_explore.R b/scripts/flu_hosp_explore.R
@@ -535,8 +535,7 @@ rlang::list2(
   tar_target(
     family_notebooks,
     command = {
-      actual_eval_data <- hhs_evaluation_data %>%
-        select(-population) %>%
+      actual_eval_data <- hhs_evaluation_data
         mutate(target_end_date = target_end_date + 3)
       delphi_forecaster_subset <- forecaster_parameter_combinations[[forecaster_families]]$id
       outside_forecaster_subset <- c("FluSight-baseline", "FluSight-ensemble", "UMass-flusion")
@@ -564,7 +563,6 @@ rlang::list2(
     overall_notebook,
     command = {
       actual_eval_data <- hhs_evaluation_data %>%
-        select(-population) %>%
         mutate(target_end_date = target_end_date + 3)
       rmarkdown::render(
         "scripts/reports/flu-overall-comparison-notebook.Rmd",
diff --git a/scripts/one_offs/read_covid_forecast_hub_data.jl b/scripts/one_offs/read_covid_forecast_hub_data.jl
@@ -0,0 +1,60 @@
+# this was run from within the https://github.com/reichlab/covid19-forecast-hub repo,
+# specifically in the data-processed folder
+# to get the rds, run
+#
+# full_results <- readr::read_csv("../covid19-forecast-hub/data-processed/covid19-2023season-results.csv")
+# aws.s3::s3save(full_results, object = "covid19_forecast_hub_2023.rds", bucket = "forecasting-team-data")
+#
+using CSV
+using DataFrames
+using DataFramesMeta
+using Dates
+using RData
+pwd()
+res = CSV.read("COVIDhub-ensemble/2023-10-02-COVIDhub-ensemble.csv", DataFrame)
+pathname = "COVIDhub-ensemble/"
+filename = "2023-10-02-COVIDhub-ensemble.csv"
+state_names = CSV.read("../data-locations/locations.csv", DataFrame)
+lowercase(m::Missing) = m
+@rtransform! state_names @passmissing :abbreviation = lowercase(:abbreviation)
+@select! state_names :abbreviation :location
+
+function format_file(pathname, filename, state_names)
+    if length(filename) < 10 ||
+       match(r"[0-9]{4}-[0-9]{2}-[0-9]{2}", filename[1:10]) == nothing ||
+       Date(filename[1:10]) < Date(2023, 1, 1)
+        return DataFrame()
+    end
+    println(joinpath(pathname, filename))
+
+    res = CSV.read(joinpath(pathname, filename), DataFrame, missingstring="NA")
+
+    if !("forecast_date" in names(res)) ||
+       res[!, :forecast_date] |> minimum < Date(2023, 1, 1)
+        return DataFrame()
+    end
+    @transform(res, :target = (:target))
+    res = @chain res begin
+        @rtransform :target = parse(Int64, match(r"[0-9]*", :target).match)
+        @transform :forecaster = pathname
+        @rsubset :type == "quantile"
+    end
+    res = leftjoin(res, state_names, on=:location)
+    @select! res :forecaster :geo_value = :abbreviation :forecast_date :target_end_date :ahead = :target :quantile :value
+    res
+end
+results = DataFrame[]
+for (root, dirs, files) in walkdir(".")
+    for file in files
+        push!(results, format_file(root, file, state_names))
+    end
+end
+full_results = vcat(results...)
+CSV.write("covid19-2023season-results.csv", full_results)
+full_results[!, :forecaster] |> unique
+@rsubset! full_results :ahead % 7 == 0
+@rtransform! full_results :forecaster = :forecaster[3:end]
+"./fqfae"[3:end]
+3 % 7
+@rsubset full_results !ismissing(:geo_value) :forecast_date == Date(2023,11,13)
+@rsubset res :forecast_date == Date(2023,11,0)