Skip to content

datasets might need to get downgraded for "openai/summarize_from_feedback" to load correctly #1

@Neelectric

Description

@Neelectric

First of all, amazing work on this paper! The experimental results are very striking, and I am currently going through the process of reproducing them. I thought I would flag that I had to downgrade datasets from the requirements.txt version 4.5.0 to 3.6.0 for the ./scripts/prepare_data_tldr.sh script to work:

(.venv-baseline) root@(redacted):/(redacted)/baseline_sdpo# ./scripts/prepare_data_tldr.sh
REPO_ROOT=/(redacted)/baseline_sdpo
OUT_DIR=/(redacted)/baseline_sdpo/data/tldr_prompts_unique

README.md: 1.61kB [00:00, 6.60MB/s]
summarize_from_feedback.py: 9.38kB [00:00, 32.6MB/s]
Traceback (most recent call last):
  File "/(redacted)/baseline_sdpo/auxiliary/process_tldr_dataset.py", line 31, in <module>
    ds = load_dataset("openai/summarize_from_feedback", "comparisons")  # train/validation
         ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/(redacted)/baseline_sdpo/.venv-baseline/lib/python3.12/site-packages/datasets/load.py", line 1488, in load_dataset
    builder_instance = load_dataset_builder(
                       ^^^^^^^^^^^^^^^^^^^^^
  File "/(redacted)/baseline_sdpo/.venv-baseline/lib/python3.12/site-packages/datasets/load.py", line 1133, in load_dataset_builder
    dataset_module = dataset_module_factory(
                     ^^^^^^^^^^^^^^^^^^^^^^^
  File "/(redacted)/baseline_sdpo/.venv-baseline/lib/python3.12/site-packages/datasets/load.py", line 1032, in dataset_module_factory
    raise e1 from None
  File "/(redacted)/baseline_sdpo/.venv-baseline/lib/python3.12/site-packages/datasets/load.py", line 992, in dataset_module_factory
    raise RuntimeError(f"Dataset scripts are no longer supported, but found {filename}")
RuntimeError: Dataset scripts are no longer supported, but found summarize_from_feedback.py
(.venv-baseline) root@(redacted):/(redacted)/baseline_sdpo# uv pip show datasets
Using Python 3.12.13 environment at: .venv-baseline
Name: datasets
Version: 4.5.0
Location: /(redacted)/baseline_sdpo/.venv-baseline/lib/python3.12/site-packages
Requires: dill, filelock, fsspec, httpx, huggingface-hub, multiprocess, numpy, packaging, pandas, pyarrow, pyyaml, requests, tqdm, xxhash
Required-by: trl
(.venv-baseline) root@(redacted):/(redacted)/baseline_sdpo# uv pip install "datasets<4.0.0"
Using Python 3.12.13 environment at: .venv-baseline
Resolved 30 packages in 200ms
Prepared 4 packages in 71ms
Uninstalled 4 packages in 916ms
░░░░░░░░░░░░░░░░░░░░ [0/4] Installing wheels...                                                                                                                                                                                                                                                                      warning: Failed to hardlink files; falling back to full copy. This may lead to degraded performance.
         If the cache and target directories are on different filesystems, hardlinking may not be supported.
         If this is intentional, set `export UV_LINK_MODE=copy` or use `--link-mode=copy` to suppress this warning.
Installed 4 packages in 1.58s
 - datasets==4.5.0
 + datasets==3.6.0
 - dill==0.4.0
 + dill==0.3.8
 - fsspec==2025.10.0
 + fsspec==2025.3.0
 - multiprocess==0.70.18
 + multiprocess==0.70.16
(.venv-baseline) root@(redacted):/(redacted)/baseline_sdpo# uv pip show datasets
Using Python 3.12.13 environment at: .venv-baseline
Name: datasets
Version: 3.6.0
Location: /(redacted)/baseline_sdpo/.venv-baseline/lib/python3.12/site-packages
Requires: dill, filelock, fsspec, huggingface-hub, multiprocess, numpy, packaging, pandas, pyarrow, pyyaml, requests, tqdm, xxhash
Required-by: trl
(.venv-baseline) root@s(redacted):/(redacted)/baseline_sdpo# ./scripts/prepare_data_tldr.sh
REPO_ROOT=/(redacted)/baseline_sdpo
OUT_DIR=/(redacted)/baseline_sdpo/data/tldr_prompts_unique

comparisons/train/0000.parquet: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 21.1M/21.1M [00:01<00:00, 20.8MB/s]
comparisons/validation/0000.parquet: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 22.8M/22.8M [00:05<00:00, 4.56MB/s]
Generating train split: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 92858/92858 [00:00<00:00, 395495.71 examples/s]
Generating validation split: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 86086/86086 [00:00<00:00, 320240.51 examples/s]
Map: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 92858/92858 [00:06<00:00, 15305.34 examples/s]
Filter: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 92858/92858 [00:00<00:00, 608575.11 examples/s]
Map: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 86086/86086 [00:05<00:00, 15150.81 examples/s]
Filter: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 86086/86086 [00:00<00:00, 646565.91 examples/s]
Casting the dataset: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 27802/27802 [00:00<00:00, 362157.60 examples/s]
Casting the dataset: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 25339/25339 [00:00<00:00, 352632.21 examples/s]
Raw counts -> train: 27,802, valid: 25,339
hashing: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 27802/27802 [00:00<00:00, 93111.57 examples/s]
marking first occurrences: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 27802/27802 [00:00<00:00, 478794.99 examples/s]
Filter: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 27802/27802 [00:00<00:00, 1220855.78 examples/s]
hashing: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 25339/25339 [00:00<00:00, 90203.26 examples/s]
marking first occurrences: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 25339/25339 [00:00<00:00, 493698.53 examples/s]
Filter: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 25339/25339 [00:00<00:00, 1219416.55 examples/s]
After in-split dedupe -> train: 4,563, valid: 1,867
cross-split check: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1867/1867 [00:00<00:00, 116716.83 examples/s]
Filter: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1867/1867 [00:00<00:00, 549565.97 examples/s]
After cross-split dedupe -> train: 4,563, valid: 1,867
DatasetDict({
    train: Dataset({
        features: ['prompt'],
        num_rows: 4563
    })
    validation: Dataset({
        features: ['prompt'],
        num_rows: 1867
    })
})

=== Example 1/5 ===
Backstory: I got an internship at a tiny niche record label, one of the last of its kind in the US. It's a not-for-credit three month unpaid internship (food stipend + paid parking) two days a week. I got the internship because they were "impressed" but I have also been told that they "don't know what to do with me". I am trying to create a new position of my own in demographics and writing. One month in, and they're already dropping big hints that they want to hire me. I also found the company $1600 in unclaimed funds.   
  
However... the other employees I work with seem to have side work they do, so I am guessing that it won't pay super well. The other thing is that I am unemployed right now and really hurting, so any money could help. Finding decently paid work around my internship schedule is really hard.
TL;DR:

(Other examples removed for brevity)

Saving the dataset (1/1 shards): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4563/4563 [00:00<00:00, 196519.17 examples/s]
Saving the dataset (1/1 shards): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1867/1867 [00:00<00:00, 224963.82 examples/s]

Saved HF dataset to: /(redacted)/baseline_sdpo/data/tldr_prompts_unique
Exported train to: /(redacted)/baseline_sdpo/data/tldr_prompts_unique/train.jsonl
Exported validation to: /(redacted)/baseline_sdpo/data/tldr_prompts_unique/validation.jsonl

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions