[Shared Utils & Models] Add basic uniform replay buffer & checkpoint serialization

## Description

Implement a simple uniform/circular replay buffer and basic checkpoint save/load for Q-table + metadata. This enables experience sharing between edge episodes and central training.

Why: Replay is essential for off-policy learning; checkpoints allow policy transfer edge ↔ central.

## Type

- [x] Task

## Focus Area (pick one)

- [x] Shared Utils & Models

## Priority

- [x] High

## Acceptance Criteria

- [ ] `UniformReplay` class (append, sample(batch_size), len, max_size control)
- [ ] Checkpoint serialization: save/load Q-table (numpy .npz) + config + episode stats
- [ ] Save → load round-trip preserves Q-values (float32 tolerance)
- [ ] Tests: buffer overflow behavior, sampling uniformity, checkpoint integrity
- [ ] Google-style docstrings on public API
- [ ] Located in shared/src/learning/q_learning/replay/ and io/serialization.py

## Blocker / Dependencies

- [Shared Utils & Models] Create Q-Learning config & types (Pydantic v2)

## Notes / Links

- Future extension: prioritized replay in same module

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Shared Utils & Models] Add basic uniform replay buffer & checkpoint serialization #27

Description

Type

Focus Area (pick one)

Priority

Acceptance Criteria

Blocker / Dependencies

Notes / Links

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

[Shared Utils & Models] Add basic uniform replay buffer & checkpoint serialization #27

Description

Description

Type

Focus Area (pick one)

Priority

Acceptance Criteria

Blocker / Dependencies

Notes / Links

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions