Phideus

Harmonic Information Theory — Research Program

Do frequency ratios constitute a universal informational language?

Phideus en una pagina

Phideus explora la Harmonic Information Theory: la hipotesis de que la armonia natural — razones lineales de frecuencia, serie armonica fisica, regularidades del oscilador — constituye un lenguaje informacional privilegiado para organizar, comprimir y alinear informacion entre modalidades distintas de un mismo fenomeno fisico.

El programa usa arquitecturas aprendidas como instrumentos experimentales. Si las relaciones armonicas naturales mejoran de forma causal, robusta y transferible la alineacion cross-modal entre sensores distintos — y lo hacen por encima de controles espectrales genericos y de codificaciones perceptuales —, eso constituye evidencia de que la armonia natural captura algo real de la organizacion informacional del fenomeno. La posicion epistemologica completa esta en MARCO_EPISTEMOLOGICO_PHIDEUS.md.

Escalon 1 (Audio <-> MIDI) establecio la mecanica: la inyeccion de descriptores reorganiza geometricamente el espacio latente y mejora retrieval de manera causal y robusta (d4a4=84.1% +/-2.3pp, +9.4pp sobre baseline, 5 seeds). Escalon 2 (Speech <-> EGG) lleva esa mecanica al test directo de la hipotesis central: descriptores derivados de la armonia natural del oscilador glotal (ratios lineales de F0, estructura armonica intra-frame) contra controles espectrales y perceptuales. Al corte actual, ese frente ya cerró su primer null mecanistico: concat, attn_bias, xattn y pca dieron 12/12 condiciones ≈ D0 o peores, con V4-lin + attn_bias claramente por debajo. Eso no clausura la tesis fuerte, pero sí cierra el contraste sobre encoders from-scratch de este escalón. El siguiente paso real ya no es más bootstrap ni nuevos barridos ciegos, sino S2-P3: speech encoder frozen de referencia (WavLM o HuBERT) seguido por un diagnóstico comparativo P2 vs P3. En paralelo, Gate 9 / A10 ya entregaron datos retrospectivos en musica y Gate 10 ya cerró su barrido causal completo: concat > FiLM/pca >> attn_bias, con a7-concat=76.4% como mejor arm del gate y una lectura más fuerte de dominio del mecanismo sobre el descriptor. Gate 6 también se volvió más nítido: Exp A y Exp B ya cerraron negativamente en la rama Transkun+A4, mientras Exp C sigue como única línea downstream todavía abierta. Escalon 3 ya dejó atrás la fase de apertura: P1, P2, P4, P5 y P6 ya fueron corridos en una primera pasada completa. La lectura vigente del frente es más precisa: P2-flat sigue como baseline general de IID, P5-cqtshift emerge como mejor brazo geométrico/OOD, y P6 no supera a P5 bajo la receta actual.

Ese arco experimental ya tiene tambien una formulacion larga y teoricamente integrada en el libro de trabajo Harmonic_Information_Theory_Foundations.md, acompañado por su blueprint editorial en ARQUITECTURA_LIBRO.md. Ahi el programa ya quedo articulado como libro, incluyendo el nuevo problema de storage / retrieval y el activation problem como parte del cierre teorico que precede a Phideus y Beacon.

Programa actual

Frente	Dominio	Funcion	Estado
Escalon 1	Audio <-> MIDI	Validacion descriptor-guided y geometria cross-modal	Cerrado — `d4a4=84.1%`, cierre causal robusto
Gate 8	Audio <-> MIDI	Conditioned projections: donde se preserva la informacion descriptorial	Cerrado (5/5) — `pcd=84.2%`, `pca=82.6%`
Gate 6 AMT	Audio -> transcripcion	Validacion downstream de la senal descriptor-guided	Activo — `Exp A` y `Exp B` ya cerraron negativamente; `Exp C` queda como línea abierta
Escalon 2	Speech <-> EGG	Test directo de HIT: armonia natural del oscilador glotal como organizador cross-modal	Foco principal — null mecanistico inicial cerrado; siguiente fase `S2-P3`
Escalon 3	Audio XY <-> Lissajous	Banco de pruebas sintetico con ground truth determinista para ratios visibles	Activo — baseline dual consolidado; primera linea geometrica ya corrida (`P5-cqtshift` mejor brazo OOD actual)
Escalon 4	ECG <-> PPG	Expansion a dominio fisiologico	Proyeccion

Cada frente cumple un papel distinto en la exploracion de HIT. Escalon 1 fija la evidencia de referencia y la mecanica de inyeccion. Gate 8 pregunta donde se preserva la informacion armonica en las proyecciones. Gate 6 pregunta si la ventaja sobrevive fuera del retrieval y, por ahora, ya dejó una lectura más dura: la rama Transkun+A4 no mostró ganancia útil ni en régimen base ni bajo degradación, mientras Exp C conserva abierta la pregunta solo desde el decoder serio sobre features congeladas. Escalon 2 es donde la hipotesis central — la armonia natural como organizador informacional privilegiado — se enfrenta directamente con descriptores derivados de la fisica del oscilador, contra controles espectrales y perceptuales. Ese primer contraste mecanistico ya quedó cerrado; lo que sigue es S2-P3, para separar mejor null de descriptor y null de encoder. Gate 9 / A10 releen retrospectivamente esa deuda dentro de musica, mientras Gate 10 ya dejó de ser un barrido parcial y pasó a ser evidencia cerrada de otra cosa: en esa rama retrospectiva el mecanismo pesa más que el descriptor, con concat arriba, FiLM/pca en segundo plano y attn_bias claramente abajo. Escalon 3, por su parte, ya no vive en E3-P0: hoy tiene un baseline dual consolidado, un régimen de probes ya auditado y una primera linea geométrica completa donde P5-cqtshift queda como mejor brazo OOD y P6 no se vuelve el ganador del frente. Escalon 4 conserva la expansion fisiologica fuera de acústica.

Resultados de referencia

Escalon 1 — Audio <-> MIDI

Referencia canonica sobre MAESTRO. La mejora opera como ventaja geometrica del espacio latente (+82% CKA), no como enriquecimiento de decodificabilidad local.

Brazo	`S` (multi-seed)	Lectura
`D0`	`75.2% +/- 2.3pp`	Baseline sin descriptor
`a4r`	`80.7% +/- 1.9pp`	Reverse cross-attention con descriptor audio
`d4-a4r`	`81.2% +/- 2.5pp`	Variante mixta
`d4a4`	`84.1% +/- 2.3pp`	Record del frente. Cierre causal: +9.4pp por contenido descriptorial real

Gate 8 — Conditioned Projections

La informacion descriptorial es util incluso inyectada en la projection head (FiLM), no solo en el encoder.

Brazo	Best `S`	Delta vs ctrl
`ctrl` (sin condicionamiento)	`79.2%`	—
`pcm` (MIDI cond)	`80.0%`	`+0.8pp`
`pcd-zero` (dual cond, zeros)	`81.8%`	`+2.6pp`
`pca` (audio cond)	`82.6%`	`+3.4pp`
`pcd` (dual cond A4+D4)	`84.2%`	`+5.0pp`

pcd > pca > pcd-zero > pcm > ctrl: el cierre completo ya deja una lectura mas fuerte. La arquitectura conditioned aporta expresividad (pcd-zero > ctrl), el conditioning real aporta senal adicional (pcd > pcd-zero), y el lado audio responde mejor que el MIDI-side cuando se lo condiciona de forma aislada (pca > pcm).

Escalon 2 — Speech <-> EGG

Capa	Resultado	Significado
Baseline lineal `CCA`	`S=64.4%`	La senal cross-modal existe antes del primer encoder neural
Baseline neural `D0`	`S=77.8%`, `CI=[72.0%, 80.8%]`	Piso solido para comparar descriptores
Concatenacion (`S2-P2-main`)	`V4-lin=67.8%`, `H-series=59.8%`, `A4-16k=77.8%`	La concatenacion trata descriptores como features — mecanismo inadecuado
Atencion (`S2-P2.5`)	Interpretado	`V4-lin-xattn=77.0%`, `H-series-attnbias=78.0%`, `A4-16k-attnbias=77.8%`, `A4-16k-xattn=78.0%`; ningun brazo mejora a `D0` de forma defendible
Proj. condicionada (`S2-P2.5b`)	Completa	`V4-lin-pca=74.6%`, `H-series-pca=77.4%`, `A4-16k-pca=77.2%`; ningun brazo superó a `D0`
Proximo contraste (`S2-P3`)	Decidido	encoder frozen `WavLM/HuBERT` + diagnostico comparativo `P2 vs P3`

S2-P2.5 testea la hipotesis central de HIT a nivel de mecanismo: la armonia natural debe guiar la atencion del modelo (organizar la computacion), no aumentar su contenido. V4-lin (dinamica del oscilador) entra como Familia A, H-series (estructura armonica intra-frame) como Familia B y probe mas directamente alineado con la tesis fuerte, y A4-16k queda como control no-ratio de Familia C. Esa fase ya fue leida con el preregistro PREDICCIONES_EPISTEMOLOGICAS_P25.md: la conclusion valida hoy es operativa, no grandilocuente. Los mecanismos concat, attn_bias, xattn y pca no dieron lift de retrieval sobre D0 en Speech↔EGG y dejaron un primer null mecanistico formalmente cerrado. El paso siguiente ya no es seguir abriendo variantes del mismo encoder, sino correr S2-P3 con un speech encoder frozen de referencia (WavLM o HuBERT) y comparar despues P2 vs P3 con CKA, probes lineales y lectura representacional.

Como entrar al repo

Si queres...	Empezar por...
Entender que tipo de conocimiento produce Phideus	MARCO_EPISTEMOLOGICO_PHIDEUS.md
Ver el estado canonico del proyecto	Proyecto_Estado_Actual.md
Ver la estructura global de documentacion	INDICE_DOCUMENTACION.md
Entrar por la formulacion larga del programa	Harmonic_Information_Theory_Foundations.md
Ir al frente musical consolidado	ROADMAP_BIAS_CONTROL.md
Ir al frente vocal actual	ESCALON_2/README.md
Ver el preregistro interpretativo de Escalón 2	PREDICCIONES_EPISTEMOLOGICAS_P25.md
Ver el nuevo frente Lissajous	ESCALON_3/README.md
Entender la historia de los descriptores	CATALOGO_NARRATIVO_DESCRIPTORES_RATIOS_PHIDEUS.md
Ver la historia larga del proyecto	INFORME_HISTORICO_REPRESENTACIONES_RATIOS.md
Ver skills compartidas	Documents/Skills/README.md

Visualizaciones y documentacion viva

Visualizaciones 3D interactivas

altermundi.github.io/Phideus

Exploraciones de arquitecturas y lineas principales del programa: baseline cross-modal, reverse cross-attention, configuraciones duales de Escalon 1.

Skills compartidas

Documents/Skills/README.md

Skills reutilizables concentradas en operacion HPC/SLURM, validacion pre-submit y lecciones operativas.

Estructura de documentacion

Documents/00_TRONCAL/ — estado ejecutivo, indices, documentos troncales
Documents/01_FRENTES_ACTIVOS/ — documentacion operativa de cada frente vivo
Documents/04_TRANSVERSAL/ — teoria, fundamentos, historia

Infraestructura computacional

Parte del programa utiliza recursos de UNC Supercomputo (CCAD) de la Universidad Nacional de Cordoba, integrados al Sistema Nacional de Computacion de Alto Desempeno (SNCAD) de la Republica Argentina.

Para publicaciones derivadas de corridas en esa infraestructura, el proyecto adopta la formulacion institucional recomendada:

supercomputo.unc.edu.ar/equipamiento/citar-recursos

Reproduccion minima

Setup del entorno

python3 -m venv venv
source venv/bin/activate
pip install -r requirements.txt

Pipeline base de BIAS_CONTROL

python experiments/bias_control/run_all_gates.py \
  --maestro-dir data/maestro_v3/maestro-v3.0.0 \
  --output data/bias_control_medium

Ejemplo: Gate 4.3 `d4a4`

PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True \
python experiments/bias_control/gate42_training.py \
  --descriptor d4a4 \
  --checkpoint data/bias_control_medium/training_outputs/foundation_locked_e25.pt \
  --output data/bias_control_medium/training_outputs/gate43/d4a4 \
  --maestro-dir data/maestro_v3/maestro-v3.0.0 \
  --epochs 5 --batch-size 16 --num-workers 8 \
  --freeze-policy run-d --seed 42 --device cuda

Evaluacion estructurada

python experiments/bias_control/evaluate_structured_pool.py \
  --model <checkpoint.pt> \
  --output <output.json> \
  --pool-size 256 --n-queries 500 --seed 42 \
  --maestro-dir data/maestro_v3/maestro-v3.0.0

Protocolo canonico: pool=256, queries=500, seed=42.

Roadmap del programa

TripleScaloneta

Escalon	Dominio	Rol	Estado
Escalon 1	MAESTRO Audio <-> MIDI	Validacion descriptor-guided y cierre cientifico del primer banco de pruebas	Cerrado
Escalon 2	Speech <-> EGG	Test directo de HIT: armonia natural del oscilador como organizador cross-modal	Activo (null mecanistico inicial cerrado; `S2-P3` decidido)
Escalon 3	Audio XY <-> Lissajous	Banco sintetico con ratio visible y control total de parametros	Activo (`P2/P4/P5/P6` ya corridos en primera pasada)
Escalon 4	ECG <-> PPG	Expansion fisiologica	Proyeccion

Frentes activos

Frente	Funcion	Documento
Gate 6 AMT	Validacion downstream	12_GATE_6_AMT/README.md
Gate 8	Conditioned projections	15_GATE_8_CONDITIONED_PROJECTIONS/README.md
Gate 10	Mechanism sweep audio-only	17_GATE_10_MECHANISM_SWEEP/README.md
Escalon 2	Frente principal (null mecanistico inicial cerrado; siguiente fase `S2-P3`)	ESCALON_2/README.md
Escalon 3	Banco Lissajous con baseline dual y primera linea geometrica ya consolidada	ESCALON_3/README.md

Roadmaps canonicos

Arquitectura y familias descriptoriales

Arquitectura general

Phideus trabaja con configuraciones cross-modales contrastivas donde la armonia natural se inyecta como senal organizadora:

modalidad A -> encoder -> projection -> embedding
                  ^
            armonia natural
                  v
modalidad B -> encoder -> projection -> embedding
                    \      VICReg      /

La investigacion no se limita a que encoder usar. La pregunta central es como entra la armonia natural (como augmentation, atencion o modulacion), que geometria induce, y si esa geometria es especifica de relaciones armonicas o aparece con cualquier descriptor auxiliar.

Escalon 1: familias

Familia	Ejemplos	Rol
Control	`D0`	Baseline sin descriptor
MIDI local	`D4`	Relaciones locales del lado MIDI
Audio espectral	`A4`, `A4r`	Dinamica espectral del lado audio
Dual	`d4a4`, `d4-a4r`	Combinaciones de mayor rendimiento

Escalon 2: taxonomia armonica

Familia	Descriptor	Rol en la exploracion de HIT
Armonia natural temporal	`V4-lin`	Dinamica lineal del oscilador — testea si ratios naturales de F0 organizan atencion inter-frame
Armonia natural intra-frame	`H-series`	Estructura armonica (H2/H1..H6/H1) — testea si la serie armonica fisica organiza features
Control perceptual	`V4-log`	Misma info que V4-lin en escala logaritmica — testea si la escala importa
Control espectral	`A4-16k`	Dinamica espectral generica no-ratio — testea si cualquier descriptor auxiliar ayuda

Ver: MARCO_EPISTEMOLOGICO_PHIDEUS.md y plan_rectificacion_armonia_natural.md

Linea experimental consolidada

Escalon 1

Brazo	`S` (multi-seed)
`D0`	`75.2% +/- 2.3pp`
`a4r`	`80.7% +/- 1.9pp`
`d4-a4r`	`81.2% +/- 2.5pp`
`d4a4`	`84.1% +/- 2.3pp`

Gate 8

Brazo	Best `S`	Delta vs ctrl
`ctrl`	`79.2%`	—
`pcm`	`80.0%`	`+0.8pp`
`pcd-zero`	`81.8%`	`+2.6pp`
`pcd`	`84.2%`	`+5.0pp`
`pca`	`82.6%`	`+3.4pp`

Gate 6 / Gate 7.1

Frente	Corte
Gate 6 AMT	`Exp C` local cerro (`F1=0.157`); `Exp A` y `Exp B` ya cerraron negativamente en la rama `Transkun+A4`
Gate 7.1a	`D0_mert330m_frozen=75.0%`, sin mejora sobre `D0_lite=75.2%`

Escalon 2

Capa	Resultado
CCA baseline	`S=64.4%`
D0 neural	`S=77.8%`
Concatenacion	`V4-lin=67.8%`, `H-series=59.8%`, `A4-16k=77.8%`
Atencion (`S2-P2.5`)	Interpretado bajo preregistro

Documentacion clave y estructura del repo

Documentos principales

Documento	Funcion
Proyecto_Estado_Actual.md	Estado ejecutivo
INDICE_DOCUMENTACION.md	Mapa global
ROADMAP_BIAS_CONTROL.md	Roadmap musical
ESCALON_2/README.md	Frente vocal
Documents/Skills/README.md	Skills compartidas

Estructura

Phideus/
├── src/                         # Modulos del proyecto
├── experiments/                 # Training, evaluacion y utilidades experimentales
├── Documents/
│   ├── 00_TRONCAL/              # Estado ejecutivo, indices, documentos troncales
│   ├── 01_FRENTES_ACTIVOS/      # Frentes vivos
│   ├── 02_FRENTES_PAUSADOS/     # Frentes pausados
│   ├── 03_FRENTES_CERRADOS/     # Frentes cerrados
│   └── 04_TRANSVERSAL/          # Teoria, fundamentos, historia
├── viz/                         # Visualizaciones interactivas
├── data/                        # Datasets y outputs (no versionados)
└── config/                      # Configuraciones

"El bosque ya canta. Nuestra tarea es entender su afinacion."

Licencia: MIT — ver LICENSE.md

Name		Name	Last commit message	Last commit date
Latest commit History 318 Commits
.github/workflows		.github/workflows
Documents		Documents
config		config
experiments		experiments
results_unc		results_unc
scripts		scripts
slurm		slurm
src		src
tests		tests
viz		viz
.gitignore		.gitignore
AGENTS.md		AGENTS.md
LICENSE.md		LICENSE.md
MARCO_EPISTEMOLOGICO_PHIDEUS.md		MARCO_EPISTEMOLOGICO_PHIDEUS.md
README.md		README.md
main.aux		main.aux
main.bcf		main.bcf
main.out		main.out
main.toc		main.toc
requirements.txt		requirements.txt

Folders and files

Latest commit

History

Repository files navigation

Phideus

Harmonic Information Theory — Research Program

Phideus en una pagina

Programa actual

Resultados de referencia

Escalon 1 — Audio <-> MIDI

Gate 8 — Conditioned Projections

Escalon 2 — Speech <-> EGG

Como entrar al repo

Visualizaciones y documentacion viva

Visualizaciones 3D interactivas

Skills compartidas

Estructura de documentacion

Infraestructura computacional

Reproduccion minima

Setup del entorno

Pipeline base de BIAS_CONTROL

Ejemplo: Gate 4.3 d4a4

Evaluacion estructurada

TripleScaloneta

Frentes activos

Roadmaps canonicos

Arquitectura general

Escalon 1: familias

Escalon 2: taxonomia armonica

Escalon 1

Gate 8

Gate 6 / Gate 7.1

Escalon 2

Documentos principales

Estructura

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases 1

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Ejemplo: Gate 4.3 `d4a4`

Packages