Do frequency ratios constitute a universal informational language?
Phideus explora la Harmonic Information Theory: la hipotesis de que la armonia natural — razones lineales de frecuencia, serie armonica fisica, regularidades del oscilador — constituye un lenguaje informacional privilegiado para organizar, comprimir y alinear informacion entre modalidades distintas de un mismo fenomeno fisico.
El programa usa arquitecturas aprendidas como instrumentos experimentales. Si las relaciones armonicas naturales mejoran de forma causal, robusta y transferible la alineacion cross-modal entre sensores distintos — y lo hacen por encima de controles espectrales genericos y de codificaciones perceptuales —, eso constituye evidencia de que la armonia natural captura algo real de la organizacion informacional del fenomeno. La posicion epistemologica completa esta en MARCO_EPISTEMOLOGICO_PHIDEUS.md.
Escalon 1 (Audio <-> MIDI) establecio la mecanica: la inyeccion de descriptores reorganiza geometricamente el espacio latente y mejora retrieval de manera causal y robusta (d4a4=84.1% +/-2.3pp, +9.4pp sobre baseline, 5 seeds). Escalon 2 (Speech <-> EGG) lleva esa mecanica al test directo de la hipotesis central: descriptores derivados de la armonia natural del oscilador glotal (ratios lineales de F0, estructura armonica intra-frame) contra controles espectrales y perceptuales. Al corte actual, ese frente ya cerró su primer null mecanistico: concat, attn_bias, xattn y pca dieron 12/12 condiciones ≈ D0 o peores, con V4-lin + attn_bias claramente por debajo. Eso no clausura la tesis fuerte, pero sí cierra el contraste sobre encoders from-scratch de este escalón. El siguiente paso real ya no es más bootstrap ni nuevos barridos ciegos, sino S2-P3: speech encoder frozen de referencia (WavLM o HuBERT) seguido por un diagnóstico comparativo P2 vs P3. En paralelo, Gate 9 / A10 ya entregaron datos retrospectivos en musica y Gate 10 ya cerró su barrido causal completo: concat > FiLM/pca >> attn_bias, con a7-concat=76.4% como mejor arm del gate y una lectura más fuerte de dominio del mecanismo sobre el descriptor. Gate 6 también se volvió más nítido: Exp A y Exp B ya cerraron negativamente en la rama Transkun+A4, mientras Exp C sigue como única línea downstream todavía abierta. Escalon 3 ya dejó atrás la fase de apertura: P1, P2, P4, P5 y P6 ya fueron corridos en una primera pasada completa. La lectura vigente del frente es más precisa: P2-flat sigue como baseline general de IID, P5-cqtshift emerge como mejor brazo geométrico/OOD, y P6 no supera a P5 bajo la receta actual.
Ese arco experimental ya tiene tambien una formulacion larga y teoricamente integrada en el libro de trabajo Harmonic_Information_Theory_Foundations.md, acompañado por su blueprint editorial en ARQUITECTURA_LIBRO.md. Ahi el programa ya quedo articulado como libro, incluyendo el nuevo problema de storage / retrieval y el activation problem como parte del cierre teorico que precede a Phideus y Beacon.
| Frente | Dominio | Funcion | Estado |
|---|---|---|---|
| Escalon 1 | Audio <-> MIDI | Validacion descriptor-guided y geometria cross-modal | Cerrado — d4a4=84.1%, cierre causal robusto |
| Gate 8 | Audio <-> MIDI | Conditioned projections: donde se preserva la informacion descriptorial | Cerrado (5/5) — pcd=84.2%, pca=82.6% |
| Gate 6 AMT | Audio -> transcripcion | Validacion downstream de la senal descriptor-guided | Activo — Exp A y Exp B ya cerraron negativamente; Exp C queda como línea abierta |
| Escalon 2 | Speech <-> EGG | Test directo de HIT: armonia natural del oscilador glotal como organizador cross-modal | Foco principal — null mecanistico inicial cerrado; siguiente fase S2-P3 |
| Escalon 3 | Audio XY <-> Lissajous | Banco de pruebas sintetico con ground truth determinista para ratios visibles | Activo — baseline dual consolidado; primera linea geometrica ya corrida (P5-cqtshift mejor brazo OOD actual) |
| Escalon 4 | ECG <-> PPG | Expansion a dominio fisiologico | Proyeccion |
Cada frente cumple un papel distinto en la exploracion de HIT. Escalon 1 fija la evidencia de referencia y la mecanica de inyeccion. Gate 8 pregunta donde se preserva la informacion armonica en las proyecciones. Gate 6 pregunta si la ventaja sobrevive fuera del retrieval y, por ahora, ya dejó una lectura más dura: la rama Transkun+A4 no mostró ganancia útil ni en régimen base ni bajo degradación, mientras Exp C conserva abierta la pregunta solo desde el decoder serio sobre features congeladas. Escalon 2 es donde la hipotesis central — la armonia natural como organizador informacional privilegiado — se enfrenta directamente con descriptores derivados de la fisica del oscilador, contra controles espectrales y perceptuales. Ese primer contraste mecanistico ya quedó cerrado; lo que sigue es S2-P3, para separar mejor null de descriptor y null de encoder. Gate 9 / A10 releen retrospectivamente esa deuda dentro de musica, mientras Gate 10 ya dejó de ser un barrido parcial y pasó a ser evidencia cerrada de otra cosa: en esa rama retrospectiva el mecanismo pesa más que el descriptor, con concat arriba, FiLM/pca en segundo plano y attn_bias claramente abajo. Escalon 3, por su parte, ya no vive en E3-P0: hoy tiene un baseline dual consolidado, un régimen de probes ya auditado y una primera linea geométrica completa donde P5-cqtshift queda como mejor brazo OOD y P6 no se vuelve el ganador del frente. Escalon 4 conserva la expansion fisiologica fuera de acústica.
Referencia canonica sobre MAESTRO. La mejora opera como ventaja geometrica del espacio latente (+82% CKA), no como enriquecimiento de decodificabilidad local.
| Brazo | S (multi-seed) |
Lectura |
|---|---|---|
D0 |
75.2% +/- 2.3pp |
Baseline sin descriptor |
a4r |
80.7% +/- 1.9pp |
Reverse cross-attention con descriptor audio |
d4-a4r |
81.2% +/- 2.5pp |
Variante mixta |
d4a4 |
84.1% +/- 2.3pp |
Record del frente. Cierre causal: +9.4pp por contenido descriptorial real |
La informacion descriptorial es util incluso inyectada en la projection head (FiLM), no solo en el encoder.
| Brazo | Best S |
Delta vs ctrl |
|---|---|---|
ctrl (sin condicionamiento) |
79.2% |
— |
pcm (MIDI cond) |
80.0% |
+0.8pp |
pcd-zero (dual cond, zeros) |
81.8% |
+2.6pp |
pca (audio cond) |
82.6% |
+3.4pp |
pcd (dual cond A4+D4) |
84.2% |
+5.0pp |
pcd > pca > pcd-zero > pcm > ctrl: el cierre completo ya deja una lectura mas fuerte. La arquitectura conditioned aporta expresividad (pcd-zero > ctrl), el conditioning real aporta senal adicional (pcd > pcd-zero), y el lado audio responde mejor que el MIDI-side cuando se lo condiciona de forma aislada (pca > pcm).
| Capa | Resultado | Significado |
|---|---|---|
Baseline lineal CCA |
S=64.4% |
La senal cross-modal existe antes del primer encoder neural |
Baseline neural D0 |
S=77.8%, CI=[72.0%, 80.8%] |
Piso solido para comparar descriptores |
Concatenacion (S2-P2-main) |
V4-lin=67.8%, H-series=59.8%, A4-16k=77.8% |
La concatenacion trata descriptores como features — mecanismo inadecuado |
Atencion (S2-P2.5) |
Interpretado | V4-lin-xattn=77.0%, H-series-attnbias=78.0%, A4-16k-attnbias=77.8%, A4-16k-xattn=78.0%; ningun brazo mejora a D0 de forma defendible |
Proj. condicionada (S2-P2.5b) |
Completa | V4-lin-pca=74.6%, H-series-pca=77.4%, A4-16k-pca=77.2%; ningun brazo superó a D0 |
Proximo contraste (S2-P3) |
Decidido | encoder frozen WavLM/HuBERT + diagnostico comparativo P2 vs P3 |
S2-P2.5 testea la hipotesis central de HIT a nivel de mecanismo: la armonia natural debe guiar la atencion del modelo (organizar la computacion), no aumentar su contenido. V4-lin (dinamica del oscilador) entra como Familia A, H-series (estructura armonica intra-frame) como Familia B y probe mas directamente alineado con la tesis fuerte, y A4-16k queda como control no-ratio de Familia C. Esa fase ya fue leida con el preregistro PREDICCIONES_EPISTEMOLOGICAS_P25.md: la conclusion valida hoy es operativa, no grandilocuente. Los mecanismos concat, attn_bias, xattn y pca no dieron lift de retrieval sobre D0 en Speech↔EGG y dejaron un primer null mecanistico formalmente cerrado. El paso siguiente ya no es seguir abriendo variantes del mismo encoder, sino correr S2-P3 con un speech encoder frozen de referencia (WavLM o HuBERT) y comparar despues P2 vs P3 con CKA, probes lineales y lectura representacional.
| Si queres... | Empezar por... |
|---|---|
| Entender que tipo de conocimiento produce Phideus | MARCO_EPISTEMOLOGICO_PHIDEUS.md |
| Ver el estado canonico del proyecto | Proyecto_Estado_Actual.md |
| Ver la estructura global de documentacion | INDICE_DOCUMENTACION.md |
| Entrar por la formulacion larga del programa | Harmonic_Information_Theory_Foundations.md |
| Ir al frente musical consolidado | ROADMAP_BIAS_CONTROL.md |
| Ir al frente vocal actual | ESCALON_2/README.md |
| Ver el preregistro interpretativo de Escalón 2 | PREDICCIONES_EPISTEMOLOGICAS_P25.md |
| Ver el nuevo frente Lissajous | ESCALON_3/README.md |
| Entender la historia de los descriptores | CATALOGO_NARRATIVO_DESCRIPTORES_RATIOS_PHIDEUS.md |
| Ver la historia larga del proyecto | INFORME_HISTORICO_REPRESENTACIONES_RATIOS.md |
| Ver skills compartidas | Documents/Skills/README.md |
Exploraciones de arquitecturas y lineas principales del programa: baseline cross-modal, reverse cross-attention, configuraciones duales de Escalon 1.
Skills reutilizables concentradas en operacion HPC/SLURM, validacion pre-submit y lecciones operativas.
Documents/00_TRONCAL/— estado ejecutivo, indices, documentos troncalesDocuments/01_FRENTES_ACTIVOS/— documentacion operativa de cada frente vivoDocuments/04_TRANSVERSAL/— teoria, fundamentos, historia
Parte del programa utiliza recursos de UNC Supercomputo (CCAD) de la Universidad Nacional de Cordoba, integrados al Sistema Nacional de Computacion de Alto Desempeno (SNCAD) de la Republica Argentina.
Para publicaciones derivadas de corridas en esa infraestructura, el proyecto adopta la formulacion institucional recomendada:
supercomputo.unc.edu.ar/equipamiento/citar-recursos
python3 -m venv venv
source venv/bin/activate
pip install -r requirements.txtpython experiments/bias_control/run_all_gates.py \
--maestro-dir data/maestro_v3/maestro-v3.0.0 \
--output data/bias_control_mediumPYTORCH_CUDA_ALLOC_CONF=expandable_segments:True \
python experiments/bias_control/gate42_training.py \
--descriptor d4a4 \
--checkpoint data/bias_control_medium/training_outputs/foundation_locked_e25.pt \
--output data/bias_control_medium/training_outputs/gate43/d4a4 \
--maestro-dir data/maestro_v3/maestro-v3.0.0 \
--epochs 5 --batch-size 16 --num-workers 8 \
--freeze-policy run-d --seed 42 --device cudapython experiments/bias_control/evaluate_structured_pool.py \
--model <checkpoint.pt> \
--output <output.json> \
--pool-size 256 --n-queries 500 --seed 42 \
--maestro-dir data/maestro_v3/maestro-v3.0.0Protocolo canonico: pool=256, queries=500, seed=42.
Roadmap del programa
| Escalon | Dominio | Rol | Estado |
|---|---|---|---|
| Escalon 1 | MAESTRO Audio <-> MIDI | Validacion descriptor-guided y cierre cientifico del primer banco de pruebas | Cerrado |
| Escalon 2 | Speech <-> EGG | Test directo de HIT: armonia natural del oscilador como organizador cross-modal | Activo (null mecanistico inicial cerrado; S2-P3 decidido) |
| Escalon 3 | Audio XY <-> Lissajous | Banco sintetico con ratio visible y control total de parametros | Activo (P2/P4/P5/P6 ya corridos en primera pasada) |
| Escalon 4 | ECG <-> PPG | Expansion fisiologica | Proyeccion |
| Frente | Funcion | Documento |
|---|---|---|
| Gate 6 AMT | Validacion downstream | 12_GATE_6_AMT/README.md |
| Gate 8 | Conditioned projections | 15_GATE_8_CONDITIONED_PROJECTIONS/README.md |
| Gate 10 | Mechanism sweep audio-only | 17_GATE_10_MECHANISM_SWEEP/README.md |
| Escalon 2 | Frente principal (null mecanistico inicial cerrado; siguiente fase S2-P3) |
ESCALON_2/README.md |
| Escalon 3 | Banco Lissajous con baseline dual y primera linea geometrica ya consolidada | ESCALON_3/README.md |
Arquitectura y familias descriptoriales
Phideus trabaja con configuraciones cross-modales contrastivas donde la armonia natural se inyecta como senal organizadora:
modalidad A -> encoder -> projection -> embedding
^
armonia natural
v
modalidad B -> encoder -> projection -> embedding
\ VICReg /
La investigacion no se limita a que encoder usar. La pregunta central es como entra la armonia natural (como augmentation, atencion o modulacion), que geometria induce, y si esa geometria es especifica de relaciones armonicas o aparece con cualquier descriptor auxiliar.
| Familia | Ejemplos | Rol |
|---|---|---|
| Control | D0 |
Baseline sin descriptor |
| MIDI local | D4 |
Relaciones locales del lado MIDI |
| Audio espectral | A4, A4r |
Dinamica espectral del lado audio |
| Dual | d4a4, d4-a4r |
Combinaciones de mayor rendimiento |
| Familia | Descriptor | Rol en la exploracion de HIT |
|---|---|---|
| Armonia natural temporal | V4-lin |
Dinamica lineal del oscilador — testea si ratios naturales de F0 organizan atencion inter-frame |
| Armonia natural intra-frame | H-series |
Estructura armonica (H2/H1..H6/H1) — testea si la serie armonica fisica organiza features |
| Control perceptual | V4-log |
Misma info que V4-lin en escala logaritmica — testea si la escala importa |
| Control espectral | A4-16k |
Dinamica espectral generica no-ratio — testea si cualquier descriptor auxiliar ayuda |
Ver: MARCO_EPISTEMOLOGICO_PHIDEUS.md y plan_rectificacion_armonia_natural.md
Linea experimental consolidada
| Brazo | S (multi-seed) |
|---|---|
D0 |
75.2% +/- 2.3pp |
a4r |
80.7% +/- 1.9pp |
d4-a4r |
81.2% +/- 2.5pp |
d4a4 |
84.1% +/- 2.3pp |
| Brazo | Best S |
Delta vs ctrl |
|---|---|---|
ctrl |
79.2% |
— |
pcm |
80.0% |
+0.8pp |
pcd-zero |
81.8% |
+2.6pp |
pcd |
84.2% |
+5.0pp |
pca |
82.6% |
+3.4pp |
| Frente | Corte |
|---|---|
| Gate 6 AMT | Exp C local cerro (F1=0.157); Exp A y Exp B ya cerraron negativamente en la rama Transkun+A4 |
| Gate 7.1a | D0_mert330m_frozen=75.0%, sin mejora sobre D0_lite=75.2% |
| Capa | Resultado |
|---|---|
| CCA baseline | S=64.4% |
| D0 neural | S=77.8% |
| Concatenacion | V4-lin=67.8%, H-series=59.8%, A4-16k=77.8% |
Atencion (S2-P2.5) |
Interpretado bajo preregistro |
Documentacion clave y estructura del repo
| Documento | Funcion |
|---|---|
| Proyecto_Estado_Actual.md | Estado ejecutivo |
| INDICE_DOCUMENTACION.md | Mapa global |
| ROADMAP_BIAS_CONTROL.md | Roadmap musical |
| ESCALON_2/README.md | Frente vocal |
| Documents/Skills/README.md | Skills compartidas |
Phideus/
├── src/ # Modulos del proyecto
├── experiments/ # Training, evaluacion y utilidades experimentales
├── Documents/
│ ├── 00_TRONCAL/ # Estado ejecutivo, indices, documentos troncales
│ ├── 01_FRENTES_ACTIVOS/ # Frentes vivos
│ ├── 02_FRENTES_PAUSADOS/ # Frentes pausados
│ ├── 03_FRENTES_CERRADOS/ # Frentes cerrados
│ └── 04_TRANSVERSAL/ # Teoria, fundamentos, historia
├── viz/ # Visualizaciones interactivas
├── data/ # Datasets y outputs (no versionados)
└── config/ # Configuraciones
"El bosque ya canta. Nuestra tarea es entender su afinacion."
Licencia: MIT — ver LICENSE.md