Detectar el pródromo antes del síntoma. No diagnosticar PMDD.
Detect the prodrome before the symptom. Not diagnose PMDD.
Dataset público multimodal del menstrual cycle phase identification study, recogido durante 2022 y 2024 en una cohorte de mujeres en edad reproductiva. Combina sensorización pasiva con Fitbit (HRV, frecuencia cardíaca en reposo, temperatura nocturna, frecuencia respiratoria, sueño), verdad de terreno hormonal con dispositivo Mira Plus (LH, E3G, PdG) y autoinforme diario de síntomas premenstruales.
El objetivo es construir un sistema que detecte el pródromo PMS/PMDD antes de que la mujer reporte síntomas.
Public multimodal dataset from the menstrual cycle phase identification study, collected during 2022 and 2024 from a cohort of women of reproductive age. It combines Fitbit passive sensing (HRV, resting heart rate, nocturnal temperature, breathing rate, sleep), hormonal ground truth via the Mira Plus device (LH, E3G, PdG) and daily self-report of premenstrual symptoms.
The goal is to build a system that detects the PMS/PMDD prodrome before the woman reports symptoms.
A fecha de mayo 2026, ninguna app comercial ni publicación aplica un marco idiográfico fase-condicional con regla de convergencia multidimensional al pródromo PMS/PMDD. Las apps actuales (Clue, Flo, Natural Cycles) hacen tracking pasivo o predicción de calendario, pero no detección idiográfica de pródromo basada en biomarcadores fisiológicos. El propio Fitbit ya aplica baseline idiográfico solo a temperatura cutánea — LUTEA demuestra cómo extender ese principio a HRV, dimensión respiratoria, sueño y otras señales del mismo dispositivo.
As of May 2026, no commercial app or publication applies an idiographic phase-conditional framework with a multidimensional convergence rule to the PMS/PMDD prodrome. Current apps (Clue, Flo, Natural Cycles) do passive tracking or calendar prediction, but not idiographic prodrome detection based on physiological biomarkers. Fitbit itself already applies an idiographic baseline only to skin temperature — LUTEA shows how to extend that principle to HRV, respiratory rate, sleep and other signals from the same device.
Cambia la pregunta. En lugar de "¿se parece esta mujer al perfil PMS/PMDD?", pregunta "¿se está esta mujer alejando de su propio patrón fisiológico, separando lo que es variación cíclica normal de lo que es desviación idiográfica genuina?". Cada mujer es su propia referencia, y dentro de cada mujer cada fase del ciclo tiene su propio baseline. El sistema detecta convergencia sostenida en al menos dos de las cuatro dimensiones núcleo durante la fase lútea tardía — la ventana en la que el pródromo se manifiesta antes que el síntoma reportado.
It changes the question. Instead of "does this woman look like the PMS/PMDD profile?", it asks "is this woman drifting away from her own physiological pattern, separating what is normal cyclical variation from what is genuine idiographic deviation?". Each woman is her own reference, and within each woman each cycle phase has its own baseline. The system detects sustained convergence across at least two of the four core dimensions during the late luteal phase — the window in which the prodrome manifests earlier than the reported symptom.
El dataset y los conceptos del proyecto
The dataset and project concepts
mcPHASES recoge datos de 42 sujetos a lo largo de dos intervalos separados por dos años: 2022 y 2024. 20 sujetos están presentes en ambos intervalos. Cada combinación (sujeto, intervalo) se trata como una unidad N-of-1 independiente, lo que da 62 sujeto-intervalos como unidades de análisis. Cada sujeto-intervalo cubre aproximadamente 90 días, suficiente para observar 2 o 3 ciclos menstruales completos.
Las señales se organizan en cuatro dimensiones núcleo (autonómica, termorregulación, respiratoria, sueño) y dos dimensiones secundarias (estrés, actividad). Una dimensión exploratoria — glucosa por monitor continuo (CGM) — está disponible solo en el intervalo 2022.
mcPHASES collects data from 42 subjects across two intervals two years apart: 2022 and 2024. 20 subjects are present in both intervals. Each (subject, interval) combination is treated as an independent N-of-1 unit, yielding 62 subject-intervals as units of analysis. Each subject-interval spans roughly 90 days, enough to observe 2 or 3 full menstrual cycles.
Signals are organized into four core dimensions (autonomic, thermoregulation, respiratory, sleep) and two secondary dimensions (stress, activity). An exploratory dimension — glucose via continuous monitor (CGM) — is available only in the 2022 interval.
Las cuatro dimensiones del núcleo capturan los cuatro sistemas fisiológicos que la literatura documenta como implicados en el pródromo PMS/PMDD.
Autonómica: regulación cardiovascular durante el sueño. La construyen HRV (RMSSD nocturno) y frecuencia cardíaca en reposo.
Termorregulación: temperatura corporal nocturna. Sube de forma natural en la fase lútea por efecto de la progesterona, pero la magnitud y la persistencia son altamente individuales.
Respiratoria: frecuencia respiratoria durante el sueño profundo, sensible a cambios autonómicos y hormonales.
Sueño: score global de sueño y restlessness nocturno. La estructura objetiva del sueño cambia antes que el reporte subjetivo de mala noche.
El sistema vigila las cuatro a la vez. La regla de detección requiere convergencia: el pródromo rara vez se manifiesta en una sola dimensión.
The four core dimensions capture the four physiological systems documented in the literature as involved in the PMS/PMDD prodrome.
Autonomic: cardiovascular regulation during sleep. Built from HRV (nocturnal RMSSD) and resting heart rate.
Thermoregulation: nocturnal body temperature. Naturally rises in the luteal phase due to progesterone, but magnitude and persistence are highly individual.
Respiratory: breathing rate during deep sleep, sensitive to autonomic and hormonal changes.
Sleep: overall sleep score and nocturnal restlessness. Objective sleep structure changes before the subjective report of a bad night.
The system watches all four at once. The detection rule requires convergence: the prodrome rarely manifests in a single dimension.
Las señales fisiológicas tienen variación cíclica intrínseca normal: HRV cae en lútea, temperatura sube, frecuencia respiratoria aumenta. Si el baseline se calcula como un único patrón estable sobre 21 días que mezclen folicular y lútea, la varianza queda inflada por esa variación cíclica y enmascara la desviación idiográfica genuina.
El proyecto introduce un baseline fase-condicional sobre cinco sub-fases — menstrual, folicular, ovulación, lútea temprana, lútea tardía — con estimadores robustos (mediana y MAD) para cada una. Cada día se traduce en un z-score intra-sujeto-fase: la distancia respecto al patrón propio de esa mujer en esa fase del ciclo. El baseline es expandible: el primer ciclo solo calibra, el segundo ya permite detección, el tercero refina.
Physiological signals have intrinsic normal cyclical variation: HRV drops in luteal, temperature rises, breathing rate increases. If the baseline is computed as a single stable pattern over 21 days mixing follicular and luteal, the variance is inflated by that cyclical variation and masks genuine idiographic deviation.
The project introduces a phase-conditional baseline over five sub-phases — menstrual, follicular, ovulation, early luteal, late luteal — with robust estimators (median and MAD) for each. Each day translates into an intra-subject-phase z-score: the distance from that woman's own pattern in that cycle phase. The baseline is expandable: the first cycle only calibrates, the second already enables detection, the third refines.
Marco metodológico
Methodological framework
Cada mujer actúa como su propio grupo de control, con la diferencia respecto a GLOBEM de que la unidad de análisis es el sujeto-intervalo: cada uno de los 62 sujeto-intervalos del dataset se trata como una unidad N-of-1 independiente, con su propio baseline y su propia detección.
Para los 20 sujetos con datos en ambos intervalos (2022 y 2024), separados 2 años, se tratan como dos unidades independientes, no como seguimiento continuo.
Each woman acts as her own control group, with the difference from GLOBEM that the unit of analysis is the subject-interval: each of the dataset's 62 subject-intervals is treated as an independent N-of-1 unit, with its own baseline and its own detection.
For the 20 subjects with data in both intervals (2022 and 2024), two years apart, they are treated as two independent units, not as continuous follow-up.
Capa 1 — SPC como feature engineering con criterio clínico. Construye baseline fase-condicional, z-scores intra-sujeto-fase, estadísticas móviles, EWMA, CUSUM, change point detection (BOCPD, PELT) y la regla de convergencia 2/4 con persistencia M=3 como sistema base de detección.
Capa 2 — ML supervisado. Sobre los z-scores y derivados temporales construidos por la capa 1, árboles de decisión y Random Forest aprenden a refinar el índice de desviación capturando interacciones entre dimensiones.
Capa 3 — SHAP. Identifica fenotipos de pródromo: en qué dimensión se manifiesta antes el cambio en cada mujer.
Layer 1 — SPC as feature engineering with clinical criteria. Builds the phase-conditional baseline, intra-subject-phase z-scores, rolling statistics, EWMA, CUSUM, change point detection (BOCPD, PELT) and the 2/4 convergence rule with persistence M=3 as the base detection system.
Layer 2 — Supervised ML. On the z-scores and temporal derivatives built by layer 1, decision trees and Random Forest learn to refine the deviation index capturing interactions across dimensions.
Layer 3 — SHAP. Identifies prodrome phenotypes: which dimension manifests change earliest in each woman.
Estado del proyecto
Project status
Bloques del proyecto
Project blocks
Cada bloque cierra con cuatro preguntas no negociables — decisión, renuncia, uso real, trade-off — y documenta las lecturas técnicas que lo sustentan. Este es mi sistema de control: si un bloque no responde a las cuatro, no se cierra.
Each block closes with four non-negotiable questions — decision, trade-off given up, real-world use, trade-off accepted — and documents the technical readings that support it. This is my control system: if a block does not answer all four, it does not close.
ruptures).ruptures).Bibliografía consolidada
Consolidated references
Las lecturas se distribuyen dentro de cada bloque para mostrar qué sustenta cada decisión. Esta sección recoge el índice consolidado, ordenado por para qué sirve cada fuente.
Readings are distributed within each block to show what supports each decision. This section collects the consolidated index, ordered by what each source is used for.
ruptures. El algoritmo offline que se usará en la fase de análisis retrospectivo de trayectorias.ruptures library. The offline algorithm that will be used in the retrospective trajectory analysis phase.Glosario
Glossary
El notebook técnico documenta cada decisión implementada. El análisis exploratorio, la construcción del baseline fase-condicional y el pipeline de detección estarán disponibles en GitHub a medida que avancen los bloques.
The technical notebook documents every decision that is implemented. The exploratory analysis, phase-conditional baseline construction, and detection pipeline will be available on GitHub as the blocks progress.
Ver notebook en GitHub → View the notebook on GitHub → Actualizado a medida que avanzan los bloques Updated as the blocks progress