Miento con el apuntamiento: curtosis y the «Fisher-price».

La forma de una distribución: más allá de la media y la desviación típica.

Cuando describimos una variable aleatoria, los dos parámetros que primero acuden a la mente son la media y la desviación típica: dónde se sitúa el centro de la distribución y cuánto se dispersan los datos a su alrededor. Pero la forma de una distribución de probabilidad no queda completamente caracterizada por esos dos parámetros. Dos distribuciones pueden tener idéntica media e idéntica desviación típica y ser, sin embargo, muy distintas en su comportamiento: una puede ser perfectamente simétrica y la otra mostrar una cola alargada hacia la derecha; una puede ser achatada y con colas ligeras mientras la otra se eleva en el centro con colas muy pesadas. Para capturar esas diferencias se recurre a las llamadas «medidas de forma», que describen la geometría de la distribución más allá de su posición y escala. Las dos medidas de forma más utilizadas son la asimetría y el apuntamiento o curtosis.

La asimetría —cuantificada habitualmente mediante el coeficiente g1 de Fisher— mide el grado en que la distribución se «ladea» respecto a su centro: una distribución simétrica tiene g1 = 0; si la cola derecha es más larga que la izquierda, g1 > 0 (asimetría positiva o hacia la derecha); si ocurre lo contrario, g1 < 0 (asimetría negativa o hacia la izquierda). La asimetría tiene implicaciones prácticas directas: en finanzas, una distribución de rendimientos con cola derecha larga puede ser deseable para el inversor; en gestión de riesgos, una cola izquierda larga indica mayor probabilidad de pérdidas extremas que lo que sugiere la desviación típica.

El apuntamiento —medido por el coeficiente g2 de Fisher, describe la «forma vertical» de la distribución: cuánta masa se concentra en el centro y cuánta en las colas, en comparación con la distribución normal. Una distribución platicúrtica (g2 < 0) es más achatada que la normal, con colas más ligeras y menos masa en el centro: los valores extremos son relativamente infrecuentes. Una distribución mesocúrtica (g2 ≈ 0) se comporta como la normal en lo que a apuntamiento se refiere. Una distribución leptocúrtica (g2 > 0) presenta un pico más pronunciado y colas más pesadas que la normal: los valores extremos son más frecuentes de lo esperado.

Establecer correctamente el grado de apuntamiento importa, y mucho. En finanzas y gestión de riesgos, subestimar el peso de las colas —confundir una distribución leptocúrtica con una mesocúrtica— conduce a infravalorar la probabilidad de eventos extremos, con consecuencias que pueden ser muy costosas. En inferencia estadística, muchos contrastes de hipótesis y estimadores de máxima verosimilitud asumen normalidad; si la distribución subyacente es leptocúrtica y no se detecta, los errores estándar y los p-valores quedan sesgados. En economía y ciencias sociales, la curtosis informa sobre la concentración de fenómenos: una distribución de ingresos leptocúrtica indica que los valores muy extremos —tanto muy bajos como muy altos— son más frecuentes de lo que una campana normal predeciría. En definitiva, clasificar correctamente el apuntamiento de una distribución no es un ejercicio académico: es información con consecuencias sobre cómo se modelizan los datos y cómo se toman decisiones a partir de ellos.

El coeficiente de curtosis de Fisher mide el apuntamiento de una distribución. Más o menos.

Los coeficientes basados en momentos tienen una virtud indiscutible: son fáciles de calcular. Basta con elevar las desviaciones a la cuarta potencia, promediar, restar tres, y listo. El resultado es el coeficiente de curtosis de Fisher, g2, cuya fórmula, para una muestra de tamaño n, es:

$g_2 = \frac{\frac{1}{n}\sum_{i=1}^{n}(x_i – \bar{x})^4}{s^4} – 3$

$\text{donde } s = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_i – \bar{x})^2} \text{ es la desviación típica muestral y } \bar{x} \text{ la media muestral.}$

El término «− 3» en la fórmula es la calibración que hace que la distribución normal obtenga exactamente g2 = 0, convirtiéndola en el punto de referencia. Así, g2 se presenta como una medida del apuntamiento relativo a la normal: un número negativo indica distribución achatada —platicúrtica—, un número próximo a cero apunta a la normalidad —mesocúrtica—, y un número positivo delata colas pesadas —leptocúrtica—. Simple, operativo, y ampliamente utilizado.

El problema es que g2 no mide solo eso.

En concreto, g2 mide el apuntamiento con bastante fidelidad cuando la distribución es simétrica o aproximadamente simétrica. Pero en cuanto aparece asimetría en escena, el coeficiente comienza a mezclar dos cosas distintas en un solo número: el apuntamiento real y la contribución de la cola larga. Y lo hace sin avisar, sin asterisco, sin nota al pie.

Es el precio que pagamos por usar la medida de apuntamiento de Fisher. The Fisher-price.

¿Cuánto importa esto en la práctica? Para responder, vamos a montar un experimento sencillo. Tomaremos una familia de distribuciones que permite controlar el apuntamiento y la asimetría de forma independiente —la familia g-and-h de Tukey—, y observaremos qué le ocurre a g2 cuando mantenemos fijo el apuntamiento real y aumentamos progresivamente la asimetría. El resultado es, cuando menos, incómodo para quienes usan g2 sin mirar antes g1.

Adelantamos la conclusión, para que el lector pueda ir preparándose: hay distribuciones que son inequívocamente platicúrticas, y que g2 clasifica sin titubear como leptocúrticas. No porque el apuntamiento haya cambiado. Sino porque la asimetría ha inflado el coeficiente hasta cruzar el umbral, sin que nadie se lo haya pedido.

La familia g-and-h: un laboratorio a medida.

Para estudiar cómo se comporta g2 bajo distintas combinaciones de apuntamiento y asimetría, necesitamos una familia de distribuciones que permita variar ambas características de forma independiente. La familia «g-and-h» de Tukey, propuesta en los años setenta, cumple exactamente esa función. Se construye mediante una transformación de la distribución normal estándar Z:

$X_{g,h} = \frac{e^{gZ} – 1}{g} \cdot e^{\frac{h}{2}Z^2}$

$\text{donde } g \in \mathbb{R} \text{ controla la asimetría y } h \geq 0 \text{ controla el apuntamiento.}$

Cuando g = 0, la distribución es perfectamente simétrica; cuando h = 0 y g = 0, se obtiene la distribución normal estándar exacta. A medida que g crece, la distribución se sesga hacia la derecha; a medida que h crece, las colas se vuelven más pesadas.

La propiedad que hace a esta familia especialmente útil para nuestro propósito es la «casi-ortogonalidad» de sus parámetros: variar g no cambia el apuntamiento real de forma sustancial, y variar h no cambia la asimetría real de forma apreciable. Son, en la práctica, dos palancas distintas que controlan dos aspectos distintos de la forma de la distribución. Esto nos permite plantear la pregunta con toda limpieza: ¿qué le ocurre a g2 cuando h —el apuntamiento real— permanece fijo y solo varía g?

Antes de responder, conviene establecer el mapa del territorio. La Figura 1 muestra un panel de 30 distribuciones: seis niveles de asimetría (g = 0, 0.10, 0.25, 0.50, 0.75 y 1.00) cruzados con cinco niveles de apuntamiento (h = −0.10, −0.05, 0.00, 0.10 y 0.20). El fondo de cada celda indica cómo clasifica g2 esa distribución: azul para platicúrtica, gris para mesocúrtica y terracota para leptocúrtica, con umbrales en g2 = −0.1 y g2 = 0.1. Dentro de cada celda se anotan los valores de g1 (coeficiente de asimetría de Fisher) y g2 (curtosis de Fisher).

La primera lectura del panel es tranquilizadora: en la columna g = 0.00, todo funciona como cabría esperar. La fila h = −0.10 es platicúrtica (g2 = −0.76), la fila h = 0.00 es mesocúrtica (g2 ≈ 0), y las filas con h positivo son leptocúrticas. Fisher no falla cuando la distribución es simétrica: el parámetro h y el coeficiente g2 van de la mano.

La segunda lectura, recorriendo las filas de izquierda a derecha, es bastante menos tranquilizadora.

Lo que ocurre cuando g crece: la contaminación silenciosa.

Fijemos la atención en la fila h = −0.10, que corresponde a distribuciones genuinamente platicúrticas —colas ligeras, forma achatada—. Con g = 0, g2 vale −0.76: platicúrtica con claridad. Con g = 0.10, g2 vale −0.69: sigue siendo platicúrtica, y apenas ha cambiado. Hasta aquí, todo en orden.

Pero a medida que g crece, algo se tuerce. Con g = 0.25, g2 vale −0.33: todavía platicúrtica, pero el coeficiente se ha reducido a menos de la mitad. Con g = 0.50, g2 salta a +1.29: leptocúrtica, según Fisher. Con g = 0.75, g2 llega a +5.55. Con g = 1.00, alcanza +17.26. Una distribución que en términos de h no ha cambiado en absoluto —sigue siendo inequívocamente platicúrtica— recibe de Fisher una clasificación diametralmente opuesta en cuanto su asimetría es moderada.

Lo mismo ocurre, con diferente ritmo, en el resto de filas. La fila h = −0.05 cruza el umbral de lo leptocúrtico ya en g = 0.25 (g2 = +0.20). La fila h = 0.00, que con g = 0 es perfectamente mesocúrtica (g2 = +0.01), pasa a ser leptocúrtica con apenas g = 0.10 (g2 = +0.17), y se dispara a g2 = +65.71 con g = 1.00. Las filas con h positivo, que ya empiezan siendo leptocúrticas, simplemente se vuelven más y más leptocúrticas a ojos de Fisher, con valores de g2 que escalan de forma explosiva.

El mecanismo es el mismo en todos los casos: la cola larga que introduce la asimetría aporta desviaciones elevadas al cuarto momento. Como el cuarto momento no distingue si esa cola está a la derecha o a la izquierda, g2 las registra todas como señal de apuntamiento. El resultado es que g2 crece con g aunque el apuntamiento real no haya cambiado, y ese crecimiento es suficiente para cruzar los umbrales de clasificación.

La Figura 2 muestra este proceso de forma continua: para cada nivel de h, la curva de g2 en función de g arranca en el valor correspondiente a la distribución simétrica y sube monótonamente. Las líneas de umbral en g2 = −0.1 y g2 = 0.1 dividen el espacio en tres zonas. Los cruces son visibles a simple vista: la curva de h = −0.10 parte del azul (platicúrtica) y atraviesa la zona terracota (leptocúrtica) sin que h haya cambiado ni un ápice.

Los umbrales de cambio: cuándo se equivoca Fisher.

La Tabla 1 recoge de forma sintética el diagnóstico: para cada nivel de h, cuál es la clasificación que Fisher asigna con g = 0 y a partir de qué valor de g esa clasificación cambia, tomando como referencia la rejilla discreta.

Las conclusiones son inmediatas. Para h = −0.10 y h = −0.05 —distribuciones platicúrticas reales—, Fisher cambia su clasificación a leptocúrtica con g = 0.50 y g = 0.25 respectivamente. Para h = 0.00 —distribución mesocúrtica real—, el cambio ocurre ya en g = 0.10. Las distribuciones con h positivo no cambian de clase —siempre son leptocúrticas para Fisher—, pero eso no las exime del problema: sus valores de g2 se inflan de forma tan pronunciada que cualquier comparación cuantitativa entre ellas queda distorsionada.

La Tabla 2 ofrece el panorama completo: los valores de g1 y g2, y la clasificación de Fisher, para las 30 combinaciones de la rejilla.

Merece la pena detenerse un momento en la columna de g2 para h = −0.10. La secuencia es: −0.76, −0.69, −0.33, +1.29, +5.55, +17.26. El apuntamiento real —medido por h— no ha cambiado. Lo que ha cambiado es g. Y eso, para Fisher, es suficiente para pasar de «distribución achatada» a «distribución de colas muy pesadas» en el transcurso de unos pocos pasos de la rejilla.

Conclusión.

El experimento no deja mucho margen para la duda. g2 es un coeficiente legítimo y computacionalmente cómodo, pero su interpretación como medida pura de apuntamiento tiene un requisito implícito que rara vez se menciona en los manuales: que la distribución sea simétrica, o al menos aproximadamente simétrica. En cuanto ese requisito se incumple, g2 deja de medir principalmente el apuntamiento y pasa a medir, de forma creciente, la asimetría disfrazada de apuntamiento.

Las consecuencias prácticas son directas. Un analista que observa g2 = 5 en una distribución asimétrica no puede concluir sin más que la distribución tiene colas pesadas: es perfectamente posible que ese 5 sea, en su mayor parte, la huella de la asimetría sobre el cuarto momento, y que el apuntamiento real sea modesto o incluso negativo. Del mismo modo, comparar g2 entre distribuciones con distinto grado de asimetría es una operación que mezcla manzanas y peras: no se están comparando apuntamientos, sino combinaciones de apuntamiento y asimetría en proporciones distintas para cada distribución.

¿Qué hacer, entonces? La respuesta no es descartar g2 —sigue siendo útil cuando la distribución es simétrica o cuando se usa junto a g1—, sino usarlo con consciencia de sus limitaciones. En presencia de asimetría notable, conviene complementarlo con medidas basadas en cuantiles —como la curtosis de Groeneveld, que no se contamina con los momentos de orden impar— o, al menos, reportar siempre g1 y g2 de forma conjunta y no interpretar el segundo sin tener en cuenta el primero.

En definitiva: g2 mide el apuntamiento. Más o menos. Y el «más o menos» importa bastante más de lo que parece.

Lecciones para no quedarse «platicúrticos».

g2 no es una medida pura de apuntamiento. Lo es cuando la distribución es simétrica. En presencia de asimetría, captura también —y a veces sobre todo— el efecto de la cola larga sobre el cuarto momento central.
El parámetro h de la familia g-and-h es el apuntamiento real. Con g = 0, Fisher lo capta correctamente: h < 0 produce g2 < 0, h = 0 produce g2 ≈ 0 y h > 0 produce g2 > 0. La relación es monótona y limpia. Es cuando g crece cuando el acuerdo se rompe.
La inflación de g2 con g es monótona y a menudo explosiva. No se trata de pequeñas correcciones: con asimetría moderada (g = 0.50), una distribución platicúrtica real puede obtener g2 > 1. Con asimetría notable (g = 0.75), puede superar 5. El error de clasificación no es marginal.
El umbral de cambio de clasificación llega antes de lo que uno espera. Para una distribución con h = −0.05 (ligeramente platicúrtica), el cambio de clasificación se produce en g = 0.25, un nivel de asimetría que en muchos contextos aplicados se consideraría «moderado» o incluso «leve».
Reportar g2 sin g1 es una práctica incompleta. No porque g1 corrija g2, sino porque sin él el lector no tiene información para juzgar en qué medida g2 refleja apuntamiento y en qué medida refleja asimetría. Son dos números que deben leerse juntos.
Las medidas basadas en cuantiles son una alternativa robusta. La curtosis de Groeneveld, construida a partir de diferencias entre cuantiles, no depende de los momentos de orden impar y por tanto no se contamina con la asimetría. No es la única alternativa, pero sí la más directa para los propósitos descriptivos habituales.

Miguel Ángel Tarancón Morán

Miento con el apuntamiento: curtosis y the «Fisher-price».

Deja una respuesta Cancelar la respuesta