{"id":1123,"date":"2026-04-28T21:23:28","date_gmt":"2026-04-28T19:23:28","guid":{"rendered":"https:\/\/blog.uclm.es\/miguelangeltarancon\/?p=1123"},"modified":"2026-04-28T21:23:28","modified_gmt":"2026-04-28T19:23:28","slug":"el-p-valor-no-dice-lo-que-crees-que-dice-y-villabajo-lo-aprendio-a-su-costa","status":"publish","type":"post","link":"https:\/\/blog.uclm.es\/miguelangeltarancon\/2026\/04\/28\/el-p-valor-no-dice-lo-que-crees-que-dice-y-villabajo-lo-aprendio-a-su-costa\/","title":{"rendered":"El p-valor no dice lo que crees que dice (y Villabajo lo aprendi\u00f3 a su costa)."},"content":{"rendered":"\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"572\" src=\"https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/Pvalor-2-1024x572.jpg\" alt=\"\" class=\"wp-image-1125\" srcset=\"https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/Pvalor-2-1024x572.jpg 1024w, https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/Pvalor-2-300x167.jpg 300w, https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/Pvalor-2-768x429.jpg 768w, https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/Pvalor-2-1536x857.jpg 1536w, https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/Pvalor-2-2048x1143.jpg 2048w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n\n\n<p><strong>Villarriba presume. Villabajo encarga un estudio.<\/strong><\/p>\n\n\n\n<p>Durante d\u00e9cadas, Villarriba y Villabajo se miran con recelo a trav\u00e9s del r\u00edo que las separa. El origen de la rivalidad, seg\u00fan los m\u00e1s viejos del lugar, fue un concurso de empanadas en 1987 cuyo resultado se discute a\u00fan hoy. Pero la \u00faltima batalla no se libra en las fiestas patronales, sino en las estad\u00edsticas del mercado laboral.<\/p>\n\n\n\n<p>El alcalde de Villarriba lleva meses presumiendo en todos los foros de que los salarios de su municipio son superiores a los de Villabajo. Y lo hace con mala intenci\u00f3n, porque en esa zona del pa\u00eds el salario medio se toma como termino de prosperidad y calidad de vida: <em>quien cobra m\u00e1s, vive mejor<\/em>. Villabajo, herido en su orgullo colectivo, no puede quedarse sin responder. Su alcalde decide encargar un estudio para demostrar que la diferencia salarial es inexistente, que los empadronados en su municipio cobran, en media, lo mismo que los de Villarriba, que son igual de pr\u00f3speros y que la empanada de 1987 la gan\u00f3 con toda justicia.<\/p>\n\n\n\n<p>El planteamiento del estudio es el siguiente. Se toman muestras aleatorias de trabajadores de cada municipio, se calcula el salario medio en cada grupo y se somete la diferencia observada a un contraste de hip\u00f3tesis. La <strong>hip\u00f3tesis nula (H\u2080)<\/strong> es la posici\u00f3n de Villabajo: los salarios medios son iguales en ambos municipios. La <strong>hip\u00f3tesis alternativa (H\u2081)<\/strong> es lo que teme Villabajo y proclama Villarriba: el salario medio en Villarriba es superior. Si el contraste concluye que los datos son incompatibles con H\u2080, Villabajo tendr\u00e1 que admitirlo y sus ciudadanos y alcalde, mirar al suelo compungidos. Si no lo hace, el alcalde de Villabajo celebrar\u00e1 el resultado con empanada.<\/p>\n\n\n\n<p>A lo largo de este <em>post<\/em> vamos a usar ese escenario para entender qu\u00e9 es exactamente el <strong>p-valor<\/strong>, qu\u00e9 mide, qu\u00e9 <em>no<\/em> mide, y por qu\u00e9 es uno de los conceptos m\u00e1s malinterpretados de toda la estad\u00edstica aplicada. Pero antes de llegar al p-valor hay que sentar las bases: qu\u00e9 distribuci\u00f3n siguen las diferencias salariales que vamos a calcular, y por qu\u00e9 se <em>tipifica<\/em>.<\/p>\n\n\n\n<p><strong>Del euro al estad\u00edstico: por qu\u00e9 hablamos de 1, 2 y 3,2 en lugar de euros.<\/strong><\/p>\n\n\n\n<p>Supongamos que los salarios individuales en cada municipio siguen una distribuci\u00f3n normal con una desviaci\u00f3n t\u00edpica \u03c3 conocida. En nuestro experimento, \u03c3 = 1.000 euros y el salario medio base es de 25.000 euros anuales. Tomamos muestras de tama\u00f1o n en cada municipio y calculamos la diferencia entre las dos medias muestrales.<\/p>\n\n\n\n<p>Esa diferencia de medias \u2014llamada <em>X\u0304B<\/em> \u2212 <em>X\u0304A<\/em>\u2014 es a su vez una variable aleatoria. Y gracias al teorema central del l\u00edmite, sabemos exactamente qu\u00e9 distribuci\u00f3n tiene: una distribuci\u00f3n <strong>normal<\/strong>, con media igual a la diferencia real de medias poblacionales (\u03bcB \u2212 \u03bcA) y desviaci\u00f3n t\u00edpica igual a \u03c3\u221a(2\/n). Con \u03c3 = 1.000 euros y n = 100 por grupo,esa desviaci\u00f3n t\u00edpica vale 141 euros: la diferencia de medias muestrales fluctuar\u00e1 en torno a la diferencia real con una desviaci\u00f3n t\u00edpica de 141 euros, aunque los salarios de ambos municipios sean id\u00e9nticos.<\/p>\n\n\n\n<p>Para poder trabajar con una sola distribuci\u00f3n de referencia \u2014independientemente de los euros, el tama\u00f1o muestral o la desviaci\u00f3n t\u00edpica particular de cada problema\u2014, se tipifica la diferencia: se le resta su media bajo H\u2080 (que es cero, porque bajo H\u2080 asumimos \u03bcB \u2212 \u03bcA = 0) y se divide por la desviaci\u00f3n t\u00edpica calculada anteriormente. El resultado es el <strong>estad\u00edstico de contraste Z<\/strong>, que bajo H\u2080 sigue exactamente una distribuci\u00f3n <strong>normal tipificada N(0,1)<\/strong>: media cero y desviaci\u00f3n t\u00edpica uno. Por eso en las figuras el eje horizontal muestra valores como \u22123, 0, 1, 2&#8230; y no euros: son diferencias de medias expresadas en unidades del error est\u00e1ndar.<\/p>\n\n\n\n<p>Cuando H\u2080 es falsa \u2014es decir, cuando los salarios de Villarriba s\u00ed son superiores\u2014, el estad\u00edstico Z ya no tiene media cero. Su media es el <strong>par\u00e1metro de no centralidad \u03b4<\/strong>, que mide la diferencia real entre medias poblacionales en unidades del error est\u00e1ndar: \u03b4 = (\u03bcA \u2212 \u03bcB) \/ (\u03c3\u221a(2\/n)). Si Villarriba cobra en media 141 euros m\u00e1s que Villabajo y el error est\u00e1ndar es de 141 euros, \u03b4 = 1. Si la diferencia real es 282 euros, \u03b4 = 2. Y as\u00ed sucesivamente. \u03b4 es, en esencia, el <strong>tama\u00f1o del efecto en escala tipificada<\/strong>: cu\u00e1ntas desviaciones t\u00edpicas del estad\u00edstico separa la realidad de lo que predice H\u2080.<\/p>\n\n\n\n<p>Con este marco, el contraste se reduce a una pregunta sencilla: dado el valor de Z que hemos observado en nuestra muestra, \u00bfes plausible que proceda de una normal tipificada N(0,1)? Si la respuesta es s\u00ed, los datos son compatibles con H\u2080 y Villabajo puede respirar. Si la respuesta es no, los datos sugieren que Z viene de una distribuci\u00f3n desplazada \u2014que hay una diferencia real\u2014 y Villabajo tiene un problema.<\/p>\n\n\n\n<p><strong>El p-valor: la pregunta espec\u00edfica que responde.<\/strong><\/p>\n\n\n\n<p>Una vez calculado el estad\u00edstico Z a partir de los datos, el p-valor es <em>la <\/em><strong>probabilidad de obtener un valor tan extremo como el observado, o m\u00e1s, suponiendo que H\u2080 es verdadera.<\/strong> En nuestro contraste unilateral derecho, donde H\u2081 dice que Villarriba cobra m\u00e1s, \u00abtanto o m\u00e1s extremo\u00bb significa \u00abtanto o m\u00e1s grande\u00bb: el p-valor es el \u00e1rea a la derecha de Z bajo la curva de la normal tipificada N(0,1).<\/p>\n\n\n\n<p>Si esa \u00e1rea es peque\u00f1a \u2014menor que el nivel de significaci\u00f3n \u03b1, convencionalmente 0,05\u2014, concluimos que lo observado ser\u00eda muy poco probable si H\u2080 fuera cierta y, por tanto, rechazamos H\u2080. Si el \u00e1rea es grande, los datos son perfectamente compatibles con H\u2080 y no hay evidencia suficiente para rechazarla. Villabajo puede relajarse, al menos hasta el pr\u00f3ximo estudio.<\/p>\n\n\n\n<p>La definici\u00f3n precisa importa porque los errores de interpretaci\u00f3n son enormemente frecuentes, incluso entre investigadores con experiencia. El p-valor<strong> <em>no<\/em> es la probabilidad de que H\u2080 sea verdadera.<\/strong> El c\u00e1lculo asume que H\u2080 es verdadera desde el principio; lo que mide es lo sorprendentes que ser\u00edan los datos en ese caso. Es P(datos | H\u2080), no P(H\u2080 | datos). Confundir ambas cosas \u2014tomar el p-valor como si midiera la probabilidad de que la hip\u00f3tesis sea cierta o falsa\u2014 es uno de los errores m\u00e1s comunes y consecuentes de la pr\u00e1ctica estad\u00edstica diaria.<\/p>\n\n\n\n<p>El p-valor tampoco mide la importancia pr\u00e1ctica del efecto: un p-valor de 0,001 <strong>no dice que la diferencia salarial sea grande, dice que ser\u00eda muy raro obtener esos datos si no hubiera ninguna diferencia.<\/strong> La magnitud del efecto y su relevancia pr\u00e1ctica son preguntas distintas que requieren herramientas distintas. Y, por \u00faltimo, el umbral 0,05 es una convenci\u00f3n heredada de la pr\u00e1ctica del siglo XX, no una ley de la naturaleza: un p = 0,049 y un p = 0,051 son pr\u00e1cticamente indistinguibles, aunque uno \u00absignifique\u00bb y el otro no.<\/p>\n\n\n\n<p><strong>Ver para creer: H\u2080 y H\u2081 en el mismo gr\u00e1fico.<\/strong><\/p>\n\n\n\n<p><strong>.<\/strong> La Figura 1 es el gr\u00e1fico que deber\u00eda aparecer en todos los manuales de estad\u00edstica y que casi ninguno incluye con suficiente claridad. Muestra, para tres tama\u00f1os de efecto distintos (\u03b4 = 1, 2 y 3,2), c\u00f3mo se distribuye el estad\u00edstico Z bajo H\u2080 y bajo H\u2081, y d\u00f3nde quedan todas las piezas del contraste.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"933\" height=\"550\" src=\"https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/imagen-15.png\" alt=\"\" class=\"wp-image-1134\" srcset=\"https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/imagen-15.png 933w, https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/imagen-15-300x177.png 300w, https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/imagen-15-768x453.png 768w\" sizes=\"auto, (max-width: 933px) 100vw, 933px\" \/><figcaption class=\"wp-element-caption\"><em>Figura 1. Distribuci\u00f3n del estad\u00edstico de contraste bajo H\u2080 (curva azul, centrada en 0) y bajo H\u2081 (curva terracota, desplazada \u03b4 unidades) para tres tama\u00f1os de efecto. Zona naranja suave: regi\u00f3n de rechazo (\u03b1 = 0,05). Zona terracota: potencia (1 \u2212 \u03b2). Zona azul suave: error de tipo II (\u03b2). La l\u00ednea punteada naranja marca el estad\u00edstico observado y el p-valor es el \u00e1rea a su derecha bajo H\u2080.<\/em><\/figcaption><\/figure>\n\n\n\n<p>La <strong>curva azul<\/strong> es la distribuci\u00f3n N(0,1) tipificada que predice H\u2080: si los salarios fueran iguales en ambos municipios, los valores de Z que obtendr\u00edamos en distintas muestras se distribuir\u00edan as\u00ed, centrados en cero. La <strong>curva terracota<\/strong> es la distribuci\u00f3n del estad\u00edstico cuando H\u2081 es verdadera, es decir, cuando Villarriba cobra realmente m\u00e1s: est\u00e1 desplazada \u03b4 unidades hacia la derecha, donde \u03b4 es la diferencia real expresada en unidades del error est\u00e1ndar.<\/p>\n\n\n\n<p>La l\u00ednea vertical discontinua es el <strong>valor cr\u00edtico z\u03b1 = 1,645<\/strong>: todo lo que caiga a su derecha bajo la curva azul constituye la <strong>regi\u00f3n de rechazo<\/strong>. El \u00e1rea de la curva azul en esa regi\u00f3n es exactamente \u03b1 = 0,05. Eso significa que si los salarios fueran realmente iguales, el 5% de las muestras posibles producir\u00edan un Z tan grande que llevar\u00eda a rechazar H\u2080 equivocadamente. Ese es el <strong>error de tipo I<\/strong>: la probabilidad de dar una falsa alarma, de decirle a Villabajo que sus salarios son inferiores cuando en realidad son iguales.<\/p>\n\n\n\n<p>La l\u00ednea punteada naranja es el valor de Z obtenido en el experimento concreto ilustrado en cada panel. El \u00e1rea de la curva azul a la derecha de esa l\u00ednea es el <strong>p-valor<\/strong>: cu\u00e1n probable ser\u00eda obtener un Z tan grande o mayor si los salarios fueran iguales. Si esa \u00e1rea es menor que 0,05, rechazamos H\u2080.<\/p>\n\n\n\n<p>Ahora miremos la curva terracota. El \u00e1rea a la derecha del valor cr\u00edtico bajo H\u2081 es la <strong>potencia del contraste<\/strong> (1 \u2212 \u03b2): la probabilidad de rechazar H\u2080 cuando Villarriba realmente paga m\u00e1s, es decir, la probabilidad de detectar la diferencia si existe. El \u00e1rea a la izquierda del valor cr\u00edtico bajo H\u2081 es el <strong>error de tipo II<\/strong> (\u03b2): la probabilidad de no detectar la diferencia aunque exista \u2014el riesgo de que Villabajo salga absuelto cuando en realidad sus salarios s\u00ed son inferiores.<\/p>\n\n\n\n<p>El efecto del tama\u00f1o del efecto \u03b4 es inmediato y muy visual. Con \u03b4 = 1 \u2014las dos curvas apenas separadas\u2014 la potencia es solo del 26%: en tres de cada cuatro muestras no detectar\u00edamos la diferencia aunque Villarriba cobrara realmente m\u00e1s. La zona azul suave (error tipo II) es enorme. Con \u03b4 = 3,2 la potencia llega al 94%: las dos curvas apenas se solapan y casi cualquier muestra detectar\u00eda la diferencia. La ense\u00f1anza es directa: <strong>no rechazar H\u2080 no significa que H\u2080 sea verdadera.<\/strong> Puede significar simplemente que \u03b4 es peque\u00f1o y el contraste no tiene suficiente potencia para detectarlo con la muestra disponible.<\/p>\n\n\n\n<p><strong>Cuando H\u2080 es verdadera: el p-valor no tiene ning\u00fan pudor.<\/strong><\/p>\n\n\n\n<p>Supongamos que el alcalde de Villabajo tiene raz\u00f3n y los salarios son id\u00e9nticos en ambos municipios. \u00bfQu\u00e9 valores tomar\u00e1 el p-valor si repetimos el estudio 10.000 veces con distintas muestras? La respuesta te\u00f3rica es elegante y, para muchos estudiantes, profundamente inc\u00f3moda.<\/p>\n\n\n\n<p>Bajo H\u2080 verdadera, el estad\u00edstico Z sigue una normal tipificada N(0,1). El p-valor es el \u00e1rea a la derecha de Z bajo esa misma curva. Como Z puede tomar cualquier valor con la probabilidad que le corresponde en la N(0,1), el p-valor resultante tiene exactamente la misma probabilidad de caer en cualquier subintervalo de [0,1] de igual longitud. Dicho de otro modo: el p-valor, cuando H\u2080 es verdadera, sigue una <strong>distribuci\u00f3n uniforme en [0, 1]<\/strong>. La Figura 2 lo confirma con 10.000 simulaciones.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"827\" height=\"517\" src=\"https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/imagen-16.png\" alt=\"\" class=\"wp-image-1138\" srcset=\"https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/imagen-16.png 827w, https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/imagen-16-300x188.png 300w, https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/imagen-16-768x480.png 768w\" sizes=\"auto, (max-width: 827px) 100vw, 827px\" \/><figcaption class=\"wp-element-caption\"><em>Figura 2. Distribuci\u00f3n del p-valor en 10.000 experimentos simulados con H\u2080 verdadera (\u03bcA = \u03bcB = 25.000 \u20ac, \u03c3 = 1.000 \u20ac, n = 100 por grupo). El histograma es aproximadamente uniforme en [0,1]. La barra naranja recoge el 5% de experimentos que producen p &lt; 0,05 por puro azar.<\/em><\/figcaption><\/figure>\n\n\n\n<p>El histograma es pr\u00e1cticamente plano: todos los intervalos de p-valor tienen aproximadamente la misma altura. Y en particular, el <strong>5% de los experimentos produce p &lt; 0,05<\/strong> aunque los salarios de Villarriba y Villabajo sean exactamente iguales. Esos son los <strong>falsos positivos<\/strong> o errores de tipo I: muestras que, por puro azar, arrojan una diferencia de medias suficientemente grande como para superar el valor cr\u00edtico, llevando a rechazar H\u2080 sin que haya nada que rechazar.<\/p>\n\n\n\n<p>Esto tiene una consecuencia directa que incomoda a mucha gente: si Villabajo encargara 20 estudios distintos sobre los salarios usando muestras independientes, y los salarios fueran realmente iguales, cabr\u00eda esperar que en torno a uno de esos estudios concluyera que la diferencia es significativa, simplemente por azar. El umbral \u03b1 = 0,05 no es una barrera m\u00e1gica que separa lo real de lo ilusorio: es una tasa de error que decidimos tolerar. Si se hacen muchos contrastes sin corregir por esa multiplicidad, los falsos positivos se acumulan.<\/p>\n\n\n\n<p><strong>El problema del tama\u00f1o muestral: cu\u00e1ndo \u00absignificativo\u00bb no significa \u00abimportante\u00bb.<\/strong><\/p>\n\n\n\n<p>Volvamos ahora al escenario en que los salarios de Villarriba s\u00ed son superiores a los de Villabajo, pero muy poco: exactamente 50 euros al mes de media, sobre un salario base de 25.000 euros anuales. Eso es el 0,2% de diferencia. Una cantidad que, con toda honestidad, no cambiar\u00eda la calidad de vida de nadie y que ning\u00fan economista considerar\u00eda relevante desde un punto de vista pr\u00e1ctico.<\/p>\n\n\n\n<p>En t\u00e9rminos del estad\u00edstico tipificado, esa diferencia de 50 euros equivale a un \u03b4 muy peque\u00f1o: con \u03c3 = 1.000 euros y n = 100, el error est\u00e1ndar es de 141 euros, as\u00ed que \u03b4 = 50\/141 \u2248 0,35. Es una diferencia real que apenas desplaza la curva de H\u2081 respecto a la de H\u2080: las dos curvas casi se solapan, la potencia es baja y la mayor\u00eda de las muestras no detectar\u00e1n nada. Sin embargo, lo que muestra la Figura 3 es que ese diagn\u00f3stico cambia radicalmente seg\u00fan el tama\u00f1o muestral.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"827\" height=\"519\" src=\"https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/imagen-17.png\" alt=\"\" class=\"wp-image-1140\" srcset=\"https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/imagen-17.png 827w, https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/imagen-17-300x188.png 300w, https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/imagen-17-768x482.png 768w\" sizes=\"auto, (max-width: 827px) 100vw, 827px\" \/><figcaption class=\"wp-element-caption\"><em>Figura 3. Distribuci\u00f3n del p-valor en 10.000 experimentos con una diferencia real de 50 \u20ac entre municipios (\u03c3 = 1.000 \u20ac). La proporci\u00f3n de resultados significativos var\u00eda enormemente con n. Con n = 2.000, el 47,5% de los experimentos dan p &lt; 0,05 aunque la diferencia sea econ\u00f3micamente irrelevante.<\/em><\/figcaption><\/figure>\n\n\n\n<p>Con <strong>n = 2.000 trabajadores por grupo<\/strong>, casi la mitad de los experimentos \u2014el 47,5%\u2014 concluyen que la diferencia es estad\u00edsticamente significativa. El contraste detecta con frecuencia una diferencia de 50 euros que no tiene ning\u00fan impacto real. Con muestras m\u00e1s peque\u00f1as, el porcentaje de significativos cae, no porque la diferencia haya desaparecido, sino porque el error est\u00e1ndar es mayor y \u03b4 efectivo es menor: con n = 30, el error est\u00e1ndar sube a 258 euros y \u03b4 cae a 0,19, lo que hace que la diferencia de 50 euros sea pr\u00e1cticamente indetectable.<\/p>\n\n\n\n<p>Esto revela una tensi\u00f3n fundamental del contraste cl\u00e1sico: <strong>con muestras muy grandes, todo acaba siendo estad\u00edsticamente significativo; con muestras peque\u00f1as, nada lo es aunque deba serlo.<\/strong> El p-valor no mide la <em>magnitud<\/em> del efecto, sino su <em>detectabilidad<\/em> dadas las condiciones del estudio. Una diferencia de 50 euros y una de 500 euros pueden producir el mismo p-valor si el tama\u00f1o muestral se ajusta en consecuencia. Por eso, cuando Villabajo obtenga el informe y lea \u00absignificativo con p = 0,03\u00bb, la primera pregunta que debe hacerse no es si puede rechazar H\u2080, sino cu\u00e1nto es realmente la diferencia.<\/p>\n\n\n\n<p><strong>La curva de potencia: dise\u00f1ar el estudio antes de recoger los datos.<\/strong><\/p>\n\n\n\n<p>Hay una pregunta que Villabajo deber\u00eda haberse hecho antes de encargar el estudio: \u00bfcu\u00e1ntos trabajadores necesito encuestar para que el contraste tenga suficiente capacidad de detectar la diferencia si existe? Esa capacidad es la potencia del contraste, y la Figura 4 muestra c\u00f3mo depende del tama\u00f1o muestral y de la diferencia real.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"827\" height=\"517\" src=\"https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/imagen-18.png\" alt=\"\" class=\"wp-image-1141\" srcset=\"https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/imagen-18.png 827w, https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/imagen-18-300x188.png 300w, https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/imagen-18-768x480.png 768w\" sizes=\"auto, (max-width: 827px) 100vw, 827px\" \/><figcaption class=\"wp-element-caption\"><em>Figura 4. Curva de potencia del contraste unilateral (\u03b1 = 0,05). Cada curva corresponde a un tama\u00f1o muestral por grupo. La l\u00ednea discontinua marca la potencia convencional del 80%. La l\u00ednea punteada inferior marca el nivel \u03b1, que es la probabilidad de rechazo cuando la diferencia real es cero.<\/em><\/figcaption><\/figure>\n\n\n\n<p>El eje horizontal muestra la diferencia real entre medias en euros \u2014no el \u03b4 tipificado, sino la magnitud en la escala original\u2014, y el eje vertical muestra la potencia correspondiente. Cada curva arranca en \u03b1 = 5% cuando la diferencia real es cero \u2014porque incluso sin efecto real, el 5% de las muestras llevar\u00eda a rechazar H\u2080\u2014 y sube hacia el 100% a medida que la diferencia crece.<\/p>\n\n\n\n<p>La pendiente de esa subida depende cr\u00edticamente de n. Con <strong>n = 1.000<\/strong> por grupo, la curva asciende r\u00e1pidamente y supera el 80% de potencia con diferencias de algo m\u00e1s de 100 euros: el contraste es sensible. Con <strong>n = 30<\/strong>, la curva es tan plana que incluso una diferencia de 300 euros se detecta menos del 30% de las veces: el contraste es pr\u00e1cticamente ciego.<\/p>\n\n\n\n<p>La l\u00ednea discontinua a la altura del 80% es la potencia m\u00ednima que se considera aceptable en la mayor\u00eda de disciplinas. Dise\u00f1ar un estudio con potencia inferior al 80% equivale a buscar las llaves en la oscuridad con una linterna d\u00e9bil: se puede encontrar algo, pero la probabilidad de no encontrarlo aunque est\u00e9 ah\u00ed es inaceptablemente alta. Villabajo, si quiere que su estudio sea interpretable, deber\u00eda haberse preguntado de antemano cu\u00e1l es la diferencia m\u00ednima que considera relevante y cu\u00e1ntas observaciones necesita para detectarla con un 80% de probabilidad. Ese c\u00e1lculo, llamado <strong>an\u00e1lisis de potencia a priori<\/strong>, es tan parte del dise\u00f1o de un estudio como la elecci\u00f3n del nivel de significaci\u00f3n. El tama\u00f1o de la muestra no es un detalle log\u00edstico que se decide al final seg\u00fan el presupuesto: es una decisi\u00f3n sobre cu\u00e1nta evidencia se quiere recoger y qu\u00e9 efectos se quiere ser capaz de detectar. Estudios con potencia baja no solo fallan en detectar efectos reales; tambi\u00e9n generan resultados ambiguos que no permiten concluir nada claro, ni en un sentido ni en el otro.<\/p>\n\n\n\n<p><strong>Conclusi\u00f3n: lo que el p-valor no le dijo a Villabajo.<\/strong><\/p>\n\n\n\n<p>El informe lleg\u00f3 a Villabajo con un p-valor de 0,03. El alcalde, que hab\u00eda o\u00eddo hablar del famoso umbral del 0,05, palideci\u00f3: si el p-valor era menor que 0,05, \u00abla diferencia era significativa\u00bb y Villarriba ten\u00eda raz\u00f3n. Encarg\u00f3 otro estudio. El nuevo informe devolvi\u00f3 un p-valor de 0,06. Respiraci\u00f3n: \u00abahora no es significativo, estamos a salvo\u00bb. Nadie le explic\u00f3 que la diferencia entre 0,03 y 0,06 es estad\u00edsticamente trivial, que ambos estudios usaban tama\u00f1os muestrales distintos, ni que el p-valor no le dec\u00eda nada sobre la magnitud real de la diferencia salarial.<\/p>\n\n\n\n<p>El p-valor es una herramienta \u00fatil, pero con un alcance muy concreto: mide cu\u00e1n sorprendentes ser\u00edan los datos observados si H\u2080 fuera verdadera. No mide la probabilidad de que H\u2080 sea verdadera. No mide la importancia pr\u00e1ctica del efecto. No garantiza que un resultado \u00absignificativo\u00bb sea real ni que uno \u00abno significativo\u00bb sea nulo. Usarlo bien requiere entender qu\u00e9 distribuci\u00f3n sigue el estad\u00edstico bajo H\u2080 y bajo H\u2081, qu\u00e9 papel juega el tama\u00f1o muestral, y qu\u00e9 significa exactamente el n\u00famero que aparece en el informe.<\/p>\n\n\n\n<p>La rivalidad entre Villarriba y Villabajo contin\u00faa. El \u00faltimo estudio, con n = 150 por grupo y un p-valor de 0,08, no encontr\u00f3 diferencias significativas.<\/p>\n\n\n\n<p>El alcalde de Villabajo lo celebr\u00f3 con un banquete de empanadas.<\/p>\n\n\n\n<p>El de Villarriba encarg\u00f3 un an\u00e1lisis de potencia.<\/p>\n\n\n\n<p>El p-valor, impasible, espera.<\/p>\n\n\n\n<p><strong>Lecciones no siempre \u00abtipificadas\u00bb.<\/strong><\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>La diferencia de medias muestrales es normal, y se tipifica.<\/strong> Bajo condiciones generales, la diferencia X\u0304A \u2212 X\u0304B sigue una distribuci\u00f3n normal gracias al <em>Teorema Central del L\u00edmite.<\/em> Al dividir por el error est\u00e1ndar se obtiene Z ~ N(0,1) bajo H\u2080, lo que permite usar una \u00fanica tabla de referencia independientemente de las unidades del problema.<br><\/li>\n\n\n\n<li><strong>\u03b4 es el tama\u00f1o del efecto, no la diferencia en euros.<\/strong> El par\u00e1metro de no centralidad \u03b4 mide cu\u00e1ntas desviaciones t\u00edpicas del estad\u00edstico separa la realidad de H\u2080. Hablar de \u03b4 = 1 o \u03b4 = 2 es m\u00e1s informativo que hablar de 141 o 282 euros, porque ya incorpora el tama\u00f1o muestral y la dispersi\u00f3n.<br><\/li>\n\n\n\n<li><strong>El p-valor mide compatibilidad con H\u2080, no probabilidad de que H\u2080 sea verdadera.<\/strong> P(datos | H\u2080) y P(H\u2080 | datos) son cosas distintas. El p-valor es lo primero. Confundirlo con lo segundo es el error de interpretaci\u00f3n m\u00e1s frecuente y m\u00e1s costoso.<br><\/li>\n\n\n\n<li><strong>Bajo H\u2080 verdadera, el p-valor es uniforme.<\/strong> Todos los valores de [0,1] son igualmente probables cuando no hay efecto real. El 5% de los estudios dar\u00e1n p &lt; 0,05 por azar. Multiplicar contrastes sin corregir infla artificialmente los falsos positivos.<br><\/li>\n\n\n\n<li><strong>Significaci\u00f3n estad\u00edstica no implica relevancia pr\u00e1ctica.<\/strong> Con n grande, diferencias min\u00fasculas producen p-valores min\u00fasculos. La pregunta sobre si una diferencia importa requiere evaluar su magnitud, no solo su p-valor.<br><\/li>\n\n\n\n<li><strong>No rechazar H\u2080 no es confirmarla.<\/strong> Puede significar ausencia de efecto, o simplemente potencia insuficiente. Un estudio con potencia baja no puede distinguir entre \u00abno hay diferencia\u00bb y \u00abno tenemos datos suficientes para verla\u00bb.<br><\/li>\n\n\n\n<li><strong>El tama\u00f1o muestral debe calcularse antes, no despu\u00e9s.<\/strong> El an\u00e1lisis de potencia a priori determina cu\u00e1ntas observaciones se necesitan para detectar el efecto m\u00ednimo relevante con una potencia aceptable. Es parte del dise\u00f1o del estudio, no un detalle de \u00faltima hora.<\/li>\n<\/ul>\n","protected":false},"excerpt":{"rendered":"<p>Villarriba presume. Villabajo encarga un estudio. Durante d\u00e9cadas, Villarriba y Villabajo se miran con recelo a trav\u00e9s del r\u00edo que las separa. El origen de la rivalidad, seg\u00fan los m\u00e1s viejos del lugar, fue un concurso de empanadas en 1987 cuyo resultado se discute a\u00fan hoy. Pero la \u00faltima batalla no se libra en las [&hellip;]<\/p>\n","protected":false},"author":78,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[23],"tags":[],"class_list":["post-1123","post","type-post","status-publish","format-standard","hentry","category-error-estandar"],"_links":{"self":[{"href":"https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-json\/wp\/v2\/posts\/1123","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-json\/wp\/v2\/users\/78"}],"replies":[{"embeddable":true,"href":"https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-json\/wp\/v2\/comments?post=1123"}],"version-history":[{"count":15,"href":"https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-json\/wp\/v2\/posts\/1123\/revisions"}],"predecessor-version":[{"id":1143,"href":"https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-json\/wp\/v2\/posts\/1123\/revisions\/1143"}],"wp:attachment":[{"href":"https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-json\/wp\/v2\/media?parent=1123"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-json\/wp\/v2\/categories?post=1123"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-json\/wp\/v2\/tags?post=1123"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}