{"id":1073,"date":"2026-04-01T19:22:38","date_gmt":"2026-04-01T17:22:38","guid":{"rendered":"https:\/\/blog.uclm.es\/miguelangeltarancon\/?p=1073"},"modified":"2026-04-01T19:33:43","modified_gmt":"2026-04-01T17:33:43","slug":"nada-me-importa-menos-tu-omision-de-variables-relevantes-vs-inclusion-de-variables-no-relevantes","status":"publish","type":"post","link":"https:\/\/blog.uclm.es\/miguelangeltarancon\/2026\/04\/01\/nada-me-importa-menos-tu-omision-de-variables-relevantes-vs-inclusion-de-variables-no-relevantes\/","title":{"rendered":"Nada me importa menos t\u00fa: omisi\u00f3n de variables relevantes vs inclusi\u00f3n de variables no-relevantes."},"content":{"rendered":"\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"572\" src=\"https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/Sunlandia-1024x572.jpg\" alt=\"\" class=\"wp-image-1077\" srcset=\"https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/Sunlandia-1024x572.jpg 1024w, https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/Sunlandia-300x167.jpg 300w, https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/Sunlandia-768x429.jpg 768w, https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/Sunlandia-1536x857.jpg 1536w, https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/Sunlandia-2048x1143.jpg 2048w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n\n\n<p><strong>Al sol que m\u00e1s calienta.<\/strong><\/p>\n\n\n\n<p>El <em>Instituto Nacional de Estad\u00edstica<\/em> de <em>Sunlandia<\/em> \u2014conocido en los pasillos como el <em>INES<\/em>, aunque nadie se pone de acuerdo en si es masculino o femenino\u2014 lleva meses trabajando en un estudio sobre la implantaci\u00f3n de energ\u00eda fotovoltaica a nivel municipal. El objetivo es ambicioso: entender qu\u00e9 factores explican que unos municipios instalen muchos m\u00e1s paneles solares por habitante que otros. La variable dependiente es la potencia fotovoltaica instalada, medida en vatios por cada mil habitantes (W\/1.000 hab.), y los datos cubren una muestra de 200 municipios de <em>Sunlandia<\/em>.<\/p>\n\n\n\n<p>El problema empieza, como casi siempre, antes de tocar los datos. El analista ha de decidir qu\u00e9 variables entran en el modelo y cu\u00e1les quedan fuera. Y aqu\u00ed es donde el INES, fiel a su tradici\u00f3n de generar tres versiones de cada informe seg\u00fan qui\u00e9n haya llegado antes a la oficina esa ma\u00f1ana, produce tres especificaciones distintas.<\/p>\n\n\n\n<p>Este <em>post<\/em> estudia, mediante simulaci\u00f3n <em>Monte Carlo<\/em>, qu\u00e9 consecuencias tiene cada decisi\u00f3n de especificaci\u00f3n. La conclusi\u00f3n adelantada es que los dos tipos de error no son en absoluto sim\u00e9tricos: <strong>omitir una variable relevante es mucho m\u00e1s da\u00f1ino que incluir una irrelevante.<\/strong><\/p>\n\n\n\n<p><strong>El fen\u00f3meno verdadero y los tres modelos de INES.<\/strong><\/p>\n\n\n\n<p>Lo bueno de realizar un experimento de simulaci\u00f3n es que nosotros conocemos el modelo que genera los datos \u2014el proceso generador de datos o DGP\u2014. Por lo tanto, nos permitimos el lujo de saber c\u00f3mo funcionan los fen\u00f3menos, ya que nosotros mismos los creamos. As\u00ed, la variable dependiente <strong>Y<\/strong> depende linealmente de dos variables:<\/p>\n\n\n\n<p class=\"has-text-align-center\">Y&nbsp; =&nbsp; 50&nbsp; +&nbsp; 8 \u00b7 X\u2081&nbsp; +&nbsp; 5 \u00b7 X\u2082&nbsp; +&nbsp; \u03b5,&nbsp;&nbsp;&nbsp;&nbsp; \u03b5 ~ N(0, 30\u00b2)<\/p>\n\n\n\n<p>donde <strong>X\u2081 <\/strong>son las horas de sol al a\u00f1o (en centenas; media \u2248 24, equivalente a 2.400 h anuales), <strong>X\u2082 <\/strong>es la renta media por hogar (en miles de euros; media \u2248 28, equivalente a 28.000 \u20ac), y <strong>\u03b5 <\/strong>es el t\u00e9rmino de error con desviaci\u00f3n t\u00edpica 30 W\/1.000 hab.<\/p>\n\n\n\n<p>Las unidades est\u00e1n elegidas para que los coeficientes sean legibles: \u03b2\u2081 = 8 significa que cien horas adicionales de sol al a\u00f1o se asocian a 8 W\/1.000 hab. m\u00e1s de potencia instalada; \u03b2\u2082 = 5 implica que cada mil euros adicionales de renta media se asocian a 5 W\/1.000 hab. adicionales.<\/p>\n\n\n\n<p>Existe adem\u00e1s una tercera variable, <strong>X\u2083<\/strong>, la altitud media en centenas de metros. Su coeficiente verdadero en el DGP es cero: no tiene ning\u00fan efecto causal. Sin embargo, resulta plausible a primera vista \u2014m\u00e1s altura, m\u00e1s radiaci\u00f3n, razonan los analistas optimistas\u2014, lo que la convierte en candidata perfecta para ilustrar el error de inclusi\u00f3n indebida.<\/p>\n\n\n\n<p>Un detalle crucial: <strong>X\u2081<\/strong> y <strong>X\u2082<\/strong> no son independientes. Los municipios m\u00e1s soleados de Sunlandia tienden a ser m\u00e1s c\u00e1lidos, m\u00e1s tur\u00edsticos y, en general, m\u00e1s ricos. La correlaci\u00f3n entre horas de sol y renta media es \u03c1\u2081\u2082 = 0,60. Esta cifra ser\u00e1 clave para entender el sesgo de omisi\u00f3n.<\/p>\n\n\n\n<p>Los analistas de INES no tienen nuestra misma suerte, y por lo tanto han de proponer sus especificaciones del modelo alternativas, esperando quedarse lo suficientemente cerca de la explicaci\u00f3n del fen\u00f3meno real como para poder ser asumida. Las especificaciones propuestas han sido 3:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>M0 (modelo correcto): <\/strong>Y ~ X\u2081 + X\u2082. El propuesto por el analista madrugador, que llega el primero y conoce la literatura.<br><\/li>\n\n\n\n<li><strong>M1 (omisi\u00f3n de X\u2082): <\/strong>Y ~ X\u2081. El analista que olvid\u00f3 pedir los datos de renta al departamento de Hacienda de Sunlandia.<br><\/li>\n\n\n\n<li><strong>M2 (inclusi\u00f3n de X\u2083 irrelevante): <\/strong>Y ~ X\u2081 + X\u2082 + X\u2083. El analista entusiasta  \u2014pero inseguro\u2014 que a\u00f1ade la altitud \u00abpor si acaso\u00bb.<\/li>\n<\/ul>\n\n\n\n<p><strong>Dise\u00f1o de la simulaci\u00f3n Monte Carlo<\/strong>.<\/p>\n\n\n\n<p>Para evaluar las propiedades de los estimadores se recurre a la simulaci\u00f3n <em>Monte Carlo.<\/em> La idea es sencilla: repetimos el experimento 5.000 veces. En cada r\u00e9plica generamos una nueva muestra de municipios, estimamos los tres modelos y guardamos los resultados. Al cabo de 5.000 repeticiones tenemos una imagen completa del comportamiento estad\u00edstico de los estimadores. El experimento se repite para tres tama\u00f1os muestrales: n = 50, n = 200 y n = 500 municipios, lo que permite estudiar la consistencia de los estimadores. En cada r\u00e9plica se generan tambi\u00e9n 40 municipios adicionales \u2014fuera de la muestra de estimaci\u00f3n\u2014 para evaluar la calidad predictiva de cada modelo.<\/p>\n\n\n\n<p><strong>Insesgadez y consistencia de <math data-latex=\"\\hat{\\beta}_1\"><semantics><msub><mover><mi>\u03b2<\/mi><mo stretchy=\"false\" class=\"tml-capshift\">^<\/mo><\/mover><mn>1<\/mn><\/msub><annotation encoding=\"application\/x-tex\">\\hat{\\beta}_1<\/annotation><\/semantics><\/math><\/strong><\/p>\n\n\n\n<p>La primera pregunta es directa: \u00bfestima cada modelo correctamente el efecto de las horas de sol? La Figura 1 muestra la distribuci\u00f3n muestral de <strong><math data-latex=\"\\hat{\\beta}_1\"><semantics><msub><mover><mi>\u03b2<\/mi><mo stretchy=\"false\" class=\"tml-capshift\">^<\/mo><\/mover><mn>1<\/mn><\/msub><annotation encoding=\"application\/x-tex\">\\hat{\\beta}_1<\/annotation><\/semantics><\/math><\/strong> para los tres modelos y los tres tama\u00f1os de muestra.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"931\" height=\"586\" src=\"https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/imagen.png\" alt=\"\" class=\"wp-image-1093\" srcset=\"https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/imagen.png 931w, https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/imagen-300x189.png 300w, https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/imagen-768x483.png 768w\" sizes=\"auto, (max-width: 931px) 100vw, 931px\" \/><\/figure>\n\n\n\n<p>El resultado es inequ\u00edvoco. M0 y M2 producen distribuciones perfectamente centradas en \u03b2\u2081 = 8: sus estimadores son <strong>insesgados.<\/strong> M1 desplaza toda la distribuci\u00f3n hacia la derecha, acumul\u00e1ndose alrededor de 14. El estimador del efecto del sol <strong>sobreestima sistem\u00e1ticamente<\/strong> en casi 6 unidades.<\/p>\n\n\n\n<p>\u00bfPor qu\u00e9 ese sesgo? Porque al excluir X\u2082 (renta), el modelo le \u00abachaca\u00bb al sol parte del efecto que corresponde a la renta. Como los municipios m\u00e1s soleados tambi\u00e9n tienden a ser m\u00e1s ricos (\u03c1\u2081\u2082 = 0,60), el estimador de \u03b2\u2081 absorbe parte de \u03b2\u2082 y se infla. Este fen\u00f3meno se conoce como <strong>sesgo de variable omitida.<\/strong><\/p>\n\n\n\n<p>M2 se comporta exactamente igual que M0: incluir la altitud irrelevante no introduce ning\u00fan sesgo en La primera pregunta es directa: \u00bfestima cada modelo correctamente el efecto de las horas de sol? La Figura 1 muestra la distribuci\u00f3n muestral de <strong><math data-latex=\"\\hat{\\beta}_1\"><semantics><msub><mover><mi>\u03b2<\/mi><mo stretchy=\"false\" class=\"tml-capshift\">^<\/mo><\/mover><mn>1<\/mn><\/msub><annotation encoding=\"application\/x-tex\">\\hat{\\beta}_1<\/annotation><\/semantics><\/math><\/strong> para los tres modelos y los tres tama\u00f1os de muestra. La Figura 2 y la Tabla 1 ilustran la consistencia de los estimadores.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"931\" height=\"586\" src=\"https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/imagen-1.png\" alt=\"\" class=\"wp-image-1094\" srcset=\"https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/imagen-1.png 931w, https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/imagen-1-300x189.png 300w, https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/imagen-1-768x483.png 768w\" sizes=\"auto, (max-width: 931px) 100vw, 931px\" \/><\/figure>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"964\" height=\"254\" src=\"https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/imagen-4.png\" alt=\"\" class=\"wp-image-1099\" srcset=\"https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/imagen-4.png 964w, https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/imagen-4-300x79.png 300w, https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/imagen-4-768x202.png 768w\" sizes=\"auto, (max-width: 964px) 100vw, 964px\" \/><\/figure>\n\n\n\n<p>En M0 y M2, el sesgo es pr\u00e1cticamente nulo para cualquier n. En M1, el sesgo no solo es elevado: es estable. Aumentar la muestra de 50 a 500 municipios no lo reduce en absoluto. Esto es la definici\u00f3n de inconsistencia: <strong>el estimador no converge<\/strong> al valor verdadero aunque dispongamos de infinitos datos. La columna ECM \u2014<em>error cuadr\u00e1tico medio<\/em>\u2014 de la Tabla 1 lo cuantifica: el ECM de <strong><math data-latex=\"\\hat{\\beta}_1\"><semantics><msub><mover><mi>\u03b2<\/mi><mo stretchy=\"false\" class=\"tml-capshift\">^<\/mo><\/mover><mn>1<\/mn><\/msub><annotation encoding=\"application\/x-tex\">\\hat{\\beta}_1<\/annotation><\/semantics><\/math><\/strong> en M1 es entre 40 y 100 veces mayor que en M0.<\/p>\n\n\n\n<p>(*) <strong>Una nota sobre multicolinealidad. <\/strong>En M0, X\u2081 y X\u2082 presentan una correlaci\u00f3n de \u03c1\u2081\u2082 = 0,60, lo que implica un VIF \u2248 1,56 para ambos regresores. Es una multicolinealidad d\u00e9bil, lejana de los umbrales habitualmente preocupantes (VIF &gt; 5 \u00f3 &gt; 10). No obstante, es precisamente esta correlaci\u00f3n la que amplifica el sesgo de omisi\u00f3n en M1.<\/p>\n\n\n\n<p><strong>Eficiencia: \u00bfqu\u00e9 modelo malgasta informaci\u00f3n?<\/strong><\/p>\n\n\n\n<p>\u00bfC\u00f3mo de dispersos son los estimadores? La Figura 3 muestra la varianza muestral de <strong><math data-latex=\"\\hat{\\beta}_1\"><semantics><msub><mover><mi>\u03b2<\/mi><mo stretchy=\"false\" class=\"tml-capshift\">^<\/mo><\/mover><mn>1<\/mn><\/msub><annotation encoding=\"application\/x-tex\">\\hat{\\beta}_1<\/annotation><\/semantics><\/math><\/strong> para los tres modelos en funci\u00f3n de n.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"931\" height=\"586\" src=\"https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/imagen-2.png\" alt=\"\" class=\"wp-image-1095\" srcset=\"https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/imagen-2.png 931w, https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/imagen-2-300x189.png 300w, https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/imagen-2-768x483.png 768w\" sizes=\"auto, (max-width: 931px) 100vw, 931px\" \/><\/figure>\n\n\n\n<p>Los tres modelos convergen hacia cero al crecer n, pero el patr\u00f3n relativo es revelador. M1 no es el m\u00e1s ineficiente en varianza: con un solo regresor, su estimador resulta algo menos variable que en los modelos con dos o tres regresores. Sin embargo, M1 tiene un sesgo contundente. <strong>El ECM (Varianza + Sesgo\u00b2) es la m\u00e9trica que integra ambas dimensiones, y en esa m\u00e9trica M1 pierde por goleada.<\/strong><\/p>\n\n\n\n<p><strong>\u00bfQu\u00e9 pasa con el efecto de la renta?<\/strong><\/p>\n\n\n\n<p>La Figura 4 muestra la distribuci\u00f3n de <strong><math data-latex=\"\\hat{\\beta}_2\"><semantics><msub><mover><mi>\u03b2<\/mi><mo stretchy=\"false\" class=\"tml-capshift\">^<\/mo><\/mover><mn>2<\/mn><\/msub><annotation encoding=\"application\/x-tex\">\\hat{\\beta}_2<\/annotation><\/semantics><\/math><\/strong> en M0 y M2 para n = 200.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"931\" height=\"586\" src=\"https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/imagen-5.png\" alt=\"\" class=\"wp-image-1100\" srcset=\"https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/imagen-5.png 931w, https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/imagen-5-300x189.png 300w, https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/imagen-5-768x483.png 768w\" sizes=\"auto, (max-width: 931px) 100vw, 931px\" \/><\/figure>\n\n\n\n<p>Incluir X\u2083 (irrelevante) no introduce ning\u00fan sesgo en La Figura 6 muestra la distribuci\u00f3n de <strong><math data-latex=\"\\hat{\\beta}_2\"><semantics><msub><mover><mi>\u03b2<\/mi><mo stretchy=\"false\" class=\"tml-capshift\">^<\/mo><\/mover><mn>2<\/mn><\/msub><annotation encoding=\"application\/x-tex\">\\hat{\\beta}_2<\/annotation><\/semantics><\/math><\/strong> en M0 y M2 para n = 200.. Ambas distribuciones est\u00e1n centradas en el valor verdadero \u03b2\u2082 = 5 con dispersi\u00f3n pr\u00e1cticamente id\u00e9ntica. M2 paga un peaje m\u00ednimo en eficiencia, pero no deteriora la estimaci\u00f3n de los coeficientes relevantes. En M1, \u03b2\u2082 no existe: el efecto de la renta queda enterrado bajo el sol.<\/p>\n\n\n\n<p><strong>Bondad del ajuste: R\u00b2 y AIC.<\/strong><\/p>\n\n\n\n<p>La Figura 5 muestra la distribuci\u00f3n del R\u00b2 y del AIC (<em>Criterio de Informaci\u00f3n de Akaike<\/em>) para los tres modelos con n = 200. El R\u00b2 mide la proporci\u00f3n de varianza explicada (mayor es mejor); el AIC penaliza la complejidad del modelo (menor es mejor).<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"931\" height=\"586\" src=\"https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/imagen-6.png\" alt=\"\" class=\"wp-image-1101\" srcset=\"https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/imagen-6.png 931w, https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/imagen-6-300x189.png 300w, https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/imagen-6-768x483.png 768w\" sizes=\"auto, (max-width: 931px) 100vw, 931px\" \/><\/figure>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"873\" height=\"245\" src=\"https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/imagen-7.png\" alt=\"\" class=\"wp-image-1102\" srcset=\"https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/imagen-7.png 873w, https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/imagen-7-300x84.png 300w, https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/imagen-7-768x216.png 768w\" sizes=\"auto, (max-width: 873px) 100vw, 873px\" \/><\/figure>\n\n\n\n<p>M1 muestra un R\u00b2 sistem\u00e1ticamente inferior (\u2248 0,54 frente a \u2248 0,72 de M0): al omitir la renta pierde una parte sustancial del poder explicativo. M2 obtiene un R\u00b2 pr\u00e1cticamente id\u00e9ntico al de M0 \u2014a\u00f1adir una variable irrelevante nunca puede reducir el R\u00b2, por construcci\u00f3n matem\u00e1tica\u2014. El AIC, sin embargo, detecta el exceso de complejidad de M2 y le asigna un valor ligeramente peor que a M0. El AIC \u00absabe\u00bb que X\u2083 no a\u00f1ade informaci\u00f3n real; el R\u00b2 no lo sabe.<\/p>\n\n\n\n<p><strong>Calidad predictiva fuera de muestra.<\/strong><\/p>\n\n\n\n<p>La prueba definitiva es la predicci\u00f3n sobre municipios no observados. En cada r\u00e9plica se calcul\u00f3 el RMSE (<em>Ra\u00edz del Error Cuadr\u00e1tico Medio<\/em>, en W\/1.000 hab.) sobre 40 municipios fuera de muestra.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"931\" height=\"586\" src=\"https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/imagen-8.png\" alt=\"\" class=\"wp-image-1103\" srcset=\"https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/imagen-8.png 931w, https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/imagen-8-300x189.png 300w, https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/imagen-8-768x483.png 768w\" sizes=\"auto, (max-width: 931px) 100vw, 931px\" \/><\/figure>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"873\" height=\"269\" src=\"https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/imagen-9.png\" alt=\"\" class=\"wp-image-1104\" srcset=\"https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/imagen-9.png 873w, https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/imagen-9-300x92.png 300w, https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-content\/uploads\/sites\/67\/2026\/04\/imagen-9-768x237.png 768w\" sizes=\"auto, (max-width: 873px) 100vw, 873px\" \/><\/figure>\n\n\n\n<p>M1 produce errores de predicci\u00f3n de en torno a 38\u201339 W\/1.000 hab., frente a los 30 W\/1.000 hab. de M0: un 27% m\u00e1s. Y lo m\u00e1s llamativo: aumentar la muestra de 50 a 500 municipios apenas reduce el RMSE de M1. <strong>El sesgo no desaparece con m\u00e1s datos<\/strong>, y se paga directamente en la predicci\u00f3n. M2 es pr\u00e1cticamente indistinguible de M0 en t\u00e9rminos predictivos.<\/p>\n\n\n\n<p><strong>Conclusiones.<\/strong><\/p>\n\n\n\n<p>La <strong>omisi\u00f3n de una variable relevante<\/strong> (M1) produce consecuencias en cascada: el estimador de <strong><math data-latex=\"\\hat{\\beta}_1\"><semantics><msub><mover><mi>\u03b2<\/mi><mo stretchy=\"false\" class=\"tml-capshift\">^<\/mo><\/mover><mn>1<\/mn><\/msub><annotation encoding=\"application\/x-tex\">\\hat{\\beta}_1<\/annotation><\/semantics><\/math><\/strong> es <strong>sesgado e inconsistente<\/strong>, el ECM es entre 40 y 100 veces mayor que en el modelo correcto, la bondad del ajuste se deteriora y la calidad predictiva empeora en un 27%.<\/p>\n\n\n\n<p>La <strong>inclusi\u00f3n de una variable irrelevante<\/strong> (M2) produce consecuencias mucho m\u00e1s benignas: <strong>los estimadores se mantienen insesgados y consistentes, la varianza aumenta marginalmente<\/strong> y el AIC detecta el exceso de complejidad. La calidad predictiva es pr\u00e1cticamente id\u00e9ntica a la del modelo correcto.<\/p>\n\n\n\n<p>En resumen: omitir lo que importa destruye las propiedades del estimador. Incluir lo que sobra apenas le hace cosquillas. Esta asimetr\u00eda es la raz\u00f3n por la que el an\u00e1lisis econom\u00e9trico, a menudo, dedica m\u00e1s esfuerzo a justificar qu\u00e9 variables deben entrar en el modelo que a eliminar las que ya est\u00e1n.<\/p>\n\n\n\n<p><strong>Lecciones de INES.<\/strong><\/p>\n\n\n\n<p>El departamento de metodolog\u00eda del INES, tras revisar los tres informes, redact\u00f3 el siguiente memor\u00e1ndum interno. Lo reproducimos con su permiso \u2014y con alguna edici\u00f3n ortogr\u00e1fica\u2014:<\/p>\n\n\n\n<p><em>Omitir una variable relevante que est\u00e1 correlacionada con las incluidas sesga los estimadores de forma sistem\u00e1tica e incorregible. M\u00e1s datos no ayudan. Una muestra de 500 municipios con un modelo mal especificado es menos \u00fatil que una de 50 con el modelo correcto.<\/em><\/p>\n\n\n\n<ol class=\"wp-block-list\">\n<li><strong>El sesgo de omisi\u00f3n no es universal: <\/strong>si la variable omitida es ortogonal a las incluidas, el estimador sigue siendo insesgado. El problema aparece cuando existe correlaci\u00f3n entre ellas, lo cual es la norma en datos econ\u00f3micos y sociales.<br><\/li>\n\n\n\n<li><strong>Incluir una variable irrelevante es un pecado menor. <\/strong>Los estimadores se mantienen insesgados y consistentes. El AIC puede detectar el exceso de complejidad; el R\u00b2 nunca lo har\u00e1.<br><\/li>\n\n\n\n<li><strong>La capacidad predictiva fuera de muestra es el juez m\u00e1s severo. <\/strong>M1 paga un peaje del 27% en RMSE que no se recupera aunque se multiplique el tama\u00f1o de la muestra.<br><\/li>\n\n\n\n<li><strong>El Error Cuadr\u00e1tico Medio integra sesgo y varianza. <\/strong>Es la m\u00e9trica adecuada para comparar estimadores con distinto sesgo y distinta varianza. La diferencia entre M0 y M1 es de uno a dos \u00f3rdenes de magnitud.<br><\/li>\n\n\n\n<li><strong>La multicolinealidad amplifica el sesgo de omisi\u00f3n. <\/strong>Con \u03c1\u2081\u2082 = 0,60 y un VIF de 1,56, el sesgo en \u03b2\u0302\u2081 ya representa el 75% del valor verdadero. A mayor correlaci\u00f3n entre la variable omitida y las incluidas, mayor da\u00f1o.<\/li>\n<\/ol>\n\n\n\n<p><strong>Bonus Track: nos parecemos (un poco), y por eso nos echamos tanto de menos&#8230;<\/strong><\/p>\n\n\n\n<p>El sesgo que introduce M1 al omitir X\u2082 no es una constante universal: depende del grado de correlaci\u00f3n entre la variable omitida y las variables incluidas en el modelo. La expresi\u00f3n del sesgo te\u00f3rico de <strong><math data-latex=\"\\hat{\\beta}_1\"><semantics><msub><mover><mi>\u03b2<\/mi><mo stretchy=\"false\" class=\"tml-capshift\">^<\/mo><\/mover><mn>1<\/mn><\/msub><annotation encoding=\"application\/x-tex\">\\hat{\\beta}_1<\/annotation><\/semantics><\/math><\/strong> cuando se omite X\u2082 es:<\/p>\n\n\n\n<p class=\"has-text-align-center\">Sesgo(<math data-latex=\"\\hat{\\beta}_1\"><semantics><msub><mover><mi>\u03b2<\/mi><mo stretchy=\"false\" class=\"tml-capshift\">^<\/mo><\/mover><mn>1<\/mn><\/msub><annotation encoding=\"application\/x-tex\">\\hat{\\beta}_1<\/annotation><\/semantics><\/math>) = \u03b2\u2082 \u00b7 \u03c1\u2081\u2082 \u00b7 (\u03c3\u2082 \/ \u03c3\u2081)<\/p>\n\n\n\n<p>En nuestra simulaci\u00f3n: \u03b2\u2082 = 5, \u03c1\u2081\u2082 = 0,60, \u03c3\u2082 = 6 y \u03c3\u2081 = 3, lo que da un sesgo te\u00f3rico de 5 \u00b7 0,60 \u00b7 (6\/3) = 6. Exactamente lo que observamos en la Figura 2 y la Tabla 1.<\/p>\n\n\n\n<p>La implicaci\u00f3n es importante: si X\u2081 y X\u2082 fuesen ortogonales (\u03c1\u2081\u2082 = 0), omitir X\u2082 no producir\u00eda ning\u00fan sesgo en <strong><math data-latex=\"\\hat{\\beta}_1\"><semantics><msub><mover><mi>\u03b2<\/mi><mo stretchy=\"false\" class=\"tml-capshift\">^<\/mo><\/mover><mn>1<\/mn><\/msub><annotation encoding=\"application\/x-tex\">\\hat{\\beta}_1<\/annotation><\/semantics><\/math><\/strong>. <strong>Pero en la pr\u00e1ctica, las variables econ\u00f3micas y sociales rara vez son ortogonales.<\/strong><\/p>\n\n\n\n<p>En nuestro caso, \u03c1\u2081\u2082 = 0,60 implica un VIF \u2248 1,56, una multicolinealidad d\u00e9bil en s\u00ed misma. Y sin embargo es suficiente para generar un sesgo de omisi\u00f3n del 75% del valor verdadero de \u03b2\u2081. La relaci\u00f3n exacta entre el grado de multicolinealidad de la variable omitida con las incluidas y el tama\u00f1o del sesgo de omisi\u00f3n <strong>ser\u00e1 objeto de un pr\u00f3ximo post en Error Est\u00e1ndar.<\/strong><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Al sol que m\u00e1s calienta. El Instituto Nacional de Estad\u00edstica de Sunlandia \u2014conocido en los pasillos como el INES, aunque nadie se pone de acuerdo en si es masculino o femenino\u2014 lleva meses trabajando en un estudio sobre la implantaci\u00f3n de energ\u00eda fotovoltaica a nivel municipal. El objetivo es ambicioso: entender qu\u00e9 factores explican que [&hellip;]<\/p>\n","protected":false},"author":78,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[23],"tags":[],"class_list":["post-1073","post","type-post","status-publish","format-standard","hentry","category-error-estandar"],"_links":{"self":[{"href":"https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-json\/wp\/v2\/posts\/1073","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-json\/wp\/v2\/users\/78"}],"replies":[{"embeddable":true,"href":"https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-json\/wp\/v2\/comments?post=1073"}],"version-history":[{"count":10,"href":"https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-json\/wp\/v2\/posts\/1073\/revisions"}],"predecessor-version":[{"id":1105,"href":"https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-json\/wp\/v2\/posts\/1073\/revisions\/1105"}],"wp:attachment":[{"href":"https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-json\/wp\/v2\/media?parent=1073"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-json\/wp\/v2\/categories?post=1073"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blog.uclm.es\/miguelangeltarancon\/wp-json\/wp\/v2\/tags?post=1073"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}