Estadística BásicaAvanzado· 10 min de lectura

Regresión Lineal Simple: Prediciendo Valores con una Recta

La regresión lineal usa una recta para predecir valores. Aprende la ecuación ŷ = a + bx, qué significan el coeficiente angular y el R², con ejemplos prácticos.

Renato Freitas

Actualizado el 5 de mayo de 2026

¿Qué es la regresión lineal?

La regresión lineal simple es una técnica estadística para modelar la relación entre una variable dependiente (Y, lo que queremos predecir) y una variable independiente (X, lo que usamos para predecir). La idea es encontrar la recta que mejor se ajuste a los datos, minimizando los errores de predicción.

El ejemplo clásico es predecir el precio de una casa (Y) en función de su área en metros cuadrados (X). Intuitivamente, esperamos que las casas más grandes cuesten más: la regresión cuantifica exactamente esa relación y permite hacer predicciones para nuevas casas.

🧮 Pruébalo tú mismo — CalcSim

¿Quieres más funciones? Descargar app CalcSim IA

La ecuación de la recta de regresión

La recta de regresión se describe mediante la ecuación ŷ = a + bx, donde ŷ es el valor predicho de Y para dado X, b es el coeficiente angular (pendiente) y a es la intersección (donde la recta cruza el eje Y cuando X = 0).

El coeficiente angular b indica cuánto cambia Y en promedio por cada unidad de aumento en X. Si la regresión de precio de casas da b = 3.500, eso significa que cada metro cuadrado adicional está asociado a un aumento medio de 3.500 € en el precio.

La intersección a es el valor predicho de Y cuando X = 0. En muchos contextos prácticos, ese valor no tiene interpretación directa: una casa de 0 m² no existe. Pero matemáticamente es necesario para completar la ecuación de la recta.

ŷ: valor predicho (no el valor real)
b (pendiente): variación en Y por unidad de X
a (intersección): valor de Y cuando X = 0
Residuo: diferencia entre el valor real y el predicho (y − ŷ)

El coeficiente de determinación R²

El R² (coeficiente de determinación) mide la proporción de la variación de Y que es explicada por el modelo de regresión. Varía de 0 a 1 (o del 0% al 100%). Un R² de 0,85 significa que el 85% de la variación en los precios de las casas es explicada por la variación en el área, y el 15% restante se debe a otros factores no incluidos en el modelo.

Un R² alto no significa que el modelo sea bueno en todos los contextos. En ciencias humanas, un R² de 0,4 ya puede considerarse robusto. En física experimental, se espera un R² superior a 0,99. El R² tampoco indica si la relación es causal: solo indica cuánto se ajusta la recta a los datos.

Nótese que R² es literalmente el cuadrado del coeficiente de correlación r de Pearson para la regresión simple. Si la correlación entre área y precio es r = 0,92, entonces R² = 0,85, las mismas 85% mencionadas antes.

Supuestos y limitaciones

La regresión lineal supone que la relación entre X e Y es aproximadamente lineal (verificar con diagrama de dispersión), que los residuos son aproximadamente normales y con varianza constante (homocedasticidad), y que las observaciones son independientes entre sí.

El método de mínimos cuadrados —que minimiza la suma de los cuadrados de los residuos— es el más usado para estimar a y b. Es sensible a valores atípicos: un único punto muy alejado de la tendencia general puede desplazar la recta significativamente. En análisis prácticos, siempre verifica si hay puntos influyentes.

La extrapolación —usar el modelo para predecir Y con valores de X muy fuera del rango de los datos— es arriesgada. La recta puede comportarse de forma totalmente diferente fuera de los límites observados. El modelo de temperatura y venta de helados, por ejemplo, no puede predecir ventas para temperaturas de −30 °C con confianza.

Preguntas frecuentes

¿Cuál es la diferencia entre regresión lineal y correlación?

La correlación mide la fuerza y dirección de la relación entre dos variables: es una única medida simétrica (r de X con Y = r de Y con X). La regresión crea un modelo predictivo con dirección definida: X predice Y. La regresión permite hacer predicciones cuantitativas; la correlación solo describe la asociación.

¿Cómo sé si mis datos cumplen los supuestos de la regresión?

Analiza los residuos. Grafica los residuos (y − ŷ) frente a los valores ajustados: un patrón aleatorio en torno a cero indica que los supuestos se cumplen. Un patrón en abanico sugiere heterocedasticidad; una curva sugiere no linealidad. Los Q-Q plots de los residuos verifican la normalidad.

¿Puedo usar regresión con variables categóricas como X?

Sí, usando variables dummy (0 o 1). Por ejemplo, para incluir 'tiene garaje' (sí/no) en la predicción de precios, se codifica sí = 1 y no = 0. Esto se llama regresión con variables dummy y se usa ampliamente en econometría y ciencias sociales.

¿Qué es la regresión múltiple y cuándo usarla?

La regresión múltiple usa dos o más variables independientes para predecir Y. En lugar de ŷ = a + bx, tenemos ŷ = a + b₁x₁ + b₂x₂ + … Úsala cuando múltiples factores influyen simultáneamente en Y, como predecir el precio de casas considerando área, número de habitaciones y barrio juntos.

¿Los valores predichos por la regresión son exactos?

No: son estimaciones medias. La recta de regresión predice el valor medio de Y para dado X. Los valores individuales varían en torno a esa predicción (los residuos). Los intervalos de predicción (más amplios que los intervalos de confianza para la media) capturan dónde caerán probablemente los nuevos valores individuales.

¿Este artículo te fue útil?

Califica con estrellas para ayudarnos a mejorar el contenido.

Inicia sesión para calificar este artículo.

¿Aún tienes dudas?

El Profesor IA explica paso a paso

Haz una pregunta en lenguaje natural y recibe una explicación personalizada sobre Estadística Básica — o cualquier otro tema.

¿Prefieres resolverlo en el móvil?

Descargar la app gratis →

Sigue aprendiendo

Ver todos los artículos de Estadística Básica