Explicación de la regresión lineal con pruebas de hipótesis e intervalo de confianza

Prueba de hipótesis

La prueba de hipótesis se utiliza para demostrar qué tan probable o improbable podría ocurrir un evento en particular según una suposición inicial.

Por ejemplo, tomemos una muestra de 100 estudiantes de secundaria en su preferencia de helado de vainilla o chocolate. Con esa muestra, puede calcular sus estadísticas de muestra. Digamos que el 60% o 0,6 de los estudiantes prefieren el chocolate a la vainilla según la muestra. Ahora queremos ver la probabilidad de que ocurra nuestra muestra dada alguna suposición inicial. Si nuestra suposición inicial es que los estudiantes prefieren el chocolate al 55% o 0,55 sobre la vainilla, entonces nuestra prueba de hipótesis nos ayuda a responder la siguiente pregunta:

¿Qué probabilidad hay de que ocurra nuestra proporción de muestra, 0,6, dado que a la población real de todos los estudiantes del universo le gusta el helado de chocolate el 55% del tiempo que el de vainilla?

Si la probabilidad de que ocurra nuestra proporción de muestra (valor p) es menor que el nivel de significancia preconfigurado (alfa), entonces podemos rechazar nuestra suposición inicial o nuestra hipótesis nula. Esta es la base de la prueba de hipótesis.

Intervalo de confianza

El intervalo de confianza se utiliza para estimar el rango del parámetro de población real.

Por ejemplo, hay una elección en curso y nos gustaría saber la proporción de personas que votarán por el candidato A o por el candidato B. No podemos encuestar a toda la población, por lo que tomamos una muestra aleatoria de 100 personas. Supongamos que al 55% o 0,55 de las personas que seleccionamos aleatoriamente les gustó el candidato A. No podemos decir que al 0,55 de toda la población le guste el candidato A sobre el candidato B porque esta es solo nuestra proporción de muestra.

Un intervalo de confianza nos ayuda a calcular un rango en el que podría existir la proporción de población real dado algún nivel de confianza. Digamos que calculamos un intervalo de confianza del 99% en la proporción de la muestra y nos dio un rango de 0,45 a 0,65. ¿Cómo podemos interpretar este valor?

Con un 99% de confianza, al 55% de la población le gusta el candidato A sobre el candidato B con un margen de error del 10%.

El intervalo de confianza nos brinda la capacidad de estimar la población real con cierta confianza en función de nuestros datos de muestra. Quiero dejar en claro que el intervalo de confianza no se puede interpretar de la siguiente manera:

Existe una probabilidad del 99% de que la población real se sitúe entre 0,45 y 0,65 .

Lo que dice el 99%:

Si tomara una muestra 100 veces y utilizara la misma técnica para calcular el intervalo de confianza, 99 de esos intervalos de confianza de muestra contendrán la proporción de población real .

Quiero enfatizar que las dos declaraciones son muy diferentes.

¿Cómo podemos estimar la proporción de población de esta manera? La ley de los grandes números es la razón. Si tuviéramos que tomar 10,000 muestras de tamaño de muestra n, y calcular la proporción de cada muestra y trazarla, obtendríamos una distribución muestral de la proporción muestral. Y de acuerdo con la ley de los grandes números, a medida que el número de muestras llega al infinito, las estadísticas de la muestra serán aproximadamente el parámetro de población.

La figura anterior explica bien este concepto. Como puede ver, tanto la población como la distribución muestral tienen la misma media. Podemos utilizar esta característica para estimar el verdadero parámetro de población, que en nuestro caso es la proporción. Dado que nuestra proporción muestral estará en algún lugar de la distribución muestral, podemos crear un rango con un cierto nivel de confianza de dónde estaría la proporción muestral con respecto a la proporción de la población utilizando estadísticas t.

¿Cómo se relaciona con la regresión lineal?

La regresión lineal es un método para ajustar una línea a los datos que dará el error más bajo. Entonces podemos usar esa línea para predecir datos futuros.

Por ejemplo, estamos tratando de predecir el salario de un empleado en función de años de experiencia. Contamos con datos históricos de empleados con sus años de experiencia y salario. A continuación, podemos usar el descenso de gradiente o la ecuación normal para encontrar la línea que nos da el error más bajo. Básicamente, estamos encontrando la intersección con el eje y y la pendiente que mejor se ajustan y nos da la recta y = mx + b. ¿Qué nos dice realmente esta línea? De una manera simple y genérica, podemos interpretar esto como la línea que nos da el menor error cuando la graficamos contra nuestros datos de muestra. Podemos ampliar esta idea diciendo que de acuerdo con los datos de la muestra, esta línea nos da la mejor estimación de lo que pensamos que serían la pendiente real de la población y la intersección con el eje y. ¿Suena esto familiar para el intervalo de confianza y las pruebas de hipótesis? La idea es esencialmente la misma. Tenemos algunas muestras que hemos recopilado y nos gustaría estimar los parámetros reales de la población calculando estadísticas sobre las muestras.

Prueba de hipótesis / intervalo de confianza: estamos tratando de estimar la proporción / media de la población real dados los datos de las muestras.

Regresión lineal: estamos tratando de estimar la pendiente de la regresión de población real / intersección con el eje y dados los datos de las muestras.

Esto nos explica muy bien la idea de población y muestra. Si bien a menudo no conocemos la verdadera media, proporción o pendiente de regresión de una población, podemos estimarla relativamente bien tomando muestras y usando estadísticas de la muestra para hacer inferencias sobre la población. Esta idea básica aquí es realmente la columna vertebral de lo que hace que las estadísticas sean tan poderosas.

Conclusión

Espero que puedan obtener una intuición más profunda sobre cómo se usan las muestras aleatorias para hacer inferencias de manera efectiva sobre la población, y por qué esto es tan poderoso.

¡Gracias por leer y que tengas un buen día! 🎯