Estadística Inferencial




“El conjunto de métodos estadísticos que permiten deducir (inferir) como se distribuye la población en estudio o las relaciones estocásticas entre varias variables de interés a partir de la información que proporciona una muestra”.

Objetivos de la Inferencia Estadística.

El objetivo de la Estadística es medir y modelar la variabilidad del proceso mediante un modelo probabilístico.
Para modelar la variabilidad de una variable aleatoria si sólo se dispone del conocimiento de una muestra de la misma se sigue el siguiente modo de actuación:
  1. Planteamiento del problema.
  2. Selección de la muestra (Muestreo estadístico), en algunos estudios la muestra se obtiene por simulación (Simulación Estadística).
  3. Estudio descriptivo de la muestra, analítico y gráfico (Estadística Descriptiva).
  4. En base al conocimiento de los modelos probabilísticos más utilizados y teniendo en cuenta el planteamiento del problema y el estudio descriptivo previo, elegir un modelo de probabilidad (Teoría de la Probabilidad).
  5. Estimar los parámetros del modelo supuesto a partir de las observaciones muestrales utilizando los métodos de Inferencia Estadística: estimación puntual, estimación por intervalos de confianza y contrastes de hipótesis paramétricos.
  6. Chequear que el modelo de probabilidad ajustado a los datos es adecuado y que se verifican las hipótesis supuestas en el estudio, por ejemplo, que las observaciones muestrales son independientes, que no existen observaciones erróneas,...,etc. Para ello se utilizan los métodos de Inferencia no Paramétrica.
  7. Si se acepta que el modelo ajustado es adecuado se puede utilizar para obtener resultados y conclusiones sobre la variable en estudio. En caso contrario, se debe reformular el modelo de probabilidad y repetir el proceso desde el paso 4.



PRUEBA DE HIPÓTESIS
Una prueba de hipótesis consiste en contrastar dos hipótesis estadísticas. Tal contraste involucra la toma de decisión acerca de las hipótesis. La decisión consiste en rechazar o no una hipótesis en favor de la otra. Una hipótesis estadística se denota por “H” y son dos:

- Ho: hipótesis nula
- H1: hipótesis alternativa

Partes de una hipótesis
1. Hipótesis

- La hipótesis nula “Ho”
Se refiere siempre a un valor especifico del parámetro de la población, no a una estadística de muestra. La letra H significa hipótesis y el subíndice cero no hay diferencia. Por lo general hay un “no” en la hipótesis nula que indica que “no hay cambio” Podemos rechazar o aceptar Ho.
Por lo tanto la hipótesis nula es una afirmación que no se rechaza a menos que los datos muestrales proporcionen evidencia convincente de que es falsa. El planteamiento de la hipótesis nula siempre contiene un signo de igualdad con respecto al valor especificado del parámetro.
- La hipótesis alternativa “H1”
Es cualquier hipótesis que difiera de la hipótesis nula. Es una afirmación que se acepta si los datos muestrales proporcionan evidencia suficiente de que la hipótesis nula es falsa. Se le conoce también como la hipótesis de investigación. El planteamiento de la hipótesis alternativa nunca contiene un signo de igualdad con respecto al valor especificado del parámetro.
2.  Nivel de significancia
Probabilidad de rechazar la hipótesis nula cuando es verdadera. Se le denota mediante la letra griega α, también es denominada como nivel de riesgo, este término es mas adecuado ya que se corre el riesgo de rechazar la hipótesis nula, cuando en realidad es verdadera.
La distribución de muestreo de la estadística de prueba se divide en dos regiones, una región de rechazo (conocida como región crítica) y una región de no rechazo (aceptación). Si la estadística de prueba cae dentro de la región de aceptación, no se puede rechazar la hipótesis nula. Estos valores no son tan improbables de presentarse si la hipótesis nula es falsa. El valor crítico separa la región de no rechazo de la de rechazo.
Errores tipo I y II
Error tipo l se presenta si la hipótesis nula Ho es rechazada cuando es verdadera y debía ser aceptada. La probabilidad de cometer un error tipo I se denomina con la letra alfa α
Un error tipo II, se denota con la letra griega β se presenta si la hipótesis nula es aceptada cuando de hecho es falsa y debía ser rechazada.
3.  Estadístico de prueba
Valor determinado a partir de la información muestral, que se utiliza para determinar si se rechaza la hipótesis nula., existen muchos estadísticos de prueba para nuestro caso utilizaremos los estadísticos z y t. La elección de uno de estos depende de la cantidad de muestras que se toman, si las muestras son iguales a 30 o mas se utiliza el estadístico z, en caso contrario se utiliza el estadístico t.

Tipos de Prueba

4. Formular la regla de desición
Se establece las condiciones específicas en la que se rechaza la hipótesis nula y las condiciones en que no se rechaza la hipótesis nula. La región de rechazo define la ubicación de todos los valores que son tan grandes o tan pequeños, que la probabilidad de que se presenten bajo la suposición de que la hipótesis nula es verdadera, es muy remota
Distribución muestral del valor estadístico z, con prueba de una cola a la derecha
Valor critico: Es el punto de división entre la región en la que se rechaza la hipótesis nula y la región en la que no se rechaza la hipótesis nula.
5.  Tomar una decisión
En este último paso de la prueba de hipótesis, se calcula el estadístico de prueba, se compara con el valor crítico y se toma la decisión de rechazar o no la hipótesis nula. Tenga presente que en una prueba de hipótesis solo se puede tomar una de dos decisiones: aceptar o rechazar la hipótesis nula. Debe subrayarse que siempre existe la posibilidad de rechazar la hipótesis nula cuando no debería haberse rechazado (error tipo I ). También existe la posibilidad de que la hipótesis nula se acepte cuando debería haberse rechazado
( error de tipo II ).



Intervalos de Confianza

En estadística, se llama intervalo de confianza a un par de números entre los cuales se estima que estará cierto valor desconocido con una determinada probabilidad de acierto. Formalmente, estos números determinan un intervalo, que se calcula a partir de datos de una muestra, y el valor desconocido es un parámetro poblacional. 
La probabilidad de éxito en la estimación se representa con 1 - α y se denomina nivel de confianza. En estas circunstancias, α es el llamado error aleatorio o nivel de significación, esto es, una medida de las posibilidades de fallar en la estimación mediante tal intervalo.
El nivel de confianza y la amplitud del intervalo varían conjuntamente, de forma que un intervalo más amplio tendrá más posibilidades de acierto (mayor nivel de confianza), mientras que para un intervalo más pequeño, que ofrece una estimación más precisa, aumentan sus posibilidades de error.
Para la construcción de un determinado intervalo de confianza es necesario conocer la distribución teórica que sigue el parámetro a estimar, θ. Es habitual que el parámetro presente una distribución normal. También pueden construirse intervalos de confianza con la desigualdad de Chebyshev.
En definitiva, un intervalo de confianza al 1 - α por ciento para la estimación de un parámetro poblacional θ que sigue una determinada distribución de probabilidad, es una expresión del tipo [θ1,θ2] tal que P[θ1 ≤ θ ≤ θ2] = 1 - α, donde P es la función de distribución de probabilidad de θ.

Ejemplos:

Intervalo de confianza para la media de una población

De una población de media \mu y desviación típica \sigma se pueden tomar muestras de n elementos. Cada una de estas muestras tiene a su vez una media (\bar{x}). Se puede demostrar que la media de todas las medias muestrales coincide con la media poblacional: 2 \mu_{\bar{x}} = \mu
Pero además, si el tamaño de las muestras es lo suficientemente grande,3 la distribución de medias muestrales es, prácticamente, una distribución normal (o gaussiana) con media μ y una desviación típica dada por la siguiente expresión: \sigma_{\bar{x}} = \frac{\sigma}{\sqrt{n}}. Esto se representa como sigue: \bar{X} \sim N(\mu, \frac{\sigma}{\sqrt{n}}). Si estandarizamos, se sigue que: \frac{\bar{X} - \mu}{\frac{\sigma}{\sqrt{n}}}=Z \sim N(0, 1)
En una distribución Z ~ N(0, 1) puede calcularse fácilmente un intervalo dentro del cual caigan un determinado porcentaje de las observaciones, esto es, es sencillo hallar z1 y z2 tales que P[z1 ≤ z ≤ z2] = 1 - α, donde (1 - α)·100 es el porcentaje deseado (véase el uso de las tablas en una distribución normal).
Se desea obtener una expresión tal que P\left[\mu_1 \le \mu \le \mu_2\right] = 1 - \alpha
En esta distribución normal de medias se puede calcular el intervalo de confianza donde se encontrará la media poblacional si sólo se conoce una media muestral (\bar{x}), con una confianza determinada. Habitualmente se manejan valores de confianza del 95 y del 99 por ciento. A este valor se le llamará 1 - \alpha (debido a que \alpha es el error que se cometerá, un término opuesto).
Para ello se necesita calcular el punto X_{\alpha/2} —o, mejor dicho, su versión estandarizada Z_{\alpha/2} o valor crítico— junto con su "opuesto en la distribución" X_{-\alpha/2}. Estos puntos delimitan la probabilidad para el intervalo, como se muestra en la siguiente imagen:ConfIntervNormalP.png
Dicho punto es el número tal que:
\mathbb{P}[\bar{x} \ge X_{\alpha/2}] = \mathbb{P}[z \ge z_{\alpha/2}] = \alpha/2
Y en la versión estandarizada se cumple que:
z_{-\alpha/2} = -z_{\alpha/2}
Así:
\mathbb{P}\left[-z_{\alpha/2} \le \frac{\bar{x} - \mu}{\frac{\sigma}{\sqrt{n}}} \le z_{\alpha/2}\right] = 1 - \alpha
Haciendo operaciones es posible despejar \mu para obtener el intervalo:
\mathbb{P}\left[\bar{x} - z_{\alpha/2}\frac{\sigma}{\sqrt{n}} \le \mu \le \bar{x} + z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\right] = 1 - \alpha
De lo cual se obtendrá el intervalo de confianza:
(\bar{x} - z_{\alpha/2}\frac{\sigma}{\sqrt{n}}, \bar{x} + z_{\alpha/2}\frac{\sigma}{\sqrt{n}})
Obsérvese que el intervalo de confianza viene dado por la media muestral (\bar{x}) ± el producto del valor crítico Z_{\alpha/2} por el error estándar (\frac{\sigma}{\sqrt{n}}).
Si no se conoce \sigma y n es grande (habitualmente se toma n ≥ 30):4
(\bar{x} - z_{\alpha/2}\frac{s}{\sqrt{n}}, \bar{x} + z_{\alpha/2}\frac{s}{\sqrt{n}}), donde s es la desviación típica de una muestra.
Aproximaciones para el valor z_{\alpha/2} para los niveles de confianza estándar son 1,96 para 1 - \alpha = 95% y 2,576 para 1 - \alpha = 99%.5







No hay comentarios:

Publicar un comentario