Pruebas
de la bondad de ajuste.
En la construcción del
modelo de simulación es importante decidir si un conjunto de datos se ajusta
apropiadamente a una distribución específica de probabilidad. Al probar
la bondad del ajuste de un conjunto de datos, se comparan las
frecuencias observadas FO realmente en cada categoría o intervalo de
clase con las frecuencias esperadas teóricamente FE.
Prueba
Ji cuadrada
La prueba Ji cuadrada hace uso de la distribución del mismo nombre para probar la bondad del ajuste al comparar el estadístico de prueba Xo2 con el valor en tablas de la mencionada distribución Ji cuadrada con v grados de libertad y un nivel de significancia alfa. En la siguiente sección aplicaremos esta prueba para probar la hipótesis nula de que los números aleatorios (provenientes de un generador) se ajustan a la distribución teórica uniforme continua.
Sea X una variable aleatoria discreta con valores x1, x2,......., xn Se propone la hipótesis nula H0, de que la distribución de donde proviene la muestra se comporta según un modelo teórico específico tal como la uniforme, la exponencial, la normal, etc. Entonces FOi, representa el número de veces que ocurre el valor xi mientras que FEi, es la frecuencia esperada proporcionada por el modelo teórico propuesto. A menudo ocurre que muchas de las frecuencias FEi, (y también las FOi) son muy pequeñas, entonces, como regla práctica adoptamos el criterio de agrupar los valores consecutivos de estas frecuencias esperadas hasta que su suma sea de al menos cinco. La medida estadística de prueba para la hipótesis nula es
Para n grande este estadístico de prueba tiene una distribución X2 aproximada con V grados de libertad dados por
V = (k –1) – (número de
parámetros estimados)
así, si se estiman dos
parámetros como la media y la varianza, la medida estadística tendrá (k – 3)
grados de libertad.
Se puede aplicar esta prueba
a variables continuas agrupando adecuadamente los valores en un número adecuado
de subintervalos o clases k. Una regla empírica para seleccionar el número
de clases es:
EJEMPLO.
La siguiente muestra de
tamaño 50 ha sido obtenida de una población que registra la vida útil (en
unidades de tiempo) de baterías alcalinas tipo AAA. Pruébese la hipótesis nula
de que la variable aleatoria vida útil de las baterías sigue una distribución
exponencial negativa. Considérese un nivel de significancia alpha de 5%.
8.223
|
0.836
|
2.634
|
4.778
|
0.406
|
0.517
|
2.330
|
2.563
|
0.511
|
6.426
|
2.230
|
3.810
|
1.624
|
1.507
|
2.343
|
1.458
|
0.774
|
0.023
|
0.225
|
3.214
|
2.920
|
0.968
|
0.333
|
4.025
|
0.538
|
0.234
|
3.323
|
3.334
|
2.325
|
7.514
|
0.761
|
4.490
|
1.514
|
1.064
|
5.088
|
1.401
|
0.294
|
3.491
|
2.921
|
0.334
|
1.064
|
0.186
|
2.782
|
3.246
|
5.587
|
0.685
|
1.725
|
1.267
|
1.702
|
1.849
|
SOLUCIÓN. Calculamos los valores min = 0.023 y max = 8.223. Resultando ser el rango o recorrido igual a 8.2. El valor promedio es de 2.3. A continuación ordenamos los valores de manera ascendente y construimos el histograma de frecuencias relativas con seis clases cada una de longitud 1.5. (Esto es debido a que 8.2 / 6 = 1.3)
k
|
Clase
|
FO absoluta
|
FO relativa
|
1
|
0.0 - 1.15
|
21
|
0.42
|
2
|
1.15 - 3.0
|
15
|
0.30
|
3
|
3.0 - 4.5
|
8
|
0.16
|
4
|
4.5 - 6.0
|
3
|
0.06
|
5
|
6.0 - 7.5
|
1
|
0.02
|
6
|
7.5 - 9.0
|
2
|
0.04
|
Re – agrupamos las clases de
modo que la FO sea de al menos 5
k
|
Clase
|
FO absoluta
|
FO relativa
|
1
|
0.0 - 1.15
|
21
|
0.42
|
2
|
1.15 - 3.0
|
15
|
0.30
|
3
|
3.0 - 4.5
|
8
|
0.16
|
4
|
4.5 - 9.0
|
6
|
0.12
|
Como nuestra hipótesis nula
es que los datos se ajustan a la función de probabilidad exponencial negativa,
emplearemos tal función para calcular mediante integración el porcentaje de
probabilidad esperado para cada subintervalo. Ya vimos que el valor promedio es
de 2.3, sin embargo para fines prácticos lo consideraremos como 2.0. El cálculo
de la integral para la primer clase es:
=0.528
k
|
Clase
|
FO relativa
|
FE teórica
|
(FO-FE)2FE
|
1
|
0.0 - 1.5
|
0.42
|
0.528
|
0.022
|
2
|
1.5 - 3.0
|
0.30
|
0.249
|
0.010
|
3
|
3.0 - 4.5
|
0.16
|
0.118
|
0.015
|
4
|
4.5 - 9.0
|
0.12
|
0.105
|
0.002
|
Entonces se tiene el valor 0.049
Ahora compararemos este
valor calculado contra el valor tabulado de la distribución Ji – cuadrada con
un nivel de significancia alpha de 5% y el número de grados de libertad
V = (k –1) – 1 = (4 –1) –1 = 2. (Obsérvese que se estimó el parámetro promedio?). Entonces 5.99
V = (k –1) – 1 = (4 –1) –1 = 2. (Obsérvese que se estimó el parámetro promedio?). Entonces 5.99
Como vemos el valor
calculado es menor que el valor tabulado, por tanto la conclusión es que no se
puede rechazar la hipótesis nula de que la muestra proviene de una distribución
exponencial con media 2.0.
Prueba de Kolmogorov - Smirnov
Otra prueba para la bondad de ajuste se apoya en la distribución de Kolmogorov – Smirnov la que al ser desarrollada para variables continuas la hace más poderosa por ejemplo, en el caso de los números aleatorios, que la Ji cuadrada. Por esta razón, en esta sección la presentamos para un caso distinto al de la distribución continua.
Definamos la siguiente
función de distribución empírica. Supóngase que Y es una variable
aleatoria continua que tiene una función de distribución F(y). Una muestra
aleatoria de n realizaciones de Y produce las observaciones y1,
y2, ..., yn. Reordenemos esos valores observados de menor a mayor, y
las yi ordenadas se representan
mediante y(1) y(2) ..., y(n). Es decir, si y1 =
7, y2 = 9 y y3 = 3, entonces y(1) = 3, y(2) =
7 y y(3) = 9. Ahora bien, la función de distribución acumulada empírica
esta definida por:
F n(y) = fracción de la muestra menor o igual a y
Supóngase que se toma una
variable aleatoria continua Y, bajo la hipótesis nula, que tiene una
función de distribución representada por F (y). La hipótesis alterna es
que F (y) no es la función verdadera de distribución de es la función
verdadera de distribución de Y. Después de observar una muestra aleatoria
de n valores de Y, F (y) debe estar “cerca“
de F n(y)siempre y cuando sea verdadera la hipótesis nula. Por lo
tanto, la medida estadística debe apreciar la cercanía
de F(y) a Fn(y) en todo el intervalo de valores de y.
La medida estadística D de K-S se basa en la distancia máxima entre F(y) y Fn(y), es decir,
La medida estadística D de K-S se basa en la distancia máxima entre F(y) y Fn(y), es decir,
D = máx
¦ F(y) - Fn(y) ¦
Se rechaza la hipótesis nula
si D es “demasiado grande”.
Como F(y) y Fn(y) no
son decrecientes y Fn(y) es constante entre observaciones de muestra,
la desviación máxima entre F(y) y Fn(y), se presentará ya sea en
uno de los puntos de observación y1 , ... yn , o inmediatamente
a la izquierda de uno de ellos. Para determinar el valor observado de D,
se necesita entonces comprobar tan sólo
D+ = máx
y
D- = máx
Ya que
D = máx (D+ , D-)
Si en H0 se supone
la forma de F (y), pero se deja sin especificar algunos de los parámetros,
entonces éstos se deben estimar a parir de los datos de la muestra antes de
poder llevar a cabo la prueba.
Stephens (1974) dio valores
de corte de áreas superiores de 0.15, 0.10, 0.05, 0.025 y 0.01 para una forma
modificada de la tabla K – S para D (presentada en el apéndice de
este libro), los cuales se muestran en la siguiente tabla para tres casos.
Estos casos son para la hipótesis nula de una F(y) completamente
especificada, una F(y) normal con promedio y variancia desconocidos,
y una F(y) exponencial con promedio desconocido.
TABLA DE KOLMOGOROV –
SMIRNOV DE STEPHENS. Puntos porcentuales del extremo superior
para D modificada
EJEMPLO. Considérese
que las diez observaciones siguientes son una muestra aleatoria de una
distribución continua. Probar la hipótesis de que esos datos provienen de una
distribución exponencial con promedio 2, en el nivel de significación 0.05.
0.406, 2.343, 0.538, 5.088,
5.587, 2.563, 0.023, 3.334, 3.491, 1.267.
Solución. Se ordenan las
diez observaciones ascendentemente y entonces se calcula, para cada y(i),
el valor de F(yi), donde H0 establece que F (y) es
exponencial con teta=2. por tanto,
F(yi) = 1 - e-yi/2
F(yi) = 1 - e-yi/2
Registraremos los datos
ordenados así como los cálculos en la siguiente
TABLA
I
|
y(i)
|
F(yi)
|
i/n
|
(i – 1)/n
|
i/n - F(yi)
|
F(yi) - (i – 1)/n
|
1
|
0.023
|
0.0114
|
0.1
|
0.0
|
0.0886
|
0.0114
|
2
|
0.406
|
0.1838
|
0.2
|
0.1
|
0.0162
|
0.0838
|
3
|
0.538
|
0.2359
|
0.3
|
0.2
|
0.0641
|
0.0359
|
4
|
1.267
|
0.4693
|
0.4
|
0.3
|
-0.0693
|
0.1693
|
5
|
2.343
|
0.6901
|
0.5
|
0.4
|
-0.19801
|
0.2901
|
6
|
2.563
|
0.7224
|
0.6
|
0.5
|
-0.1224
|
0.2224
|
7
|
3.334
|
0.8112
|
0.7
|
0.6
|
-0.1112
|
0.2112
|
8
|
3.491
|
0.8254
|
0.8
|
0.7
|
-0.0254
|
0.1254
|
9
|
5.088
|
0.9214
|
0.9
|
0.8
|
-0.0214
|
0.1214
|
10
|
5.587
|
0.9388
|
0.10
|
0.9
|
0.0612
|
0.0388
|
D+ es el valor máximo
en la columna 6 y D- el máximo en la columna 7. Entonces D
+ = 0.0886 y D – = 0.2901, lo cual da D = 0.2901. Para
determinar el valor crítico a partir de la tabla K - S, se necesita calcular
En el nivel de
significación alfa = 0.05, el valor de D calculado es menor
que el valor del valor de D modificado. Por lo tanto, no se rechaza
la hipótesis nula. Más adelante, aplicaremos esta prueba de K – S, sin la
modificación de Stephens.
No hay comentarios:
Publicar un comentario