Noticias

(Aproximadamente) Simulación del teorema del límite central en Excel

  1. Software
  2. Oficina de Microsoft
  3. Excel
  4. (Aproximadamente) Simulación del teorema del límite central en Excel

Libro Relacionado

Por Joseph Schmuller

Para ayudarle a entender el análisis estadístico con Excel, es útil simular el Teorema del Límite Central. Casi no suena bien. ¿Cómo puede una población que no está normalmente distribuida dar lugar a una distribución de muestreo normalmente distribuida?

Para darle una idea de cómo funciona el Teorema del Límite Central, existe una simulación. Esta simulación crea algo así como una distribución de muestreo de la media para una muestra muy pequeña, basada en una población que normalmente no está distribuida. Como verá, aunque la población no es una distribución normal, y aunque la muestra es pequeña, la distribución del muestreo de la media se parece bastante a una distribución normal.

Imagine una población enorme que consiste en sólo tres puntajes – 1, 2 y 3 – y cada uno tiene la misma probabilidad de aparecer en una muestra. Imagínese también que puede seleccionar aleatoriamente una muestra de tres puntuaciones de esta población.

Todas las muestras posibles de tres partituras (y sus medios) de una población formada por las partituras 1, 2 y 3 de la muestra y el medio de la muestra y el medio de la muestra1,1,11.002,1,11.333,1,11.671,1,21.332,1,21.673,1,22.001,1,31.672,1,32.003,1,32.331,2,11.332,2,11.673,2,12.001,2,21.672,2,22.003,2,22.331,2,32.002,2,32.333,2,32.671,3,11.672,3,12.003,3,12.331,3,22.002,3,22.333,3,22.671,3,32.332,3,32.673,3,33.00Si

miras de cerca la tabla, casi puedes ver lo que está a punto de suceder en la simulación. La media de la muestra que aparece con más frecuencia es de 2,00. La muestra significa que los que aparecen con menos frecuencia son 1,00 y 3,00. Hmmm. .

. .

En la simulación, se seleccionó al azar una puntuación de la población y luego se seleccionaron al azar dos más. Ese grupo de tres puntuaciones es una muestra. Luego se calcula la media de esa muestra. Este proceso se repitió para un total de 60 muestras, resultando en 60 muestras de media. Finalmente, se grafica la distribución de los medios de la muestra.

¿Cómo es la distribución de muestreo simulado de la media? La imagen de abajo muestra una hoja de trabajo que responde a esta pregunta.

En la hoja de trabajo, cada fila es un ejemplo. Las columnas marcadas x1, x2 y x3 muestran las tres puntuaciones de cada muestra. La columna E muestra el promedio de la muestra en cada fila. La columna G muestra todos los valores posibles para la media del muestreo, y la columna H muestra con qué frecuencia aparece cada media en los 60 muestreos. Las columnas G y H, y el gráfico, muestran que la distribución tiene su máxima frecuencia cuando la media de la muestra es de 2,00. Las frecuencias se reducen a medida que la muestra se aleja cada vez más de las 2.00.

El punto de todo esto es que la población no se parece en nada a una distribución normal y el tamaño de la muestra es muy pequeño. Incluso con estas limitaciones, la distribución del muestreo de la media basada en 60 muestras comienza a parecerse mucho a una distribución normal.

¿Qué pasa con los parámetros que el Teorema del Límite Central predice para la distribución del muestreo? Empieza con la población. La media de la población es de 2,00 y la desviación típica de la población es de 0,67. (Este tipo de población requiere un poco de matemáticas de fantasía para calcular los parámetros.)

Pasamos a la distribución de la muestra. La media de las 60 medias es de 1,98, y su desviación típica (una estimación del error estándar de la media) es de 0,48. Estas cifras se aproximan mucho a los parámetros previstos por el Teorema del Límite Central para la distribución del muestreo de la media, 2,00 (igual a la media de la población) y 0,47 (la desviación estándar, 0,67, dividida por la raíz cuadrada de 3, el tamaño de la muestra).

En caso de que esté interesado en hacer esta simulación, estos son los pasos a seguir:

  1. Seleccionar una celda para su primer número seleccionado al azar.
  2. Utilice la función de hoja de trabajo RANDBETEEN para seleccionar 1, 2 ó 3.Esto simula dibujar un número de una población que consiste en los números 1, 2 y 3 donde usted tiene la misma oportunidad de seleccionar cada número. Puede seleccionar FORMULAS | Math & Trig | RANDBETEEN y utilizar el cuadro de diálogo Argumentos de función o simplemente escribir =RANDBETEEN(1,3) en B2 y pulsar Intro. El primer argumento es el número más pequeño que devuelve RANDBETWEEN, y el segundo es el número más grande.
  3. Seleccionar la celda a la derecha de la celda original y elegir otro número aleatorio entre 1 y 3. La forma más fácil de hacerlo es rellenar automáticamente las dos celdas a la derecha de la celda original. En esta hoja de trabajo, esas dos celdas son C2 y D2.
  4. Considere estas tres celdas como una muestra, y calcule su media en la celda a la derecha de la tercera celda. la manera más fácil de hacer esto es escribir =AVERAGE(B2:D2) en la celda E2 y presionar Enter.
  5. Repita este proceso para tantos muestreos como desee incluir en la simulación. Haga que cada línea corresponda a un muestreo.

Aquí se utilizaron 60 muestras. La manera rápida y fácil de hacer esto es seleccionar la primera fila de tres números seleccionados al azar y su media y luego rellenar automáticamente las filas restantes. El conjunto de medias de muestreo de la columna E es la distribución de muestreo simulada de la media. Utilice PROMEDIO y STDEV.P para encontrar su media y desviación estándar.

Para ver cómo se ve esta distribución de muestreo simulada, utilice la función de matriz FRECUENCIA en el muestreo significa en la columna E. Siga estos pasos:

  1. Introduzca los posibles valores de la media del muestreo en un array. Puede expresar los posibles valores de la media de la muestra en forma de fracción (3/3, 4/3, 5/3, 6/3, 7/3, 8/3, y 9/3) como los que se introducen en las celdas G2 a G8. Excel los convierte a formato decimal. Asegúrese de que esas celdas estén en formato de Número.
  2. Seleccionar un array para las frecuencias de los posibles valores de la media de la muestra, utilizando la columna H para retener las frecuencias, seleccionando las celdas H2 a H8.
  3. En el menú Funciones estadísticas, seleccione FRECUENCIA para abrir la ventana de diálogo Argumentos de función para FRECUENCIA
  4. En la ventana de diálogo Argumentos de función, introduzca los valores apropiados para los argumentos En la ventana Data_array, introduzca las celdas que contienen los medios de muestreo. En este ejemplo, eso es E2:E61.
  5. Identificar la matriz que contiene los posibles valores de la media de la muestra Frecuencia que contiene esta matriz en el cuadro Bins_array. Para esta hoja de trabajo, G2:G8 va a la caja Bins_array. Después de identificar ambos arreglos, el cuadro de diálogo Argumentos de función muestra las frecuencias dentro de un par de corchetes rizados.
  6. Presione Ctrl+Mayús+Enter para cerrar el cuadro de diálogo Argumentos de función y mostrar las frecuencias.
  7. Finalmente, con H2:H8 resaltado, seleccione Insertar | Tablas recomendadas y elija el diseño de columna agrupada para producir el gráfico de las frecuencias. Tu gráfico probablemente se verá algo diferente al mío, porque probablemente terminarás con un número aleatorio diferente.

Por cierto, Excel repite el proceso de selección aleatoria cada vez que se hace algo que hace que Excel recalcule la hoja de cálculo. El efecto es que los números pueden cambiar a medida que se trabaja con esto. Por ejemplo, si vuelve atrás y rellena automáticamente una de las filas de nuevo, los números cambian y el gráfico cambia.

Join The Discussion