Para finalizar nuestro ejercicio de estadística descriptiva tenemos la tercera y última parte a continuación.
Medidas de tendencia central y dispersión.
Las medidas de tendencia central nos sirven como puntos de referencia para describir cuales son los valores centrales de un conjunto de datos. Para este ejercicio vamos a considerar tres medidas: media, mediana y moda, tanto para grupos no agrupados (datos en bruto) como para datos agrupados (tablas de frecuencia).
1. Media
La media aritmética o también conocida como promedio, es la medida de ubicación más conocida y utilizada. La denotaremos con la letra griega µ.
Para datos no agrupados, se obtiene sumando cada uno de los elementos del conjunto de datos y dividiendo para el número de sumandos, es decir:
Podemos utilizar Excel para determinar la media de un conjunto de datos a través de la siguiente función:
=PROMEDIO(Rango de datos)
Para datos agrupados, el cálculo de la media es un poco más complejo, utilizaremos la siguiente fórmula:
Entonces para el conjunto de datos relacionados a Applewood Auto Group, tenemos:
1. Mediana
La mediana corresponde al valor del elemento central del conjunto de datos.
Para datos no agrupados simplemente procedemos a ordenar los datos y tomamos el elemento que se encuentra en la mitad del conjunto, bajo la siguiente regla:
Si la cantidad de elementos es par , la mediana estará dada por el promedio de los elementos que se encuentran en las posiciones
Si la cantidad de elementos es impar, la mediana estará dada por el elemento que se encuentra en la posición
En nuestro ejemplo debemos promediar los elementos que se encuentran en las posiciones:
Podemos utilizar Excel para determinar la mediana de un conjunto de datos a través de la siguiente función:
=MEDIANA(Rango de datos)
Para el cálculo de la mediana de datos agrupados realizamos el siguiente procedimiento:
a) Determinar la clase de la mediana.
Utilizamos la distribución de frecuencias acumuladas para determinar en cual intervalo se encuentra la mediana. Dado que la mediana se encuentra en las posiciones 90 y 91 buscamos en la columna de frecuencia acumulada el valor que contenga dichas posiciones:
b) Determinar el número de elemento que representa la mediana.
Dado que existen dos valores que conforman la mediana (posición 90 y 91) entonces tenemos que determinar esos dos elementos para los datos agrupados.
Elemento 1:
(Posición Mediana – F. Acumulada del intervalo anterior a la clase de la mediana)
90 – 80 = 10
Entonces el elemento número 90 es la observación número 10 de la clase de la mediana [1800 - 2200]
Elemento 2:
(Posición Mediana – F. Acumulada del intervalo anterior a la clase de la mediana)
91 – 80 = 11
Entonces el elemento número 91 es la observación número 11 de la clase de la mediana [1800 - 2200]
c) Determinar el ancho de los pasos iguales en la clase de la mediana.
Para calcular el ancho de los 45 (frecuencia de la clase de la mediana) pasos iguales desde 1800 hasta 2200 procedemos de la siguiente manera:
Por tanto, el ancho de cada paso es de 0.694
d) Determinar el valor estimado de la mediana.
Si existen 45 pasos de 8.889 cada uno y se necesitan 9 pasos para llegar al elemento número 10, entonces:
(8.889 x 9) + 1800 =1880.001
Luego el elemento número 11 estará un paso más adelante:
1880.001 + 8.889 = 1888.89
Dado que la mediana real de este conjunto de datos es el promedio de los elementos 90 y 91, entonces:
Por tanto, la mediana estimada de este grupo de datos es: 1884.4455
3. Moda
La moda es el valor que se repite con mayor frecuencia en un conjunto de datos. Pueden existir más de una moda y en ese caso se dice que el conjunto de datos es multimodal.
Para nuestro ejemplo, existen dos valores que se repiten dos veces cada uno, por tanto, existen dos modas en el grupo de datos:
Moda 1 = 1761
Moda 2 = 1915
4. Varianza y Desviación estándar
Para datos no agrupados, la varianza poblacional se puede calcular de la siguiente manera:
Para datos no agrupados, la varianza poblacional se puede calcular de la siguiente manera:
=VAR.P(Rango de datos)
La desviación estándar es la raíz cuadrada de la varianza. Por tanto:
En Excel se puede utilizar la siguiente función para determinar la desviación estándar:
Para datos agrupados, la varianza poblacional se puede calcular de la siguiente manera:
=DESVEST.P(Rango de datos)
Para datos agrupados, la varianza poblacional se puede calcular de la siguiente manera:
Recuerda que puedes descargar el ejercicio resuelto y explicado por completo desde la sección de descargas o desde este enlace.
Si tienes alguna duda puedes dejar un mensaje en este blog. Y si necesitas clases, resolver problemas o desarrollar proyectos que requieran estadística o software estadístico, puedes contactarme al 0980700611 (Guayaquil - Ecuador).