Practica un poco de Estadística.

ANOVA - Análisis de varianza de un factor en R Studio.

¿Qué es ANOVA o Análisis de Varianza?

El análisis de varianza de un factor es una prueba paramétrica que se utiliza para comparar varios grupos o categorías (3 o más) en una variable cuantitativa y determinar si es que existen diferencias estadísticamente significativas entre las medias de aquellos grupos.

ANOVA - Análisis de varianza de un factor

¿Qué necesito para realizar un ANOVA - Análisis de varianza de un factor?

Para realizar un ANOVA (Analysis of Variance) de un factor se requiere: una variable dependiente cuantitativa que es la variable objeto de medición y un factor o variable independiente cualitativa de agrupación que representa a los diferentes grupos o categorías. Además, este modelo estadístico requiere el cumplimiento de varios supuestos: 
  • Independencia: las k muestras deben ser independientes, lo cual está relacionado al diseño del experimento a medirse y generalmente se acepta como cumplido si se han obtenido muestras aleatorias independientes dentro de cada uno de los grupos.
  • Normalidad: la variable dependiente debe estar distribuida normalmente en cada grupo o categoría, lo cual puede probarse realizando el test de Kolmogorv-Smirnov, a través de gráficos Q-Q o incluso empleando gráficos de cajas.
Supuesto de normalidad ANOVA

  • Homocedasticidad: La variabilidad debe permanecer constante a través de los distintos grupos o categorías.


Supuesto de homocedasticidad ANOVA

Hipótesis de un ANOVA 

El modelo se basa en la comparación de la variabilidad (varianza) que existe entre las medias de los grupos y la media dentro de los grupos para determinar si dichos grupos son más distintos entre sí que dentro de sí. Por lo que al final, las hipótesis a contrastar estarán dadas por:

Hipótesis ANOVA

Cómo podemos observar, de rechazar la hipótesis nula en favor de la alternativa, ANOVA sólo nos indica que existen al menos dos grupos o categorías que son diferentes entre sí y no permite identificar que grupos específicos son diferentes. Para ello, se pueden realizar pruebas de comparación múltiple post hoc como por ejemplo el Test de Tukey

El estadístico de contraste para esta prueba, está dado por:

Estadístico F - ANOVA
Donde, el numerador es una estimación de la varianza poblacional basada en la variabilidad existente entre las medias de cada uno de los grupos y el denominador es una estimación de la varianza poblacional basada en la variabilidad existente dentro de cada grupo. Por tanto, cuanta mayor variabilidad exista entre las medias de cada grupo y la media dentro de los grupos mayor será el valor de F, lo que indicaría que las medias serán diferentes y se rechazaría la hipótesis nula.

Ejemplo práctico de un ANOVA - Análisis de varianza de un factor.

Para este ejercicio utilizaremos el archivo hsb2.xlsx, es una base de datos que contiene 200 observaciones tomadas aleatoriamente a estudiantes y que registran datos sobre género, edad, nivel socio-económico, notas de materias, etc. La práctica consistirá en realizar, utilizando el software R-Studio, un análisis ANOVA entre el estrato social y la puntuación obtenida en la evaluación de lectura, esta prueba utilizará un nivel de significancia de 0.05. A continuación, se muestra una descripción de las variables de la base de datos mencionada:

Variables hsb2.xls

Como mencionamos anteriormente, para realizar una prueba ANOVA se deben cumplir con los siguientes supuestos:

  • Independencia: dado que estamos usando datos que no hemos recolectado debemos confiar en que han sido tomados aleatoriamente.
  • Normalidad y homocedasticidad: para demostrar estos supuestos vamos a utilizar un gráfico de cajas o boxplot, para lo cual vamos a utilizar los siguientes comandos en R:
Boxplot - Comandos en R Studio

Donde hsb2$read es la variable dependiente y hsb2$ses es la variable independiente.

Con dichos comandos obtendremos el siguiente gráfico:

Boxplot R Studio

Para detectar normalidad debemos observar que la caja se encuentre hacia el centro de los límites y como podemos ver, cada uno de los estratos cumple (aunque no exactamente), con dicho criterio.
En el caso de homocedasticidad, los datos deben mantener la misma variabilidad, es decir, deben mantener la misma dispersión. Para ello debemos observar que el tamaño de las cajas o rango intercuartílico se mantenga aproximadamente igual en cada uno de los grupos. En el boxplot podemos ver que el estrato social alto presenta una proporción un tanto mayor que los otros dos estratos pero que pudiese no ser tan significativa.

En conclusión, podemos afirmar que se cumplen los supuestos para poder realizar un análisis de varianza

Ahora procedemos a establecer las hipótesis:

Hipótesis ANOVA hsb2.xls

Para mantener el contexto, vamos a calcular los promedios de la nota estandarizada de lectura para cada uno de los grupos, para ello utilizaremos los siguientes comandos:

Promedios hsb2

Con lo que obtenemos la siguiente salida:


Obtener promedios en R Studio

En resumen, obtenemos los siguientes valores:

Tabla promedios de lectura hsb2.xls

Estos valores suponen que a medida que el estrato social es mejor el promedio de las notas de lectura también serán mayores. Con el análisis de varianza es justamente lo que se busca comprobar, si se rechaza la hipótesis nula en favor de la alternativa entonces se puede afirmar que si existen diferencias estadísticas significativas para concluir que los promedios son diferentes en función de un mejor o peor estrato social. Es decir, se afirmaría que a mejor estrato social el estudiante tendrá una mejor calificación en lectura. 

En R – Studio, procedemos a ejecutar los siguientes comandos para obtener el ANOVA:

ANOVA comandos R Studio

Y obtenemos el siguiente resultado:

Tabla ANOVA R Studio

De esta tabla podemos observar que el estadístico de prueba F = 9.456, el cual es diferente de 1 y que el valor-p = 0.00012 el cual es menor al nivel de significancia definido previamente, esto es 0.05 .

Dado que , se rechaza la hipótesis nula en favor de la alternativa entonces se puede concluir que los promedios de los estratos sociales si son diferentes.

Ahora, lo que no dice el ANOVA es, cuales de los promedios difieren entre sí. Para ello podemos utilizar el test de Tukey para determinar entre que grupos hay diferencias significativas.

Ejecutamos el siguiente comando:

TukeyHSD(anova) -> anova es la variable donde se almacenó los resultados.

Y obtenemos la siguiente salida:

Test de Tukey R Studio
Recordemos que los valores de la variable ses (estrato social) están dados por:

1 = bajo, 2 = medio, 3 = alto.

Este resultado muestra la diferencia entre los promedios (diff), los límites de los intervalos de confianza (lwrupr), así como el valor-p (p adj) de cada una de las combinaciones en pares de los diferentes grupos de estratos sociales. 

El valor diff de la primera fila indica que la diferencia entre el promedio de las notas estandarizadas entre los estratos sociales bajo y medio es de 3.302352 con un valor-p = 0.1468044 el cual es mayor al nivel de significancia establecido 0.05, por lo que se puede afirmar que los datos no aportan información suficiente para concluir que existen diferencias entre los promedios, es decir, no se puede afirmar que un estudiante de estrato social medio tenga una mayor puntuación en la prueba de lectura que un estudiante de estrato social bajo.

El valor diff de la segunda fila indica que la diferencia entre el promedio de las notas estandarizadas entre los estratos sociales alto y bajo es de 8.223404 con un valor-p = 0.0000948 el cual es menor al nivel de significancia establecido 0.05, por lo que se puede concluir que si existen diferencias entre los promedios, es decir, se puede afirmar que un estudiante de estrato social alto obtuvo una mayor puntuación en la prueba de lectura comparado a un estudiante de estrato social bajo.

El valor diff de la tercera fila indica que la diferencia entre el promedio de las notas estandarizadas entre los estratos sociales alto y medio es de 4.921053 con un valor-p = 0.0085237 el cual es menor al nivel de significancia establecido 0.05, por lo que se puede concluir que si existen diferencias entre los promedios, es decir, se puede afirmar que un estudiante de estrato social alto obtuvo una mejor puntuación en la prueba de lectura comparado a un estudiante de estrato social medio.

Estas conclusiones podemos verlas gráficamente en R – Studio, para lo cual tenemos que hacer uso del siguiente comando:

plot(TukeyHSD(anova))

Gráfico Test Tukey R Studio


En este gráfico, los intervalos de confianza deben estar a la derecha o a la izquierda del valor 0 para que los promedios de dichos grupos sean diferentes, los intervalos de confianza que atraviesan el valor 0 no son estadísticamente significativos. Gráficamente podemos observar que el intervalo de confianza para los estratos 2-1 (medio – bajo) cruzan el valor 0 por lo que no se puede afirman que existan diferencias entre los promedios, en tanto que, los intervalos de confianza para los estratos 3-1 (alto – bajo) y 3-2 (alto – medio) se encuentran a la derecha del valor 0 por lo que se puede afirmar que si existen diferencias significativas en los promedios de dichos estratos, lo que corrobora las conclusiones expuestas en la tabla correspondiente al test de Tukey.

Tabla vs Gráfico Test Tukey ANOVA

Si necesitas clases, realizar análisis de datos, resolución de guías de estudio, software o realizar algún proyecto que implique estadística, SPSS, Minitab, Excel, R, etc., puedes contactarme al 0960836772. 

Si deseas descargar este post, en la zona de descargas encontrarás un link con el documento en pdf y el archivo en excel que hemos utilizado para realizar el ejercicio práctico.

Algunos ejercicios resueltos de combinaciones - Walpole 8va. Edición

En este post vamos a resolver algunos ejercicios sobre combinaciones escogidos del libro "Probabilidad y estadística para ingeniería y ciencias" octava edición de los autores: Walpole - Myers - Myers. Como en anteriores artículos sólo vamos a resolver unos cuantos para no hacer extenso esta publicación, si quieres revisar la totalidad de los ejercicios aquí mencionados puedes pasar por nuestra página de descargas.

Algunos ejercicios resueltos de combinaciones - Walpole 8va. Edición

Algunos ejercicios resueltos de combinaciones - Walpole 8va. Edición

2.21 A los participantes de una convención se les ofrecen seis recorridos, cada uno de tres días, a sitios de interés. ¿De cuántas maneras se puede acomodar una persona para que vaya a uno de los recorridos planeados por la convención?

2.21-Walpole-Probabilidad-y-estadistica

2.22 En un estudio médico los pacientes se clasifican en 8 formas de acuerdo con su tipo sanguíneo: AB+, AB–, A+, A–, B+, B–, O+ u O–; y también de acuerdo con su presión sanguínea: baja, normal o alta. Encuentre el número de formas en las que se puede clasificar a un paciente.


2.22-Walpole-Probabilidad-y-estadistica

2.23 Si un experimento consiste en lanzar un dado y después extraer una letra al azar del alfabeto inglés, ¿cuántos puntos habrá en el espacio muestral?

2.23-Walpole-Probabilidad-y-estadistica

2.24 Los estudiantes de humanidades de una universidad privada se clasifican como estudiantes de primer año, de segundo año, de penúltimo año o de ultimo año, y también de acuerdo con su género (hombres o mujeres). Calcule el número total de clasificaciones posibles para los estudiantes de esa universidad.

2.24-Walpole-Probabilidad-y-estadistica

2.25 Cierta marca de calzado existe en 5 diferentes estilos y cada estilo está disponible en 4 colores distintos. Si la tienda deseara mostrar la cantidad de pares de zapatos que incluya todos los diversos estilos y colores, ¿cuántos pares diferentes tendría que mostrar?


Geekerds - Mantenimiento de pc, laptops, cctv, domótica.


En nuestra página de descargas puedes encontrar un documento PDF con la resolución de los problemas mostrados anteriormente y de los ejercicios que se muestran a continuación:


2.26 Un estudio en California concluyo que siguiendo siete sencillas reglas para la salud un hombre y una mujer pueden prolongar su vida 11 y 7 años en promedio, respectivamente. Estas 7 reglas son: no fumar, hacer ejercicio de manera habitual, moderar su consumo de alcohol, dormir siete u ocho horas, mantener el peso adecuado, desayunar y no ingerir alimentos entre comidas. ¿De cuántas formas puede una persona adoptar cinco de estas reglas: 

a) ¿Si la persona actualmente infringe las siete reglas?

b) ¿Si la persona nunca bebe y siempre desayuna?


2.27 Un urbanista de un nuevo fraccionamiento ofrece a un posible comprador de una casa elegir entre 4 diseños, 3 diferentes sistemas de calefacción, un garaje o cobertizo, y un patio o un porche cubierto. ¿De cuántos planos diferentes dispone el comprador?


2.28 Un medicamento para aliviar el asma se puede adquirir en 5 diferentes laboratorios y en forma de líquido, comprimidos o capsulas, todas en concentración normal o alta. ¿De cuántas formas diferentes puede un médico recetar la medicina a un paciente que sufre de asma?


2.29 En un estudio económico de combustibles, cada uno de 3 autos de carreras se prueba con 5 marcas diferentes de gasolina en 7 lugares de prueba que se localizan en diferentes regiones del país. Si en el estudio se utilizan 2 pilotos y las pruebas se realizan una vez en cada uno de los distintos grupos de condiciones, ¿cuántas pruebas se necesita realizar?


2.30 ¿De cuántas formas distintas se puede responder una prueba de falso-verdadero que consta de 9 preguntas?


2.31 Un testigo de un accidente automovilístico le dijo a la policía que la matricula del culpable, que huyo, contenía las letras RLH seguidas por 3 dígitos, de los cuales el primero era un 5. Si el testigo no recuerda los 2 últimos dígitos, pero está seguro de que los 3 eran distintos, calcule la cantidad máxima de registros de automóviles que la policía tendría que revisar.


2.32 a) ¿De cuántas maneras se pueden formar 6 personas para abordar un autobús?

b) ¿Cuántas maneras son posibles si, de las 6, 3 personas específicas insisten en formarse una después de la otra?


2.33 Si una prueba de opción múltiple consta de 5 preguntas, cada una con 4 respuestas posibles, de las cuales solo 1 es correcta,

a) ¿De cuántas formas diferentes puede un estudiante elegir una respuesta a cada pregunta?

b) ¿De cuántas maneras puede un estudiante elegir una respuesta a cada pregunta y obtener todas las respuestas incorrectas?


2.34 a) ¿Cuántas permutaciones distintas se pueden hacer con las letras de la palabra COLUMNA?




Recuerda que si necesitas clases, realizar proyectos, resolver guías de estudios a distancia, análisis de datos o software relacionado a estadística, puedes contactarnos por whatsapp o llamarnos al 0960836772, será un gusto disipar tus dudas.

Muestreo Aleatorio Simple para estimar media poblacional.

En este post vamos a realizar un ejemplo práctico utilizando muestreo aleatorio simple sin reposición con estimación para la estatura promedio de una población y la forma de obtener la muestra a través del software estadístico SPSS. En esta técnica de muestreo cada elemento de la población tiene la misma probabilidad de ser elegido y consiste en seleccionar aleatoriamente cada elemento uno a uno sin que este sea devuelto a la población original hasta completar el tamaño deseado (tamaño de la muestra), por tanto, una muestra con elementos repetidos es imposible.

Muestreo Aleatorio Simple

En la sección de descargas está disponible un documento en formato PDF con el contenido de este post, el mismo que puede descargarse completamente GRATIS!!!.

Guía resuelta de Estadística Inferencial - ESPE

A continuación mostramos algunos ejercicios resueltos correspondientes a las Actividades de aprendizaje que forman parte de la Guía de Estadística Inferencial del primer parcial de una de las carreras de la ESPE. La resolución completa de las cinco actividades de aprendizaje pueden descargarla desde nuestra página de descargas y si desconocen como hacer la descarga pueden ver el siguiente tutorial ¿Cómo descargar de este blog?

Guía Estadistica Inferencial Primer Parcial ESPE - Solucionario


Introducción - Guía de Estadística Inferencial - ESPE

El propósito de esta guía es que usted aprenda lo que es la Inferencia Estadística, y dentro de ella la técnica de realizar estimaciones aplicando los conceptos teóricos del texto a situaciones del mundo real. Con lo cual usted estará en capacidad de dar solución a los problemas prácticos de su trabajo o entorno.
En esta guía estudiaremos el campo de las pruebas de hipótesis, es decir, el procedimiento que se emplea para aceptar o rechazar una proposición, mediante la teoría de probabilidad y el estudio de las características de la muestra.

Actividad de Aprendizaje 1.1

1.- Business Week publicó que los ingresos fiscales de Playboy Enterprises, Inc. han sufrido unos retrocesos importantes en los últimos años. Christie Hefner, hija del fundador, asumió el puesto de directora ejecutiva de Playboy en noviembre de 1988. La señora Hefner ha encontrado que los ingresos mensuales medios de los distintos clubes de Playboy en todo el país son de 1.23 millones de dólares, con una desviación típica de 0.65 millones de dólares. Supongamos por el momento que exista normalidad en la distribución de ingresos mensuales: 

a) Si se eligieran los ingresos de un mes en cualquiera de los clubes, cuál es la probabilidad de que: Fueran superiores a 1.3 millones.

Actividad de aprendizaje 1.1

Estuvieren entre 1.5 y 2.0 millones de dólares.

Actividad de aprendizaje 1.1 - ESPE - Solución


Geekerds - Todo lo que necesites en Tecnología: Servicios & Equipos.


Actividad de Aprendizaje 1.2

1.- Arms International comercializa su producto en todo el mundo. Como gran parte de su negocio se realiza por teléfono, es importante minimizar cualquier demora que los clientes puedan experimentar cuando intenta ponerse en contacto con el personal de ventas de Arms. El director ejecutivo de Arms averiguo que en su centralita entraron esta mañana seis llamadas. A causa de la insuficiencia de personal, las demoras de cada cliente en hablar con la oficina de ventas fueron 20, 12, 17, 15, 18 y 15: 
a) Si el director ejecutivo tuviera que elegir una muestra de dos llamadas, ¿cuántas muestras habría en la distribución muestral? 

Actividad de aprendizaje 2.1 - Estadística Inferencia ESPE
b) Calcular la desviación típica de la población.

Solución Actividad de aprendizaje 1.2 - Estadística Inferencial - ESPE

Matemáticas: Clases, tareas, proyectos, software, etc.

Actividad de Aprendizaje 1.3

1.- Un número de febrero de 1989 de la revista Fortune relataba los esfuerzos de las empresas por aumentar la velocidad con que desarrollan, fabrican y comercializan sus productos. Una respuesta de 50 empresas realizada por Kaiser Associates, empresa consultora de Vienna, Virginia, reveló que casi todas las empresas ponían el acento en la “estrategia del tiempo” (TBS), como se llama al nuevo planteamiento. El atractivo de la TBS, como decía un director ejecutivo, procede de que la “velocidad mata a la competencia”. 
a) A General Electric le preocupaba el tiempo que tardaba en servir cuadros de interruptores automáticos. En la factoría de Akron, Ohio, se pensaba que el tiempo medio necesario era de unas tres semanas desde la recepción del pedido hasta la expedición de un cuadro. Si los 100 últimos pedidos se sirvieron al cabo de 3.4 semanas de media, con una desviación típica de 1.1 semana, ¿se confirma la estimación de 3 semanas al nivel de confianza del 98%? 

Actividad de aprendizaje 1.3 - Estadística Inferencial - ESPE

La solución de las cinco actividades de aprendizaje que corresponden a la Guía de estudio de Estadística Inferencial es bastante larga pero puedes descargar totalmente GRATIS todo los ejercicios resueltos en un documento en formato PDF desde nuestra página de descargas.

Y si necesitas clases, resolver tareas o guías de estudio para cualquier universidad o centro de estudios, proyectos que requieran software estadístico como SPSS o Minitab, no dudes en contactarme al 0980700611.

Revisa los siguientes posts que te puede ser de interés:

Un ejemplo de Estadística Descriptiva con SPSS utilizando datos reales - Nivel salarial de ecuatorianos.

Estamos acostumbrados a realizar ejercicios de Estadística Descriptiva que formulan los libros de estudio pero generalmente nunca los llevamos a la práctica, por tanto, en este post vamos a utilizar datos reales para llevar a cabo algunos pequeños análisis relacionados a medidas de tendencia central y de dispersión, así como el histograma respectivo y una pequeña inferencia sobre el sesgo de los datos.


Estadística Descriptiva - SPSS

Ejercicios resueltos sobre Intervalos de confianza para la media de una población utilizando Excel.

“Un Intervalo de confianza es un conjunto de valores formado a partir de una muestra de datos de forma que exista la posibilidad de que el parámetro poblacional ocurra dentro de dicho conjunto con una probabilidad específica. La probabilidad específica recibe el nombre de nivel de confianza.” Lind, Douglas. (2008), Estadística Aplicada a los Negocios y la Economía, México D.F., México, McGraw-Hill/Interamericana Editores, S.A.

Intervalos de confianza para la media de una población

3 ejercicios resueltos utilizando una Distribución de Probabilidad Hipergeométrica y R.

Empecemos mostrando cuál es su función de distribución de probabilidad:

Distribución de Probabilidad Hipergeométrica
Donde: 

N: representa el tamaño de la población.
n: representa el tamaño de la muestra o número de ensayos.
X: representa el número de éxitos en la población.
x: número de éxitos en la muestra.


Ejercicios resueltos utilizando una Distribución de Probabilidad Binomial Negativa.


La distribución binomial negativa o distribución de Pascal puede definirse como una generalización de la distribución de probabilidad geométrica donde la variable aleatoria X es el número de ensayos Bernoulli efectuados hasta que se tienen r éxitos, con una probabilidad constante de éxito p. Se dice entonces que X tiene una distribución binomial negativa con parámetros p y r = 1, 2, 3,...


Distribución Binomial Negativa