Está en la página 1de 37

Universidad de Cartagena

Facultad de ciencias económicas


Programa Administración Industrial

Plan de actividades N° 3
Técnicas para el análisis estadístico

Investigación Aplicada

Docente
Francisco Maza Ávila

Integrantes
Arnedo Cerda Rosa María
Blanco Burgos Angie Paola
Castillo Ávila Jesús David
Mendoza Villero Katherin
Nieto Mejía Orlenis

Cuarto semestre

16 de mayo de 2020
Plan de actividades N° 3

1.¿En qué consiste el análisis univariado? ¿Cuáles son las principales técnicas de
análisis?

Consiste en el análisis de cada una de las variables estudiadas por separado, es decir, el
análisis está basado en una sola variable. Su objetivo es describir el comportamiento de cada
una de las características de la población en estudio. El análisis univariado se divide en dos
secciones que son la cualitativa y la cuantitativa dependiendo de la naturaleza de los datos.

Las técnicas más frecuentes de análisis univariado son la distribución de frecuencias para una
tabla univariada y el análisis de las medidas de tendencia central de la variable (media
mediana y moda). Se utiliza únicamente en aquellas variables que se midieron a nivel de
intervalo o de razón. La distribución de frecuencias de la variable requiere de ver cómo están
distribuidas las categorías de la variable, pudiendo presentarse en función del número de
casos o en términos porcentuales.

Distribución de frecuencias: La distribución de frecuencias nos indica el número de casos


que hay en cada categoría de la variable. A partir de dichos valores, en una tabla de
frecuencias, se calcula el porcentaje (respecto del total de observaciones), porcentaje válido
(excluido los valores perdidos) y el porcentaje acumulado (porcentaje de la primera categoría,
luego éste más el de la segunda categoría y así sucesivamente). Se aplica para variables
nominales, ordinales y en cierto tipo de variables intervalares (por ejemplo, en escalas
Likert). Además de la tabla de frecuencias también es posible hacer representaciones gráficas
tales como: gráfico de barras, gráfico circular o un polígono de frecuencias.

Medidas de tendencia central: media, mediana y moda Las medidas de tendencia central
dan cuenta del tipo de distribución que tienen los valores de la variable respecto de un valor
típico, o puntuación central, a partir del cual se agrupan. Se calculan para variables medidas a
nivel nominal, ordinal y en algunas intervalares (por ejemplo, en escalas Likert). La media o
promedio corresponde a la suma de todas las puntuaciones de la variable dividida por el
número total de casos. La mediana es el valor que divide por la mitad a las puntuaciones de la
variable: los que están por debajo de éste y los que están por encima. Es decir, es el valor que
divide en dos mitades a las observaciones. La moda es el valor que más que más se repite del
conjunto de observaciones, pudiendo haber más de una moda (bimodal o multimodal). ***
En una curva de distribución normal coinciden la media, la mediana y la moda.

Medidas de dispersión: desviación estándar y varianza Las medidas de dispersión indican el


grado variabilidad de de los datos respecto de la media (promedio). Se debe tener presente
que una propiedad de la media es que la suma de las diferencias de todos los valores de la
variable respecto de la media es siempre “0”. Es por ello que para el cálculo de la varianza y
la desviación estándar la se procede a elevar la sumatoria de las diferencias al cuadrado. La
varianza es el valor promedio del cuadrado de las puntuaciones respecto de la media. Se
utiliza mucho en pruebas de inferencia estadística (de la muestra al universo), pero su unidad
de medida no es directamente interpretable (ya que está al cuadrado).

2. ¿En qué consiste el análisis bivariado? ¿Cuáles son las principales técnicas de
análisis?

El análisis de datos bivariado es una forma evolucionada de análisis estadístico en el cual se


cuantifica a nivel descriptivo e inferencial el nivel de covarianza entre dos variables y de esta
forma se da cuenta de la relación entre dos variables.

La cuantificación de la covarianza consiste en la construcción de coeficientes que permitan


integrar en un valor estimado, información con respecto a la varianza conjunta entre dos
variables y tiene como objetivo fundamental definir la magnitud y el sentido de la relación
entre las variables. De este modo, el análisis conjunto de las varianzas de dos variables
(regularmente definidas como X y Y) permite identificar la relación empírica entre éstas,
entendiendo por relación el ajuste de los datos a una función lineal estocástica subyacente.

A partir de un referente teórico pertinente, el análisis bivariado busca someter a contrastación


la tesis de asociación y hasta causalidad entre dos variables definidas. En cualquier caso, el
análisis bivariado se plantea con la intención de determinar el nivel de relación entre dos
variables y la función estocástica que subyace a un conjunto de observaciones (x, y). Pues si
bien, la relación no es evidencia suficiente de causalidad no se puede hablar de causalidad en
ausencia de relación entre las variables.

El análisis bivariante de datos involucra una familia de estadísticos cuya pertinencia está
condicionada por el nivel de medición (Stevens, 1946) de las variables involucradas.

Esta familia de estadísticos se divide en dos grandes grupos, a saber:paramétricos y no


paramétricos. (Siegel & Castellan, 1995).

Los paramétricos agrupan el caso de las variables con nivel de medición de intervalo o
superior, distribución normal bivariada y n> 30.

Los no paramétricos son el resto de las pruebas de correlación que no cumplen con los
supuestos de las pruebas paramétricas; lo cual, les permite agrupar los estadísticos de
contingencia y de correlación para variables con nivel de medición inferior a intervalo. En
cualquier caso, el interés fundamental es construir un índice que permita determinar la
magnitud y dirección de la relación entre las variables.
El análisis bivariado diseña tablas con tabulaciones cruzadas, es decir, las categorías de una
variable se cruzan con las categorías de una segunda variable. Se les conoce como tablas de
contingencia. Los requisitos que debe cubrir son:

 El título debe reflejar la información que contiene la tabla.


 Incluir un subtítulo para cada columna y subcolumna que se integre a la tabla.
 Indicar el 100 % cuando la tabla se exprese en términos porcentuales.
 Indicar al final de cada columna el número total de casos o categorías que comprende.

3. ¿En qué consiste el análisis multivariado? ¿Cuáles son las principales


técnicas de análisis?
El análisis multivariante o análisis multivariado es un método estadístico utilizado para
determinar la contribución de varios factores en un simple evento o resultado.
Los factores de estudio son los llamados factores de riesgo (bioestadística), variables
independientes o variables explicativas.
El resultado estudiado es el evento, la variable dependiente o la variable respuesta.
Su razón de ser radica en un mejor entendimiento del fenómeno objeto de estudio obteniendo
información que los métodos estadísticos univariantes y bivariantes son incapaces de
conseguir.
Así, como Hair et al. (1999) dice: “Sólo a través del análisis multivariante las relaciones
múltiples de este tipo podrán ser examinadas adecuadamente para obtener un entendimiento
más completo y real del entorno que permita tomar las decisiones más adecuadas.”
El análisis multivariado engloba un grupo de técnicas o métodos estadísticos cuya finalidad
es analizar simultáneamente conjuntos de datos multivariados en el sentido de que hay varias
variables medidas para cada individuo u objeto estudiado.
Estas técnicas se pueden clasificar en tres grandes grupos:
 Métodos de dependencia
Éstos suponen que las variables analizadas están divididas en dos grupos: las variables
dependientes y las variables independientes. El objetivo de los métodos de dependencia
consiste en determinar si el conjunto de variables independientes afecta al conjunto de
variables dependientes y de qué forma.
Se pueden clasificar en dos grandes subgrupos según que la variable (s) dependiente (s) sea
(n) cuantitativas o cualitativas.
 Dependencia métrica.

- Análisis de Regresión.
Es la técnica adecuada si en el análisis hay una o varias variables dependientes
métricas cuyo valor depende de una o varias variables independientes métricas.

- Análisis de Supervivencia.
Es similar al análisis de regresión, pero con la diferencia de que la variable
independiente es el tiempo de supervivencia de un individuo u objeto.

- Análisis de la varianza.
Se utilizan en situaciones en las que la muestra total está dividida en varios grupos
basados en una o varias variables independientes no métricas y las variables
dependientes analizadas son métricas. Su objetivo es averiguar si hay diferencias
significativas entre dichos grupos en cuanto a las variables dependientes se refiere.

- Correlación Canónica.
Su objetivo es relacionar simultáneamente varias variables métricas dependientes
e independientes calculando combinaciones lineales de cada conjunto de variables
que maximicen la correlación existente entre los dos conjuntos de variables.

 Dependencia no métrica.

- Análisis Discriminante.
Esta técnica proporciona reglas de clasificación óptimas de nuevas observaciones
de las que se desconoce su grupo de procedencia basándose en la información
proporcionada por los valores que en ella toman las variables independientes.
El objetivo del análisis discriminante es, por tanto, identificar cuáles son las
características distintivas de los individuos en cada grupo y, posteriormente, poder
utilizarlas para estimar el grupo al que pertenecen otros individuos de los que se
conocen dichas características, pero no su grupo de pertenencia.
Este método de análisis permite, en primer lugar, determinar cuáles son las
variables (de entre una serie de variables seleccionadas previamente por el
investigador) que mejor explican la pertenencia de un individuo a un determinado
grupo.
En segundo lugar, también permite determinar el grupo al que pertenecerá un
individuo pendiente de clasificación sobre la base de las respuestas de dicho
individuo a las variables que más explican la pertenencia a cada grupo.
Es una técnica muy potente puesto que permite considerar muchas variables de
forma simultánea.

- Modelos de regresión logística.


Son modelos de regresión en los que la variable dependiente es no métrica. Se
utilizan como una alternativa al análisis discriminante cuando no hay normalidad.

- Análisis Conjoint.
Es una técnica que analiza el efecto de variables independientes no métricas sobre
variables métricas o no métricas. La diferencia con el Análisis de la Varianza
radica en dos hechos: las variables dependientes pueden ser no métricas y los
valores de las variables independientes no métricas son fijadas por el analista. En
otras disciplinas se conoce con el nombre de Diseño de Experimentos.

 Métodos de interdependencia
Estos métodos no distinguen entre variables dependientes e independientes y su objetivo
consiste en identificar qué variables están relacionadas, cómo lo están y por qué.
Se pueden clasificar en dos grandes grupos según los tipos de datos que analicen, que al igual
que en los métodos de dependencia, pueden ser métricos o no métricos.

 Dependencia métrica.

- Análisis Factorial y Análisis de Componentes Principales.


Se utiliza para analizar interrelaciones entre un número elevado de variables
métricas explicando dichas interrelaciones en términos de un número menor de
variables denominadas factores (si son inobservables) o componentes principales
(si son observables).

- Escalado Multidimensional (MDS).


Su objetivo es transformar juicios de semejanza o preferencia en distancias
representadas en un espacio multidimensional. Como consecuencia se construye
un mapa en el que se dibujan las posiciones de los objetos comparados de forma
que aquéllos percibidos como similares están cercanos unos de otros y alejados de
objetos percibidos como distintos.

- Análisis Cluster.
Su objetivo es clasificar una muestra de entidades (individuos o variables) en un
número pequeño de grupos de forma que las observaciones pertenecientes a un
grupo sean muy similares entre sí y muy distintas del resto. A diferencia del
Análisis Discriminante se desconoce el número y la composición de dichos
grupos. Precisamente, es la utilización de escalamiento multidimensional, así
como del análisis cluster, lo que permite dar respuesta a esas dos incógnitas.

 Dependencia no métrica.

- Análisis de Correspondencias.
Se aplica a tablas de contingencia multidimensionales y persigue un objetivo
similar al de las escalas multidimensionales, pero representando simultáneamente
las filas y columnas de las tablas de contingencia.

- Modelos log-lineales.
Se aplican a tablas de contingencia multidimensional y modelizan relaciones de
dependencia multidimensional de las variables observadas que buscan explicar las
frecuencias observadas.

 Modelos estructurales
Suponen que las variables están divididas en dos grupos: el de las variables dependientes y el
de las independientes. El objetivo de estos métodos es analizar, no sólo cómo las variables
independientes afectan a las variables dependientes, sino también cómo están relacionadas las
variables de los dos grupos entre sí.

4. ¿En qué consiste el Análisis de Varianza o ANOVA? Señale un ejemplo de


aplicación práctica.

El análisis de la varianza permite contrastar la hipótesis nula de que las medias de K


poblaciones (K >2) son iguales, frente a la hipótesis alternativa de que por lo menos una de
las poblaciones difiere de las demás en cuanto a su valor esperado. Este contraste es
fundamental en el análisis de resultados experimentales, en los que interesa comparar los
resultados de K 'tratamientos' o 'factores' con respecto a la variable dependiente o de interés.

El Anova requiere el cumplimiento los siguientes supuestos:


 Las poblaciones (distribuciones de probabilidad de la variable dependiente
correspondiente a cada factor) son normales.
 Las K muestras sobre las que se aplican los tratamientos son independientes.
 Las poblaciones tienen todas igual varianza (homoscedasticidad).

El ANOVA se basa en la descomposición de la variación total de los datos con respecto a la


media global (SCT), que bajo el supuesto de que H0 es cierta es una estimación de   
obtenida a partir de toda la información muestral, en dos partes:

 Variación dentro de las muestras (SCD) o Intra-grupos, cuantifica la dispersión de los


valores de cada muestra con respecto a sus correspondientes medias.
 Variación entre muestras (SCE) o Inter-grupos, cuantifica la dispersión de las medias
de las muestras con respecto a la media global.

Las expresiones para el cálculo de los elementos que intervienen en el Anova son las
siguientes:

Media Global: 

Variación Total: 

Variación Intra-grupos: 

Variación Inter-grupos: 

Siendo xij el i-ésimo valor de la muestra j-ésima; nj el tamaño de dicha muestra y  su


media.

Cuando la hipótesis nula es cierta SCE/K-1 y SCD/n-K son dos estimadores insesgados de la
varianza poblacional y el cociente entre ambos se distribuye según una F de Snedecor con K-
1 grados de libertad en el numerador y N-K grados de libertad en el denominador. Por lo
tanto, si H0 es cierta es de esperar que el cociente entre ambas estimaciones será
aproximadamente igual a 1, de forma que se rechazará H0 si dicho cociente difiere
significativamente de 1.
Ejemplo

Se quiere estudiar el efecto de distintas dosis de un medicamento para combatir a los


parásitos de peces criados en acuicultura. Para ello, se tomaron 60 peces al azar, y se
dividieron en 5 grupos de 12 individuos cada uno. El primer grupo no fue medicado, pero a
los restantes se les suministró el medicamento en dosis crecientes. Tras una semana de
tratamiento, se contabilizaron los parásitos existentes en cada individuo, obteniendo los
resultados siguientes:

Contrastar si el medicamento es efectivo contra los parásitos y si existen diferencias según la


dosis aplicada.

Solución

 Planteamiento del problema.

En este caso se quiere contrastar si el medicamento es efectivo y en qué dosis respecto al


control observado. Por tanto, y dado que se dispone de datos para diferentes tratamientos (en
este caso 2 o más), es factible utilizar un análisis de la varianza de un factor, contraste para la
media de una variable continua normal en dos o más grupos, donde el factor es la dosis, que
contiene cinco clases o grupos o niveles, y la variable numérica a analizar es el número de
parásitos contabilizados en cada uno de los 60 peces estudiados, agrupados en los diferentes
tratamientos y el control.

 Planteamiento de la hipótesis.
Del planteamiento del contraste anterior se deduce que las hipótesis a contrastar para analizar
si existen diferencias entre los k grupos son:

H0 : Todas las medias poblaciones de los k grupos son iguales →β

H1 : Al menos una media poblacional difiere → α = 0.05

H0 : µ0 = µ1 = µ2 = µ3 = µ4 = µ5 →β

H1 : Al menos una igualdad no es cierta → α = 0.05

Estadístico de contraste y grafico El estadístico experimental se basará e una F de de


Snedecor con k − 1 y n − k grados de libertad para el numerador y denominador
respectivamente. Por tanto se debe comparar dicho estadístico Fexpt con el correspondiente
punto crítico Fteo. Estos se definen como:

Fexpt = QE/k − 1
QD/n – k

Pc = Fteo = Fglnum*gldenom,α = Fk−1,n−k,α

La representación gráfica puede verse en el Apartado b) del desarrollo del contraste.

 Requisitos del contraste y datos necesarios para su desarrollo

a) Datos necesarios

El resumen de os datos observados se presentan en la siguiente tabla,


agrupados para cada una de las clases para poder observar las posibles
diferencias entre las medias y también analizar las varianzas:
Y la información referente al conjunto de los datos:

k=5

n = n1 + n1 + n2 + n3 + n4 + n5 = 60

b) Requisitos

Las hipótesis necesarias para poder llevar a cabo un análisis ANOVA son:

 Independencia de los valores observados, hipótesis necesaria que se comprueba


mediante la inspección del diseño experimental. Si las unidades experimentales (en
nuestro caso los peces) han sido seleccionadas al azar se asume como verdadero (por
lo que se comenta en el enunciado).

 Normalidad de los datos en cada una de las clases, se verifica mediante un contraste
de bondad de ajuste a una variable normal. En este caso se debería utilizar un K − S
de Kolmogorov-Smirnov a partir de la hipótesis H0 = Los datos del nivel i se ajustan
a la distribución normal para cada clase al no aparecer implícito en el enunciado (en
caso de resolución para el examen se asume por simplicidad en la resolución y por la
escasez de tiempo).
 Homogeneidad de varianzas, debemos analizar si las varianzas son homogéneas
(parecidas) y esto lo hacemos a partir de un contraste de homogeneidad de varianzas
como la M de Bartlett para datos no balanceados o la G de Cochran para datos
balanceados.

Como en este caso los datos son balanceados se desarrollará la G de Cochran en su versión
resumida. En este contraste las hipotesis se definen como:

H0 : σ 2 1 = σ 2 2 = σ 2 3 = σ 2 4 = σ 2 5 →β

H1 : Al menos una igualdad no es cierta → α = 0.05

Para este contraste el estadístico y el punto crítico quedan definidos como:

Desarrollando y comparando ambos se obtiene que

Por tanto, no se puede demostrar que exista heterogeneidad de varianzas al no rechazar H0.
(En este caso se cumple el requisito de Homogeneidad de varianzas)

 Desarrollo del contraste.

a) ANOVA
Conclusión

Se rechaza H0 y por lo tanto al menos algunas de las clases son diferentes entre sí (existen
diferencias en los resultados para las dosis aplicadas). Es decir, existe al menos una dosis
que tiene resultados diferentes a las demás. Como lo interesante una vez comprobado H0
es averiguar cuál o cuáles son diferentes y en qué sentido para detectar si alguna de las
dosis es más efectiva se debe desarrollar un contraste a posteriori con objeto de identificar
las diferencias ya detectas (pero no identificadas) en el análisis de ANOVA.

5. Para cada una de las siguientes pruebas, explique su significado, indique la fórmula
para su cálculo y señale un ejemplo de aplicación práctica.

 Covarianza.
 Coeficiente de correlación de Pearson.

- Covarianza
Es una prueba estadística que analiza la relación entre una variable dependiente y dos
o más independientes, removiendo y controlando el efecto de al menos una de estas
independientes. El análisis de covarianza es apropiado para lograr dos objetivos
específicos: eliminar cualquier error sistemático fuera del control del investigador que
puede sesgar los resultados y tener en cuenta las diferencias en las respuestas debidas
a las características propias de los encuestados.
Covarianza (X,Y)  es menor que cero cuando “X” sube e “Y” baja. Hay una relación
negativa.
Covarianza (X,Y)  es mayor que cero cuando “X” sube e “Y” sube. Hay una relación
positiva.

Formula

Dónde la y con el acento es la media de la variable Y, y la x con el acento es la media


de la variable X. “i” es la posición de la observación y “n” el número total de
observaciones.

- Coeficiente de correlación de Pearson


Es una medida de dependencia lineal entre dos variables aleatorias cuantitativas;
teniendo dos variables, la correlación facilita que se hagan estimaciones del valor de
una de ellas, con conocimiento del valor de la otra variable.

Formula

Donde “x” es igual a la variable número uno, “y” pertenece a la variable número dos,
“zx” es la desviación estándar de la variable uno, “zy” es la desviación estándar de la
variable dos y “N” es es número de datos.

El coeficiente de correlación de Pearson tiene el objetivo de indicar cuán asociadas se


encuentran dos variables entre sí por lo que:
Correlación menor a cero: Si la correlación es menor a cero, significa que es negativa, es
decir, que las variables se relacionan inversamente.

Cuando el valor de alguna variable es alto, el valor de la otra variable es bajo. Mientras más
próximo se encuentre a -1, más clara será la covariación extrema. Si el coeficiente es igual a
-1, nos referimos a una correlación negativa perfecta.
Correlación mayor a cero: Si la correlación es igual a +1 significa que es positiva perfecta.
En este caso significa que la correlación es positiva, es decir, que las variables se
correlacionan directamente.

Cuando el valor de una variable es alto, el valor de la otra también lo es, sucede lo mismo
cuando son bajos. Si es cercano a +1, el coeficiente será la covariación.

Correlación igual a cero: Cuando la correlación es igual a cero significa que no es posible


determinar algún sentido de covariación. Sin embargo, no significa que no exista una relación
no lineal entre las variables.

Cuando las variables son independientes significa que esta se encuentra correlacionadas, pero
esto no significa que el resultado sea verdadero.

6. ¿En qué consiste la prueba chif-cuadrado y cuál es su fórmula? Señale un ejemplo de


aplicación práctica.

La prueba chi-cuadrado, también llamada Ji cuadrado, se encuentra dentro de las pruebas


pertenecientes a la estadística descriptiva, concretamente la estadística descriptiva aplicada al
estudio de dos variables.
Es sin duda la más conocida y probablemente la más utilizada para el análisis de variables
cualitativas. Su nombre lo toma de la distribución Chi cuadrado de la probabilidad, en la que
se basa. La prueba de chi cuadrado de independencia entre dos variables cualitativas, su
utilidad es precisamente evaluar la independencia entre dos variables nominales u ordinales,
dando un método para verificar si las frecuencias observadas en cada categoría son
compatibles con la independencia entre ambas variables. Para evaluarla se calculan los
valores que indicarían la independencia absoluta, lo que se denomina frecuencias esperadas,
comparándolos con las frecuencias de la muestra. Como habitualmente, H0 indica que ambas
variables con independientes, mientras que H1 indica que las variables tienen algún grado de
asociación.

Esta prueba solamente puede aplicarse a estudios basados en muestras independientes, y


cuando todos los valores esperados son mayores de 5.

La prueba de Chi cuadrado utiliza una aproximación a la distribución Chi cuadrado, para
evaluar la probabilidad de una discrepancia igual o mayor que la que exista entre los datos y
las frecuencias esperadas según la hipótesis nula. La exactitud de esta evaluación depende de
que los valores esperados no sean muy pequeños, y en menor medida de que el contraste
entre ellos no sea muy elevado.

Formula

Ejemplo.
Supongamos que un investigador está interesado en evaluar la asociación entre uso de
cinturón de seguridad en vehículos particulares y el nivel socioeconómico del conductor del
vehículo. Con este objeto se toma una muestra de conductores a quienes se clasifica en una
tabla de asociación, encontrando los siguientes resultados:
¿Permiten estos datos afirmar que el uso del cinturón de seguridad depende del nivel
socioeconómico? Usaremos un nivel de significación alfa=0,05.

Los pasos del análisis estadístico en este caso son los siguientes:

En primer lugar se debe plantear las hipótesis que someteremos a prueba

H0: “El uso de cinturón de seguridad es independiente del nivel socioeconómico”.


H1: “El uso de cinturón de seguridad depende del nivel socioeconómico”.

En esta prueba estadística siempre la hipótesis nula plantea que las variables analizadas son
independientes.

En segundo lugar, obtener (calcular) las frecuencias esperadas

Estas son las frecuencias que debieran darse si las variables fueran independientes, es decir, si
fuera cierta la hipótesis nula.

Las frecuencias esperadas se obtendrán de la distribución de frecuencias del total de los


casos, 51 personas de un total de 94 usan el cinturón y 43 de 94 no lo usan. Esa misma
proporción se debería dar al interior de los tres grupos de nivel socioeconómico, de manera
que el cálculo responde al siguiente razonamiento: si de 94 personas 51 usan cinturón; de 21
personas, ¿cuántas debieran usarlo?

La respuesta a esta pregunta se obtiene aplicando la “regla de tres” y es 11,4. Este


procedimiento debe repetirse con todas las frecuencias del interior de la tabla.

El detalle de los cálculos es el siguiente:


Nivel bajo: (21x51/94)=11,4-(21x43/94)=9,6
Nivel medio:(31x51/94)=16,8-(31x43/94)=14,2
Nivel alto: (42x51/94)=22,8-(42x43/94)=19,2

Estas son las frecuencias que debieran presentarse si la hipótesis nula fuera verdadera y, por
consiguiente, las variables fueran independientes.

Estos valores los anotamos en una tabla con las mismas celdas que la anterior; así tendremos
una tabla con los valores observados y una tabla con los valores esperados, que anotaremos
en cursiva, para identificarlos bien.

En tercer lugar, se debe calcular el estadístico de prueba

En este caso, el estadístico de prueba es Ji-cuadrado que, como dijimos al comienzo, compara
las frecuencias que entregan los datos de la muestra (frecuencias observadas) con las
frecuencias esperadas, y tiene la siguiente fórmula cálculo:

Donde oi  representa a cada frecuencia observada y ei representa a cada frecuencia esperada.

De este modo el valor del estadístico de prueba para este problema será:
Entonces   Este es el valor de nuestro estadístico de prueba que ahora, siguiendo el
procedimiento de problemas anteriores (paso 4), debemos comparar con un valor de la tabla
de probabilidades para ji-cuadrado (x2). Esta tabla es muy parecida a la tabla t de student,
pero tiene sólo valores positivos porque ji-cuadrado sólo da resultados positivos. Véase
gráfico 1, que muestra la forma de la curva, con valores desde 0 hasta infinito.

Grafico 1

Dado que el estadístico ji cuadrado sólo toma valores positivos, la zona de rechazo de la
hipótesis nula siempre estará del lado derecho de la curva.

Uso de tabla ji-cuadrado

La tabla de ji-cuadrado tiene en la primera columna los grados de libertad y en la primera fila
la probabilidad asociada a valores mayores a un determinado valor del estadístico (véase
gráfico de la tabla III).
Los grados de libertad dependen del número de celdas que tiene la tabla de asociación donde
están los datos del problema y su fórmula de cálculo es muy sencilla:

Grados de libertad (gl)=(nº de filas–1)x(nº de columnas–1)


Así, en nuestro ejemplo, en que hay 2 filas y 3 columnas, los grados de libertad serán:

gl=(2-1)x(3-1)=2

Nótese que no se consideran la fila ni la columna de los totales.

Al comienzo elegimos un nivel de significación alfa=0,05. Entonces un valor de tabla


para x2 asociado a 2 grados de libertad y alfa 0,05 es 5,99.

Por lo tanto, como en el gráfico 2 vemos que 5,23 se encuentra a la izquierda de 5,99, la
probabilidad asociada a valores superiores a 5,23 es mayor que alfa (0,05).
Grafico 2

Según esto, debemos aceptar la hipótesis nula que plantea que las variables “uso de cinturón
de seguridad” y “nivel socioeconómico” son independientes. Limitación: como norma
general, se exige que el 80% de las celdas en una tabla de asociación tengan valores
esperados mayores de 5.

7. ¿En qué consiste la prueba t de student? Señale un ejemplo de aplicación práctica.


Descrita por William S. Gosset en 1908. Publicaba bajo el pseudónimo de “Student” mientras
trabajaba para la cervecería Guinnes en Irlanda. Está diseñada para probar hipótesis en
estudios con muestras pequeñas (menores de 30)

La fórmula general para la T de Student es la siguiente:

En donde el numerador representa la diferencia a probar y el denominador la desviación


estándar de la diferencia llamado también Error Estándar. En esta fórmula t representa al
valor estadístico que estamos buscando X barra es el promedio de la variable analizada de la
muestra, y miu es el promedio poblacional de la variable a estudiar. En el denominador
tenemos a s como representativo de la desviación estándar de la muestra y n el tamaño de
ésta.

Grados de libertad: El número de grados de libertad es igual al tamaño de la muestra (número


de observaciones independientes) menos 1.

gl = df = (n – 1)
Si pudiera expresar en un cierto número de pasos para resolver un problema de t de student
tendría que declarar los siguientes:

Paso 1. Plantear las hipótesis nulas (H0) y la hipótesis alternativa (H1). La hipótesis
alternativa plantea matemáticamente lo que queremos demostrar, en tanto que la hipótesis
nula plantea exactamente lo contrario.

Paso 2. Determinar el nivel de significancia (rango de aceptación de la hipótesis alternativa),


a.

Se considera un nivel alfa de: 0.05 para proyectos de investigación; 0.01 para aseguramiento
de la calidad; y 0.10 para estudios o encuestas de mercadotecnia.

Paso 3. Evidencia muestral, se calcula la media y la desviación estándar a partir de la


muestra.

Paso 4. Se aplica la distribución T de Student para calcular la probabilidad de error por medio
de la fórmula general presentada al principio y se contrasta con el valor T obtenido de la tabla
correspondiente.

Paso 5. En base a la evidencia disponible se acepta o se rechaza la hipótesis alternativa. Si la


probabilidad de error (p) es mayor que el nivel de significancia se rechaza la hipótesis
alternativa. Si la probabilidad de error (p) es menor que el nivel de significancia se acepta la
hipótesis alternativa.

Por supuesto que al final lo que tenemos que contrastar es el valor de T que hayamos
obtenido en el problema contra el valor T crítico que obtenemos de la tabla de T de Student.
Si el resultado del problema cae en la región de H0 se acepta ésta, de lo contrario se rechaza.
Por supuesto, si rechazas H0 aceptarás H1.
En la gráfica precedente se aprecian las regiones de aceptación y de rechazo con respecto a
H0.

Ejemplo

Se aplica una prueba de autoestima a 25 personas quienes obtienen una calificación promedio
de 62.1 con una desviación estándar de 5.83. Se sabe que el valor correcto de la prueba debe
ser mayor a 60. ¿Existe suficiente evidencia para comprobar que no hay problemas de
autoestima en el grupo seleccionado?

Paso 1. Hipótesis alternativa: la que se va a comprobar. El grupo no tiene problemas de


autoestima. Valor de prueba para determinar autoestima mayor a 60. Hipótesis nula, lo
contrario a la hipótesis alternativa.

H1 > 60;

H0 =< 60.

Paso 2. Determinar el nivel de significancia alfa: alfa = 0.05.

Paso 3. Resultados de la evidencia muestral: X = 62.1; s = 5.83

Paso 4. Aplicar la distribución de probabilidad calculando T:

El resultado de la ecuación es 1.8. Dado que 1.8 es mayor que 1.7109 cae en la región de H1
y se acepta la hipótesis alternativa. Si buscamos el valor de 1.8 bajo la curva normal
encontraremos que es de 0.0359 el cual es menor que 0.05. La conclusión es que no hay
problemas de autoestima en el grupo estudiado. Esto con el diseño de la investigación
presentado.

Ejemplo

Suponga que Ud. tiene una técnica que puede modificar la edad a la cual los niños comienzan
a hablar. En su localidad, el promedio de edad en la cual un niño emite su primera palabra es
de 13.0 meses. No se conoce la desviación estándar poblacional. Usted aplica dicha técnica a
una muestra aleatoria de 15 niños. Los resultados arrojan que la edad media muestral en la
que se pronuncia la primera palabra es de 11.0 meses, con una desviación estándar de 3.34.
Pruebe la hipótesis de que la técnica afecta la edad en que los niños empiezan a hablar con un
nivel de significancia alfa del 0.05.

Aquí las preguntas de la investigación serían ¿Cuáles son las hipótesis nulas y la alternativa?
y si con el procesamiento estadístico se puede afirmar que la técnica es efectiva para
modificar la edad en que los niños empiezan a hablar.

Hipótesis nula: La técnica no afecta la edad en que los niños comienzan a hablar,
matemáticamente sería, H0 = 13.0

Hipótesis alternativa: La técnica afecta la edad en que los niños comienzan a hablar,
matemáticamente sería, H1 ≠ 13.0

El resultado de Tp es -2.32. Si lo comparamos con el resultado de T crítico o Tc obtenido de


tablas con un nivel de significancia alfa de 0.05 y 14 grados de libertad para dos extremos, el
resultado de Tc es 2.145
Con los resultados anteriores se rechaza la hipótesis nula y se decide que, la técnica afecta la
edad en que los niños comienzan a hablar con un nivel de significancia de 0.05. El valor P
correspondiente si lo buscamos en la curva normal de probabilidades sería de 0.010, por
debajo del nivel de significancia.

8. Explique los siguientes Test no paramétricos: a) U de Mann-Whitney y b) Test de


Wilcoxon. Señale un ejemplo de aplicación práctica para cada uno de ellos.

La prueba t de wilcoxon

Denominada por algunos como Prueba del signo de las categorías, ya que no sólo establece
las diferencias para cada par de observaciones, sino que las clasifica, aspecto éste que se tiene
en cuenta en la prueba del signo, por tal razón se le considera de mayor eficacia entre las
pruebas no paramétricas. Esta prueba fue establecida por Frank Wilcoxon en el año de 1945.

Muestras Pequeñas
Veamos primero el procedimiento que se sigue en muestras pequeñas para pares igualados.

Nota: Vale la pena anotar que algunos autores consideran una muestra
pequeña cuando n < 50 y grande cuando n > 50.

Ejemplo. Para explicar el procedimiento e interpretación de los resultados obtenidos,


partamos del supuesto de una muestra realizada a 12 parejas, para estimar su actitud frente al
manejo de sus hijos en los problemas escolares, (un menor puntaje corresponde a una actitud
menos favorable):
¿Al nivel del 5% existe una misma actitud, en las parejas, frente a los problemas escolares?

Con una T0, 05 =14 quiere decir que aceptamos a Ho, a1 nivel del 5%. Concluyendo que la
actitud de los padres frente al problema escolar no difiere.
Si se hubiese presentado el caso en que T < T0, 05 estaríamos rechazando a H0, al nivel del
5%, concluyendo que la actitud de los padres, frente al problema escolar de sus hijos difiere
en forma significativa.

Ejemplo. Se diseña un estudio de tiempos y movimientos, con el fin decimar la eficiencia de


dos procedimientos para montar cierto mecanismo. De aparean los obreros con base en los
coeficientes de inteligencia y el número de años de educación. Los miembros de cada par son
asignados en grupos a uno de los dos procedimientos. El tiempo en segundos para terminar el
montaje es como sigue:
En la
Tabla No. XVIII encontramos que el valor teórico es de T0, 05 = 17.

Si T < T0, 05 rechazamos => H0: la diferencia no es significativa; no difiere


Si T > T0, 05 aceptamos => Ha: difiere; la diferencia es significativa
En el ejercicio que estamos desarrollando encontramos que 16 < 17; es decir que T< T0, 05
por lo tanto aceptamos Ha: la diferencia es significativa, es decir que difiere la eficiencia en
los dos procesos. Si nos devolvemos a observar la prueba del signo, el resultado es al
contrario, es decir, que no existe una diferencia significativa (se acepta H 0) entre los dos
procesos, al nivel del 5%.

Muestra Grande

Ejemplo: Los datos que se dan a continuación corresponden al número de piezas


defectuosas producidas por dos máquinas durante el mes de septiembre de 2011. Probar al
nivel del 5%, que no hay una diferencia significativa entre los dos pocesos.

Observemos que el valor de T = 27. Además, como n > 25, la distribución muestral de T es
aproximadamente normal (recordemos que algunos la consideran así cuando n > 50),
procedemos a calcular la media y la varianza de T, cuando n = 26, de la siguiente manera:
En consecuencia, la variante estadística Z, está dada por la siguiente formula:

Es necesario observar que T = 27, la categorización la hacemos con valor absoluto,


procediendo a elegir la suma más pequeña, sin tener en cuenta el signo, en este caso
corresponde a la columna con signos positivos.

Prueba U de Mann-whitney

Es la prueba más aplicada, dentro de las distribuciones no paramétricas, debido a que toma
la mayor in- formación que poseen los datos, haciéndola mucho más eficiente que las otras
pruebas, sobre todo cuando se seleccionan dos conjuntos aleatorios e independientes, en tal
forma que se puedan ordenar por rangos. Tiene un proceso de cálculo muy parecido al
utilizado en la Prueba del signo, siendo usada para probar si dos grupos muéstrales
proceden de una misma población.

El proceso de cálculo se hace engorroso, cuando los tamaños muéstrales n1 y n2 son


grandes, pues se trabaja con dos grupos independientes.

Muestras Grandes

El cálculo o desarrollo de esta prueba, requiere de los siguientes pasos:


La mayoría de los investigadores aplican la Prueba U, cuando n1 o n2 es mayor a 20,
admitiendo de esta manera que la distribución tiene un comportamiento similar a la normal,
siendo utilizada en estos casos la variante estadística Z, igual a:

U  (n1  n2 / 2)
Z
n1 n2 (n1  n2  1)
12

Ejemplo: Supongamos dos muestras grandes e independientes ( n1 =23 y n2 =12)


correspondientes a dos pruebas cuyas puntuaciones fueron las siguientes:
Muestras Pequeñas

Cuando las dos muestras son menores de 8, (muy pequeñas), no se debe aplicar el método
para muestras pequeñas que se explica a continuación, siendo necesario utilizar
procedimientos y tablas diferentes a las anteriores.

Ahora, si una de las dos muestras tiene un tamaño mayor o igual a 9, se procede a la
siguiente forma:

Ejemplo: Consideremos dos muestras pequeñas, donde n1 = 8 y n2 = 11, para observar la


aplicación de la prueba U de Mann - Whitney, para muestras pequeñas, a fin de probar que
ambas proceden de la misma población, al nivel del 5%.
Utilicemos la Tabla XIV, localizando los valores para n1 = 8 y n2 =11, con un nivel de α =
0,05 para una prueba bilateral, obteniendo los valores críticos de U=19. El valor será
significativo cuando el resultado aplicando la fórmula U, sea menor o igual al valor
obtenido en la Tabla, en caso contrario no será significativo, como en este caso donde
22>19, por lo tanto, se acepta la hipótesis nula H o, es decir, aceptamos que estas dos
muestras provienen de una misma población, al nivel del 5%.

Muestras muy Pequeñas

Hasta el momento, en cuanto se refiere a la prueba U de Mann-Whitney, hemos visto dos


casos:

Ahora se tiene un tercer caso, cuando ninguna de las n1 y n2 son mayores a 8, consideradas
a la vez como muestras muy pequeñas, para ello se utiliza la Tabla XIII y el procedimiento
a seguir se explica mediante el desarrollo de un ejercicio tomado como modelo.

Ejemplo. Supongamos la realización de dos experimentos, para los cuales se obtuvieron 4


y 5 controles, respectivamente con los siguientes resultados o puntajes.

Clasificamos los puntajes de menor a mayor, identificándolos de acuerdo a su respectiva


muestra, A y B.

Ahora, contamos el número de veces que A precede a B. Observemos que la primera A


correspondiente a la calificación 8, precede o antecede a tres veces B, (calificaciones 10, 12
y 13), luego la segunda A (calificación 9) precede también a las tres de las calificaciones
(10, 12 y 13); y la tercera A (calificación 11) precede a dos B (calificaciones 12 y 13) y la
última A no precede a ninguna calificación es decir 0.

De acuerdo a lo anterior se tiene que U = 3+3+2+0=8. Veamos qué sucede, si hubiéramos


hecho lo
contrario, donde B precede a A, habríamos encontrado la siguiente situación:

U’ = 4+4+2+2+1+1 = 14, a esta suma, para diferenciarla de la anterior la simbolizamos por


U’. Según la hipótesis nula planteada U y U’ deben ser iguales, en caso contrario, de
presentar una diferencia, procedemos a establecer si ella es significativa, al nivel de
significación que se esté probando o docimando.
La hipótesis nula H0 y la alternativa Ha se plantean de la siguiente manera:
H0: Las distribuciones de frecuencias relativas de las poblaciones A y B son idénticas.
Ha: (Prueba Bilateral): La distribución de frecuencias relativas de una población está
desplazada
con relación a la distribución de la otra población.
Ha: (Prueba Unilateral): La distribución de frecuencias relativas de la población A está
desplazada a la derecha de la distribución de frecuencias de la población B
Procedemos a consultar la Tabla XIII que consta de 6 subtotales separados, una por cada
valor correspondiente a n2, que va desde n2 =3 hasta n2 =8, dado que n1 siempre
representará el grupo que tenga el menor número de observaciones, en este caso será n1 = 4.
En el ejemplo conocemos: n2 = 5, n1 = 4 y U = 8, con lo cual consultamos en la Tabla (ver
el tercer cuadro de la Tabla XIII), siendo el valor de p = 0,365 valor sombreado, es decir,
correspondiente a la probabilidad de que U sea menor o igual a 8 cuando la prueba es
unilateral; si la prueba es bilateral, se tomaría el doble de lo aparecido en la tabla, siendo el
valor de p = 0,730.
Bibliografía

 Obtenido de https://psicologiaymente.com/miscelanea/prueba-chi-cuadrado
 Obtenido de http://www.samiuc.es/estadisticas-variables-binarias/valoracion-inicial-
pruebas-diagnosticas/chi-cuadrado/
 Obtenido de
http://bibing.us.es/proyectos/abreproy/11162/fichero/Proyecto+Manuel+Sosa
%252FCap%C3%ADtulo+7.pdf+
 Obtenido de http://www.ciberconta.unizar.es/leccion/anamul/inicio.html
 Obtenido de http://www.ub.edu/aplica_infor/spss/cap4-7.htm
 Obtenido de https://rua.ua.es/dspace/bitstream/10045/25453/6/ANOVA-resuelto.pdf
 Obtenido de https://www.medwave.cl/link.cgi/Medwave/Series/MBE04/5266

 (s.f.). Obtenido de https://www.questionpro.com/blog/es/coeficiente-de-correlacion-


de-pearson/
 Badii, M. J. (2008). Obtenido de http://eprints.uanl.mx/12489/1/A3.pdf
 Mitjana, L. R. (s.f.). Obtenido de https://psicologiaymente.com/miscelanea/analisis-
covarianza-
 Ávila Baray, H.L. (2006) Introducción a la metodología de la investigación Edición
electrónica.
 ANÁLISIS BIVARIADO DE DATOS. Un resumen para el curso de Estadística II
http://saber.ucv.ve/bitstream/123456789/11400/1/An%C3%A1lisis%20bivariado
%20de%20datos.pdf
 Martínez, C. (2012). Estadística y muestreo. 13 ed.
 Fierro, J. (2010). Análisis estadístico univariado, bivariado y variables control

También podría gustarte