Explora Libros electrónicos
Categorías
Explora Audiolibros
Categorías
Explora Revistas
Categorías
Explora Documentos
Categorías
Plan de actividades N° 3
Técnicas para el análisis estadístico
Investigación Aplicada
Docente
Francisco Maza Ávila
Integrantes
Arnedo Cerda Rosa María
Blanco Burgos Angie Paola
Castillo Ávila Jesús David
Mendoza Villero Katherin
Nieto Mejía Orlenis
Cuarto semestre
16 de mayo de 2020
Plan de actividades N° 3
1.¿En qué consiste el análisis univariado? ¿Cuáles son las principales técnicas de
análisis?
Consiste en el análisis de cada una de las variables estudiadas por separado, es decir, el
análisis está basado en una sola variable. Su objetivo es describir el comportamiento de cada
una de las características de la población en estudio. El análisis univariado se divide en dos
secciones que son la cualitativa y la cuantitativa dependiendo de la naturaleza de los datos.
Las técnicas más frecuentes de análisis univariado son la distribución de frecuencias para una
tabla univariada y el análisis de las medidas de tendencia central de la variable (media
mediana y moda). Se utiliza únicamente en aquellas variables que se midieron a nivel de
intervalo o de razón. La distribución de frecuencias de la variable requiere de ver cómo están
distribuidas las categorías de la variable, pudiendo presentarse en función del número de
casos o en términos porcentuales.
Medidas de tendencia central: media, mediana y moda Las medidas de tendencia central
dan cuenta del tipo de distribución que tienen los valores de la variable respecto de un valor
típico, o puntuación central, a partir del cual se agrupan. Se calculan para variables medidas a
nivel nominal, ordinal y en algunas intervalares (por ejemplo, en escalas Likert). La media o
promedio corresponde a la suma de todas las puntuaciones de la variable dividida por el
número total de casos. La mediana es el valor que divide por la mitad a las puntuaciones de la
variable: los que están por debajo de éste y los que están por encima. Es decir, es el valor que
divide en dos mitades a las observaciones. La moda es el valor que más que más se repite del
conjunto de observaciones, pudiendo haber más de una moda (bimodal o multimodal). ***
En una curva de distribución normal coinciden la media, la mediana y la moda.
2. ¿En qué consiste el análisis bivariado? ¿Cuáles son las principales técnicas de
análisis?
El análisis bivariante de datos involucra una familia de estadísticos cuya pertinencia está
condicionada por el nivel de medición (Stevens, 1946) de las variables involucradas.
Los paramétricos agrupan el caso de las variables con nivel de medición de intervalo o
superior, distribución normal bivariada y n> 30.
Los no paramétricos son el resto de las pruebas de correlación que no cumplen con los
supuestos de las pruebas paramétricas; lo cual, les permite agrupar los estadísticos de
contingencia y de correlación para variables con nivel de medición inferior a intervalo. En
cualquier caso, el interés fundamental es construir un índice que permita determinar la
magnitud y dirección de la relación entre las variables.
El análisis bivariado diseña tablas con tabulaciones cruzadas, es decir, las categorías de una
variable se cruzan con las categorías de una segunda variable. Se les conoce como tablas de
contingencia. Los requisitos que debe cubrir son:
- Análisis de Regresión.
Es la técnica adecuada si en el análisis hay una o varias variables dependientes
métricas cuyo valor depende de una o varias variables independientes métricas.
- Análisis de Supervivencia.
Es similar al análisis de regresión, pero con la diferencia de que la variable
independiente es el tiempo de supervivencia de un individuo u objeto.
- Análisis de la varianza.
Se utilizan en situaciones en las que la muestra total está dividida en varios grupos
basados en una o varias variables independientes no métricas y las variables
dependientes analizadas son métricas. Su objetivo es averiguar si hay diferencias
significativas entre dichos grupos en cuanto a las variables dependientes se refiere.
- Correlación Canónica.
Su objetivo es relacionar simultáneamente varias variables métricas dependientes
e independientes calculando combinaciones lineales de cada conjunto de variables
que maximicen la correlación existente entre los dos conjuntos de variables.
Dependencia no métrica.
- Análisis Discriminante.
Esta técnica proporciona reglas de clasificación óptimas de nuevas observaciones
de las que se desconoce su grupo de procedencia basándose en la información
proporcionada por los valores que en ella toman las variables independientes.
El objetivo del análisis discriminante es, por tanto, identificar cuáles son las
características distintivas de los individuos en cada grupo y, posteriormente, poder
utilizarlas para estimar el grupo al que pertenecen otros individuos de los que se
conocen dichas características, pero no su grupo de pertenencia.
Este método de análisis permite, en primer lugar, determinar cuáles son las
variables (de entre una serie de variables seleccionadas previamente por el
investigador) que mejor explican la pertenencia de un individuo a un determinado
grupo.
En segundo lugar, también permite determinar el grupo al que pertenecerá un
individuo pendiente de clasificación sobre la base de las respuestas de dicho
individuo a las variables que más explican la pertenencia a cada grupo.
Es una técnica muy potente puesto que permite considerar muchas variables de
forma simultánea.
- Análisis Conjoint.
Es una técnica que analiza el efecto de variables independientes no métricas sobre
variables métricas o no métricas. La diferencia con el Análisis de la Varianza
radica en dos hechos: las variables dependientes pueden ser no métricas y los
valores de las variables independientes no métricas son fijadas por el analista. En
otras disciplinas se conoce con el nombre de Diseño de Experimentos.
Métodos de interdependencia
Estos métodos no distinguen entre variables dependientes e independientes y su objetivo
consiste en identificar qué variables están relacionadas, cómo lo están y por qué.
Se pueden clasificar en dos grandes grupos según los tipos de datos que analicen, que al igual
que en los métodos de dependencia, pueden ser métricos o no métricos.
Dependencia métrica.
- Análisis Cluster.
Su objetivo es clasificar una muestra de entidades (individuos o variables) en un
número pequeño de grupos de forma que las observaciones pertenecientes a un
grupo sean muy similares entre sí y muy distintas del resto. A diferencia del
Análisis Discriminante se desconoce el número y la composición de dichos
grupos. Precisamente, es la utilización de escalamiento multidimensional, así
como del análisis cluster, lo que permite dar respuesta a esas dos incógnitas.
Dependencia no métrica.
- Análisis de Correspondencias.
Se aplica a tablas de contingencia multidimensionales y persigue un objetivo
similar al de las escalas multidimensionales, pero representando simultáneamente
las filas y columnas de las tablas de contingencia.
- Modelos log-lineales.
Se aplican a tablas de contingencia multidimensional y modelizan relaciones de
dependencia multidimensional de las variables observadas que buscan explicar las
frecuencias observadas.
Modelos estructurales
Suponen que las variables están divididas en dos grupos: el de las variables dependientes y el
de las independientes. El objetivo de estos métodos es analizar, no sólo cómo las variables
independientes afectan a las variables dependientes, sino también cómo están relacionadas las
variables de los dos grupos entre sí.
Las expresiones para el cálculo de los elementos que intervienen en el Anova son las
siguientes:
Media Global:
Variación Total:
Variación Intra-grupos:
Variación Inter-grupos:
Cuando la hipótesis nula es cierta SCE/K-1 y SCD/n-K son dos estimadores insesgados de la
varianza poblacional y el cociente entre ambos se distribuye según una F de Snedecor con K-
1 grados de libertad en el numerador y N-K grados de libertad en el denominador. Por lo
tanto, si H0 es cierta es de esperar que el cociente entre ambas estimaciones será
aproximadamente igual a 1, de forma que se rechazará H0 si dicho cociente difiere
significativamente de 1.
Ejemplo
Solución
Planteamiento de la hipótesis.
Del planteamiento del contraste anterior se deduce que las hipótesis a contrastar para analizar
si existen diferencias entre los k grupos son:
H0 : µ0 = µ1 = µ2 = µ3 = µ4 = µ5 →β
Fexpt = QE/k − 1
QD/n – k
a) Datos necesarios
k=5
n = n1 + n1 + n2 + n3 + n4 + n5 = 60
b) Requisitos
Las hipótesis necesarias para poder llevar a cabo un análisis ANOVA son:
Normalidad de los datos en cada una de las clases, se verifica mediante un contraste
de bondad de ajuste a una variable normal. En este caso se debería utilizar un K − S
de Kolmogorov-Smirnov a partir de la hipótesis H0 = Los datos del nivel i se ajustan
a la distribución normal para cada clase al no aparecer implícito en el enunciado (en
caso de resolución para el examen se asume por simplicidad en la resolución y por la
escasez de tiempo).
Homogeneidad de varianzas, debemos analizar si las varianzas son homogéneas
(parecidas) y esto lo hacemos a partir de un contraste de homogeneidad de varianzas
como la M de Bartlett para datos no balanceados o la G de Cochran para datos
balanceados.
Como en este caso los datos son balanceados se desarrollará la G de Cochran en su versión
resumida. En este contraste las hipotesis se definen como:
H0 : σ 2 1 = σ 2 2 = σ 2 3 = σ 2 4 = σ 2 5 →β
Por tanto, no se puede demostrar que exista heterogeneidad de varianzas al no rechazar H0.
(En este caso se cumple el requisito de Homogeneidad de varianzas)
a) ANOVA
Conclusión
Se rechaza H0 y por lo tanto al menos algunas de las clases son diferentes entre sí (existen
diferencias en los resultados para las dosis aplicadas). Es decir, existe al menos una dosis
que tiene resultados diferentes a las demás. Como lo interesante una vez comprobado H0
es averiguar cuál o cuáles son diferentes y en qué sentido para detectar si alguna de las
dosis es más efectiva se debe desarrollar un contraste a posteriori con objeto de identificar
las diferencias ya detectas (pero no identificadas) en el análisis de ANOVA.
5. Para cada una de las siguientes pruebas, explique su significado, indique la fórmula
para su cálculo y señale un ejemplo de aplicación práctica.
Covarianza.
Coeficiente de correlación de Pearson.
- Covarianza
Es una prueba estadística que analiza la relación entre una variable dependiente y dos
o más independientes, removiendo y controlando el efecto de al menos una de estas
independientes. El análisis de covarianza es apropiado para lograr dos objetivos
específicos: eliminar cualquier error sistemático fuera del control del investigador que
puede sesgar los resultados y tener en cuenta las diferencias en las respuestas debidas
a las características propias de los encuestados.
Covarianza (X,Y) es menor que cero cuando “X” sube e “Y” baja. Hay una relación
negativa.
Covarianza (X,Y) es mayor que cero cuando “X” sube e “Y” sube. Hay una relación
positiva.
Formula
Formula
Donde “x” es igual a la variable número uno, “y” pertenece a la variable número dos,
“zx” es la desviación estándar de la variable uno, “zy” es la desviación estándar de la
variable dos y “N” es es número de datos.
Cuando el valor de alguna variable es alto, el valor de la otra variable es bajo. Mientras más
próximo se encuentre a -1, más clara será la covariación extrema. Si el coeficiente es igual a
-1, nos referimos a una correlación negativa perfecta.
Correlación mayor a cero: Si la correlación es igual a +1 significa que es positiva perfecta.
En este caso significa que la correlación es positiva, es decir, que las variables se
correlacionan directamente.
Cuando el valor de una variable es alto, el valor de la otra también lo es, sucede lo mismo
cuando son bajos. Si es cercano a +1, el coeficiente será la covariación.
Cuando las variables son independientes significa que esta se encuentra correlacionadas, pero
esto no significa que el resultado sea verdadero.
La prueba de Chi cuadrado utiliza una aproximación a la distribución Chi cuadrado, para
evaluar la probabilidad de una discrepancia igual o mayor que la que exista entre los datos y
las frecuencias esperadas según la hipótesis nula. La exactitud de esta evaluación depende de
que los valores esperados no sean muy pequeños, y en menor medida de que el contraste
entre ellos no sea muy elevado.
Formula
Ejemplo.
Supongamos que un investigador está interesado en evaluar la asociación entre uso de
cinturón de seguridad en vehículos particulares y el nivel socioeconómico del conductor del
vehículo. Con este objeto se toma una muestra de conductores a quienes se clasifica en una
tabla de asociación, encontrando los siguientes resultados:
¿Permiten estos datos afirmar que el uso del cinturón de seguridad depende del nivel
socioeconómico? Usaremos un nivel de significación alfa=0,05.
Los pasos del análisis estadístico en este caso son los siguientes:
En esta prueba estadística siempre la hipótesis nula plantea que las variables analizadas son
independientes.
Estas son las frecuencias que debieran darse si las variables fueran independientes, es decir, si
fuera cierta la hipótesis nula.
Estas son las frecuencias que debieran presentarse si la hipótesis nula fuera verdadera y, por
consiguiente, las variables fueran independientes.
Estos valores los anotamos en una tabla con las mismas celdas que la anterior; así tendremos
una tabla con los valores observados y una tabla con los valores esperados, que anotaremos
en cursiva, para identificarlos bien.
En este caso, el estadístico de prueba es Ji-cuadrado que, como dijimos al comienzo, compara
las frecuencias que entregan los datos de la muestra (frecuencias observadas) con las
frecuencias esperadas, y tiene la siguiente fórmula cálculo:
De este modo el valor del estadístico de prueba para este problema será:
Entonces Este es el valor de nuestro estadístico de prueba que ahora, siguiendo el
procedimiento de problemas anteriores (paso 4), debemos comparar con un valor de la tabla
de probabilidades para ji-cuadrado (x2). Esta tabla es muy parecida a la tabla t de student,
pero tiene sólo valores positivos porque ji-cuadrado sólo da resultados positivos. Véase
gráfico 1, que muestra la forma de la curva, con valores desde 0 hasta infinito.
Grafico 1
Dado que el estadístico ji cuadrado sólo toma valores positivos, la zona de rechazo de la
hipótesis nula siempre estará del lado derecho de la curva.
La tabla de ji-cuadrado tiene en la primera columna los grados de libertad y en la primera fila
la probabilidad asociada a valores mayores a un determinado valor del estadístico (véase
gráfico de la tabla III).
Los grados de libertad dependen del número de celdas que tiene la tabla de asociación donde
están los datos del problema y su fórmula de cálculo es muy sencilla:
gl=(2-1)x(3-1)=2
Por lo tanto, como en el gráfico 2 vemos que 5,23 se encuentra a la izquierda de 5,99, la
probabilidad asociada a valores superiores a 5,23 es mayor que alfa (0,05).
Grafico 2
Según esto, debemos aceptar la hipótesis nula que plantea que las variables “uso de cinturón
de seguridad” y “nivel socioeconómico” son independientes. Limitación: como norma
general, se exige que el 80% de las celdas en una tabla de asociación tengan valores
esperados mayores de 5.
gl = df = (n – 1)
Si pudiera expresar en un cierto número de pasos para resolver un problema de t de student
tendría que declarar los siguientes:
Paso 1. Plantear las hipótesis nulas (H0) y la hipótesis alternativa (H1). La hipótesis
alternativa plantea matemáticamente lo que queremos demostrar, en tanto que la hipótesis
nula plantea exactamente lo contrario.
Se considera un nivel alfa de: 0.05 para proyectos de investigación; 0.01 para aseguramiento
de la calidad; y 0.10 para estudios o encuestas de mercadotecnia.
Paso 4. Se aplica la distribución T de Student para calcular la probabilidad de error por medio
de la fórmula general presentada al principio y se contrasta con el valor T obtenido de la tabla
correspondiente.
Por supuesto que al final lo que tenemos que contrastar es el valor de T que hayamos
obtenido en el problema contra el valor T crítico que obtenemos de la tabla de T de Student.
Si el resultado del problema cae en la región de H0 se acepta ésta, de lo contrario se rechaza.
Por supuesto, si rechazas H0 aceptarás H1.
En la gráfica precedente se aprecian las regiones de aceptación y de rechazo con respecto a
H0.
Ejemplo
Se aplica una prueba de autoestima a 25 personas quienes obtienen una calificación promedio
de 62.1 con una desviación estándar de 5.83. Se sabe que el valor correcto de la prueba debe
ser mayor a 60. ¿Existe suficiente evidencia para comprobar que no hay problemas de
autoestima en el grupo seleccionado?
H1 > 60;
H0 =< 60.
El resultado de la ecuación es 1.8. Dado que 1.8 es mayor que 1.7109 cae en la región de H1
y se acepta la hipótesis alternativa. Si buscamos el valor de 1.8 bajo la curva normal
encontraremos que es de 0.0359 el cual es menor que 0.05. La conclusión es que no hay
problemas de autoestima en el grupo estudiado. Esto con el diseño de la investigación
presentado.
Ejemplo
Suponga que Ud. tiene una técnica que puede modificar la edad a la cual los niños comienzan
a hablar. En su localidad, el promedio de edad en la cual un niño emite su primera palabra es
de 13.0 meses. No se conoce la desviación estándar poblacional. Usted aplica dicha técnica a
una muestra aleatoria de 15 niños. Los resultados arrojan que la edad media muestral en la
que se pronuncia la primera palabra es de 11.0 meses, con una desviación estándar de 3.34.
Pruebe la hipótesis de que la técnica afecta la edad en que los niños empiezan a hablar con un
nivel de significancia alfa del 0.05.
Aquí las preguntas de la investigación serían ¿Cuáles son las hipótesis nulas y la alternativa?
y si con el procesamiento estadístico se puede afirmar que la técnica es efectiva para
modificar la edad en que los niños empiezan a hablar.
Hipótesis nula: La técnica no afecta la edad en que los niños comienzan a hablar,
matemáticamente sería, H0 = 13.0
Hipótesis alternativa: La técnica afecta la edad en que los niños comienzan a hablar,
matemáticamente sería, H1 ≠ 13.0
La prueba t de wilcoxon
Denominada por algunos como Prueba del signo de las categorías, ya que no sólo establece
las diferencias para cada par de observaciones, sino que las clasifica, aspecto éste que se tiene
en cuenta en la prueba del signo, por tal razón se le considera de mayor eficacia entre las
pruebas no paramétricas. Esta prueba fue establecida por Frank Wilcoxon en el año de 1945.
Muestras Pequeñas
Veamos primero el procedimiento que se sigue en muestras pequeñas para pares igualados.
Nota: Vale la pena anotar que algunos autores consideran una muestra
pequeña cuando n < 50 y grande cuando n > 50.
Con una T0, 05 =14 quiere decir que aceptamos a Ho, a1 nivel del 5%. Concluyendo que la
actitud de los padres frente al problema escolar no difiere.
Si se hubiese presentado el caso en que T < T0, 05 estaríamos rechazando a H0, al nivel del
5%, concluyendo que la actitud de los padres, frente al problema escolar de sus hijos difiere
en forma significativa.
Muestra Grande
Observemos que el valor de T = 27. Además, como n > 25, la distribución muestral de T es
aproximadamente normal (recordemos que algunos la consideran así cuando n > 50),
procedemos a calcular la media y la varianza de T, cuando n = 26, de la siguiente manera:
En consecuencia, la variante estadística Z, está dada por la siguiente formula:
Prueba U de Mann-whitney
Es la prueba más aplicada, dentro de las distribuciones no paramétricas, debido a que toma
la mayor in- formación que poseen los datos, haciéndola mucho más eficiente que las otras
pruebas, sobre todo cuando se seleccionan dos conjuntos aleatorios e independientes, en tal
forma que se puedan ordenar por rangos. Tiene un proceso de cálculo muy parecido al
utilizado en la Prueba del signo, siendo usada para probar si dos grupos muéstrales
proceden de una misma población.
Muestras Grandes
U (n1 n2 / 2)
Z
n1 n2 (n1 n2 1)
12
Cuando las dos muestras son menores de 8, (muy pequeñas), no se debe aplicar el método
para muestras pequeñas que se explica a continuación, siendo necesario utilizar
procedimientos y tablas diferentes a las anteriores.
Ahora, si una de las dos muestras tiene un tamaño mayor o igual a 9, se procede a la
siguiente forma:
Ahora se tiene un tercer caso, cuando ninguna de las n1 y n2 son mayores a 8, consideradas
a la vez como muestras muy pequeñas, para ello se utiliza la Tabla XIII y el procedimiento
a seguir se explica mediante el desarrollo de un ejercicio tomado como modelo.
Obtenido de https://psicologiaymente.com/miscelanea/prueba-chi-cuadrado
Obtenido de http://www.samiuc.es/estadisticas-variables-binarias/valoracion-inicial-
pruebas-diagnosticas/chi-cuadrado/
Obtenido de
http://bibing.us.es/proyectos/abreproy/11162/fichero/Proyecto+Manuel+Sosa
%252FCap%C3%ADtulo+7.pdf+
Obtenido de http://www.ciberconta.unizar.es/leccion/anamul/inicio.html
Obtenido de http://www.ub.edu/aplica_infor/spss/cap4-7.htm
Obtenido de https://rua.ua.es/dspace/bitstream/10045/25453/6/ANOVA-resuelto.pdf
Obtenido de https://www.medwave.cl/link.cgi/Medwave/Series/MBE04/5266