Métodos Estadísticos Utilizados para El Análisis de Información

UNIVERSIDAD NACIONAL EXPERIMENTAL DE GUAYANA
VICERRECTORADO ACADEMICO
COORDINACIN DE PREGRADO
PROYECTO DE CARRERA: INGENIERIA INDUSTRIAL
INVESTIGACION DE MERCADOS
SECCION: N 1
Mtodos Estadsticos Utilizados Para El

Anlisis De Informacin
Profesor(a)
Keyla Urbina
Integrantes:
CIUDAD GUAYANA, JUNIO DEL 2014
INDICE
INTRODUCCION
DESARROLLO
Mtodos estadsticos utilizados para el anlisis de informacin
Niveles de medicin
Tcnicas de anlisis estadstico
Prueba t de Student
Prueba X
Anlisis de la varianza (ANOVA)
U de Mann-Whitney
Anlisis de regresin
10
Anlisis de Regresin y Correlacin
11
Anlisis de Correlacin
12
Frecuencia estadstica
14
Anlisis de frecuencia acumulada
17
Test exacto de Fisher
18
Coeficiente de correlacin de Pearson
19
Coeficiente de correlacin de Spearman
21
Anlisis factorial exploratorio
23
Anlisis factorial confirmatorio
24
Grfica estadstica
CONCLUSION
29
BIBLIOGRAFIA
30
INTRODUCCION
La estadstica es la ciencia que nos ayuda en el anlisis e interpretacin de datos,

para darle sentidos a estos, es la herramienta fundamental en investigaciones
cientficas abarcando diferentes reas desde ciencias sociales a ciencias de salud y
control de calidad, estos son: Prueba t de Student, Prueba de , Anlisis de varianza
(ANOVA), U de Mann-Whitney, Anlisis de regresin, Correlacin, Iconografa de las
correlaciones, Frecuencia estadstica, Anlisis de frecuencia acumulada, Prueba
exacta de Fisher, Coeficiente de correlacin de Pearson, Coeficiente de correlacin de
Spearman, Anlisis factorial exploratorio, Anlisis factorial confirmatorio, Grfica
estadstica.
En el presente trabajo se explicaran cada una de estos mtodos para posteriormente
puedan ser utilizados en un caso de estudio.
Mtodos estadsticos utilizados para el anlisis de informacin

Los mtodos estadsticos tradicionalmente se utilizan para propsitos descriptivos (se
centran en recolectar datos que describan la situacin tal y como es), para organizar y
resumir datos numricos.
Un objetivo comn para un proyecto de investigacin estadstica es investigar la
causalidad (la coocurrencia de dos variables estadsticas correlacionadas), y en
particular extraer una conclusin en el efecto que algunos cambios en los valores de
predictores o variables independientes tienen sobre una respuesta o variables
dependientes.
Hay dos grandes tipos de estudios estadsticos para estudiar causalidad: estudios
experimentales y observacionales. En ambos tipos de estudios, el efecto de las
diferencias de una variable independiente (o variables) en el comportamiento de una
variable dependiente es observado. La diferencia entre los dos tipos es la forma en
que el estudio es conducido. Cada uno de ellos puede ser muy efectivo. Un estudio
experimental implica tomar mediciones del sistema bajo estudio, manipular el sistema
y luego tomar mediciones adicionales usando el mismo procedimiento para determinar
si la manipulacin ha modificado los valores de las mediciones. En contraste, un
estudio observacional no necesita manipulacin experimental. Por el contrario, los
datos son recogidos y las correlaciones entre predictores y la respuesta son
investigadas.
NIVELES DE MEDICIN
Son una sucesin de medidas que permiten organizar datos en orden jerrquico. Las
escalas de medicin, pueden ser clasificadas de acuerdo a una degradacin de las
caractersticas de las variables. Hay cuatro tipos de mediciones o escalas de medicin:
Escala Nominal: slo permite asignar un nombre al elemento medido. Esto la convierte
en la menos informativa de las escalas de medicin. Los siguientes son ejemplos de
variables con este tipo de escala: Nacionalidad, uso de anteojos, nmero de camiseta
en un equipo de ftbol, nmero de Cdula Nacional de Identidad.
A pesar de que algunos valores son formalmente numricos, slo estn siendo usados
para identificar a los individuos medidos.
Escala Ordinal: adems de las propiedades de la escala nominal, permite establecer

un orden entre los elementos medidos. Ejemplos de variables con escala ordinal:
Preferencia a productos de consumo, etapa de desarrollo de un ser vivo, clasificacin
de pelculas por una comisin especializada, madurez de una fruta al momento de
comprarla.
Escala de Intervalo: adems de todas las propiedades de la escala ordinal, hace que
tenga sentido calcular diferencias entre las mediciones.
Los siguientes son ejemplos de variables con esta escala: Temperatura de una
persona, ubicacin en una carretera respecto de un punto de referencia (Kilmetro 85
Ruta 5), sobrepeso respecto de un patrn de comparacin, nivel de aceite en el motor
de un automvil medido con una vara graduada.
Finalmente, la Escala de Razn permite, adems de lo de las otras escalas, comparar

mediciones mediante un cociente.
Algunos ejemplos de variables con la escala de razn son los siguientes: Altura de
personas, cantidad de litros de agua consumido por una persona en un da, velocidad
de un auto en la carretera, nmero de goles marcados por un jugador de bsquetbol
en un partido.
La escala de intervalo tiene un cero que se establece por convencin y puede tener
variaciones. Es arbitrario. Por otra parte, la escala de razn tiene un cero real, fijo, no
sujeto a variaciones; es propio de la medicin hecha.
TCNICAS DE ANLISIS ESTADSTICO
Prueba t de Student
Es un test que permite decidir si dos variables aleatorias normales (gausianas) y con la
misma varianza tienen medias diferentes. Dada la ubicuidad de la distribucin normal
o gausiana el test puede aplicarse en numerosos contextos, para comprobar si la
modificacin en las condiciones de un proceso (humano o natural) esencialmente
aleatorio produce una elevacin o disminucin de la media poblacional. El test opera
decidiendo si una diferencia en la media muestral entre dos muestras es
estadsticamente significativa, y entonces poder afirmar que las dos muestras
corresponden a distribuciones de probabilidad de media poblacional distinta, o por el
contrario afirmar que la diferencia de medias puede deberse a oscilaciones

estadsticas azarosas.
La eficacia del test aumenta con el nmero de datos del que constan las dos muestras,
en concreto del nmero de grados de libertad conjunto de las dos muestras, este
nmero viene dado por:
GL = N1 + N2 2, Siendo Ni el tamao muestral, es decir, el nmero de datos en cada
muestra i.
La prueba consiste en examinar el estadstico t obtenido a partir de la dos muestras
como:
Y este valor se compara con un valor de referencia basado en el nmero de grados de

libertad y el nivel de significacin. Dicho valor de referencia se obtiene a partir de la
distribucin t de Student.
Al comparar las 2 medias, frecuentemente siempre se supone que el nivel de
significacin sea menor que 0,05.
Prueba X
Se denomina prueba X (pronunciado como "ji-cuadrado" y a veces como "chicuadrado") a cualquier prueba en la que el estadstico utilizado sigue una distribucin
si la hiptesis nula es cierta.
La prueba de Pearson es considerada como una prueba no paramtrica que mide
la discrepancia entre una distribucin observada y otra terica (bondad de ajuste),
indicando en qu medida las diferencias existentes entre ambas, de haberlas, se
deben al azar en el contraste de hiptesis. Tambin se utiliza para probar la
independencia de dos variables entre s, mediante la presentacin de los datos
en tablas de contingencia.
La frmula que da el estadstico es la siguiente:
Cuanto mayor sea el valor de
, menos verosmil es que la hiptesis sea correcta.
De la misma forma, cuanto ms se aproxima a cero el valor de chi-cuadrado, ms

ajustadas estn ambas distribuciones.
Los grados de libertad gl vienen dados por:
gl= (r-1)(k-1). Donde r es el nmero de filas y k el de columnas.
Criterio de decisin:
No se rechaza
cuando
. En caso contrario s se
rechaza.
Donde t representa
el
valor
proporcionado
por
las
tablas,
segn
el
nivel
de significacin estadstica elegido.
Anlisis de la varianza (anova)

ANLISIS DE LA VARIANZA CON UN FACTOR (ANOVA)
El anlisis de la varianza permite contrastar la hiptesis nula de que las medias de K
poblaciones (K >2) son iguales, frente a la hiptesis alternativa de que por lo menos
una de las poblaciones difiere de las dems en cuanto a su valor esperado. Este
contraste es fundamental en el anlisis de resultados experimentales, en los que
interesa comparar los resultados de K 'tratamientos' o 'factores' con respecto a la
variable dependiente o de inters.
El Anova requiere el cumplimiento los siguientes supuestos:

Las poblaciones (distribuciones de probabilidad de la variable dependiente
correspondiente a cada factor) son normales.
Las K muestras sobre las que se aplican los tratamientos son independientes.
Las poblaciones tienen todas igual varianza (homoscedasticidad).
El ANOVA se basa en la descomposicin de la variacin total de los datos con

respecto a la media global (SCT), que bajo el supuesto de que H0 es cierta es una
estimacin de
obtenida a partir de toda la informacin muestral, en dos partes:
Variacin dentro de las muestras (SCD) o Intra-grupos, cuantifica la dispersin

de los valores de cada muestra con respecto a sus correspondientes medias.
Variacin entre muestras (SCE) o Inter-grupos, cuantifica la dispersin de las
medias de las muestras con respecto a la media global.
L as expresiones para el clculo de los elementos que intervienen en el Anova son las
siguientes:
Media Global
Variacin Total
Variacin Intra-grupos
Variacin Inter-grupos
Siendo xij el i-simo valor de la muestra j-sima; nj el tamao de dicha muestra y su

media.
Cuando la hiptesis nula es cierta SCE/K-1 y SCD/n-K son dos estimadores
insesgados de la varianza poblacional y el cociente entre ambos se distribuye segn
una F de Snedecor con K-1 grados de libertad en el numerador y N-K grados de
libertad en el denominador. Por lo tanto, si H0 es cierta es de esperar que el cociente
entre ambas estimaciones ser aproximadamente igual a 1, de forma que se
rechazar H0 si dicho cociente difiere significativamente de 1.
U de Mann-Whitney
Es una prueba no paramtrica de comparacin de dos muestras independientes,

debe cumplir las siguientes caractersticas:
Es libre de curva, no necesita una distribucin especfica
Nivel ordinal de la variable dependiente
Se utiliza para comparar dos grupos de rangos (medianas) y determinar que la
diferencia no se deba al azar (que la diferencia sea estadsticamente significativa).
En estadstica la prueba U de Mann-Whitney es una prueba no paramtrica aplicada a

dos muestras independientes. Es, de hecho, la versin no paramtrica de la
habitual prueba t de Student.
Fue propuesto inicialmente en 1945 por Frank Wilcoxon para muestras de igual
tamaos y extendido a muestras de tamao arbitrario como en otros sentidos
por Henry B. Mann y D. R. Whitney en 1947.
Frank Wilcoxon fue un qumico y estadstico estadounidense conocido por el desarrollo
de diversas pruebas estadsticas no paramtricas. Naci el 2 de septiembre de 1892
en Cork, Irlanda, aunque sus padres eran estadounidenses.
Planteamiento de prueba.
La prueba de Mann-Whitney se usa para comprobar la heterogeneidad de dos
muestras ordinales. El planteamiento de partida es:
1. Las observaciones de ambos grupos son independientes
2. Las observaciones son variables ordinales o continuas.
3. Bajo la hiptesis nula, la distribucin de partida de ambos grupos es la misma
y,
4. Bajo la hiptesis alternativa, los valores de una de las muestras tienden a
exceder a los de la otra: P(X > Y) + 0.05 P(X = Y) > 0.05.
Calculo estadstico
Para calcular el estadstico U se asigna a cada uno de los valores de las dos muestras
su rango para construir
Donde n1 y n2 son los tamaos respectivos de cada muestra; R1 y R2 es la

suma de los rangos de las observaciones de las muestras 1 y 2
respectivamente.
El estadstico U se define como el mnimo de U1 y U2.
Los clculos tienen que tener en cuenta la presencia de observaciones idnticas a

la hora de ordenarlas. No obstante, si su nmero es pequeo, se puede ignorar
esa circunstancia.
Anlisis de regresin
En estadstica, el anlisis de regresin es un proceso estadstico para la estimacin

de relaciones entre variables. Incluye muchas tcnicas para el modelado y anlisis de
diversas variables, cuando la atencin se centra en la relacin entre una variable
dependiente y una o ms variables independientes. Ms especficamente, el anlisis
de regresin ayuda a entender cmo el valor tpico de la variable dependiente cambia
cuando cualquiera de las variables independientes es variada, mientras que se
mantienen las otras variables independientes fijas. Ms comnmente, el anlisis de
regresin estima la esperanza condicional de la variable dependiente dadas las
variables independientes - es decir, el valor promedio de la variable dependiente
cuando se fijan las variables independientes. Con menor frecuencia, la atencin se
centra en un cuantil, u otro parmetro de localizacin de la distribucin condicional de
la variable dependiente dadas las variables independientes. En todos los casos, el
objetivo es la estimacin de una funcin de las variables independientes llamada
la funcin de regresin. En el anlisis de regresin, tambin es de inters para
caracterizar la variacin de la variable dependiente en torno a la funcin de regresin
que puede ser descrito por una distribucin de probabilidad.
El anlisis de regresin es ampliamente utilizado para la prediccin y previsin, donde
su uso tiene superposicin sustancial en el campo de aprendizaje automtico. El
anlisis de regresin se utiliza tambin para comprender que cuales de las variables
independientes estn relacionadas con la variable dependiente, y explorar las formas
10
de estas relaciones. En circunstancias limitadas, el anlisis de regresin puede

utilizarse para inferir relaciones causales entre las variables independientes y
dependientes. Sin embargo, esto puede llevar a ilusiones o falsas relaciones, por lo
que se recomienda precaucin, 1 por ejemplo, la correlacin no implica causalidad.
Modelos de regresin
Regresin simple: interviene una sola variable independiente.
Regresin mltiple: interviene dos o ms variables independientes.
Regresin lineal: la funcin es una combinacin lineal de los parmetros.
Regresin no lineal: la funcin que relaciona los parmetros no es una combinacin
lineal.
En trminos generales, el anlisis de Regresin trata sobre el estudio de la
dependencia de un fenmeno econmico respecto de una o varias variables
explicativas, con el objetivo de explorar o cuantificar la media o valor promedio
poblacional de la primera a partir de un conjunto de valores conocidos o fijos de la/s
segunda/s.
La forma ms intuitiva de formarse una primera impresin sobre el tipo de

relacin que existe entre dos variables es a travs del Diagrama de Dispersin.
Un diagrama de dispersin es un grfico en el que una de las variables (Xi) se coloca

en el eje de las abscisas y la otra (Yi) en el eje de las ordenadas y los pares de
puntuaciones de cada sujeto (xi,yi) se representan como una nube de puntos.
Anlisis de Regresin y Correlacin
El anlisis de regresin consiste en emplear mtodos que permitan determinar la
mejor relacin funcional entre dos o ms variables concomitantes (o relacionadas). El
anlisis de correlacin estudia el grado de asociacin de dos o ms variables.
Anlisis de Regresin
Una relacin funcional matemticamente hablando, est dada por:
Y = f(x1,...,xn; 1,...,m)
11
Donde:
Y : Variable respuesta (o dependiente)
xi : La i-sima variable independiente (i=1,..,n)
j : El j-simo parmetro en la funcin (j=1,..,m)
f : La funcin
Para elegir una relacin funcional particular como la representativa de la poblacin

bajo investigacin, usualmente se procede:
1) Una consideracin analtica del fenmeno que nos ocupa, y
2) Un examen de diagramas de dispersin.
Una vez decidido el tipo de funcin matemtica que mejor se ajusta (o representa
nuestro concepto de la relacin exacta que existe entre las variables) se presenta el
problema de elegir una expresin particular de esta familia de funciones; es decir, se
ha postulado una cierta funcin como trmino del verdadero estado en la poblacin y
ahora es necesario estimar los parmetros de esta funcin (ajuste de curvas).
Como los valores de los parmetros no se pueden determinar sin errores por que los
valores observados de la variable dependiente no concuerdan con los valores
esperados, entonces la ecuacin general replanteada, estadsticamente, sera:
Y = f(x1,...xn;1,...,m) +
Donde representa el error cometido en el intento de observar la caracterstica en
estudio, en la cual muchos factores contribuyen al valor que asume .
Anlisis de Correlacin
El anlisis de correlacin emplea mtodos para medir la significacin del grado o
intensidad de asociacin entre dos o ms variables. El concepto de correlacin est
estrechamente vinculado al concepto de regresin, pues, para que una ecuacin de
12
regresin sea razonable los puntos mustrales deben estar ceidos a la ecuacin de
regresin; adems el coeficiente de correlacin debe ser:
- grande cuando el grado de asociacin es alto (cerca de +1 o -1, y pequeo cuando
es bajo, cerca de cero.
- independiente de las unidades en que se miden las variables.
La iconografa de las correlaciones, uno de los mtodos de anlisis de datos,

consiste en reemplazar una matriz de correlacin por un esquema o grafo donde las
correlaciones notables son representadas por un trazo continuo (correlacin
positiva), o un trazo punteado (correlacin negativa).
A partir de un cuadro de datos (por ejemplo, una hoja de clculo) que contiene
columnas (variables) y lneas (observaciones de estas variables), la iconografa
de las correlaciones elimina las falsas buenas correlaciones entre estas variables,
esto es, las que se deben a una tercera variable, y detecta las correlaciones
enmascaradas. El esquema final, que presenta solo los vnculos directos entre las
variables cualitativas y\o cuantitativas, es un medio de percibir de una ojeada lo
esencial, sobre una figura nica, quitando las redundancias.
Qu es una correlacin notable?

Una correlacin no tiene sentido aisladamente. Recprocamente una correlacin
escasa no implica la ausencia de vnculo.
Ejemplo 1 : las variables A y C se correlacionan fuertemente porque sus
variaciones son vinculadas las dos a una variable X. En realidad no hay vnculo
AC, sino un vnculo XA y un vnculo XC. En otros trminos, la correlacin entra
A y C es redundante, y desaparece, cuando X es mantenido constante
(hablamos de correlacin parcial escasa con relacin a X). Lo deducimos el
esquema de las solas correlaciones notables:
13
Ejemplo 2: la variable Y depende de varias variables C, D, E, F y G

independientes. Tambin la correlacin de Y con cada una de ellas,
consideradas por separado, es escasa (no "significativa" con sentido
probabilista del trmino). En realidad, existen unos vnculos rigurosos CY, DY,
EY, FY y GY. Lo deducimos el esquema de las correlaciones notables:
Frecuencia estadstica:
Se denomina frecuencia a la cantidad de veces que se repite un determinado valor de
la variable.
Ejemplo: una profesora en su informe anual, sealar que para el curso de 35
alumnos, la frecuencia de notas es la siguiente.
Estos valores se suelen representar con histogramas y diagramas de Pareto.

Histogramas: es una representacin grfica de una variable en forma de barras, donde
la superficie de cada barra es proporcional a la frecuencia de los valores
representados, ya sea en forma diferencial o acumulada.
14
Diagramas de Pareto: tambin llamado curva cerrada o Distribucin A-B-C, es una

grfica para organizar datos de forma que estos queden en orden descendente, de
izquierda a derecha y separados por barras. Permite, pues, asignar un orden de
prioridades.
El diagrama permite mostrar grficamente el principio de Pareto (pocos vitales,
muchos triviales), es decir, que hay muchos problemas sin importancia frente a unos
pocos muy importantes. Mediante la grfica colocamos los "pocos que son vitales" a la
izquierda y los "muchos triviales" a la derecha.
Tipos de frecuencias estadsticas:
La frecuencia absoluta (fi) es el nmero de veces que aparece un

determinado valor en un estudio estadstico.
La suma de las frecuencias absolutas es igual al nmero total de datos, que se
representa por N.
Frecuencia absoluta acumulada (Ni)
Es el nmero de veces ni en la muestra de N, con un valor igual o menor al de la

variable. La ltima frecuencia absoluta acumulada deber ser igual a N.
Frecuencia relativa es el cociente entre la frecuencia absoluta de un

determinado valor y el nmero total de datos.
Se puede expresar en tantos por ciento y se representa por ni.
La suma de las frecuencias relativas es igual a 1.
15
Frecuencia relativa acumulada (Fi)

Es el cociente entre la frecuencia absoluta acumulada y el nmero total de
datos, N. Es decir, Fi = Ni / N.
De la tabla, se puede observar que se han agregado tres columnas, estas son:
Frecuencia absoluta acumulada Ni, que permite ver los totales parciales acumulados al
final de cada fila, lo que determina las cantidades de alumnos que hay hasta ese
rango. Luego, las columnas de Frecuencia relativa fi, muestra los datos en tanto por
ciento de ocurrencia para cada rango. Y finalmente la Frecuencia relativa acumulada
Fi, muestra la acumulacin en tanto por ciento de ocurrencia para cada rango.
Grficos de Frecuencias
Adems de las tablas mostradas, los datos pueden ser mostrados de manera grfica.
As, el siguiente grfico de torta muestra la frecuencia absoluta de la tabla 1:
16
Tambin se puede mostrar la frecuencia absoluta y la frecuencia absoluta acumulada

como un grfico de lnea:
Anlisis de frecuencia acumulada

La frecuencia acumulada o frecuencia acumulativa es la frecuencia de ocurrencia de
valores de un fenmeno menores que un valor de referencia. El fenmeno puede ser
una variable aleatoria que varia en el tiempo o en el espacio. La frecuencia acumulada
se llama tambin frecuencia de noexcedencia. El anlisis de la frecuencia acumulada
se hace con el propsito de obtener una idea de cuantas veces ocurrira un cierto
fenmeno lo que puede ser instrumental en describir o explicar una situacin en la cual
el fenmeno juega un papel importante, o en planificar intervenciones, por ejemplo en
el control de inundaciones
El anlisis de la frecuencia acumulada se aplica a una coleccin de datos observados
de un fenmeno (X). La coleccin puede ser en dependencia del tiempo (por ejemplo
la lluvia medida en un sitio) o del espacio (por ejemplo cosechas de cultivos en el
rea), o puede tener otra dependencia.
La frecuencia acumulada es la frecuencia estadstica F(XXr) con que el valor de un
variable aleatoria (X) es menor que o igual a un valor de referencia (Xr).
La frecuencia acumulada relativa se deja escribir como Fc(XXr), o en breveFc(Xr), y
se calcula de:
Fc (Xr) = MXr / N
17
Donde MXr es el nmero de datos X con un valor menor que o igual a Xr, y N es
nmero
total
de
los
datos.
En breve se escribe:
Fc = M / N
Cuando Xr=Xmin, donde Xmin es el valor mnimo observado, se ve que Fc=1/N,

porque M=1. Por otro lado, cuando Xr=Xmax, donde Xmax es el valor mximo
observado, se ve que Fc=1, porque M=N.
En porcentaje la ecuacin es:
Fc(%) = 100 M / N
Test exacto de Fisher

Es una prueba de significacin estadstica utilizada en el anlisis de tablas de
contingencia. Aunque en la prctica se emplea cuando los tamaos de muestra son
pequeos, tambin es vlido para todos los tamaos de muestra. Lleva el nombre de
su inventor, Ronald Fisher, y es una de una clase de pruebas exactas, llamadas as
porque el significado de la desviacin de la hiptesis nula se puede calcular con
exactitud, en lugar de basarse en una aproximacin que se hace exactamente en el
lmite el tamao de la muestra crece hasta el infinito, como con muchos otros anlisis
estadsticos. Fisher se dice que ha ideado la prueba despus de un comentario de
Muriel Bristol, que deca ser capaz de detectar si el t o la leche se haban aadido
primero en su taza.
Objeto y mbito de aplicacin
La prueba es til para los datos categricos que resultan de clasificar los objetos en
dos formas diferentes, se utiliza para examinar la significacin de la asociacin (de
contingencia) entre los dos tipos de clasificacin. As en el ejemplo original de Fisher,
uno de los criterios de clasificacin podra ser si la leche o el t fueron puestos en la
copa primero, y el otro podra ser si el Dr. Bristol piensa que la leche o el t se puso
primero. Queremos saber si estas dos clasificaciones estn asociadas, es decir, si el
Dr. Bristol puede realmente decir si la leche o el t se vierte en el primero. La mayora
de los usos de la prueba de Fisher implican, como en este ejemplo, una tabla de 22
18
de contingencia. El valor de p de la prueba se calcula como si los mrgenes de la tabla

son fijos, es decir, como si, en el ejemplo de degustacin de t, el Dr. Bristol sabe el
nmero de tazas con cada tratamiento (leche o t primero) y por lo tanto proporcionar
conjeturas con el nmero correcto en cada categora. Como se ha sealado por
Fisher, esto conduce bajo una hiptesis nula de independencia a una distribucin
hipergeomtrica de los nmeros en las celdas de la tabla.
Coeficiente de correlacin de Pearson

En estadstica, el coeficiente de correlacin de Pearson es una medida de la relacin
lineal entre dos variables aleatorias cuantitativas. A diferencia de la covarianza, la
correlacin de Pearson es independiente de la escala de medida de las variables.
De manera menos formal, podemos definir el coeficiente de correlacin de Pearson
como un ndice que puede utilizarse para medir el grado de relacin de dos variables
siempre y cuando ambas sean cuantitativas. Los rangos de valor van de +1 a -1, lo
que indica una perfecta relacin linear positiva y negativa respectivamente entre
ambas variables. El clculo del coeficiente de correlacin normalmente se realiza con
programas de estadstica, como SPSS y SAS, para dar los valores posibles ms
precisos en estudios cientficos. Su interpretacin y uso vara de acuerdo con el
contexto y propsito del respectivo estudio en donde se calcula.
En el caso de que se est estudiando dos variables aleatorias x e y sobre una
poblacin estadstica; el coeficiente de correlacin de Pearson se simboliza con la letra
, siendo la expresin que nos permite calcularlo:
Donde:
es la covarianza de
es la desviacin tpica de la variable
es la desviacin tpica de la variable
19
De manera anloga podemos calcular este coeficiente sobre un estadstico muestral,

denotado como
a:
Interpretacin
Varios grupos de puntos (x, y), con el coeficiente de correlacin para cada grupo.
Ntese que la correlacin refleja la no linealidad y la direccin de la relacin lineal. En
la figura del centro, la varianza de y es nula, por lo que la correlacin es
indeterminada.
El valor del ndice de correlacin vara en el intervalo [-1,1]:
Si r = 1, existe una correlacin positiva perfecta. El ndice indica una

dependencia total entre las dos variables denominada relacin directa: cuando
una de ellas aumenta, la otra tambin lo hace en proporcin constante.
Si 0 < r < 1, existe una correlacin positiva.
Si r = 0, no existe relacin lineal. Pero esto no necesariamente implica que las

variables son independientes: pueden existir todava relaciones no lineales
entre las dos variables.
Si -1 < r < 0, existe una correlacin negativa.
Si r = -1, existe una correlacin negativa perfecta. El ndice indica una

dependencia total entre las dos variables llamada relacin inversa: cuando una
de ellas aumenta, la otra disminuye en proporcin constante.
Ejemplos de diagramas de dispersin con diferentes valores del coeficiente de

correlacin ()
20
Coeficiente de correlacin de Spearman

Este coeficiente se emplea cuando una o ambas escalas de medidas de las
variables son ordinales, es decir, cuando una o ambas escalas de medida son
posiciones. Ejemplo: Orden de llegada en una carrera y peso de los atletas.
Se calcula aplicando la siguiente ecuacin:
Nota: Los datos hay que traducirlos u ordenarlos en rangos. A los puntajes ms
elevados le asignamos el rango 1 al siguiente el rango 2 y as sucesivamente. Si se
repiten dos puntajes o ms se calculan las medias aritmticas.
Ejemplo ilustrativo: La siguiente tabla muestra el rango u orden obtenido en la
primera evaluacin (X) y el rango o puesto obtenido en la segunda evaluacin (Y) de
8 estudiantes universitarios en la asignatura de Estadstica. Calcular el coeficiente de
correlacin por rangos de Spearman.
Estudiante
X Y
Dyana
Elizabeth
Mario
Orlando
Mathas
Josu
21
Anita
Luca
Solucin:
Para calcular el coeficiente de correlacin por rangos de Spearman de se llena la
siguiente tabla:
Se aplica la frmula:
Por lo tanto existe una correlacin positiva moderada entre la primera y segunda
evaluacin de los 8 estudiantes.
La interpretacin de coeficiente de Spearman es igual que la del coeficiente de

correlacin de Pearson. Oscila entre -1 y +1, indicndonos asociaciones negativas o
positivas respectivamente, 0 cero, significa no correlacin pero no independencia.
22
Anlisis factorial exploratorio

El anlisis factorial exploratorio es una forma de anlisis de los factores que hace
hincapi en "explorar" un conjunto de datos para las relaciones entre las variables. Lo
que un investigador encuentra a travs de un anlisis factorial exploratorio puede
ayudar al investigador en el desarrollo de un modelo o un conjunto de hiptesis sobre
las variables de inters en los datos. Un aspecto importante del anlisis factorial
exploratorio es su capacidad para tomar grandes conjuntos de variables y los reduce a
un conjunto de nuevas variables, conocidos como "factores", que pueden desempear
el papel de un conjunto nuevo y ms pequeo de variables para estudios posteriores.
Anlisis factorial exploratorio: tcnica
El procedimiento bsico del anlisis factorial exploratorio es ingresar una serie de

datos, ejecutar el modelo del factor comn (un modelo que permite que las variables
se combinen y formen factores) y girar la solucin de manera que sea fcilmente
interpretable. La parte de este procedimiento que es de mayor inters es la rotacin,
que es el trabajo ms importante en la extraccin de factores, en la que el investigador
rota la solucin para producir un resultado lgico.
Modelo de anlisis factorial exploratorio
23
Anlisis factorial confirmatorio

El anlisis factorial confirmatorio es una forma especial de anlisis factorial en la que
el investigador usa su modelo como base para los factores finales. Su propsito es
confirmar o refutar el modelo del investigador. Para completar un anlisis factorial
confirmatorio,
el
investigador
debe
desarrollar
un
modelo
las
hiptesis
correspondientes antes de realizar el anlisis de los datos. Este modelo relaciona las
variables de inters entre ellas; las hiptesis deben posicionar qu tan fuertemente
estn relacionadas estas variables. La meta final de un anlisis factorial confirmatorio
es confirmar o refutar estas hiptesis y el modelo en s observando cmo se
conforman en el resultado del anlisis. Aunque el anlisis factorial confirmatorio puede
parecer complicado al principio, es un proceso bastante sencillo y lineal de hecho.
Modelo de Anlisis factorial confirmatorio
Grfica estadstica
Las representaciones grficas deben conseguir que un simple anlisis visual ofrezca
la mayor informacin posible. Segn el tipo del carcter que estemos estudiando,
usaremos una representacin grfica u otra. Segn sea la variable, los grficos ms
utilizados son:
24
Diagramas de barra.
Es un tipo de grfico estadstico que se utiliza para variables cualitativas y discretas.
En el eje X se sitan:
Las modalidades de la variable cualitativa.
Los valores de la variable cualitativa discreta.
Y sobre ellos se levantan barras cuya altura sea proporcional a sus frecuencias. Si
se unen los extremos superiores de las barras con una lnea poligonal se obtiene el
polgono de frecuencias
Ejemplo: Un estudio hecho en un conjunto de 25 personas con objeto de

determinar su grupo sanguneo ha conducido a los siguientes resultados:
Diagramas de sectores.
Es un grfico empleado fundamentalmente para variables cualitativas. Las
modalidades se representan en un crculo dividido en sectores. La amplitud de cada
sector, en grados, se obtiene multiplicando la frecuencia relativa de cada modalidad o
valor por 360.
Ejemplo: Un estudio hecho entre 100 alumnos universitarios elegidos al azar

sobre el nmero de das a la semana que practican alguna actividad fsica
viene dada por la siguiente tabla:
25
Histogramas.
Se utiliza con variables continuas, o agrupadas en intervalos, representando en el
eje X los intervalos de clase y levantando rectngulos de base la longitud de los
distintos intervalos y de altura tal que el rea sea proporcional a las frecuencias
representadas.
El polgono de frecuencias se obtiene uniendo los puntos medios de las bases
superiores de los rectngulos.
Los histogramas permiten compara datos de una forma rpida (basta mirar la
grfica)
Ejemplo: El peso de un grupo de alumnos aparece recogido en las siguiente

tabla:
26
Cartograma.
Son grficos realizados sobre mapas, en los que aparecen indicados sobre las
distintas zonas cantidades o colores de acuerdo con el carcter que representan.
En el siguiente cartograma observamos la urbanizacin en el mundo atendiendo a la
industrializacin.
27
Mixtos
Un caso particular de aplicacin de los histogramas y los polgonos de frecuencias
es el climograma, que representa la marcha anual de las temperaturas y de las lluvias
medias, sobre un mismo sistema de coordenadas.
Veamos un ejemplo:
Pictogramas.
Son grficos con dibujos alusivos al carcter que se est estudiando y cuyo tamao
es proporcional a la frecuencia que representan; dicha frecuencia se suele
representar.
Ejemplo: hemos representado el nmero de partidos ganados, perdidos o

empatados de un equipo.
28
CONCLUSIONES
Los tipos de estudio para estudiar causalidad son estudios

experimentales y observacionales y cada uno de ellos puede ser muy
efectivo.
Hay cuatro tipos de mediciones o escalas de medicin: ordinal, nominal,
de intervalo y de razn las cuales pueden ser utilizadas de acuerdo a la
propiedad de los datos.
En las tcnicas de anlisis estadsticos se puede analizar como se
relacionan dos variables, o un dato en un conjunto de datos llamado
muestra, adems que existen mtodos grficos para entender como se
comportan ciertos valores a travs del tiempo u otra variable de la que
dependan.
De acuerdo a la investigacin que se vaya a realizar, se debe estudiar
cuales de las tcnicas deben usarse para que las conclusiones de dicha
investigacin sean las mas acercadas a la realidad.
29
BIBLIOGRAFIA
http://es.wikipedia.org/wiki/Estad%C3%ADstica#Bibliograf.C3.ADa
http://www.escolares.net/matematicas/frecuencia-estadistica/
30

Métodos Estadísticos Utilizados para El Análisis de Información

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Métodos Estadísticos Utilizados para El Análisis de Información

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD NACIONAL EXPERIMENTAL DE GUAYANA

Mtodos Estadsticos Utilizados Para El

CIUDAD GUAYANA, JUNIO DEL 2014

Anlisis de la varianza (ANOVA)

Anlisis de Regresin y Correlacin

Anlisis de frecuencia acumulada

Test exacto de Fisher

Coeficiente de correlacin de Pearson

Coeficiente de correlacin de Spearman

Anlisis factorial exploratorio

Anlisis factorial confirmatorio

La estadstica es la ciencia que nos ayuda en el anlisis e interpretacin de datos,

Mtodos estadsticos utilizados para el anlisis de informacin

Escala Ordinal: adems de las propiedades de la escala nominal, permite establecer

Finalmente, la Escala de Razn permite, adems de lo de las otras escalas, comparar

contrario afirmar que la diferencia de medias puede deberse a oscilaciones

Y este valor se compara con un valor de referencia basado en el nmero de grados de

Cuanto mayor sea el valor de

, menos verosmil es que la hiptesis sea correcta.

De la misma forma, cuanto ms se aproxima a cero el valor de chi-cuadrado, ms

de significacin estadstica elegido.

Anlisis de la varianza (anova)

El Anova requiere el cumplimiento los siguientes supuestos:

El ANOVA se basa en la descomposicin de la variacin total de los datos con

obtenida a partir de toda la informacin muestral, en dos partes:

Variacin dentro de las muestras (SCD) o Intra-grupos, cuantifica la dispersin

Siendo xij el i-simo valor de la muestra j-sima; nj el tamao de dicha muestra y su

Es una prueba no paramtrica de comparacin de dos muestras independientes,

En estadstica la prueba U de Mann-Whitney es una prueba no paramtrica aplicada a

Donde n1 y n2 son los tamaos respectivos de cada muestra; R1 y R2 es la

El estadstico U se define como el mnimo de U1 y U2.

Los clculos tienen que tener en cuenta la presencia de observaciones idnticas a

En estadstica, el anlisis de regresin es un proceso estadstico para la estimacin

de estas relaciones. En circunstancias limitadas, el anlisis de regresin puede

La forma ms intuitiva de formarse una primera impresin sobre el tipo de

Un diagrama de dispersin es un grfico en el que una de las variables (Xi) se coloca

Para elegir una relacin funcional particular como la representativa de la poblacin

La iconografa de las correlaciones, uno de los mtodos de anlisis de datos,

Qu es una correlacin notable?

Ejemplo 2: la variable Y depende de varias variables C, D, E, F y G

Estos valores se suelen representar con histogramas y diagramas de Pareto.

Diagramas de Pareto: tambin llamado curva cerrada o Distribucin A-B-C, es una

Tipos de frecuencias estadsticas:

La frecuencia absoluta (fi) es el nmero de veces que aparece un

Frecuencia absoluta acumulada (Ni)

Es el nmero de veces ni en la muestra de N, con un valor igual o menor al de la

Frecuencia relativa es el cociente entre la frecuencia absoluta de un

Se puede expresar en tantos por ciento y se representa por ni.

La suma de las frecuencias relativas es igual a 1.

Frecuencia relativa acumulada (Fi)

Tambin se puede mostrar la frecuencia absoluta y la frecuencia absoluta acumulada

Anlisis de frecuencia acumulada

Cuando Xr=Xmin, donde Xmin es el valor mnimo observado, se ve que Fc=1/N,

Test exacto de Fisher

de contingencia. El valor de p de la prueba se calcula como si los mrgenes de la tabla

Coeficiente de correlacin de Pearson

es la desviacin tpica de la variable

es la desviacin tpica de la variable

De manera anloga podemos calcular este coeficiente sobre un estadstico muestral,

El valor del ndice de correlacin vara en el intervalo [-1,1]:

Si r = 1, existe una correlacin positiva perfecta. El ndice indica una

Si 0 < r < 1, existe una correlacin positiva.

Si r = 0, no existe relacin lineal. Pero esto no necesariamente implica que las