Teoria Estadistica

TEORIA ESTADISTICA:
Conceptos Estadsticos:
Poblacin: es el conjunto de elementos u objetos que satisfacen una definicin comn y

en los que interesa analizar una o varias caractersticas observables y medibles.
Muestra: es un subconjunto de unidades de anlisis de una poblacin dada, destinado a

suministrar informacin sobre la poblacin.
Parmetro: caracterstica que se desea conocer en la poblacin, tales como: una

proporcin, una media; suele representarse por la letra griega .
X 1, X 2 , , X n ))para
Estimador: funcin matemtica (aplicada a una muestra (
X 1, X 2 , . , X n
predecir(estimar) el valor de un parmetro, ^ = ).
f
Estimacin: valor que toma el estimador para una muestra concreta.
Muestra aleatoria: dada una poblacin N , se llama aleatoria de tamao n a la

X 1, X 2 , , X n
representacin de variables aleatorias independientes con igual
distribucin, y denotada por ( X 1, X 2 , . , X n ) .
Estadsticos descriptivos:
Las medidas de centralizacin, de posicin y de dispersin se tomaran en cuenta para la

realizacin del anlisis de los datos en la investigacin los cuales se definen a
continuacin.
Media aritmtica
Definicin: es una medida de tendencia central que se obtiene por la suma de todas las
puntuaciones de un grupo de datos dividida por el nmero de datos.
Formula de la media cuando los datos no agrupados:

N
xi
X = i=1
N
Donde: N es el total de dato.
Frmula de la media para datos agrupados:

k
x i ni
X = i=1
N
Dnde:
ni es la frecuencia de datos
xi y N = ni . Si los datos estn agrupados
i=1
xi ci
en clases de frecuencia, tenemos que la expresin anterior cambiamos por
que es el punto medio de la clase o intervalo y tenemos k intervalos.
Mediana
Definicin: la mediana es una medida de tendencia central, que divide en dos partes
iguales a un conjunto de datos previamente ordenados. Es la puntuacin del dato que
deja por encima y por debajo de s el 50% de los casos.
X 1 , X 2 ,. . . , X n
Sean los datos de una muestra ordenada creciente y designando la
~
mediana como X , se distinguen dos casos:
Si n es impar la mediana se define como:
~
X= X (n+ 1)
2
(n+1)
Donde 2 representa la posicin del valor que se encuentra a la mitad del
conjunto de datos.
Si n es par la mediana se define como:
X
n
( 2 + X n +1 )
2
2
~
X=
X
n
( 2 + X n +1 )
Donde 2 representa las posiciones de los valores que se
2

encuentran a la mitad del conjunto de datos.
Desviacin estndar de una muestra:
La desviacin estndar de un conjunto de valores mustrales, es la media de desviacin

de los valores con respecto a la media. Es un tipo de desviacin promedio de los valores
con respecto a la media.
X 1 , X 2 ,. . . , X n los valores mustrales, la desviacin estndar:

Sean

n
1
S= ( X i X )2
n i=1
Donde n, es la muestra total
(X i X )2 Desviacin de los datos con respecto a la media aritmtica.
Varianza de una muestra:
Definicin: numricamente definimos la varianza, como desviacin cuadrtica media de

los datos con respecto a la media aritmtica.
Frmula para datos no agrupados:

N
( x i X )2
S 2= i=1
N
Frmula para datos agrupados:

m
( x i X )2 ni
S 2= i=1
N
m es el nmero de datos deferente y ni x i . Si

Donde la frecuencia del dato
x i por
tenemos los datos agrupados en intervalos, en la expresin anterior cambiamos
c i que es el punto medio de la clase o intervalo y tenemos m intervalos.
Coeficiente de variacin (C.V):
Definicin: el coeficiente de variacin es lo que nos permite evitar estos problemas, pues
elimina la dimencionalidad de las variables y tiene en cuenta la proporcin existente entre
medias y desviacin tpica.
Se define como
S
CV = 100
|X |
Donde
S es la desviacin estndar de una muestra
|X | Valor absoluto de la media aritmtica.
Anlisis de varianza (Anova)
El anlisis de varianza (Anova) es una tcnica utilizada para el anlisis de datos de los
diseos experimentales. Este anlisis se utiliza cuando se quieren contrastar ms de dos
medias y es una extensin de la prueba t de student para diferencia de dos medias. A la
variable categrica que define los grupos se le llama Variable Independiente (VI), y a la
variable cuantitativa en donde se har la comparacin de grupos se le llama Variable
Dependiente (VD).
Supuestos para el ANOVA de un factor
Las observaciones dentro de cada poblacin estn distribuidas normalmente con
una varianza comn 2 .

La hiptesis es que si las medias poblacionales de la VD son iguales, nos indica
que los grupos no difieren en la VD y que en consecuencia, la VI o factores
independiente de la VD.
Para poner a prueba dicha hiptesis de igualdad de medias, se tiene que obtener un
estadstico F de Snedecor para comparar el parecido que existe entre las medias que se
estn comprobando. La ecuacin para obtener el estadstico F es la siguiente:
MSA
F=
MSE
Donde MSA es cuadrado medio entre grupo y el MSE es el cuadrado medio dentro de
grupos.
El MSA es una estimacin de la varianza poblacional que se basa en la variabilidad
Que existe entre las medias de cada grupo, mientras que el MSE tambin es una
estimacin de la varianza poblacional, pero esta se basa en la variabilidad que existe
dentro de cada grupo.
Los pasos para realizar la prueba ANOVA son los siguientes:

H 0 ) y la hiptesis alternativa (
1) Establecer las hiptesis; indicando la hiptesis nula (
H 1 ).
2) Especificar los supuestos que se van a asumir, incluyendo supuestos de distribucin,

muestreo, informacin conocida, etc.
Las variables aleatorias observadas son mutuamente independientes.

Todas las variables aleatorias observadas tienen la misma desviacin tpica.
Toda variable aleatoria observada se distribuye normalmente.
3) Elegir un estadstico crtico apropiado.
F calculado como el cociente de MSA y MSE, se distribuye segn el

El estadstico
modelo de probabilidad F de Snedecor, el cual se encuentra en la tabla de Fisher (los
grados de libertad del numerador son el nmero de grupos menos 1; del denominador, el
nmero total de observaciones menos el nmero de grupos).
4) Establecer una regla de decisin, basada en el nivel de significancia ( ) especfico
que se adopte. Usualmente se utiliza = 5% = 1%
As para un nivel de significancia se tiene:
F> F se rechaza H 0 (las medias de los grupos no son iguales)

Si
F> F no se rechaza H 0 (las medias de los grupos son iguales)

Si
5) Calcular, segn la frmula indicada, el valor del estadstico de contraste. El estadstico

de prueba es:
MSA
F=
MSE
Para determinar el estadstico de contraste en el Anlisis de Varianza (ANOVA) se

resumen los procesos en una tabla ANOVA, la cual se muestra a continuacin:
TABLA: ANOVA de un factor

Fuente de Suma de Grados de Cuadrado F Significanci
Variacin Cuadrados Libertad Medio a
Entre grupos SSA K-1 MSA MSA P-valor

F0 =
MSE
Dentro SSE N-K MSE
grupos
Total SST N-1
6) Adoptar la decisin y establecer la conclusin.
El valor del estadstico de contraste se compara con el estadstico crtico, si es mayor se

rechaza la hiptesis nula y se establece la conclusin adecuada a las hiptesis
presentadas.
El Anlisis de Varianza se implementar en el caso de verificarse normalidad, con el

objetivo
de establecer los tipos de consulta que presentan mayor y menor tiempo de espera y,
tambin identificar el mayor y el menor tiempo de consulta que reciben los usuarios;
adems de verificar cuales de los subprocesos despus de consulta presentan el mayor y
menor tiempo de espera.
Tablas de contingencia:
Una tabla de contingencia es una de las formas ms comunes de resumir datos

categricos. En general, el inters se centra en estudiar si existe alguna asociacin entre
una variable fila y otra variable columna y/o calcular la intensidad de dicha asociacin.
Sean X e Y dos variables categricas con I y J categoras respectivamente.
Un sujeto puede venir clasificado en una de las IJ categoras, que es el nmero

posible de categoras que existen.
Cuando las casillas de la tabla contienen las frecuencias observadas, la tabla se

denomina tabla de contingencia, trmino que fue introducido por Pearson en 1904.
Una tabla de contingencia(o tabla de clasificacin cruzada), con I filas y J
columnas se denomina una tabla IJ .
Consideremos una poblacin (o una muestra) compuesta por N individuos sobre los que
se pretende analizar simultneamente dos atributos o factores (variables cuantitativas).
A 1 , , A h , y por B 1 , , B k , las h y k modalidades del factor A y del
Designemos por
nij
factor B respectivamente, y por el nmero de individuos que presentan a la vez las
Ai B j . La tabla estadstica que describe estos N individuos,

modalidades y
denominada tabla de contingencia, ser una tabla de doble entrada como la siguiente:
A ,B
B1 B2 . .. Bj . .. Bk ni .
A1 n11 n12 . .. n1 j . .. n1 k n1
A2 n21 n22 . .. n2 j . .. n2 k n2
: : : : : : :
Ai ni 1 ni 2 . .. nij . .. nik ni
: : : : : : :
Ah nh 1 nh 2 . .. nhj ... nhk nh
n .j n .1 n .2 . .. n .j ... n .k n ..
2
Prueba de Chi Cuadrada ( x )
La prueba de ji cuadrada (chi-cuadrado, X 2 ) es el procedimiento de eleccin para el
contraste de hiptesis. Esta prueba estadstica se emplea en el anlisis de dos o ms

grupos y de dos o ms variables.
2
La prueba de independencia de ji-cudrado (chi-cuadrado, X ) contrasta la hiptesis de
que las variables son independientes, frente a la hiptesis alternativa de que una variable
se distribuye de modo diferente para los diversos niveles de otra.
Requisitos:
Muestras independientes
Las variables son cualitativas o categricas
Las mediciones de la variable estn en escala Nominal
Las categoras de cada una de las variables son mutuamente excluyentes.
2
El valor del estadstico X se podr aproximar por una distribucin Chi-
cuadrado cuando el tamao muestral n sea grande(n<30), y todas las frecuencias
esperadas sean iguales o mayores a 5 (en ocasiones debemos agrupar varias
categoras a fin de que se cumpla este requisito.)
Las observaciones son obtenidas mediante muestreo aleatorio a partir de una
poblacin particionada en categoras.
La prueba de la Probabilidad Exacta de FISHER
el test exacto de Fisher permite analizar si dos variables dicotmicas estn asociadas
cuando la muestra a estudiar es demasiado pequea y no se cumple las condiciones
necesarias para que la aplicacin del test X2 sea adecuada. Lleva el nombre de su
inventor Ronal Fisher, y es una clase de pruebas de pruebas exactas, llamadas as
porque el significado de la desviacin de la hiptesis nula se puede calcular con exactitud,
en lugar de basarse en una aproximacin que se hace exactamente en el limite el tamao
de la muestra crece hasta el infinito, como otros anlisis estadsticos.
Analisis Cluster
Concepto: el termino anlisis cluster se utiliza para definir una serie de tcnicas,
fundamentalmente algoritmos, que tienen por objeto la bsqueda de grupos similares de
individuos o de variables que se van agrupando en conglomerados. Dada una muestra de
individuos o de variables que se van agrupando en conglomerados. Dada una muestra de
individuos, da cada uno de los cuales se dispone de una serie de observaciones, el
anlisis cluster sirve para clasificarlos en grupos lo ms homogneos posible en base a
las variables observadas. Los individuos que clasificados en el mismo grupo sern tan
similares como sea posible.
El anlisis cluster es un mtodo estadstico multivariante de clasificacin automtica de

datos. A partir de una tabla de casos-variables, trata de situar los casos (individuos) en
grupos homogneos, conglomerados o clusters, no conocidos de antemano pero
sugeridos por la propia esencia delos datos, de manera que individuos que pueden ser
considerados similares sean asignados a un mismo cluster, mientras que individuos
diferentes (disimilaridades) se localicen en clusters distintos. El anlisis clusters define
grupos tan distintos como sea posible en funcin de los propios datos.
Existen dos grandes tipos de anlisis de clusters: aquellos que asignan los casos a
grupos diferenciados que el propio anlisis configura, sin que unos dependan de otros, se
conocen como no jerrquicos, y aquellos que configuran grupos con estructura
arborescente, de forma que clusters de niveles ms bajos van siendo englobados en
otros de niveles superiores, se denomina jerrquicos.
Anlisis discriminante:
El anlisis discriminante es una tcnica estadstica que permite asignar o clasificar nuevos
individuos dentro de grupos previamente reconocidos o definidos. El anlisis discriminante
se conoce en ocasiones como anlisis de la clasificacin, ya que su objetivo fundamental
es producir una regla o un esquema de clasificacin que permita a un investigados
predecir la poblacin a la que es ms probable que tenga que pertenecer una nueva
observacin (supuestas conocidas varias poblaciones a las que puedan pertenecer las
observaciones).
El anlisis parte de una tabla de datos de n individuos en que se han medido p variables
cuantitativas independientes o explicativas como perfil de cada uno de ellos. Una
variable cualitativa adicional (independiente o clasificativa), con dos (o ms) categoras,
ha definido por otros medios el grupo a que cada individuo pertenece. A partir de esta
variable cualitativa se obtendr un modelo matemtico discriminante contra el cual ser
contrastado el perfil de un nuevo individuo cuyo grupo se desconoce para, en funcin de
un resultado numrico, ser asignado al grupo ms probable. Cuanto mejor sea la
informacin de partida ms fiable ser el resultado de asignaciones posteriores.
El anlisis discriminante persigue explicar la pertenencia de cada individuo original a uno

u otro grupo preestablecido, en funcin de las variables de su perfil, y a la vez que
cuantificar el peso de cada una de ellas en la discriminacin. Por otro lado, el anlisis
discriminante persigue predecir a qu grupo ms probable habr de pertenecer un nuevo
individuo del que nicamente se conoce su perfil de variables. La variable categrica
grupo es lo que se explica y lo que predice.
En la clasificacin discriminante hay dos enfoques. El primero de ellos est basado en la

obtencin de funciones discriminantes de clculo similar a las ecuaciones de regresin
lineal mltiple. El segundo emplea tcnicas de correlacin cannica y de componentes
principales y se denomina anlisis discriminante cannico. El primero es el ms comn y
su fundamento matemtico esta en conseguir, a partir de las variables explicativas, unas
funciones lineales de stas con capacidad para clasificar otros individuos. A cada nuevo
caso se aplican dichas ecuaciones, y la funcin de mayor valor define el grupo al que
pertenece.
Escalado multidimensional:
las tcnicas de escalado multidimensional son una generalizacin de la idea de

componentes principales cuando en lugar de disponer de una matriz de observaciones
por variables, como en componentes principales, se dispone de una matriz, D ,
cuadrada n n de distancias o disimilaridades entre los n candidatos polticos, las
diferencias entre n sectores industriales. Estas distancias pueden haberse obtenido a

partir de ciertas variables, o pueden ser el resultado de una estimacin directa, por
ejemplo preguntando a un grupo de jueces por sus opiniones sobre las sililaridades entre
los elementos considerados.
El objetivo que se pretende es representar esta matriz mediante un conjunto de variables

y 1 ,.. ., y p p<n
ortogonales , donde , de manera que las distancias eucldea entre las
coordenadas de los elementos respecto a estas variables sean iguales (o lo ms prximas
posibles) a las distancias o disimilaridades de la matriz original. Es decir, a partir de la
matriz D se pretende obtener una matriz X , de dimensiones n p, que pueda
interpretarse como la matriz de p variables en los n individuos, y donde la distancia
eucldea entre los elementos reproduzca, aproximadamente, la matriz de distancias D
inicial. Cuando p>2 , las variables pueden ordenarse en importancia y suelen hacerse
representaciones graficas en dos y tres dimensiones para entender la estructura

existente.
Los mtodos existentes se dividen en mtricos, cuando la matriz inicial es propiamente de

distancias, y no mtricos, cuando la matriz es de similaridades. Los mtodos mtricos,
tambin llamados coordenadas principales, utilizan las diferencias entre similitudes
mientras que los no mtricos parten de que si A es ms similar a B que a C , entonces
A est ms cerca de B que de C, pero las diferencias entre las similitudes AB y AC no
tienen interpretacin.
Coeficiente Alfa de Cronbach
Se trata de un ndice de consistencia interna que toma valores ente 0 y 1 y que sirve para
comprobar si el instrumento que se est evaluando recopila informacin defectuosa y por
tanto nos llevara a conclusiones equivocadas o si se tratara de un instrumento fiable que
hace mediciones estables y consistentes.
Alfa es por tanto un coeficiente de correlacin al cuadrado que, a grandes rasgos,

mide la homogeneidad de las preguntas promediando todas las correlaciones
entre todos los tems para ver que, efectivamente, se parecen.
Su interpretacin ser que, cuando se acerque el ndice al extremo1, mejor es la
fiabilidad respetable a partir de 0.80.
Su frmula estadstica es la siguiente:
[S
]
2
k
= 1 2 i
k1 ST
Dnde:
K: el nmero de tems
S 2i : Sumatoria de varianza de los tems
2
S T : Varianza dela suma de los tems
: Coeficiente de Alfa de Cronbach

Teoria Estadistica

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Teoria Estadistica

Cargado por

Copyright:

Formatos disponibles

TEORIA ESTADISTICA:

Poblacin: es el conjunto de elementos u objetos que satisfacen una definicin comn y

Muestra: es un subconjunto de unidades de anlisis de una poblacin dada, destinado a

Parmetro: caracterstica que se desea conocer en la poblacin, tales como: una

Estimacin: valor que toma el estimador para una muestra concreta.

Muestra aleatoria: dada una poblacin N , se llama aleatoria de tamao n a la

distribucin, y denotada por ( X 1, X 2 , . , X n ) .

Las medidas de centralizacin, de posicin y de dispersin se tomaran en cuenta para la

Formula de la media cuando los datos no agrupados:

Donde: N es el total de dato.

Frmula de la media para datos agrupados:

Si n es par la mediana se define como:

La desviacin estndar de un conjunto de valores mustrales, es la media de desviacin

X 1 , X 2 ,. . . , X n los valores mustrales, la desviacin estndar:

Donde n, es la muestra total

(X i X )2 Desviacin de los datos con respecto a la media aritmtica.

Varianza de una muestra:

Definicin: numricamente definimos la varianza, como desviacin cuadrtica media de

Frmula para datos no agrupados:

Frmula para datos agrupados:

m es el nmero de datos deferente y ni x i . Si

c i que es el punto medio de la clase o intervalo y tenemos m intervalos.

Coeficiente de variacin (C.V):

S es la desviacin estndar de una muestra

|X | Valor absoluto de la media aritmtica.

Anlisis de varianza (Anova)

Supuestos para el ANOVA de un factor

Las observaciones dentro de cada poblacin estn distribuidas normalmente con

una varianza comn 2 .

El MSA es una estimacin de la varianza poblacional que se basa en la variabilidad

Los pasos para realizar la prueba ANOVA son los siguientes:

2) Especificar los supuestos que se van a asumir, incluyendo supuestos de distribucin,

Las variables aleatorias observadas son mutuamente independientes.

3) Elegir un estadstico crtico apropiado.

F calculado como el cociente de MSA y MSE, se distribuye segn el

4) Establecer una regla de decisin, basada en el nivel de significancia ( ) especfico

que se adopte. Usualmente se utiliza = 5% = 1%

As para un nivel de significancia se tiene:

F> F se rechaza H 0 (las medias de los grupos no son iguales)

F> F no se rechaza H 0 (las medias de los grupos son iguales)

5) Calcular, segn la frmula indicada, el valor del estadstico de contraste. El estadstico

Para determinar el estadstico de contraste en el Anlisis de Varianza (ANOVA) se

TABLA: ANOVA de un factor

Entre grupos SSA K-1 MSA MSA P-valor

6) Adoptar la decisin y establecer la conclusin.

El valor del estadstico de contraste se compara con el estadstico crtico, si es mayor se

El Anlisis de Varianza se implementar en el caso de verificarse normalidad, con el

Una tabla de contingencia es una de las formas ms comunes de resumir datos

Sean X e Y dos variables categricas con I y J categoras respectivamente.

Un sujeto puede venir clasificado en una de las IJ categoras, que es el nmero

Cuando las casillas de la tabla contienen las frecuencias observadas, la tabla se

Una tabla de contingencia(o tabla de clasificacin cruzada), con I filas y J

columnas se denomina una tabla IJ .

Ai B j . La tabla estadstica que describe estos N individuos,

La prueba de ji cuadrada (chi-cuadrado, X 2 ) es el procedimiento de eleccin para el

contraste de hiptesis. Esta prueba estadstica se emplea en el anlisis de dos o ms

La prueba de la Probabilidad Exacta de FISHER

El anlisis cluster es un mtodo estadstico multivariante de clasificacin automtica de

El anlisis discriminante persigue explicar la pertenencia de cada individuo original a uno

En la clasificacin discriminante hay dos enfoques. El primero de ellos est basado en la

las tcnicas de escalado multidimensional son una generalizacin de la idea de

cuadrada n n de distancias o disimilaridades entre los n candidatos polticos, las

diferencias entre n sectores industriales. Estas distancias pueden haberse obtenido a