Está en la página 1de 88

ESTADSTICA

DESCRIPTIVA
DEFINICIONES BSICAS
ESTADSTICA

Parte de la matemticas que utiliza el


mtodo cientfico en la toma, recopilacin,
organizacin, presentacin y anlisis de
datos, tanto para la deduccin de
conclusiones, como para tomar decisiones
razonables de acuerdo con tales anlisis.
POBLACIN
Coleccin de datos que ataen a las
caractersticas de un grupo de individuos u
objetos. Por ejemplo: las alturas y los pesos
de los estudiantes de la Universidad
Tecnolgica.

La poblacin puede ser finita o infinita.


Poblacin Finita
Ejemplo: La Poblacin consistente en la
produccin de bombillos de una fabrica
en un da determinado.

Poblacin Infinita
Ejemplo: La poblacin formada por todos
los posibles sucesos caras o sellos
tiradas sucesivas de una moneda.
MUESTRA

Parte de la Poblacin. Por ejemplo: las


alturas y los pesos de los estudiantes
del grupo de Estadstica, como parte de
todos los estudiantes de la UTP.
ESTADSTICA
DESCRIPTIVA DEDUCTIVA

Parte de la Estadstica que trata


solamente de describir y analizar un
grupo dado sin sacar inferencias o
conclusiones de un grupo mayor.
CONCEPTOS
Variable
Smbolo tal como, x, y, w, z etc., que
puede tomar un valor cualquiera de un
conjunto determinado, llamado Dominio
de la variable.

Si la variable puede tomar slo un valor


se denomina constante.

Si la variable puede tomar tericamente


cualquier valor entre dos valores dados
se llama variable continua, si no es as
se llama variable discreta.
Variable

Por ejemplo: Si n es el nmero de hijos


3,5, 8 etc. Es una Variable Discreta, pero
si n es la altura de los hijos, que puede
ser 1,5m; 1,58m; 1,589m; etc. Depende
de la precisin de los datos, n es una
Variable continua.
Datos Continuos o
Discretos

Son los que se refieren a variables


continuas o variables discretas, las
medidas dan origen a datos continuos,
mientras que las enumeraciones o
conteos dan origen a datos discretos.
Redondeo de Datos
Consiste en aproximar un valor a su
entero o cifra decimal ms prxima.

Por ejemplo:
redondear 5,7 al entero ms prximo
es 6;
redondear 4,56 a su primera cifra
decimal es 4,6;
redondear 3,645 a su segunda cifra
decimal es 3,64; redondear 3,655 a su
segunda cifra decimal es 3,66.
Notacin Cientfica o
Sistemtica

Representa un nmero con un entero y


parte decimal completando su valor con
potencias de 10. Por ejemplo: 345,3
equivale a 3,453 x l10.
Cifras Significativas
Son las cifras dgitas exactas aparte de
los ceros a la izquierda, necesitadas para
determinar hasta el valor decimal.

Por ejemplo:
65,4 tiene 3 cifras significativas ya que
su valor exacto oscila entre 65,35 y
65,45;
4,5300 tiene 5 cifras significativas;
0,0118 = 1,18 x 10- que se puede
escribir 1,18e(-03).
Curvas y Representaciones

Una curva es una representacin grfica


de la relacin entre variables, en
Estadstica se emplean muchos tipos de
curvas que dependen de la naturaleza de
los datos y del propsito de presentacin
deseado.
Toma de datos
Es la obtencin de una coleccin de los
mismos sin ningn orden numrico.

Por ejemplo: Tomar los pesos de los


estudiantes del curso de Estadstica.
Ordenacin
Es una colocacin de los datos
numricos en orden creciente o
decreciente de magnitud.

La diferencia entre el mayor y el menor


de los datos se denomina Rango o
Recorrido.

Por ejemplo: Si el peso mayor de los


estudiantes es 79Kg y el peso menor es
30Kg, el Rango = 79Kg-30Kg = 49Kg
Distribuciones de
Frecuencia
Es la agrupacin que se hace de los
datos en intervalos de valores o clases,
determinando el nmero de datos
dentro de cada clase o intervalo.

Tambin se conoce como Tabla de


Frecuencia o Distribucin de
Frecuencias.
Distribuciones de
Frecuencia
Por ejemplo:

Estudiantes del curso de Estadstica


2semestre 2012

Pesos 30- 40- 50- 60- 70-


Kg. 39 49 59 69 79
Frecuenc 1 3 5 6 3
ia
Rango

Diferencia entre los datos de


mayor y menor valor tomados de
una poblacin.

Rango = Dato mayor Dato


menor
Intervalo de clase
Cada uno de los intervalos de la
distribucin, el cual se puede representar
mediante un smbolo tal como, 30-39, 40-
49, etc., donde los nmeros extremos 30,
39, son los lmites de clase inferior (LI) y
superior (LS) respectivamente para el
primer intervalo de clase, si el lmite
superior o inferior no est definido, el
intervalo de clase se conoce como
intervalo de clase abierto, por
ejemplo:

Intervalo de clase

IC = Rango /
Intervalos que se
desean
Lmite Real de Clase

Se obtiene de la semisuma de los lmites


superior e inferior de dos intervalos
contiguos.

Por ejemplo
Para el intervalo 40-49 tenemos, limite
inferior real de clase = (39+40)/2 =
39,5 LRI
y su lmite superior real de clase
(49+50)/2 = 49,5 LRS
Tamao o Ancho de Clase
Es la diferencia entre los lmites reales de
clase que lo forman.

C= LRS LRI
C= Xmi+1 (siguiente) Xmi (anterior)

Ejemplo: Tamao del intervalo o anchura


de clase del intervalo 40-49 es 49,5-39,5
= 10.

Si los intervalos de clase de una


Distribucin tienen igual anchura o
longitud, esta anchura de clase se
Marca de Clase (Xm)
Es el punto medio del intervalo de clase,
se obtiene de la semisuma de los lmites
superior e inferior de clase de un
intervalo.

Xm=(LI + LS)/2

Por ejemplo: para el intervalo de clase


40-49, su marca de clase estara en
(40+49)/2 = 44,5; se le denomina
tambin Punto medio de la clase
Histograma

Consiste en una serie de rectngulos que


tienen sus bases sobre un eje x
horizontal, con centro en sus Marcas de
clase, ancho igual al tamao de su
anchura de clase y su altura proporcional
a su Frecuencia, en donde el rea de cada
rectngulo sea equivalente a su
frecuencia de clase.
Polgono de Frecuencia
Es un grfico de lneas trazado sobre sus
Marcas de clase, puede obtenerse
uniendo los puntos medios de los techos
de los rectngulos en el Histograma.

Se acostumbra prolongar el Polgono


hasta las Marcas de clase del intervalo
imaginario a la izquierda y derecha de la
distribucin con frecuencia cero, en
donde el rea bajo la poligonal hasta el
eje x, es igual al rea de el Histograma.
Distribuciones de
Frecuencia Relativas

La Frecuencia relativa de una clase es la


frecuencia de la clase dividida por el total
de las Frecuencias de todas las clases y
se representa generalmente en
porcentajes.

FR = f/f
Distribuciones de
Frecuencia Relativas

Estudiantes del curso de Estadstica


2semestre 2012

Pesos Kg. 30-39 40-49 50-59 60-69 70-79


Frecuencia 1 3 5 6 3
F
F.Relativa 5,56% 16,67% 27,78% 33,33% 16,67%
F/N
Distribuciones de
Frecuencia Relativas
Porcentual

Es la frecuencia relativa multiplicada por


100.

FRP: FR *100
Distribuciones de
Frecuencia Acumulada
Ojiva (FAc)
Es la Frecuencia total de todos los valores
menores que el Lmite real superior de la
clase de un intervalo de clase dado as:
Estudiantes del curso de Estadstica 2semestre 2012
Pesos Kg. 30-39 40-49 50-59 60-69 70-79
Frecuenci 1 3 5 6 3
a
F.Acumul 1 4 9 15 18
ada
Es la misma
L.Real 39,5 frecuencia,
49,5 solo
69,5 que
59,5 79,5a la
Sup.
siguiente le va sumando la anterior.
Distribuciones de
Frecuencia Relativa
Acumulada Ojiva Porcentual
(FAcP)
Se obtiene dividiendo la Frecuencia
Acumulada entre la Frecuencia total.

FAcP = (FAc*100)/F
Estudiantes del curso de Estadstica 2semestre 2012
Pesos Kg. 30-39 40-49 50-59 60-69 70-79
Frecuencia 1 3 5 6 3
F.Acumula 1 4 9 15 18
da
L.Real 39,5 49,5 59,5 69,5 79,5
Sup.
F.Acu.Rela 5,56% 22,22% 50,00% 83,33% 100,00%
tiva
Distribuciones de
Frecuencia Acumulada Ojiva
Porcentual
Descendiente(FAcPD)
Se obtiene con la diferencia entre 100 y
la Frecuencia Acumulada Porcentual.

FAcPD = 100 - FAcP


Grfica Ojiva Porcentual
Menor Que

FAcP Vs. LRS

Grfica Ojiva Porcentual


Menor Que

FAcP Vs. LRI


MEDIDAS DE
TENDENCIA CENTRAL
Posicin
Media Aritmtica

Es la suma de todos los datos dividido


entre el total de datos, se lee como X
barra, as:.

X(barra)= Xi / N

Media Aritmtica

Si cada dato est afectado por una


frecuencia F, la media aritmtica se
considera Media Aritmtica
Ponderada y equivale a la suma de la
Frecuencia por cada dato dividido entre la
suma de todas las frecuencias que
equivale al total de los datos N, as:

(X barra) = fi xi/ fi
Propiedades de la
Media Aritmtica
a) La suma algebraica de las
desviaciones de un conjunto de
nmeros de su Media aritmtica es
cero, as en nuestro caso particular:

Desviacin = F*(xi - (x barra)) = 0


Propiedades de la
Media Aritmtica
b) La suma de los cuadrados de las
desviaciones de un conjunto de
nmeros xj de cualquier nmero A es
mnima, si solamente A es igual a (x
barra). As:

Dj(cuadrado) = F * (Xj-
(Xbarra))cuadrado:

Propiedades de la
Media Aritmtica
c. Si f1 nmeros tiene de media m1, f2
nmeros tienen de media m2, f3
nmeros tienen de media m3,
entonces la media de todos los
nmeros ser la media ponderada:

(X barra) = (Fi *Xi)/ Fi



Propiedades de la
Media Aritmtica
d. Si A es cualquier supuesta media
aritmtica que puede ser cualquier
nmero, y si Dj = xj-A, es decir, las
desviaciones de A, se puede
comprobar que:

(X barra) = A + (Fj Dj)/N = A +


(D barra)
Media Aritmtica Calculada
a partir de datos agrupados
MTODO CLAVE

Para datos agrupados, la marca de clase o


punto medio de cada intervalo se
considera como el punto donde caen
todos los valores de ese intervalo. Si
todos los intervalos de clase tienen igual
tamao C, las desviaciones Dj = xj-A,
pueden expresarse como C uj, donde uj
puede ser un nmero entero positivo,
negativo o cero, es decir, 0, +/-1, +/-2, +/-
Media Aritmtica Calculada
a partir de datos agrupados
MTODO CLAVE
(X barra) = a + (FjUj/Fj)*C por tanto:

(X barra) = a + (U barra)*C
Lo que se conoce como mtodo clave.

MTODO CLAVE
(X barra) = a + (U barra)*C

Donde:
a= Cualquier nmero que se quiera
escoger como la marca de clase
C= Tamao de clase
U(barra) = Promedio de U
U= Diferencias enteras entre cada
intervalo al intervalo donde est a. Se
escribe un 0 donde se escogi el intervalo.
MTODO CLAVE

(X barra) = a + (U barra)*C

U(barra) = (F*U)/N

MEDIANA

La mediana de una coleccin de datos


ordenados en orden de magnitud, es el
valor medio o la media aritmtica de los
valores medios.

La mediana divide a un Histograma en dos


reas del mismo tamao. Para datos
agrupados la Mediana se puede calcular
como:
MEDIANA
Mediana = LI+ ((N/2 -
Gi)/fm)*C
LI Es el Limite real inferior de la clase
donde est la Mediana
N El total de los datos, fi = N
Gi Es la frecuencia de las clases
anteriores a la clase Medianal.
Fm Frecuencia donde est la mediana.
C Es el ancho del intervalo de clase.
MODA
La Moda de una serie de nmeros es aquel
que se presenta con la mayor frecuencia,
es decir, es el valor ms comn, la Moda
puede no existir incluso si existe puede ser
nica.

Una Distribucin que tiene una sola Moda


se le denomina Unimodal, dos modas
Bimodal, etc.

En datos agrupados la Moda corresponde


al valor de x del mximo de la
distribucin, en una distribucin de
MODA

Moda = LI + (1/(1+2))*C
LI Es el Limite real inferior de la clase que tiene
la Moda (Clase Modal)
1 Diferencia de frecuencias del intervalo donde
est la moda, al intervalo anterior.
2 Diferencia de frecuencias del intervalo donde
est la moda, al intervalo posterior.
C Tamao del intervalo de clase modal.


RELACIN EMPRICA ENTRE
MEDIA, MEDIANA Y MODA

Media - Moda = 3*(Media -


Mediana)

Si Media Moda > 0 La curva es de sesgo


positivo, datos sesgados

Si Media Moda < 0 El sesgo es negativo, es


decir, el sesgo lo tienen los valores ms pequeos,
los datos ms regados al principio
MEDIA GEOMTRICA (G)
Es la raz ensima del producto de los nmeros xi:

G = raz n de (Productoria de x1, x2,


x3, , n)

Calculado por logaritmo, entonces


tenemos:

Ln(G) = (1/N) * (fi*ln(xi))


MEDIA ARMNICA (H)
Es el inverso del promedio de los inversos de los
datos.

H = 1/((1/xi)/N) = N/(1/xi)

1/H = (1/N)*((1/xi)

RAZ MEDIA CUADRTICA
(Rms)
Es la raz de (xi)elevado al cuadrado dividido
entre N; expresado as:

Rms = Raz de((xi)^2)/N)


CUANTILES
Cuantiles, Deciles y
Percentiles
Si una serie de datos se colocan en orden de
magnitud, el valor medio de la media aritmtica
de los dos valores medios que divide el conjunto
de datos en dos partes iguales es la Mediana.

Si se dividen los datos en cuatro partes iguales


seran cuartiles Q1, Q2, Q3, Q4 para sus partes de
menor a mayor respectivamente, donde Q2 =
Mediana.

Si dividimos los datos en 10 partes tendramos


Deciles, D1, D2, D3D9.

Si dividimos los datos en cien partes tendramos


Percentiles P1, P2, P3P99.
CUARTILES
Cuantiles, Deciles y
Percentiles
Entonces calculando los cuartiles tenemos:

Q1 = LRI + (((N/4) Gi)/F(Q1)) *C


Q3 = LRI + (((3N/4) Gi)/F(Q3)) *C

Donde F(Q1) es la frecuencia donde est ese


intervalo.

MEDIDAS DE
DISPERSIN O
Desviacin Tpica y otras Medidas de
VARIABILIDAD Dispersin
DESVIACIN MEDIA
Promedio de desviacin de una serie de n nmeros
x1, x2 hasta xn se define:
MD = (ABs(xj-(x barra))/N

Si los datos presentan frecuencias:

MD = fj ABS(xj-(x barra))/N

DESVIACIN MEDIA
La Md tambin se calcula como desviacin
absoluta de la Mediana, donde es mnima, tambin
se calcula de otros promedios:

MD = Meda Aritmtica de
ABS(xj-(x barra))


RANGO SEMI-
INTERCUARTLICO
Es la desviacin cuartlica de una serie de datos:

Q = (Q3-Q1)/2


RANGO ENTRE PERCENTILES
10-90
Rango Percentil 10-90 = P90-P10

Rango Semi Percentlico P10-90 =


* (P90-P10)

Donde P90 es el percentil 90 (90%) y


P10 es el percentil 10 (10%)
DESVIACIN TPICA (S)
Promedio de cada dato elevado al cuadro y
elevado la raz.

S = Raiz Cuadrada (D)/N = Raiz


C(D barra)

Donde D Xj- Xbarra

DESVIACIN TPICA (S) Para


Datos Agrupados
S = Raiz (fj D)/fj = Raiz (D
barra)
S es la raiz cuadrada del cuadrado medio de las
desviaciones a la media, o como a veces se le
llama raiz del cuadrado medio de las
desviaciones.
DESVIACIN TPICA (S) Para
Datos Agrupados

Recurdese que N = fj. Para muestras de una


poblacin se utiliza en el denominador (N-1) en
lugar de N, lo que permite una (sobrestimacin),
para grandes valores de N,

Ejemplo N>30 no hay mucha diferencia entre N y


N-1. Cuando se necesita el estimador mejor,
puede obtenerse multiplicando la Desviacin
Tpica calculada para la poblacin: por la

Raiz (N/(N-1))
VARIANZA (S)
El cuadrado de la Desviacin Tpica. Se
acostumbra representar la Varianza Muestral con
S y la Varianza Poblacional con la letra sigma,
(sigma).

Mtodo corto para el clculo de la Desviacin


Tpica:

S = Raiz (xj/N (xj/N)) = Raiz ((x


barra) (x barra))
VARIANZA (S)

Para datos agrupados:


S = Raiz(fj xj/N (fj xj/N)) =
(Raiz(fj *((x barra) (x barra)))

VARIANZA (S)
Si Dj =xj-A, son las variaciones de xj de un valor
arbitrario constante:

S = Raiz ((D barra)- (D barra))



Cuando la Distribucin de Frecuencia tiene un
ancho de clase igual C:
Dj = Cuj, xj = A + Cuj.
S = Raiz (fj uj/N (fj uj/N))*C =
Raiz ((u barra) (u barra))*C
Conocido como mtodo clave.

PROPIEDADES DE LA
DESVIACIN TPICA
Propiedades (S)
1. La Desviacin Tpica se define como:

S = Raiz((xj A)/N).
Donde A, es un promedio que puede ser
distinto de la media aritmtica, donde S es
mnima cuando A es la media aritmtica.

Propiedades (S)

2. En una distribucin Normal:

a. El 68,27% de los casos estn


comprendidos entre (x barra)-S y (x
barra)+S.
b. El 95,45% de los casos est entre (x
barra)-2S y (x barra)+2S.
c. El 99,63% de los casos est entre (x
barra)-3S y (x barra)+3S.
Propiedades (S)
3. Si tenemos dos series de datos totales
N1 y N2, de dos Distribuciones de
Frecuencia, cuyas varianzas S1 y S2
respectivamente, con la misma media (x
barra). La Varianza de ambas series resulta
en:

S = (N1S1 + N2S2)/(N1+N2)

Este resultado puede generalizarse para


ms series de datos como una media
ponderada de las varianzas.
COMPROBACIN CHARLIER

En clculos de Medias y Desviaciones


Tpicas por el mtodo clave hace uso de las
identidades:

f(u+1) = fu + f = fu + N
f(u+1) = fu + 2fu + N
COMPROBACIN SHEPPARD

Para la Varianza
El clculo de la Desviacin Tpica tiene algo
de error debido al agrupamiento de los
datos en intervalos de clase, para
ajustarlos a la realidad se utiliza la Varianza
Corregida as:

Varianza Corregida =
Varianza de datos agrupados
C/12
COMPROBACIN SHEPPARD

Para la Varianza
Relaciones Empricas entre las medidas
de dispersin: Para Distribuciones
moderadamente asimtricas se tienen
las frmulas empricas:

Desviacin Media = 4/5 Desviacin


Tpica.
Rango Semi-intercuartlico = 2/3
Desviacin Tpica.

En distribuciones Normales:
VARIABLES NORMALIZADAS

REFERENCIAS TIPIFICADAS
Mide la desviacin de la medida en
unidades de la Desviacin Tpica, se llama
Variable Normalizada y sus cantidades son
adimensionales.

Z= (x (x barra))/S

Si las desviaciones de las medidas vienen


dadas en unidades de Desviacin Tpica se
les llama unidades Tipificadas o Referencias
Tipificadas.
MOMENTOS
Si x1, x2, x3 xn valores que toma la
variable x:

(xR barra) = (x1R , x2R xnR )/N

Se conoce como, Momento de orden R, Si R


es 1, tendramos la Media Aritmtica.

El Momento de orden R con respecto a la


media (x barra) se define como:
mR = (xj (x barra))R /N
mR = ((x-(x barra))R barra)
Si R=1, m1=0
MOMENTOS
El Momento de orden R con respecto a un
punto cualquiera A, se define como:

mR = (xj A)R /N = ((x-A)R


barra)
Donde (xj-a son las desviaciones x de A. Si
A=0, tenemos Momentos de orden R
respecto al origen.

Si xj tiene fj casos de frecuencia:


mR = fj(xj-A)R /fj = ((x-A)R barra)
RELACIONES ENTRE
MOMENTOS
Sea mR Momento de orden R con respecto
a la Media Aritmtica:

mR Momento de orden R con respecto a un


punto A.

m2 = m2 m1
m3 = m3 3m1m2 + 2m1
m4 = m4 4m1m3 + 6m1m2 6m14

Ntese que m1 = (x barra) A.


Comprobacin Charlier en el
clculo de Momentos por el
mtodo clave

Utiliza las identidades:

f(u+1) = fu + N.
f(u+1) = fu + 2fu + N.
f(u+1) = fu + 3fu + 3fu + N
Correccin Sheppard

M2 corregida = m2 1/12 C
M4 corregida = m4 Cm2 + 7/240
C4
Los Momentos m1 y m3 no necesitan
correccin.
Momentos en forma
adimensional: respecto a la
Media:

aR = mR/SR = mR/(Raiz C(m2))R


Donde S = Raiz C(m2)
Puesto que m1=0 y m2=S, se tiene
que a1=0 y a2=1
SESGO
Grado de asimetra de una
distribucin. Si la curva tiene una cola
ms larga a la derecha, entonces el
sesgo es positivo, de lo contrario se
denomina sesgo a la izquierda o
negativo.

La media tiende a ubicarse del lado


del sesgo con respecto a la moda as:

Una medida de la asimetra, nos viene


SESGO
1. Sesgo = (Media Moda)/
Desviacin Tpica
Sesgo= ((x barra) Moda)/S

2. Empricamente Sesgo = 3(Media


Mediana)/S =

Sesgo = 3((x barra) Mediana)/S

Las dos anteriores (1) y (2) se


conocen como, primero y segundo
SESGO

Otras medidas de Sesgo dadas en funcin


de Quartiles y Percentiles son:

Coeficiente de Sesgo Quartlico = [(Q3-


Q2) (Q2-Q1)]/ (Q3-Q1) = (Q3-
2Q2+Q1)/(Q3-Q1).

Coeficiente de Sesgo Percentlico10-90


= [(P90-P50) (P50-P10)]/(P90-P10 =
(P90-2P50+P10)/(P90-P10)
SESGO
Una importante medida de Sesgo que
emplea el Momento de tercer orden con
respecto a la Media:

Coeficiente de Sesgo = a3 =
m3/S3 = m3/Raiz C(m2)

Otra medida de Sesgo:


Coeficiente de Sesgo b1 = a3
Para curvas Simtricas (Normal) a3=0.
CURTOSIS

Es el grado de apuntamiento de una


distribucin. Generalmente se toma en
relacin a la Distribucin Normal.

Una distribucin que presenta un


apuntamiento relativamente alto, se llama
Leptocrtica, mientras que una
distribucin bien achatada se le denomina
Platicrtica. La distribucin Normal se le
llama Mesocrtica.
CURTOSIS
Una medida de Curtosis emplea el
Momento de cuarto orden con respecto a la
Media, adimensionalmente:

Coeficiente de Curtosis = a4 = m4 / S4
= m4/m3

que se designa por b2, para una


distribucin Normal b2 = a4 = 3.

Por esta razn se define la Curtosis como,


b2-3 que es positiva para una distribucin
Leptocrtica, negativa para una
CURTOSIS

Curtosis con base a los Quartiles y


Percentiles

K = Q/(P90-P10)

donde : Q = (Q3-Q1)

Se conoce como, Coeficiente de Curtosis


Percentlico, para la distribucin Normal
vale 0,268

También podría gustarte