Está en la página 1de 56
Nada en esta maravillosa vida es 100% seguro. En todo lo que hacemos, siempre estamos

Nada en esta maravillosa vida es 100% seguro. En todo lo que hacemos, siempre estamos estimando los chances de resultados exitosos: en los negocios, en la medicina, en el clima y principalmente en los juegos de azar. Así el estudio de las leyes formales de lo aleatorio es la Probabilidad

el clima y principalmente en los juegos de azar. Así el estudio de las leyes formales
el clima y principalmente en los juegos de azar. Así el estudio de las leyes formales

EEssttaaddííssttiiccaa eess llaa cciieenncciiaa,, ppuurraa yy aapplliiccaaddaa,, ddee ccrreeaacciióónn,, ddeessaarrrroolllloo yy ddee aapplliiccaacciióónn ddee ttééccnniiccaass ttaalleess qquuee llaa iinncceerrttiidduummbbrree ddee llaa iinnffeerreenncciiaa iinndduuccttiivvaa ppuueeddaa sseerr eevvaalluuaaddaa

e n n c c i i a a i i n n d d u

Tomar decisiones es una gran rreessppoonnssaabbiilliiddaadd.

Para tomar decisiones se requiere IINNFFOORRMMAACCIIÓÓNN ddiissppoonniibbllee, esperanzadamente ccoonnffiiaabbllee y úúttiill.

Generalmente se necesita una porción de la base de datos o mmuueessttrraa para revelar un ppaattrróónn llóóggiiccoo o realizar un aannáálliissiiss eessttaaddííssttiiccoo

Estadística
Estadística
Población
Población
Muestra
Muestra
PPrroobababibilliiddaadd
PPrroobababibilliiddaadd
OObbjjeettiivvoo ddee llaa EEssttaaddíísstiticcaa DDeessccrriippttiivvaa CCoonnoocceerr llaa iinnfoforrmmaacciióónn
OObbjjeettiivvoo ddee llaa EEssttaaddíísstiticcaa DDeessccrriippttiivvaa
CCoonnoocceerr llaa iinnfoforrmmaacciióónn qquuee ssee ttiieennee
ppaarraa ppooddeerr iiddeenntitiffiiccaarr ee iinntteerrpprreettaarr
aassppeeccttooss rreelleevvaanntteess ddee uunnaa mmuueesstrtraa
UUttiilliizzaarr eessttaa iinnfoforrmmaacciióónn ppaarraa oobbtteenneerr
rreessuullttaaddooss,, ppllaanneeaarr oo hhaacceerr iinnffeerreenncciiaa
aacceerrccaa ddee llaa ppoobbllaacciióónn bbaajjoo eessttuuddiioo.

7

2

5

7

4

3

9

1

6

5

7

8

7

8

2

1

5

0

4

6

5

8

3

4

2

3

Los ddaattooss son la materia prima del estadístico. Usa los números para interpretar la realidad. Todos los problemas estadísticos involucran o la recolecta, la descripción y el análisis de los datos, o pensar cómo recolectar, describir y hacer el análisis de los datos.

de los datos, o pensar cómo recolectar, describir y hacer el análisis de los datos. 3

3

4

0

8

2

9

3

8 9

3

0

5

7

6

1

3

5

IInnffeerreennciciaa

DDeessccrriippcicióónn

Población
Población

Muestra

D e e s s c c r r i i p p ci ci ó

Transformación

Sumarización

Ilustración

r r i i p p ci ci ó ó n n Población Muestra Transformación Sumarización

Análisis

Estimación

Hipótesis

7

2

5

7

4

3

9

1

6

5

7

8

7

8

2

1

5

0

4

6

5

8

3

4

2

3

7 2 5 7 4 3 9 1 6 5 7 8 7 8 2 1

Tengo un 98% de probabilidad de hacer algo que tenga sentido con estos números.

3

4

0

8

2

9

3

8 9

3

0

5

7

6

1

3

5

El conjunto de datos que describen un fenómeno (nuestro objetivo) constituyen lo

que se llama PoPobbllaacicióónn

Una MuMueessttrara es un subconjunto de la población sobre la cual vamos a realizar las medidas sobre una o mas características de interés

muestreo

¿Por qué muestreamos?

- Poblaciones muy grandes

- Respuesta rápida

- Destrucción de la muestra

muestreo

Una característica importante de una

muestra es que sea RReepprreesseennttaatitivvaa

de la población de interés.

Cualquiera que sea nuestro objetivo:

describir a la población, analizar o pronosticar el comportamiento de la población, la muestra, al ser representativa, será CCoonnffiiaabbllee

- Cada unidad tiene la misma oportunidad de ser elegida

- La selección de una unidad no tiene influencia sobre la elección de otra unidad

Muestreo Aleatorio

muestreo

elegida - La selección de una unidad no tiene influencia sobre la elección de otra unidad

Muestreo Estratificado

- Divide a la población en grupos homogéneos

- Se extrae una muestra aleatoria simple de cada grupo o estrato

extrae una muestra aleatoria simple de cada grupo o estrato muestreo Muestreo por Conglomerado - Divide

muestreo

Muestreo por Conglomerado

- Divide a la población en grupos

-Se extrae una muestra aleatoria simple de los grupos

-Se muestrean todos los elementos del grupo seleccionado

Muestreo Sistemático

- Se elige aleatoriamente a una unidad

- A partir de ésta se selecciona cada k-ésima unidad que se encuentra después de la elegida

Muestreo

Oportunista

-Se muestrean los n primeros elementos que se presentan

muestreo

se encuentra después de la elegida Muestreo Oportunista - Se muestrean los n primeros elementos que

Un ppaammeettrroo es una medida numérica de

un aspecto de la población

Una eessttaaddííssttiicaca es una medida numérica de

        

un aspecto de la muestra X, S, n,

Una estadística consiste de un conjunto de mediciones de dicha característica que varía de una observación (uunniiddaadd eexxppeerriimmeennttaall) a otra, y a estas mediciones las llamaremos

vavaririaabbllee

~

X

No todas las variables son numéricas entonces podemos clasificarlas de acuerdo a su tipo en:

CCuuaalliittaattiivvaass: Son variables que denotan una cualidad o atributo y solo pueden ser clasificadas en categorías o clases mutuamente excluyentes y exhaustivas

CCuuaannttiittaattiivvaass: Son aquellas variables que se obtuvieron de un proceso de conteo

(ddiissccrreetatass) o medición (ccoonnttíínnuuaass)

Clasificación de las variables Cualitativas de acuerdo a su escala de medición:

NNomomiinnaall: Son clasificadas en categorías, sin importar el orden. No tiene sentido hacer operaciones aritméticas con ellas (género, grupo sanguíneo, Fuma (si/no))

OOrrdidinnaall: Las categorías se pueden arreglar en orden, pero las distancias entre las clases no son iguales (intensidad del dolor, escolaridad, nivel socioeconómico)

Clasificación de las variables Cuantitativas de acuerdo a su escala de medición:

IInntteerrvvaalloo: Son medidas en las que las distancias entre los valores es significativa pero no existe un cero absoluto (el cero no es ausencia de atributo) . No tiene sentido hacer cociente o producto (temperatura, usos horarios)

RRaazzónón: Las proporciones y razones tienen sentido al determinar cuánto mas tiene una unidad que otra de alguna característica. (peso, ingreso, rendimiento)

El análisis de cada variable se hace de acuerdo a su escala de medición

de cada variable se hace de acuerdo a su escala de medición Podemos hacer diagramas, tablas
de cada variable se hace de acuerdo a su escala de medición Podemos hacer diagramas, tablas

Podemos hacer diagramas, tablas y resúmenes numéricos de los datos recopilados

hace de acuerdo a su escala de medición Podemos hacer diagramas, tablas y resúmenes numéricos de
hace de acuerdo a su escala de medición Podemos hacer diagramas, tablas y resúmenes numéricos de
hace de acuerdo a su escala de medición Podemos hacer diagramas, tablas y resúmenes numéricos de

¿Cómo presentar los datos?

La ffrerecucueennciciaa aabbssoolluuttaa

f i para una clase

particular es el número de observaciones que caen en cada clase.

La ffrerecucueennciciaa rerellaattiivava o ppoorcercennttaajjee para

una clase particular es su frecuencia absoluta entre el número total de observaciones

p i

f

i

n

Esta frecuencia ayuda a sumarizar en forma ordenada la información contenida en la muestra tanto en tablas como en gráficas.

género

frecuencia

porcentaje

0

19

0.63

1

11

0.37

Total

30

1

ttaabbllaa ddee ddiissttrriibbuucciióónn ddee ffrreeccuueenncciiaass

0.75 0.50 0.25 0.00 M F Género Frecuencia
0.75
0.50
0.25
0.00
M
F
Género
Frecuencia

ddiiaaggrraammaa ddee bbaarrrraass

Si las variables son cuantitativas discretas las tablas de frecuencias se realizan con la creación de diferentes clases en base a los datos que toma la variable.

edad

frecuencia

porcentaje

38

3

0.10

39

3

0.10

40

6

0.20

41

1

0.03

42

3

0.10

43

2

0.07

44

4

0.13

45

3

0.10

46

4

0.13

47

0

0.00

48

0

0.00

49

1

0.03

Total

30

1.00

Histograma de Frecuencias para Edad 7 6 5 4 3 2 1 0 38 39
Histograma de Frecuencias para Edad
7
6
5
4
3
2
1
0
38
39
40
41
42
43
44
45
46
47
48
49
Edad
Frecuencia

Si las variables son cuantitativas continuas las tablas de frecuencias se realizan con la creación de intervalos numéricos que formarán las diferentes clases.

tiempo

frecuencia

porcentaje

9331- 9931

 

1

0.03

9931-10531

 

1

0.03

10531-11131

 

3

0.10

11131-11731

 

6

0.20

11731-12331

 

5

0.17

12331-12931

 

5

0.17

12931-13531

 

6

0.20

13531-14131

 

3

0.10

Total

 

30

1.00

Histograma 0.30 0.20 0.10 0.00 9631 10231 10831 11431 12031 12631 13231 13831 Tiempo Frecuencia
Histograma
0.30
0.20
0.10
0.00
9631
10231 10831 11431 12031 12631 13231 13831
Tiempo
Frecuencia

Podemos completar esta tabla de frecuencias con una columna que nos de las Frecuencias Acumuladas ¿qué uso tienen?

tiem po (seg )

frecuencia

porcentaje

Frec. A cum .

 

9631

1

0.033

 

0.033

 

10231

1

0.033

 

0.067

 

10831

3

0.100

 

0.167

11431

6

0.200

0.367

 

12031

5

0.167

 

0.533

12631

5

0

.

16

7

0.700

13231

6

0

.

2

0

0

0.900

 

13831

3

0

 

.10

0

 

1.000

 

Total

30

1.00

   

a)a)

00 116677

c)c)

4466 77%%

e)e)

1122,,003311 sseegg

a)a)

¿¿qquuéé ffrreeccuueenncciiaa ddee iinnddiivviidduuooss ttuuvviieerroonn uunn ttiieemmppoo mmeennoorr

aa

b)b)

1111,,443311 sseegg?? ¿¿qquuéé ppoorrcceennttaajjee ddee iinnddiivviidduuooss ttuuvviieerroonn uunn ttiieemmppoo mmaayyoorr oo iigguuaall

c)c)

aa 1122,,663311 sseegg?? ¿¿qquuéé ttiieemmppoo mmááxxiimmoo eess eell qquuee aall mmeennooss eell 5500%% ddee llaass ppeerrssoonnaass ttuuvviieerroonn??

Otros diagramas de utilidad:

3

38

0

0 0

 

6

39

0

0 0

12

40

0

0

0

0 0

0

13

41

0

(3)

42

0

0 0

 

14

43

0

0

12

44

0

0

0 0

 

8

45

0

0 0

 

5

46

0

0

0 0

 

1

47

 

1

48

1

49

0

diagrama de tallo y hojas para la variable edad 38|0 = 38.0

-se usa con pocos valores

-los datos están ordenados

-encontramos fácilmente mínimo y máximo

-encontramos fácilmente los porcentiles

-da una visión gráfica de la distribución de los datos

 

:

.

.

:

.

:

.

:

:

:

:

.

:

:

:

:

:

.

+---------+---------+---------+---------+---------+-------Edad

38.0

40.0

42.0

44.0

46.0

48.0

38.0 40.0 42.0 44.0 46.0 48.0 Diagrama de puntos. Útil para cuando tenemos pocos datos

Diagrama de puntos. Útil para cuando tenemos pocos datos discretos

Polígono de Frecuencias

Polígono de Frecuencias

Polígono de Frecuencia

8

6 4 2 0 9000 10000 11000 12000 Frecuencia
6
4
2
0
9000
10000
11000
12000
Frecuencia

Tiempo

13000 14000
13000
14000

Ojiva

Ojiva 1.00 0.75 0.50 0.25 0.00 9000 10000 11000 12000 13000 14000 Tiempo Porcentaje Acumulado
Ojiva
1.00
0.75
0.50
0.25
0.00
9000
10000
11000
12000
13000
14000
Tiempo
Porcentaje Acumulado

3
3

9

3

4

9

3 3

5

1

9

3

4

4

5

8 3

5

1

4

7

7

9

3

8

5

1

1

8

4

5

7

8

2

7

4

4

5

7

7

8

5

8

1

1

8

7

7

7

8

8

2

2

8

1

8

7

4

5

7

5

1

8

2

6

7

7

7

8

5

1

2

9

8

1

8

7

5

1

0

8

2

2

6

7

6

3

4

5

1

5

1

0

9

6

6

0

4

5

1

2

9

8

6

3

7

4

5

1

0

0

3

6

6

3

6

4

5

4

5

1

0

3

9

5

8

7

2

2

6

7

8

0

4

5

3

2

4

7

7

6

8

6

3

7

4

5

0

3

3

5

3

7

2

4

2

2

6

5

5

4

2

3

4

5

7

7

6

8

7

2

2

7

5

3

2

4

3

7

7

6

2

4

5

5

3

5

3

7

2

4

2

2

5

2

4

7

7

6

3

2

4

Métodos Numéricos

(válidos solo para datos cuantitativos)

Si pudiéramos escoger entre dos números que nos ayuden a construir una imagen mental burda de la distribución de un bonche de datos ¿Cuáles escogeríamos?

-un número que esté localizado cerca del centro de la distribución

-un número que mida la dispersión de la distribución

4

4

0

3

8

4

0

9

0

3

9

8

4

0

3

3

8

8

9

9

9

3

0

3

7

9

3

8 9

6 8

5

0

9

3

9

1

3 1

0

9

3

3

3 1 9

1

0

3

5 9

0

5

8 3

7

9

9

6

0

5

4 3

5

8

8

7 5

3

0

4 3

7

9

8

6 8

6

5

3 7

8

9

6

4

3 2

5 1

1

0

3

1

5

1 2

3 2 5

5

3

3

8

4

3

8

7 5

3

7

0

8

8

3

6

6

3

3

7

6

5

5

3

3

2

0

5

2

3

0

2

5

3

0 2

2

Medidas de Tendencia Central

Son números que se localizan cerca del centro o cerca de donde se encuentran los datos con mayor frecuencia:

mmeeddiiaa,, mmeeddiiaannaa,, mmooddaa

8

Polígono de Frecuencia

6 4 2 0 9000 10000 11000 12000 13000 14000 Frecuencia
6
4
2
0
9000
10000
11000
12000
13000
14000
Frecuencia

Tiempo

Medidas de Dispersión

Son números que indican qué tan separados están los

datos entre si: rraannggoo,, ddeessvviiaacciióónn eessttáánnddaarr,, rraannggoo iinntteerrccuuaarrttiill

Medidas de tendencia central

mmeeddiiaa

X

1

n

n

i 1

x

i

en el caso en que los datos estén agrupados:

X

k

m

f

i

 

a

i 1

 

i

n

tiem po (seg)

frecuencia

porcentaje

Frec. A cum .

9631

1

0.03

0.03

10231

1

0.03

0.07

10831

3

0.10

0.17

11431

6

0.20

0.37

12031

5

0.17

0.53

12631

5

0.17

0.70

13231

6

0.20

0.90

13831

3

0.10

1.00

Total

30

1

 

X

a

9631(0.03)

10231(0.03)

 

10831(0.10)

13831(0.10)

12,187

mmeeddiiaannaa

se localiza el valor central el valor que toma

3

38

0

0 0

 

6

39

0

0 0

12

40

0

0

0

0 0

0

13

41

0

(3)

42

0

0

0

0

14

43

0

0

12

44

0

0

0 0

 

8

45

0

0 0

 

5

46

0

0

0 0

 

1

47

 

1

48

1

49

0

medidas de tendencia central

~

l X

~

l X

n

1

2

y se observa

30

2

1

15.5

el valor que toma la variable es 42.0 años

medidas de tendencia central

para datos agrupados se estima como

B

~

0.5

 

P

m 1

 

X

 

A

 

a

p

m

A

donde A y B son los límites inferior y superior de la clase que contiene a la mediana, P m-1 es la frecuencia acumulada hasta la clase anterior a la que contien la mediana y p m es la frecuencia relativa de la clase que contiene a la mediana

tiem p o

frec.

p o rc.

F rec

A cu m

9331- 9931

1

0.033

 

0.033

 

9931-10531

1

0.033

 

0.067

 

10531-11131

3

0.100

 

0.167

 

11131-11731

6

0.200

 

0.367

 

11731-12331

5

0.167

 

0.533

 

12331-12931

5

0.167

 

0.700

 

12931-13531

6

0.200

 

0.900

 

13531-14131

3

0.100

 

1.000

 

T o tal

30

1

 

~

X

a

11731

0.5  0.367 0.167
0.5  0.367
0.167

600

mmooddaa

medidas de tendencia central

es el valor con la frecuencia mas alta. La distribución puede ser unimodar, multimodal

mas alta. La distribución puede ser unimodar, multimodal cuando los datos están agrupados podemos hablar de

cuando los datos están agrupados podemos hablar de una clase modal o estimar la moda:

Mo

A

d

1

2

d

d 1

B

A

donde AA y BB son los límites inferior y superior de la clase modal, dd 11 == ff mmoo ff mmoo-1-1 y dd 22 == ff mmoo ff mmoo++11

Medidas de Dispersión

rraannggoo se define como la diferencia entre el valor máximo y el mínimo:

como la diferencia entre el valor máximo y el mínimo: Rango = max - min Es

Rango = max - min

Es una medida sseennssibiblele a valores extremos y no es muy informativa ya que es ininsseennssibiblele a datos intermedios

aammpplliittuudd iinntteerrccuuaarrttíílliiccaa es la distancia entre

el porcentil 75 y el porcentil 25:

a es la distancia entre el porcentil 75 y el porcentil 25: AI = P 7

AI = P 75 - P 25

Nos da una idea de la distancia entre los valores que determinan el 50% de los datos centrales

medidas de dispersión

Varianza es una variación promedio alrededor de la media, definida como

S

2

n

X

 

X

2

i 1

i

n 1

un problema de la varianza es que tiene las unidades al cuadrado y su interpretación no es fácil, por lo que usamos

su raiz: ddeessvviiaacciióónn eessttáánnddaarr

S

n

i 1

i

X

n 1

X

2

es sensible a valores extremos. Si los datos están agrupados en k intervalos, la varianza se estima como:

2

S a

k

i 1

i

i

f m

n 1

X

a

2

para nuestro ejemplo ¿qué valor toma

S

2

a

?

medidas de dispersión

Hay algunas formas de poner juntos a la desviación estándar y a la media muestrales

CCooeeffiicciieennttee ddee VVaarriiaacciióónn: es una medida de

variación relativa y expresa la desviación estándar como un porcentaje de la media aritmética. Se obtiene como

CV

S

X

x100

por su falta de dimensiones es muy útil para comparar variación entre diferentes poblaciones, que a simple vista serían difíciles de comparar.

CCrreeaacciiónón dede IInntteerrvvaallooss:

medidas de dispersión

con S y X kS
con
S y
X
kS

X se pueden formar intervalos de la forma y obtener el número de

observaciones que caen dentro de ese intervalo.

Si nuestra distribución muestral tiene una forma mas o menos simétrica y acampanada podemos usar la regla empírica:

aalrlreeddeeddoorr ddeell 6699%% ddee lalass oobbsseerrvvaacciioonneess ccaaee ddeennttrroo ddee uunnaa ddeessvviaiacciióónn eessttáánnddaarr ddee lala mmeeddiaia

aalrlreeddeeddoorr ddeell 9955%% ddee lalass oobbsseerrvvaacciioonneess ccaaee ddeennttrroo ddee ddooss ddeessvviaiacciioonneess eessttáánnddaarr ddee llaa mmeeddiiaa

aalrlreeddeeddoorr ddeell 9977

ddeessvviaiacciioonneess eessttáánnddaarr ddee llaa mmeeddiiaa

77%%

dd