Está en la página 1de 50

Estadística

Giancarlo Sal y Rosas PhD


Aviones de combate
• Durante la segunda guerra mundial la fuerza aérea
británica estaba interesada en saber en que parte de
sus aviones deberían ser reforzadas de tal manera que
estos no sean derribados en combate.

• El estadístico a cargo de estos análisis era Abraham


Wald.
Aviones de combate

Avión de combate dañado


Aviones de combate

Muestra de 15 aviones (Se analizaron 400 aviones)


Aviones de combate

Que es lo que nos dicen los datos ?


Aviones de combate
• Wald dijo que deberíamos mirar los lugares
que no habían sido dañados en los aviones en
lugar de mirar los lugares dañados…..
¿Qué es la estadística?
• Cuando pensamos en estadística siempre hay
cuatro preguntas en mente:
• Cual es la pregunta ?
• Es medible ?
• Donde y como obtendremos los datos ?
• Que es lo que los datos nos están diciendo ?
¿Qué es la estadística?
• La estadística es la ciencia que se ocupa de:
• Recolectar
• Describir
• Organizar Datos
• Analizar
• Interpretar

• para transformarlos en información útil que


sirva para la toma de decisiones.
Método científico
Formulación
de
teorías
Toma Diseño de
decisiones estudio

Análisis Colección
de de
datos datos

9
Generación de
conocimiento
Generación de
Conocimiento
Generación de
conocimiento
Conceptos básicos
Población es la colección, o conjunto, de individuos,
objetos o eventos cuyas propiedades serán
analizadas.
Muestra es un subconjunto de la población de
interés.
Conceptos básicos

Muestra

Población

Unidad
Tipos de Estadística
Medidas de Resumen Estimación de parámetros
Media, Mediana, Moda Estimación de la Media,
Razón, proporción Intervalo de confianza
Medidas de Asociación

Estadística Estadística
Descriptiva Inferencial
Gráficos Contraste de Hipótesis

Grafico de barras simple y


compuesto
Histograma
Box-plot
Variables y datos
Edad 30 años

Sexo Femenino

Estado Civil Soltera

Nivel de Secundaria
instrucción
Variable: Caracteristica en una poblacion y que asume por
lo menos dos valores

Dato: Es el valor que una variable toma


Clasificación de Variables
Cuantitativas Cualitativas

Discretas Continuas Dicotomica Politómica

Numero Sexo Estado Civil


Temperatura
de hijos
Estado Vital Profesión
Talla
Numero de
alumnos
matriculados
Clasificación de Variables
Cuantitativas Cualitativas

Intervalo Razón Nominal Ordinal

Temperatura Peso Sexo Grado de


Cáncer
Estado Vital
Fecha de Sueldo
calendario Nivel
económico:
A, B, C, D
Distribución de
Frecuencias
• Deseamos estudiar la edad de los jugadores de la liga
española (X).

• Para es tomamos una muestra: 10 jugadores del


equipo titular del Real Madrid

X1, X2, X3, X4


X5, X6, X7, X8
X9, X10,

Como podemos representar y resumir esta información ?

Que información útil podemos obtener sobre X ?


Distribución de
frecuencias
• Se aplica a variables cuantitativas discretas y se
implementa mediante los siguientes pasos
• Se ordenan los datos de menor a mayor.

25, 22, 24, 30


22, 23, 25, 30,
25 y 24

22, 22, 23, 24


24, 24, 25, 25,
25 y 30
Distribución de
frecuencias
• Se aplica a variables cuantitativas discretas y se
implementa mediante los siguientes pasos
• Se ordenan los datos de menor a mayor.
• Se separan en “K” clases excluyentes.

Edades Edades
22 22-23
23 24-25
24 26-30
25
30
Distribución de
Frecuencias
Edades Frecuencia Frecuencia Frecuencia
Absoluta Relativa porcentual

22 2 2/10 = 0.20 20.0


23 1 1/10 = 0.10 10.0
24 3 3/10 = 0.30 30.0
25 3 3/10 = 0.30 30.0
30 1 1/10 = 0.10 10.0

Tamaño total de mi muestra x 100


Distribución de
Frecuencias
Otro criterio …..

Edades Frecuencia Frecuencia Frecuencia


Absoluta Relativa porcentual

22-23 3 3/10=0.3 100x0.3=30.0


24-25
26-30
Grafico de Barras
• Se les pide a 100 estudiantes de EEGGLL que escojan a
su escritor favorito (solo a uno) entre Mario Vargas
Llosa, Ricardo Palma, José María Arguedas y Cesar
Vallejo.

Escritor Frecuencia Frecuencia Frecuencia


Absoluta Relativa porcentual

Llosa 10 10/100 = 0.10 10.0


Arguedas 35 35/100 = 0.35 35.0
Palma 30 30/100 = 0.30 30.0
Vallejo 25 25/100 = 0.25 25.0
Grafico de Barras
• Es un grafico usado para variables cualitativas

• Es la representación grafica de un conjunto de datos


cualitativos resumidos en una tabla de frecuencias
40
Frecuencia absoluta 35

30

25

20

15

10

0
Llosa Arguedas Palma Vallejo

Valores de la variable cualitativa


Grafico Circular
• Grafico para variables cualitativas

• Se traza un círculo y se divide este en sectores


circulares según las frecuencias

• Angulo = 360 x Frecuencia Relativa

Llosa
25 10
Arguedas
35 Palma
30
Vallejo
Grafico de Barras
• También podría usarse con variable cuantitativas que
toman pocos valores.

• Recordando el ejemplo del Real Madrid

Edades Frecuencia Frecuencia Frecuencia


Absoluta Relativa porcentual

22 2 2/10 = 0.20 20.0


23 1 1/10 = 0.10 10.0
24 3 3/10 = 0.30 30.0
25 3 3/10 = 0.30 30.0
30 1 1/10 = 0.10 10.0
Grafico de Barras
Frecuencia absoluta
3.5

2.5

1.5

0.5

0
22 23 24 25 30

Diferentes edades
Distribución de
Frecuencias
• Que pasa si hacemos un experimento con muchos
datos ?

• Se realiza una encuesta para medir conocimientos de


estadística mediante una escala que va del 0 al 20.

5.04 10.06 5.45 9.13 8.54 7.90 13.10 10.94 10.82

9.22 13.40 5.71 10.94 8.99 8.42 9.17 9.71 9.85

10.29 9.20 8.60 7.91 8.45 7.82 10.23 11.45 5.06


6.75 7.44 6.30 9.53 12.83 16.73 10.70 6.03 6.95

5.63 9.63 8.63 8.57 9.70 6.93 11.81 6.08 10.43

3.53 10.60 8.11 7.77 13.97 5.33 13.10


Distribución de
frecuencias
• Un grafico de barras no
funcionaria…

• A menos que los


agrupemos… Pero
como los agrupamos ?

• Podemos usar:

Métodos
Experiencia Estadísticos
Distribución de
frecuencias
• Experiencia…

Respuesta Frecuencia Frecuencia Frecuencia


Absoluta Relativa porcentual

3.01 – 5.10
5.11 – 9.10
9.11 – 13.10
> 13.10
Usando técnicas
estadísticas
Paso 1: Calculo el Rango de mis datos. Es decir la diferencia
entre el valor mínimo y el valor máximo

R = Xmax - Xmin

La respuesta minima y la respuesta máxima fueron 3.56 y


16.76, por lo tanto el rango es 16.76-3.56 = 13.2

Paso 2: Calcular la cantidad de grupos que voy a generar

K=1+3.3*log10(n)
Usando técnicas
estadísticas
En nuestro caso será K = 1+3.3*log10(52) = 6.66 ≈ 7

Esto significa que tendremos 7 intervalos

Paso 3: La longitud de estos esta data por c = R/K = 13.2/7 =


1.886 ≈ 1.89

Primer intervalo: 3.53 hasta 3.53+1.89 = [3.56-5.42[


Segundo intervalo: 5.42 hasta 5.42+1.89 = [5.42-7.31[
Tercer intervalo: 7.31 hasta 7.31+1.89 = [7.31-9.20 [
…..
Usando técnicas
estadísticas
Frecuencia Frecuencia
Intervalo
absoluta porcentual
Extremo Extremo
izquierdo derecho
3.53 5.42 4 7.69
5.42 7.31 9 17.31
7.31 9.2 15 28.85
9.2 11.09 16 30.77
11.09 12.98 3 5.77
12.98 14.87 4 7.69
14.87 16.76 1 1.92

+ 1.89
Histogramas
• Es un grafico basico que consiste en barras
rectangulares no separadas. El ancho es proporcional
a la longitud del intervalo.
18

16

14

12

10

0
4.475 6.365 8.255 10.145 12.035 13.925 15.815
Polígono de frecuencias

18

16

14

12

10

0
4.475 6.365 8.255 10.145 12.035 13.925 15.815
Polígono de frecuencias
• Es un conjunto de lineas rectas que unen los
puntos medios de las barras a las alturas de los
intervalos generados.

• El poligono empieza en Xmin – c/2 y termina en


Xmax + c/2.

• Es un grafico mas avanzado que el histograma


Distribución de
frecuencias acumuladas
Intervalos Marcas de clase Frecuencia Frecuencia Frecuencia absoluta Frecuencia relativa

Extremo izq. Extremo der. absoluta relativa (%) acumulada acumulada (%)

3.53 5.42 4.475 4 7.69 4 7.69

5.42 7.31 6.365 9 17.31 13 25.00

7.31 9.2 8.255 15 28.85 28 53.85

9.2 11.09 10.145 16 30.77 44 84.62

11.09 12.98 12.035 3 5.77 47 90.38

12.98 14.87 13.925 4 7.69 51 98.08

14.87 16.76 15.815 1 1.92 52 100.00


Distribución de
frecuencias acumuladas
Intervalos Marcas de clase Frecuencia Frecuencia Frecuencia absoluta Frecuencia relativa

Extremo izq. Extremo der. absoluta relativa (%) acumulada acumulada (%)

3.53 5.42 4.475 4 7.69 4 7.69

5.42 7.31 6.365 9 17.31 13 25.00

7.31 9.2 8.255 15 28.85 28 53.85

9.2 11.09 10.145 16 30.77 44 84.62

11.09 12.98 12.035 3 5.77 47 90.38

12.98 14.87 13.925 4 7.69 51 98.08

14.87 16.76 15.815 1 1.92 52 100.00

75% de personas tuvieron un resultado mayor a 7.31

44 personas tuvieron un resultado menor a 11.09


Ojiva de la distribución
por intervalos
60

50

Frecuencia 40

absoluta
30

20

10

0
5.42 7.31 9.2 11.09 12.98 14.87 16.76

Limite derecho de los intervalos


Ojiva de la distribución
por intervalos
120

100
Frecuencia
Relativa 80

porcentual 60

40

20

0
5.42 7.31 9.2 11.09 12.98 14.87 16.76

Limite derecho de los intervalos


Tabla de Contingencia
• Problema: ¿Existirá relación entre el estado nutricional
y el rendimiento académico de estudiantes de
enseñanza básica?

• Experimento: Se midió el estado nutricional de 1000


niños de enseñanza básica, el que fue clasificado como
"malo", "regular“ y "bueno". El rendimiento
académico fue clasificado como “bajo”, “medio” y
“alto”
Tabla de Contingencia

Rendimiento (Y)

Bajo Medio Alto Total

Mala 130 95 30 255


Nutricion (X)

Regular 90 450 35 575

Buena 63 30 77 170

Total 290 575 135 1000


Tablas de contingencia
• Una tabla de contingencia es una distribución de
frecuencias para dos variables cualitativas X e Y, las
cuales se observan a la vez sobre los mismos
elementos de la población.

• Una tabla de contingencia nos permite estudiar la


relacion entre X e Y.

• Supongamos que la variable X tiene “a” categorias y la


variable Y tiene “b” categorias
Tablas de contingencia
Y
1 2 … j …. b Total
filas
1 n11 n12 n1j n1b n1+
2 n21 n22 n2j n2b n2+
… … … … … …
X

i ni1 ni2 nij nib ni+


… … … … … …

a na1 na2 naj nab na+


Total n+1 n+2 n+j n+b n
columnas
Tablas de Contingencia
• nij = número de elementos (frecuencia absoluta) que
tienen la categoría “i” de X y “j” de Y

• n+1 = Frecuencia absoluta marginal de la columna 1

• n1+ = Frecuencia absoluta marginal de la fila 1.

• Si dividimos toda la tabla entre “n” obtenemos todas


las frecuencias relativas.

• Cada fila o columna se puede dividir entre su


frecuencia marginal, con lo que se obtienen las
frecuencias condicionales
Frecuencia relativas %
marginal: Filas
Rendimiento (Y)
Bajo Medio Alto Total
Mala 130 95 30 255 /255x100
Nutricion

Regular 90 450 35 575


(X)

Buena 63 30 77 170
Total 290 575 135 1000

Rendimiento (Y)
Bajo Medio Alto Total
Mala 50.98 37.25 11.76 100.00
Nutricion

Regular 15.65 78.26 6.09 100.00


(X)

Buena 37.06 17.65 45.29 100.00


Total 29.00 57.50 13.50 100.00
Problema de Nutrición
Rendimiento (Y)

Bajo Medio Alto %

Mala 50.98% 37.255% 11.765% 100%


Nutricion (X)

Regular 15.65% 78.26% 6.09% 100%

Buena 37.06% 17.65% 45.29% 100%

El 6.09% de los niños con una nutrición regular, obtienen un


alto rendimiento.

Más de la mitad de los niños con una mala nutrición (50.98%)


obtienen un bajo rendimiento
Frecuencias relativas %
marginales: Columnas
Rendimiento (Y)
Bajo Medio Alto Total
Nutricion (X)

Mala 130 95 30 255


Regula 90 450 35 575
r
Buena 63 30 77 170
Total 290 575 135 1000
Rendimiento (Y)
Bajo Medio Alto Total
Nutricion (X)

Mala 45.94 16.52 21.13 25.50

Regular 31.80 78.26 24.65 57.50

Buena 22.26 5.22 54.23 17.00


Total 100.00 100.00 100.00 100.00
Problema de Nutrición
Rendimiento (Y)
Bajo Medio Alto Total
Mala
Nutricion (X)

45.94 16.52 21.13 25.50

Regular 31.80 78.26 24.65 57.50

Buena 22.26 5.22 54.23 17.00


Total 100.00 100.00 100.00 100.00

El 78.3% de los niños con rendimiento medio tiene una


nutricion regular.

El 54% de de los niños con con un rendimiento alto, tienen


Una nutricion buena