Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Análisis Estadístico
Diseño De Estructuras
Metálicas Y De Construcción
Semestre VI
CONTENIDO
2. Aplicación de probabilidades
Variables cualitativas: Se usan con datos que representan categorías que son
mutuamente excluyentes, aunque se utilicen números para cada categoría no
representan cantidades. Para su medición usamos escalas:
Nominales: no hay relación entre las categorías. Una escala nominal sólo permite
clasificar (no jerarquizar ni ordenar). Ej.: Género, nacionalidad, situación geográfica
Distinguimos dos tipos de variables cualitativas o categóricas nominales: Dicotómicas
o binarias: sano/enfermo, hombre/mujer Policotómicas (con varias categorías): grupo
sanguíneo (A/B/AB)
Coste reducido. Si los datos se obtienen de una pequeña fracción del total, los gastos
de recogida y tratamiento de los datos se reducen. Incluso si la obtención de información
en toda la población es factible, suele ser mucho más eficiente la utilización de técnicas
de muestreo.
Mayor rapidez. Los datos pueden ser más fácilmente recolectados y estudiados si se
utiliza una muestra que si se emplean todos los elementos de la población. Por tanto, el
uso de técnicas de muestreo es especialmente importante cuando se necesita la
información con carácter urgente.
El tamaño de la muestra estará en función del máximo error de muestreo que se esté
dispuesto a admitir al estimar un parámetro (a menor error necesitamos mayor muestra).
Se supone, por tanto, que hay un error máximo, lo cual no siempre es fácil de determinar
a priori y, en cualquier caso, se trata de una decisión esencialmente subjetiva. Cuanto
más complejo es el diseño que utilizamos, mayor será la muestra que necesitaremos,
puesto que el efecto del diseño nos hace aumentar el tamaño de la muestra para
conseguir el mismo grado de precisión.
Moda:
es el valor que más se repite en un conjunto de datos.
0 0 1 1 2 2 4 4 5 5
6 6 7 7 8 12 15 15 15 19
0 0 1 1 1 2 4 4 4 5
6 6 7 8 8 9 9 10 12 12
d1
Mo L Mo
dd
Moda
Mo
LMo d1 Límite inferior de la clase modal
frecuencia de la clase modal menos la frecuencia de la clase
anterior a ella ( d1 f i fi1 )
d2
frecuencia de la clase modal menos la frecuencia de la clase
h posterior a ella ( d f f )
Para determinar un solo valor de este intervalo para la moda utilizamos la
siguiente ecuación:
d 1 fi =18-10 d 2 fi fi 1 = 18-14=4
fi1 =8
8 ⎞
Mo 60 .10 66,66
84
⎝ ⎠
La edad que más se repite es 66,66 años
~~
Me m x x
n1 ⎞
⎝2⎠
Me x⎞ n1 ⎞ x
51 x( 3 ) 5
⎝ 2 ⎠ ⎝2⎠
~ ~x
Me m 2 2
2 3 5 6 8 9
x( 1 ) x( x( x( x( x6
2) 3) 4) 5)
x 6 ⎞ x 6 ⎞
x( 3 ) x3 56
x31 x4
1
2 2
Me ⎝ ⎠⎝ ⎠ 5,5
2 2 2 2
n1
F
~ ~x L
Me m 2
m
fi
Me Mediana
Lm Límite inferior de la clase mediana
n cantidad de datos
50 1
, es
La clase mediana es la que contenga el elemento
2
en la posición
25,5 10 ⎞
Me 60 .10 68,61
18
INTERPRETE: ...............................................................................
8 5 9 10 9 12 7 12 13 7 8
x 8 5 9 10 9 12 7 12 13 7 8
x 9,09
n 11
Interpretación: ...........................................................................................................
..................................................................................................................................
Para calcular la media para datos agrupados, primero calculamos el punto medio
de cada clase
(marca de clase intervalo mi ). Después multiplicamos cada punto medio por la
frecuencia absoluta de cada
Una manera de hacer los cálculos es utilizando la siguiente
tabla:
x
mi . f i
n
[50,60) 55 10 550
[90,100) 95 2 190
Total 50 3470
3470
x 69,4
50
La edad promedio es de 69,4 años
RANGO:
Es la diferencia entre el mayor y el menor de los valores
Observados
R x( n ) x( 1 )
Las descripciones más comprensibles de la dispersión son aquellas que tratan con
la desviación promedio con respecto a alguna medida de tendencia central.
Veremos dos medidas que nos dan una distancia promedio con respecto a la
media de la distribución: varianza y desviación estándar.
VARIANZA DE LA POBLACIÓN:
Es el promedio de las distancias al cuadrado que van de las observaciones a la media
Se puede medir con más precisión el porcentaje de observaciones que caen dentro
de un rango específico de curvas simétricas con forma de campana (regla
empírica):
2 ( m i ). f i
m 2i. f i
2
N N
( m i ). f i mi2. f i
2
N N
2
n.x
n1 n 1
2
: Varianza de la población
: Desviación estándar de la población
f i : frecuencia absoluta de la clase i
: media de la población
N : tamaño de la población
( mi x ). fi
n 1
2 2
xx
2
s n.x
n1 n 1 n 1
s 2 : Varianza de la muestra
x : Elemento u observación
x : Media de la muestra
DATOS AGRUPADOS
s 2
( mi x ). fi
n 1
s
s 2 : Varianza de la muestra
s : Desviación estándar de la muestra
f i : frecuencia absoluta de la clase i
mi : marca de clase de la clase i
x : media de la muestra
Ejemplo: Los siguientes datos representan una muestra de la cantidad de
pedidos diarios entregados :
17 25 28 27 16 21 20 22 18 23
16 17 18 20 21 22 23 25 27 28
R = x( 10 ) x( 1 ) = 28 - 16 = 12 La diferencia entre el mayor y el menor valor
observado es 12
Para el cálculo de la varianza conviene realizar un cuadro:
x 2
x x x x x2
(1 (2) x (4) (1)2
) (3)
16 21,7 -5,7 32,49 256
17 21,7 -4,7 22,09 289
18 21,7 -3,7 13,69 324
20 21,7 -1,7 2,89 400
21 21,7 -0,7 0,49 441
22 21,7 0,3 0,09 484
23 21,7 1,3 1,69 529
25 21,7 3,3 10,89 625
27 21,7 5,3 28,09 729
28 21,7 6,3 39,69 784
2 2
x 217 x x x
152,1 4861
2
x x 152,1
1) s2 16 ,9
n 1 10 1
s s 2 4,11 En promedio, la cantidad de pedidos se
separa de la media, en 4,11 (pedidos).
2 2
2 x n.x 4861 10.21,7 2 152,1
2) s 16 ,9
n 1 n 1 9 9 9
Según Chebyshev: al menos el 75% de los valores caen en ese intervalo, por lo
tanto se verifica
COEFICIENTE DE VARIACIÓN:
sC 16 16 ,35
CV .100% 15,69%
,35 104,2
xC
104,2
PERCENTILES
p⎞
i= n
100
⎝ ⎠
Ejemplo:
Se tiene los primeros sueldos de 12 egresados en Administración.
Ordenados son:
100 100
⎝ ⎠ ⎝ ⎠
Paso 3. Como i no es un número entero se debe redondear al primer entero mayor que es 11.
Con frecuencia es conveniente dividir los datos en cuatro partes, así cada una contiene el
25% de los datos. A los puntos de división se los llama cuartiles :
RIC= Q3- Q1
Un diagrama de caja es un resúmen gráfico de los datos con base en el resumen de cinco
números . La clave para elaborar un diagrama de cajas está en calcular Q1, Q3 y la mediana
o Q2.
También hay que calcular el RIC= Q3- Q1
Pasos para dibujar el diagrama de cajas:
1. Se dibuja una caja cuyos extremos se localicen en el primer y tercer cuartel. En
nuestros datos de salarios Q1=3465 y Q3= 3600 . Significa que la caja contiene el 50% de los
datos centrales .
2. En el punto dónde se localiza la mediana (3505) se traza una línea horizontal o vertical
según se represente la caja en posición vertical u horizontal respectivamente. Si se quieren
comparar dos poblaciones a veces también se representa la media dentro de la caja.
3.Usando el rango intercuartílico RIC= Q3- Q1 se localizan los límites. En un diagrama de
caja los límites se encuentran en 1,5*(RIC) abajo del Q1 y 1,5(RIC) arriba del Q3 . En el
caso de los salarios el RIC= Q3- Q1 = 3600-3465=135. por lo tanto los límites son
Li=3465 - 1,5*(RIC)= 3465-1,5*135 = 3262,5 Ls=
3600+ 1,5*(RIC)= 3600+1,5*135=3802,5
Los datos que quedan fuera de estos límites se consideran observaciones atípicas.
4. A las líneas punteadas se las llama bigotes . Los bigotes van desde los extremos de la
caja hasta los valores menor y mayor de los correspondientes a los límites inferior y superior
encontrados en el paso 3.Por lo tanto los bigotes terminan en los salarios cuyos valores son
3310 y 3730.
5. Por último con un círculo o asterisco se identifica la observación atípica 3925.
Actividad con R
> sueldo<-c(3310,3355,3450,3480,3480,3490,3520,3540,3550,3650,3730,3925)
> boxplot(sueldo, main="Primer sueldo de los egresados de Administración", col="blue")
Summary(sueldo)
Min. 1st Qu. Median Mean 3rd Qu.
Max. 3310 3472 3505 3540 3575
3925
Para datos sin agrupar en el caso de la edad de los jubilados encuestados se colocan
en una columna y luego en el menú herramientas se busca análisis de datos estadística
descriptiva se marca el rango de las celdas y se le pide resumen de estadísticas aceptar y
larga
Moda 65
Desviación estándar 10,414060
4
Varianza de la 108,45265
muestra 3
Curtosis -
0,6706671
Coeficiente de 0,4307184
asimetría 9
Rango 40
Mínimo 53
Máximo 93
Suma 3421
Cuenta 50
Media 3540
Error típico 47,819895
7
Mediana 3505
Moda 3480
Desviación estándar 165,65297
8
Varianza de la 27440,909
muestra 1
Curtosis 1,7188836
4
Coeficiente de 1,0911086
asimetría 9
Rango 615
Mínimo 3310
Máximo 3925
Suma 42480
Cuenta 12
Media aritmética
Media geométrica
Mediana
Mediana
1. Ordenar los datos de menor a mayor
2. Calcular N/2
3. Obtener las frecuencias absolutas acumuladas Ni
Sea un experimento aleatorio en el que sólo puedan darse dos posibilidades: que ocurra
un determinado suceso A, que llamaremos éxito, o que no ocurra dicho suceso, o sea
que
ocurra su complementario, que llamaremos fracaso, A.
P A p ; P A 1 p q
X B(n; p)
P( X r) n p q n r
r
n!
prqn r
r! n r !
r : 0,1, 2,..., n
n n
P( X r) n p r q nr 1
r
r 0 r 0
Media
n
E[ X ] rP( X r) np
r 0
n
Var[ X ] 2 (r ) 2
P( X r) npq
r0
Diez individuos, cada uno de ellos propenso a la tuberculosis, entran en contacto con un portador de
la enfermedad. La probabilidad de que la enfermedad se contagie del portador a un sujeto cualquiera
es de 0.1. ♦ Ejemplo
¿Cuántos se espera que contraigan la enfermedad? Solución:
Uso de tablas
a. En dos aves
b. En ningún ave
c. En menos de 4 aves
d. En más de 3 aves
e. Entre 2 y 5 aves
Solución:
Suceso A : " A un ave se le presenta reacción negativa"
X :"nº de aves a las que se les presenta tal reacción"P ( A ) 0.15 ; n 10 ; X B (10 ;
0.15)
a. P( X 2) 0.2759
b. P( X 0) 0.1969
d. P( X 3) 1 P( X 3) 1 P( X 0) P( X 1)
e. P(2 X 5) P( X 2) P( X 3) P( X 4)
P( X 5) 0.2759 0.1298 0.0401 0.0085
0.4543
Un hombre y una mujer, cada uno con un gen recesivo (Azul) y uno dominante (Marrón)
para el color de los ojos, son padres de tres hijos. ¿Cuál es la distribución de probabilidades
para X, número de hijos con ojos azules?
Independientes entre sí
X B ( n ; p ), i = 1, 2,…k
i i
X2
X X1 .... X k
X B(n ... n ; p)
1 k
X P
Función de probabilidad
r
P( X r ) ; r 0,1, 2, 3,...; 0
r!
La media
E[X ]
Var [ X ] 2
♦ Ejemplos
Número de partículas radiactivas emitidas cada hora por una cierta sustancia.
Se estima que sólo uno de cada 50 loros capturados en la cuenca del Amazonas,
para su utilización como animales domésticos, sobrevive al cambio. Se capturan
700 pájaros en un día, X: “nº de loros que sobreviven”
a. P( X 3) 1- P( X 3) 1- P( X 0) - P( X 1) - P( X 2) - P( X 3) 0.0789
b. P(2 X 5) P( X 2) P( X 3) P( X 4) P( X 5) 0.4689
c. P( X 1) 1 P( X 1) 1 P( X 0) 0.7981
Independientes entre sí
X P ( ), i = 1, 2,…k
i
i
Definimos la variable aleatoria X como:
X2
X X1 .... X k
X P( ... )
1 k
X B(n; p)
Si se verifica que
X P( np)
♦ Ejemplo
X P ( np) P ( 80 0.05) P ( 4)
1. P( X 0) 0.0183
0.9084
3. P( X 5) P( X 0) ... P( X 5) 0.7851
2.- Hacer conclusiones hacia una Población mucho más grandes de la que
originalmente se tomo la muestra. Error de Inferencia.
TIPOS DE MUESTREO
I. Muestreo probabilístico
4.- Muestreo Discrecional · A criterio del investigador los elementos son elegidos
sobre lo que él cree que pueden aportar al estudio.
PRESENTACIÓN
Cada guía integra el desarrollo del tema con ejercicios, casos de estudio y con la
sección llamada Aprendiendo.com. En esta última sección se le proporciona al
estudiante un ambiente interactivo, utilizando los recursos disponibles en
Internet, de tal forma que los casos planteados los desarrolle en ambientes de
aprendizaje que le permitan encontrarse con el conocimiento,
“manipularlo”, hacerlo suyo. Con esta filosofía se utilizan applets, sitios de
internet con acceso a bases de datos reales, software de uso libre y en
general los recursos de la Web 2.0, que se refieren a una segunda generación
en la historia de la Web basada en comunidades de usuarios, que fomentan la
colaboración y el intercambio ágil de información entre los mismos.
Los Autores
“Una técnica estadística que establece una ecuación para estimar el valor
desconocido de una variable, a partir del valor conocido de otra variable, (en vez
de valores de muchas otras variables) se denomina análisis de regresión
simple.”
Las relaciones entre las variables pueden ser directas o también inversas.
DIAGRAMAS DE DISPERSIÓN
El método que por lo común se utiliza para ajustar una línea a los datos
muestrales indicados en el diagrama de dispersión, se llama método de
mínimos cuadrados. La línea se deriva en forma tal que la suma de los
cuadrados de las desviaciones verticales entre la línea y los puntos individuales
de datos se reduce al mínimo.
El error es cero.
Los datos obtenidos de las muestra son estadísticamente independientes.
La varianza del error es igual para todos los valores de X.
ŷ a bx
xy n x y
b
2
2 nx
x
a y bx
Las variables a y b son constantes numéricas que son las que se calculan
mediante el método de mínimos cuadrados.
Se y a y b xy
2
n 2
X Y
4. Se calcula la pendiente.
xy nxy
b
2
2 nx
x
a y bx
ŷ a bx
Se y a y b xy
2
n 2
Por ejemplo:
Solución
Datos
n=10
Sucurs X Y X X2 Y
al Y 2
1 2 58 116 4 3364
2 6 105 630 36 11025
3 8 88 704 64 7744
4 8 118 944 64 13924
5 12 117 1404 144 13689
6 16 137 2192 256 18769
7 20 157 3140 400 24649
8 20 168 3380 400 28224
9 22 149 3278 484 22201
10 26 202 5252 676 40804
140 1300 2104 2528 184393
0
4. Calculo de la pendiente.
21040 1014130
b 2
5
2528 1014
ŷ 60 514 130
14,130
ŷ 60 530 210
a y b xy n y 2
r 2
2 n y 2
y
r
2
r
INTERVALO DE CONFIANZA
yc ŷ t / 2 , gl S
e
n2
Se
y p yˆ t 2 n 21
Solución
X: Años de experiencia
Y: Ventas anuales en miles de pesos.
Vendedor X Y
1 1 80
2 3 97
3 4 92
4 4 10
2
5 6 103
6 8 11
1
7 10 11
9
8 10 12
3
9 11 11
7
10 13 136
70 1080
2. Diagrama de dispersión.
Vendedo X Y XY X2 Y
2
r
1 1 80 80 1 6400
2 3 97 291 9 9409
3 4 92 368 16 8464
4 4 102 408 16 10404
5 6 103 618 36 10609
6 8 111 888 64 12321
7 10 119 1190 100 14161
8 10 123 1230 100 15129
9 11 117 1287 121 13689
10 13 136 1768 169 18496
70 1080 8128 632 119082
1080
y 108
10
70
x 7
10
8128
b
107108
2
632 107
4
a 108 47 80
Se
4.61
r 0.9645
0.9303
Este número nos indica que las variables X Y tienen una correlación positiva
intensa.
Considerando
yˆ 108 ventas anuales
4.61
y 108 2.306
c
10
108 3.3617 y 108 3.3617
c
104.6383 yc 111.3617
Se puede asegurar con un nivel de confianza del 95% que las ventas de los
vendedores con 7 años de experiencia están entre 104.6 y 111.4 miles pesos
anuales.
Sustituyendo:
2
1 9 7
y p 108 2.306 1
4.61 10 632 10(7) 2
Ejercicios propuestos:
Galone Tamañ
s de o de
Agua familia.
Y X
650 2
1200 7
1300 9
430 4
1400 1
2
900 6
1800 9
640 3
793 3
925 2
Y X
6.7 9.7
7.3 9.8
8.9 7.6
9.1 6.1
7.2 10.2
5.2 12.7
6.9 14.3
6.9 7.9
7.1 8.9
Y 69 75 86 11 12 133
1 9
X 170 133 86 16 112 133
1
Ventas Precio de
competencia
Y X
520 13
550 13
600 15
610 15
620 16
724 21
680 21
300 14
7. Los datos siguientes muestran las ventas (en miles de cajas) y los costos de
un anuncio publicitario para la televisión (en millones de pesos) para 7 marcas
principales de refrescos.
Nacimientos
Mes de registro Registrados
1 Enero 220,670
2 Febrero 211,330
3 Marzo 213,299
4 Abril 270,819
5 Mayo 225,298
6 Junio 205,572
7 Julio 211,180
8 Agosto 249,626
9 Septiembre 220,666
10 Octubre 241,529
11 Noviembre 211,857
12 Diciembre 173,237
a) Aplique el método de mínimos cuadrados para plantear la
ecuación estimada de regresión.
b) El INEGI reporto que en julio de 2007 se registraron 211,330
nacimientos, utiliza la ecuación obtenida y predice cuantos
debieron de haberse registrado en ese mes, compara resultados
y obtén tus conclusiones.
c) Estime cuantos nacimientos se registraron en enero de 2008.
d) Calcule el error estándar en la regresión.
e) Calcule el coeficiente de correlación y el coeficiente de
determinación e interprételos.
f) Determina el intervalo de confianza al 95%.
g) Determina el intervalo de predicción 95%
Todo proceso decisional lleva a tomar una acción. Si conocemos todo el ambiente
estamos ante un estado de certidumbre pero en general este no es el caso. Si no se
conocen las consecuencias y solo podemos asignarle una medida a su posible
realización decimos que estamos ante un proceso de decisión bajo incertidumbre. En
particular le podemos asignar una probabilidad de obtener un cierto resultado al tomar
nuestras decisiones. Entonces tiene sentido establecer que perdidas se esperan de
nuestras posibles decisiones. La esperanza matemática de estas se denominan riesgo
Sea un problema en el que debemos tomar una decisión en el que hay un conjunto G
de posibles decisores. El fenómeno a analizar dará información a los decisores antes
de que ellos tomen su decisión Definición (Estados de la Naturaleza). Se dice que es
WEB GRAFIA.
http://www.pdfhumanidades.com/sites/default/files/apuntes/11_Medidas%20de%20TC%20y%
20Variabilidad.pdf
file:///C:/Users/Admin/Downloads/11_Medidas%20de%20TC%20y%20Variabilidad.pdf
http://www.ics-aragon.com/cursos/salud-publica/2014/pdf/M2T01.pdf
https://ocw.unican.es/pluginfile.php/858/course/section/934/cap_2.pdf
https://www.ugr.es/~bioestad/_private/Tema_4_color.pdf
http://www.estadistica.mat.uson.mx/Material/elmuestreo.pdf
file:///C:/Users/Admin/Downloads/elmuestreo.pdf
http://asesorias.cuautitlan2.unam.mx/Laboratoriovirtualdeestadistica/CARPETA%203
%20INFERENCIA_ESTADISTICA/DOC_%20INFERENCIA/TEMA%204/09%20REG
RESION%20Y%20CORRELACION%20LINEAL%20SIMPLE.pdf
https://www.ucm.es/data/cont/docs/518-2013-11-13-Analisis%20de%20Regresion.pdf
https://www.researchgate.net/publication/309230625_TEORIA_DE_DECISION_Y_M
ODELOS_ESTADISTICOS