Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Presentado a
Tutor:
FRANCISCO CABRERA DÍAZ
Presentado por
Jhon Wilfer VIRGUEZ SIERRA – 1053332035
WIRIS RAFAEL CONTRERAS QUINTERO - 1051816706
JUAN DIEGO BERNAL OROZCO - 1053818828
Grupo No.
100105_112
Introducción.
Teniendo en cuenta que el interés por aprender es constante, fue de buen agrado
y mayor provecho dedicar tiempo para plasmar las ideas según lo solicitado, y de
esta forma continuar con el proceso de aprendizaje, y demostrar de manera
consecuente el entendimiento y enriquecimiento del saber. Así mismo la
intencionalidad de contribuir a la formación y cumplimiento de acuerdo al
desarrollo de las actividades.
.
Justificación.
Objetivos
General
Específicos
Conceptos Básicos
La Población, se habla del total de eventos que representan un estudio,
para el caso concreto, la población son los accidentes de tránsito ocurridos
a en el territorio Nacional, durante el 2015
El tamaño de la muestra, y ubicación espacio temporal de la muestra, es la
definición y delimitación de la proporción que se va a estudiar y la que
permitirá extrapolar los resultados a una conclusión más general, de
acuerdo a la representatividad de los datos, para el caso particular la
muestra que se va a estudiar son los 110 accidentes de tránsitos
presentados en la ciudad de Medellín durante el 2015.
La unidad estadística, se dice que es la unidad básica de cualquier análisis
estadístico, es la parte indivisible del proceso de análisis y representa cada
una de las observaciones, para el caso de nuestro análisis esta unidad es
Cada uno de los registros de accidente
Las variables; estas pueden ser de dos tipos, discretas o continuas, siendo
las primeras: variables de tipo cuantitativo que puede tomar un solo valor,
entre cierta cantidad de valores dados dentro del problema de estudio, su
valor siempre será finito y solo acepta valores enteros. Mientras que las
variables continuas son las que pueden tomar cualquier valor que exista
entre dos magnitudes, es decir puede tomar infinitos valores, además estos
valores admiten fracciones y son el resultado de algún método de
medición
o Cualitativas; Tipo de Vehículo, Genero, Mes, Día de la semana,
Otros Factores, Tipo de Vía, involucra peatones
o Cuantitativas.
Las Variables discretas son : número de heridos,
número de muertos
Variables continuas son: grado de alcohol del
conductor, hora, costo estimado del siniestro, edad,
velocidad velocidad
Las medidas de dispersión hacen referencia al análisis de los datos que se alejan
del centro, y que por tanto no dan información útil en los cálculos de promedio o
de tendencia central, pero que son necesarios para conocer cuál es la realidad de
los datos con los que se pretende analizar una situación dada. Las principales
medidas de dispersión son; el rango o recorrido, la varianza, el coeficiente de
variación, el puntaje típico o estandarizado y las medidas de asimetría o
apuntalamiento.
Una vez revisado, a modo general, algunos conceptos sobre las variables y sus
medidas procederemos a hacer el respectivo análisis teniendo en cuenta los datos
aportados por la investigación y orientados a resolver la problemática planteada
“Principales Causas que incrementan e (inciden) en el número de accidentes de
tránsito, ocurridos en el territorio Nacional”
Frecuencia
Frecuencia Frecuencia
Edad Frecuencia Relativa
Acumulada Relativa
Acumulada
52 6 94 5,45% 85,45%
53 1 95 0,91% 86,36%
54 6 101 5,45% 91,82%
55 5 106 4,55% 96,36%
56 2 108 1,82% 98,18%
60 2 110 1,82% 100,00%
Total 110 100%
Medidas de Tendencia Central
Moda 46
Mediana 36
Media 36,97
Medidas de Posición
Percentile
Cuartiles Edad Deciles Edad Edad
s
Q1 25.25 D5 36 P30 29,7
Q2 36 D7 46 P50 36
Q3 46
Como se evidencia las personas de 46 años fueron las que en mayor número se
vieron involucradas en accidentes de tránsito, así mismo, vemos que los datos
tienden a agruparse alrededor de los 36 años; el promedio de edad de las
personas involucradas en accidentes es de los 36, casi 37 años, además el 50%
de los accidentes fueron ocasionados por personas menores a 36 años. De
acuerdo a los resultado podemos ver que los datos presentan una distribución
sesgada hacia la izquierda, donde x́< Me< Mo
0, 0, 0, 1, 1, 1, 2, 2, 2, 3,
2 7 9 1 8 4 0 3 8 5
0, 0, 1, 1. 1, 1, 2, 2, 3, 3,
6 4 0 0 5 8 1 4 4 2
0, 0, 0, 1, 1, 1, 2, 2, 3, 3,
4 6 9 2 6 7 3 2 1 0
0, 0, 1, 1, 2, 1, 2, 2, 3, 3,
2 0 2 0 0 4 4 3 3 2
0, 0, 1, 1, 1, 1, 2, 2, 3, 3,
6 2 1 4 8 5 2 4 3 3
0, 0, 0, 1, 1, 1, 2, 2, 2, 3,
7 7 8 6 7 9 4 5 9 4
0, 0, 1, 1, 1, 2, 2, 2, 3, 3,
5 8 2 5 6 0 1 5 0 4
1, 0, 1, 1, 1, 1, 1, 2, 3, 3,
4 9 4 4 2 9 9 4 2 5
Tabla de Frecuencia datos no Agrupados
Puntos Medios
Frecuencia
Intervalos de Frecuencia Frecuencia Intervalos de
Frecuencia Relativa
clase (Grados de Acumulada Relativa Clase o Marca de
Acumulada
Alcohol) clase
1 (0,00 – 0,438] 9 9 8,18% 8,18% 0.22
2 (0,438 – 0,875] 15 24 13,64% 21,82% 0.66
3 (0,875 – 1,31] 15 39 13,64% 35,45% 1.09
4 (1,31 – 1,75] 17 56 15,45% 50,91% 1.53
5 (1,75 – 2,19] 17 73 15,45% 66,36% 1.97
6 (2,19 – 2,62] 17 90 15,45% 81,82% 2.41
7 (2,62 – 3,06] 6 96 5,45% 87,27% 2.84
8 (3,06 – 3,5] 14 110 12,73% 100,00% 3.28
Total 110 100%
Histograma de Frecuencias
Grados de Alcohol
Polígono de Frecuencias
20 17 17 17
15 15 15 14
10 9
5 6
0
]
1]
2]
5]
9]
6]
]
38
75
,5
,3
,7
,1
,6
,0
–3
,4
,8
–1
–1
–2
–2
–3
–0
–0
6
75
,0
0
38
,3
,7
,1
,6
(3
,0
,8
(1
(1
(2
(2
Frecuencia
,4
(0
(0
Grados de Alcohol
Como se aprecia en los cálculos anteriores, las personas con 1,4 grados de
alcohol fueron las que mayoritariamente se vieron involucradas en accidentes de
tránsito, así mismo el promedio de 1,74 grados de alcohol en los accidentes
100105-112 – ESTADÍSTICA DESCRIPTIVA
Fase: Evaluación Final
11
Informe Final
ocurridos indican una concentración de los datos entorno a los valores que se
encuentran por encima de 0,5 y por debajo de los 2,5 grados. De acuerdo a los
resultado podemos ver que los datos presentan una distribución sesgada hacia la
derecha, donde Mo< Me < x́
2. Medidas Univariantes de Dispersión
trago ingerido por el conductor, no hay presión social por no usar el carro, es decir
si no es evidente el estado de embriaguez raramente existirá presión de amigos o
familiares por dejar de conducir, cosa contraria a cuando esta es evidente. Esto
supone que es más peligrosa una persona con niveles medios de alcohol que una
totalmente ebria, dado que si lo está el grupo presionara por hacerlo desistir de
manejar y eso explica porque en niveles más altos no se encuentran involucrados.
(x), y Número de muertos, como variable dependiente (y). Esto con el fin de
revisar lo que intuitivamente se sospecha, que si entre más borracho (mas alto el
nivel o grado de alcohol del conductor), se es más propenso a verse involucrado
en un accidente de tránsito con víctimas fatales, y determinar de esta manera
como es la relación.
Realizar el diagrama de dispersión de dichas variables, determinar el
tipo de asociación.
12
10
8
erodeMertos
6
Num
0
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0
Grados de Alcohol del Conductor
X Y XY X2 Y2
Total
190,3 531,0 1213,8 426,5 3601,0
∑❑
Y^ =a+bX
n ∑ XY −∑ X ∑ Y 110∗1213,8−(190,3∗531) 32468,70
b= 2
= = =3,0351
n ∑ x2−( ∑ X) ( 110∗426,47 )−(190,3)2 10697,61
a=
∑ Y −b ∑ X = 531− (3,0351∗190,3 ) = −46,5863 =−0,4235
n 110 110
Y^ =a+bX → Y^ =3,0351 X −0,4235
Dónde:
Y^ : Variable dependiente (la que se va a predecir):
a : Intercepto de la variable Y
X : Variable independiente
b : Pendiente de la recta
Para determinar la confiabilidad del modelo matemático o la recta de regresión se
hará uso del cálculo del Error estándar del estimado: el cual mide el grado de
confiabilidad de la ecuación de la recta estimada, indicando el grado de dispersión o
variabilidad de los datos observados alrededor de la línea de regresión:
√
2
∑ y −a ∑ y −b ∑ xy =
Se=
n−2 √ 3601+0,4235 ( 531 )−3,0351(1213,8)
110−2 √=
3825,8850−3684,
109
12
10
f(x) = 3.04x - 0.42 GRADOS DE ALCOHOL DEL
NUMERO DE MUERTOS
8 R² = 1 CONDUCTOR
Pronóstico para Numero de
6 Muertos
Linear (Pronóstico para Numero
4 de Muertos)
2
0
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0
-2
GRADOS DE ALCOHOL DEL CONDUCTOR
Con el valor del error estándar del estimado, se procede a calcular el coeficiente
de determinación, que es la medida que permite estimar el porcentaje de la
información que es recogida o explicada por el modelo de regresión escogido; a
2
partir de medir la variación de la variable dependiente. Cuando el R es cercano
a 1, se dice que el modelo de regresión lineal ajustado tiene un alto grado de
confiabilidad, si al contrario este se acerca a 0 su grado de confiabilidad es muy
bajo y se recomienda no utilizar el modelo de regresión estimado
Se 2
2
R =1− 2 =R =1−
Sy
2 1,14072
9,4338
=0,8790
( )
2
Primero toca calcular S y la varianza de la variable dependiente Y.
S 2y = (∑ ) n
y
− ý 2 =S 2y = ( 3601
110 )
−( 4,8272) =9,4338 2
hasta el -1. e indica el grado de asociación entre las variables, si es 0 indica que no
existe relación alguna y los valores extremos +1 y -1 indican una correlación perfecta
positiva o negativa respectivamente.
r= √ R2 =r=√ 0,8790=r=0,9375
Como se puede apreciar la relación que existe entre las dos variables fuerte, de
cerca del 80% y existe una correlación lineal positiva entre las variables; por lo que
se puede decir que la relación entre el número de muertes por accidentes de
tránsito si se encuentra explicada por el grado de alcohol que tenga el conductor,
pues es cerca del 93%.
Como se pudo apreciar la relación entre las variables es alta, es además positiva
lo que quiere decir que la ocurrencia de una implica una afectación de la otra, y la
fuerza de explicación entre una y otra es alta, lo que indica que, si existe, con un
93% de probabilidad la ocurrencia de la otra. Saberlo implica mayor conciencia
sobre la responsabilidad que se tiene al conducir, pues si es evidente que se tiene
mayor probabilidad de verse involucrado en un accidente donde se presenten
muertos.
Regresión y Correlación Lineal Múltiple.
160
140
120
100
f(x) = 16.49x + 44.68
80 R² = 0.74
60
40
20
0 f(x) = 1.17x + 1.63
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0
R² = 0.51
Vel oci da d Li near (Vel oci dad)
Número de Heri dos Li near (Número de Heri dos )
Número de Heridos
5
Pronóstico Número de
4 Heridos
3 Linear (Pronóstico Número
2 de Heridos)
1
0
20 40 60 80 100 120 140 160
Velocidad
Pronóstico Número de
4 Heridos
3 Linear (Pronóstico Número
de Heridos)
2
1
0
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0
Grados de Alcohol del Conductor
2 2
X1 X2 Y X1 Y X2 Y X1 X2 X1 X2 Y
2
Y^ =a+b1 X 1 +b2 X 2
X 1 +¿ b2 ∑ X 2 → 403=110 a+190,3 b1 +8053 b2
∑ Y =na+b 1 ∑ ¿
2
X 1 +¿ b2 ∑ X 1 X 2 → 811,4=190,3 a+ 426,5 b1 +15535,2 b2
X 1 +¿ b 1 ∑ ¿
∑ X 1 Y =a ∑ ¿
2
X 2 +b1 ∑ X 1 X 2 +¿ b2 ∑ X 2 →31606=8053 a+15535,2 b1 +625433 b2
∑ X 2 Y =a ∑ ¿
Desarrollamos como un sistema de ecuaciones lineales y por el medio del método
de Gauss, es decir transformar en una matriz escalonada
(
110 190,3 8053 403
| ) 110
190,3 426,5 15535,2 811,4 f 2−1,73 ( f 1 ) → f 2 0
8053 15535,2 625433 31606
190,3 8053
(
403
97,281 1603,51 114,21 f 3−
8053 15535,2 625433 31606
8053
110 | )
f 1→f
{
110 a 190,3 b 1 8053 b2 ¿ 403
0 97,281b 1 1603,51b 2 ¿ 114,21
(1)
10111381849 2908810
0 0 b2 ¿
1070091 13211
a=0,59
b1=0,79
b2=0,023
Y^ =a+bX → Y^ =0,79 X 1+ 0,023 X 2 +0.59
Dónde:
Y^ : Variable dependiente (la que se va a predecir):
a : Intercepto de la variable Y
X 1 , X 2 : Valores de las Variables independientes
b1 , b2 : Pendientes asociadas con cada variable independiente en la recta
√
2
∑Y −a ∑ Y −b1 ∑ X 1 Y −b 2 ∑ X 2 Y
Se=
n−3
→ Se=
√
1739−( 0,59∗403 )−( 0,79∗811,4 )−(0,023∗31606)
110−3
=
r= √ R2 =r=√ 0,49235=r=0,7016
Relacionar la información obtenida con el problema.
A este análisis se debe sumar el que se hizo con respecto a la velocidad donde se
encontró un alto nivel de confiabilidad en el modelo de regresión que analiza la
relación entre heridos y velocidad, cerca del 88 de los accidentes se explican por
este concepto, donde según el modelo se encuentra que después de 28km/h se
corre el riesgo de cometer un accidente y que esto aumenta en la medida que
aumente de ahí en adelante la velocidad. Sin embargo al analizar en un mismo
sistema la velocidad y los grados de alcohol (análisis de regresión múltiple),
vemos que el nivel de confiabilidad del modelo, explicada por el coeficiente de
determinación, cae a solo el 49%, sin embargo el nivel de correlación es alto, pues
cerca es del 70%, lo que nos indica que existe una correlación lineal positiva entre
el número de heridos explicada por el grado de alcohol y la velocidad del carro.
Según la ecuación de la recta cada herido se explica en un 56% por el efecto
alcohol, un 42% por otro tipo de situaciones, esto es el error, y un 2% por el efecto
velocidad. Esto nos pone de relieve que el problema central es el grado de
alcohol, que se debe controlar en un segmento específico de la población y se
debe hacer énfasis en la medida de lo posible en la disminución de la velocidad.
Propuesta consolidada
Del diagrama estadístico de dispersión se desprende que existe una correlación
lineal directa entre el número de heridos y el grado de alcohol; esta información
está confirmada por el valor del coeficiente de determinación que nos indica que el
modelo de regresión nos explica cerca del 87% de los casos de accidentes
observados en el estudio, es decir el modelo es altamente confiable. Así mismo si
revisamos el polígono de frecuencias, la media de alcohol dentro de la muestra es
de 1,74 grados, donde hay que resaltar que cerca del 70 por ciento de las
Bibliografía