Explora Libros electrónicos
Categorías
Explora Audiolibros
Categorías
Explora Revistas
Categorías
Explora Documentos
Categorías
FACULTAD DE INGENIERIA
PROYECTO FINAL
PROBABILIDAD Y ESTADISTICA
Grupo 13
ndice. ndice.1 Objetivo.2 Introduccin...2 Qu es el maratn de la ciudad de Mxico?....................................................................3 Ruta del maratn de la ciudad de Mxico.........................4 Justificacin...5 Etapas en la investigacin estadstica....6 Etapa 1(Planeacin).................................................6 Metodologa para la obtencin de Datos...6 Etapa 2 (Ejecucin y Procesamiento)........7 Etapa 3(Anlisis y Divulgacin)....7 Etapa 4 (Estadstica Descriptiva para datos no agrupados)...8 Muestreo de Datos del Maratn de la Ciudad de Mxico (tablas)....8 Medidas de Tendencia Central (Velocidad)........10 Tabla de distribucin de Frecuencias (velocidad)....................11 Anlisis Grficos de Frecuencias................11 Estadstica descriptiva para datos agrupados...........12 Medidas de Tendencia Central y de dispersin (datos agrupados)...13 Grficos y anlisis de frecuencias (tiempo)....14 Grficos y anlisis de frecuencias (velocidad)16 Inferencia estadstica...18 Modelo probabilstico matemtico y ejemplos20 Estadstica multivariable..22 Modelo de regresin lineal..23 Conclusiones24 Bibliografa..24
OBJETIVO.
Con la realizacin de este proyecto final, buscamos poner en prctica los conocimientos adquiridos durante este semestre, y al mismo tiempo estamos poniendo a prueba estos conocimientos aplicndolos a una situacin real.
INTRODUCCIN
El presente trabajo corresponde al Proyecto final de la asignatura de probabilidad y estadstica, el propsito de este proyecto es poner en prctica los conocimientos adquiridos en clase. La idea es estudiar una situacin la cual involucre datos numricos (una cantidad de 100 valores), y con estos datos empezar a analizarlos o mejor dicho estudiarlos aplicando los conceptos obtenidos durante estos cuatro meses de clase. Conceptos como varianza, media, desviacin estndar, muestra, estadstica descriptiva, moda, mediana, media, desviacin estndar, rango, curtosis, etc. Hemos tomado la decisin de estudiar el maratn de la ciudad de Mxico, ya que nos parece interesante estudiar el comportamiento matemtico de esta carrera, uno de nuestros objetivos es estudiar de qu manera se relacionan las velocidades, distancias, tiempos de los participantes en esta carrera. Nuestro proyecto consiste en un estudio estadstico del maratn de la ciudad de Mxico, como lo hemos mencionado antes, los datos de este proyecto los hemos tomado del maratn que se llev a cabo el 25 de agosto del presente ao. Proponemos un anlisis mediante modelos matemticos y grficos del comportamiento de las variables que intervienen en el evento.
Este es uno de los maratones ms reconocidos del pas, junto con el Maratn de Torren, el de Quertaro, Monterrey y el de San Luis Potos. Los rcords de este maratn los poseen el keniano Hillary Kimaiyo Kipchirchir en la rama varonil con un tiempo de 2:12:11 logrado en 2013 y en la rama femenil Gladys Tejeda de Per en 2010 con un tiempo de 2:37:34
Desde 1983 que inicio este evento, ao tras ao se ha realizado con un constante incremento de participantes tanto nacionales como extranjeros en sus diferentes categoras. Las diferentes categoras en las que se ha dividido la carrera son: absoluto femenil y absoluto varonil; son en las que sin importar la edad, cualquiera puede participar. invidente varonil e invidente femenil; en esta participan personas invidentes de cualquier edad. Libre1 femenil y varonil de entre 18 - 24 aos. Libre2 femenil y varonil de entre 25 - 35 aos. Libre3 femenil y varonil de entre 36 - 45 aos. Master femenil y varonil de 46 55 aos. Veterano femenil y varonil de 56 65 aos. Veterano master femenil y varonil mayor de 66 aos.
La ruta principal del maratn inicia en el Hemiciclo a Jurez Av. Jurez, el recorrido se desarrolla sobre la avenida reforma los primeros 24 kilmetros, posteriormente se sigue por la avenida insurgentes hasta culminar los 40 kilmetros en el estadio olmpico universitario. El trayecto es conocido como la ruta olmpica.
Este ao se realiz el 25 de agosto 2013 en un horario de salida de entre 7:00 am. a 9:00 am para la diferentes categoras. El costo fue de $350 para participantes nacionales y de $500 para los extranjeros.
El maratn fue regulado y aprobado por: F.M.A.A. (Federacin Mexicana de Atletismo), I.A.A.F. (International Asociation of Athletics Federations), A.I.M.S (Asociacin Internacional de Maratones y Carreras de Distancia) y supervisado por autoridades de seguridad y de salud de la ciudad de Mxico.
JUSTIFICACIN
Debido a que casi no existe informacin acerca de los factores que influyen en una competencia atltica, en especfico la de un maratn, surge la necesidad de investigar dicho evento e inferir su comportamiento. Gracias a los conocimientos adquiridos durante el curso de probabilidad y estadstica, nos propusimos a afrontar este reto y realizar el estudio de dicho evento y as, describir y determinar en funcin de las variables que en este intervienen, los modelos probabilsticos que permitan estudiar las relaciones que existen entre las variables para poder hacer estimaciones del comportamiento de las mismas y el clculo de probabilidades. Es as como nuestro equipo en conjunto proponemos este proyecto de investigacin que se presenta a continuacin.
utilizamos, como se menciona en el encabezado, cuales son las etapas que seguimos en esta investigacin estadstica.
ETAPA 1: PLANEACIN
En esta primera etapa nos dimos ala tarea de seleccionar la situacin o mejor dicho el proyecto con el cual trabajaramos, una vez escogido el tema que trabajaramos comenzamos a plantear los objetivos de este proyecto, tambin hicimos una amplia investigacin la cual fue fundamental para la recoleccin de datos, los cuales son la base de nuestro proyecto. Entre los objetivos que nos planteamos en esta investigacin se encuentran:
1. Conocer el perfil de los participantes del maratn en cuanto a su rendimiento se refiere. 2. Identificar los principales factores que influyen en el rendimiento de los participantes. 3. Determinar las probabilidades que tiene de ganar la carrera cierto participante con caractersticas especficas. 4. Determinar los modelos probabilsticos, grficos y medidas de dispersin que representan el fenmeno.
Tambin definimos nuestro Universo, unidad a investigar y unidad de observacin: Universo: competencias atlticas (carreras, maratones) de la ciudad de Mxico. Unidad a investigar: maratn de la ciudad de Mxico realizado el pasado mes de septiembre del 2013. Unidad de observacin: participantes del maratn de la categora absoluta varonil.
Muestreo.
A partir de los datos existentes en el sitio electrnico y debido al gran nmero de participantes, se seleccionaron aleatoriamente a 100 participantes como
8 Tiempo (horas.) 2,607 25,998 25,926 2,592 25,902 25,854 25,818 2,58 25,548 2,553 2,55 2,547 25,464 25,458 25,446 25,422 2,541 25,404 25,386 25,386 25,338 25,326 2,532 25,302 25,296 Tiempo (horas) 25,272 25,254 25,248 25,242 25,236 2,523 25,218 25,212 25,212 24,954 24,948 24,942 24,936 24,924 24,918 24,912 2,49 2,487 24,864 24,858 24,852 24,834 24,822 2,481 24,774
Nm. de Corredor 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
velocidad (km/h) 15.34330648 15.38579891 15.42852735 15.43209877 15.44282295 15.47149377 15.49306685 15.50387597 15.65680288 15.66784175 15.68627451 15.70475069 15.70845115 15.71215335 15.71956300 15.73440327 15.74183392 15.74555188 15.75671630 15.75671630 15.78656563 15.79404564 15.79778831 15.80902695 15.81277672
Nm. de Corredor 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
velocidad (km/h) 15.82779361 15.83907500 15.84283904 15.84660486 15.85037248 15.85414189 15.86168610 15.86546089 15.86546089 16.02949427 16.03334937 16.03720632 16.04106513 16.04878832 16.05265270 16.05651895 16.06425703 16.08363490 16.08751609 16.09139915 16.09528408 16.10695015 16.11473693 16.12253124 16.14595947
9 Nm. Corredor 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 de velocidad (km/h) Tiempo (horas) 16.20482904 16.21271077 16.23640201 16.47717911 16.48532806 16.48940556 16.49348507 16.52209831 16.54259719 16.56314700 16.56726309 16.58374793 16.60440017 16.60440017 16.62510391 16.62920000 16.84352367 16.86482840 16.87763713 16.90331305 16.90331305 16.92906721 16.98946653 17.00680272 17.05029838 24,684 24,672 24,636 24,276 24,264 24,258 24,252 2,421 2,418 2,415 24,144 2,412 2,409 2,409 2,406 24,054 23,748 23,718 2,37 23,664 23,664 23,628 23,544 2,352 2,346 Nm. Corredor 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 de velocidad (km/h) Tiempo (horas) 17.07650273 17.08087796 17.28011059 17.31152082 17.35659117 17.37015807 17.52080596 17.53924406 17.75410564 17.8396218 17.96460972 18.00342065 18.0131496 18.30496064 18.32508704 19.02044698 19.28454344 19.28454344 19.57330202 19.98401279 20.62706271 21.34699541 21.91540653 21.92982456 21.93704069 23,424 23,418 23,148 23,106 23,046 23,028 2,283 22,806 2,253 22,422 22,266 22,218 22,206 21,852 21,828 2,103 20,742 20,742 20,436 20,016 19,392 18,738 18,252 1,824 18,234
electrnico
oficial
del
maratn.
10
VELOCIDAD
Varianza de la muestra Suma Rango Moda Mnimo Mediana Media Mximo Error tpico Desviacin estndar Curtosis Cuenta Coeficiente de asimetra 2,171269391 1676,810576 6,593734211 15,7567163 15,34330648 16,17539426 16,76810576 21,93704069 0,147352278 1,473522783 4,051267401 100 2,031213602
Anlisis de los resultados obtenidos del estudio estadstico De acuerdo a los resultados de la tabla, podemos afirmar que el coeficiente de asimetra es mayor que cero, por lo que la distribucin es del tipo asimtrica positiva. En lo que respecta al coeficiente de curtosis, como resulto mayor a 3, implica que estamos ante una distribucin del tipo leptocurtica. Respecto a la mediana, que en este caso es de 16,76810576. Es valor que se encuentra exactamente a la mitad de los datos ordenados de menor a mayor. La media no es otra cosa ms que el promedio de los valores totales =16,76810576. La moda es el valor que ms veces se repite en el total de datos, en este caso es 15,7567163. En cuanto a la desviacin estndar, indica el intervalo en el que la media tiende a variar o el grado de libertad, =2,171269391.
11
(V2) Para el caso de la variable tiempo, se propone el mismo anlisis estadstico obteniendo los siguientes resultados.
Tiempo Media Error tpico Mediana Moda Desviacin estndar Varianza de la muestra Curtosis Coeficiente de asimetra Rango Mnimo Mximo Suma Cuenta 50,5 2,901149198 50,5 #N/A 29,01149198 841,6666667 -1,2 8,23913E-17 99 1 100 5050 100
De acuerdo a la tabla podemos afirmar que el coeficiente de asimetra es menor que cero, por lo que la distribucin es del tipo asimtrica negativa. En lo que respecta al coeficiente de curtosis, como resulto mucho menor a 3, implica que estamos ante una distribucin del tipo platocurtica. Respecto a la mediana, que en este caso es de 50,5. La media o promedio de los valores totales = 50,5. Resulto igual que la media. La desviacin estndar, fue de 29,01149198.
12
Para el agrupamiento de los datos se determinaron los parmetros siguientes con base a las ecuaciones de estadsticos. n= ( ) ( )
Estudio del comportamiento de la variable velocidad para la determinacin de las medidas de dispersin y de tendencia central como conjunto de datos agrupados. Con base a estos parmetros calculados, construiremos la tabla de frecuencias, posteriormente el histograma, polgono de frecuencias y ojiva.
MEDIDAS DE TENDENCIA CENTRAL y DE DISPERSION PARA DATOS AGRUPADOS marca fronteras de de intervalos clase clase F limite limite Xi F rel. f f.rel f*Xi Clase inferior superior int inf int sup 0 1 2 3 4 5 6 7 8 0 15,343 16,204 17,065 17,926 18,787 19,647 20,508 21,369 0,8608 -0,005 0,8658 0,4304 0 50 75 85 90 94 95 97 0 0,5 0 50 0 0,5 0
momentos
M2 na M4 na M3 na
788,685 0,00963
0,75 25 0,25 415,863 0,000145 2,1E-06 0,85 10 0,9 0,94 0,95 0,97 1 5 4 1 2 3 0,1 174,953 0,00548 0,003
17,926 17,064 - 17,931 17,495 18,787 17,925 - 18,792 18,356 19,647 18,786 - 19,652 19,217 20,508 19,647 - 20,513 20,078 21,369 20,508 - 21,374 20,939 22,23
0,05 91,7805 0,025635 0,06571 0,04104 0,04 76,8676 0,060609 0,36734 0,14921 0,01 20,0777 0,110403 1,21887 0,36683 0,02 41,877 0,175016 3,06305 0,73218 6,4744 1,28351
13
Con base a las frmulas para el clculo de las medidas de dispersin para datos agrupados siguientes. Se pudo calcular la madiana, media, moda, coeficiente de asimetra, coeficiente de curtosis, desviacin estndar, varianza, cuartil 1, cualtil 3, percentil 95, percentil 10, rango cuartilico y rango percentilico.
16,75501
0,800853
0,047798
coef de curtosis . 4= 17,46532 coef de asimetria. 3= 4,002968 mediana moda varianza cuartil 3 cuartil 1 16,2041 15,91717 0,641366 17,0644 15,7732 recorrido intercuartilico 1,2912 recorrido percentilico LP95=(N/100)*95 Lp10=(n/100)*10 4,99314 LQ1=(n/4)*1= 25 LQ3=(n/4)*3= 75
14
De acuerdo al coeficiente de curtosis obtenido, se determina que se tiene una distribucin leptocurtica, y adems, asimtrica con sesgo positivo.
HISTOGRAMA
25
El histograma demuestra que la distribucin es asimtrica con sesgo positivo, adems que la media efectivamente se encuentra en el intervalo de (15.34-6.20). Si buscramos una funcin que se acerque al tipo de grfico, sin duda, debido a que es una variable contina, la funcin seria del tipo exponencial. ( ) En donde m es un factor de correlacin.
15
OTROS GRAFICOS
60
POLIGONO DE FRECUENCIAS
50
50
40 corredores
30 25 20
10
2 20.5081
120
ojiva
100 85 75 60 50 40 90 94 95 97 100
80
20
0 0
0 15.3428 16.2036 17.0644 17.9252 18.786 19.6468 20.5076 21.3684 F frec acumulada
16
intervalos (tiempo) Clase 1 2 3 4 5 6 7 8 limite inferior 1,8234 1,9257 2,028 2,1303 2,2326 2,3349 2,4372 2,5395 - limite superior - 1,9257 - 2,028 - 2,1303 - 2,2326 - 2,3349 - 2,4372 - 2,5395 - 2,6418
F 4 6 10 15 23 47 82 100
F 4 2 4 5 8 24 35 18
Para la construccin de los grficos de dispersin, se tomaron en cuenta los parmetros obtenidos a continuacin.
N Mnimo Mximo K Rango W 100 1,8234 2,607 7,66 0,7836 0,10229765
40 35 30 corredores 25 20 15 10 5 0 1.9257
2.028
2.1303
2.2326
2.3349
2.4372
2.5395
2.6418
17
40 35 30 corredores 25 20 15 10 5 0
1.9257
2.028
2.1303
2.2326
2.3349
2.4372
2.5395
2.6418
intervalo (tiempo)
Como lo muestra el histograma y polgono de frecuencias, se puede apreciar claramente que la distribucin no es tan fcil de asociar a alguna funcin de distribucin de variables continuas, por simetra podramos aproximarlo mediante la distribucin normal para la realizacin de inferencia y clculo de probabilidades.
corredores
2.028
Como se puede ver en el grafico siguiente, las variables velocidad y tiempo, tienen una distribucin totalmente diferente. Esto quiere decir que ambas variables poseen un coeficiente de correlacin algo disparejo para este caso.
18
INFERENCIA ESTADISTICA Respecto a la geometra del polgono de frecuencias e histograma, podemos ajustar un modelo de probabilidad que se aproxime a la distribucin. En este caso sera la exponencial. Mediante el mtodo de regresin exponencial fue posible determinar el modelo matemtico para la distribucin.
60 50 corredores 40 30 20 10 0
poligono de frecuencias
50
60 50 50 40
histograma
25 10
30 5 20 4 1 2 3
25 10
10 0 0
velocidad =x
19
60
50 numero de corredores
40
y = 132336e-0,546x
R = 0,7795
25
30
20
10
10 5 4 3 1 2 25
20
En donde el valor 132336 y -0,546 son constantes. Y x es la variable aleatoria de la frecuencia. Quedando asi la funcion de probabilidad. y = 132336e-0,546x Y X toma valores de (15 - 22) . R es el coeficiente de determinacion que explica la trayectoria de la variable x : R = 0,7795
de distribucion de
1. Si en el velocimetro oficial de la competencia se muestra una velocidad de 18 km/h, se desea saber cunatos corredores llevan esta misma velocidad. Cuntos corredores se espera que lleven esta misma velocidad ?
20
Solucion: Como x es igual a 18, y la probabilidad se reduce a una simple sustitucion de la variable x=18 en la funcion. ( )=7.13 es decir aproximadamente 7 corredores llevan esta velocidad en el mismo instante de tiempo
2. Si se selecciona al azar a un corredor. Cual es la probabilidad de que su velocidad este entre 15- 17.5 km/h? Solucion: como la funcion de probabilidad puede considerarse funcion de densidad, la solucion se llega mediante la integral definida siguiente. ( ) ( )
3. Se selecciona al azar a 5 corredores. Cual es la probabilida de que sus velocidades promedio sean a lo sumo 19.5km/h? Solucion: P(15<X<19.5) ( ) ( )
De esta manera el calculo de probailidades se vuelve una herramienta muy importante para estimar ciertos valores mas especificos que a simple vista no se puede aprsiar en la grafica por se una funcion de variable aleatoria continua.
21
ESTADSTICA MULTIVARIABLE
Como parte de la estadstica multivariable, se `propone analizar las variables X (velocidad) y Y (tiempo). Determinaremos el modelos de regresin lineal, si es que existe una correlacin que ajuste a una recta, de lo contrario se optara por la regresin logartmica o exponencial, para determinar el grado de relacin que existe entre la variables, que tanto depende un de la otra o si son totalmente independientes. La siguiente tabla muestra 20 valores seleccionados aleatoriamente que le corresponde a cada variable en la misma frecuencia.
X n
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
Y velocidad
15,3433065 15,3857989 15,4285274 15,4320988 15,442823 15,4714938 15,4930669 15,503876 15,6568029 15,6678418 15,6862745 15,7047507 15,7084512 15,7121534 15,719563 15,7344033 15,7418339
tiempo
2,607 2,5998 2,5926 2,592 2,5902 2,5854 2,5818 2,58 2,5548 2,553 2,55 2,547 2,5464 2,5458 2,5446 2,5422 2,541
22
REGRESIN LINEAL Con los datos anteriores, se desarroll la grfica y el modelo de regresin lineal siguiente.
y = -6,0528x + 31,121 R = 1
Como la grfica lo muestra, las variables X,Y es ajustan casi exactamente al modelo, por lo que a simple vista se puede concluir que las variables son totalmente dependientes, la velocidad depende del tiempo. Aunque no era necesario hacer este grafico para llegar a esta conclusin, pues por definicin sabemos que la velocidad es igual a la distancia entre el tiempo V=d/t, a mayor tiempo menor velocidad.
El valor R=1 representa el coeficiente de correlacin entre las variables ( x,y ), como resulto igual a 1, implica que estn ampliamente relacionadas o completamente relacionadas , son dependientes.
23
Conclusiones.
Con la elaboracin de este trabajo final, nos dimos cuenta de que manera nos sirve los conceptos vistos en clase de teora aplicados a una situacin real, comprobamos varios conceptos, como por ejemplo conceptos como distribucin de frecuencia, la cual nos fue de gran ayuda durante la elaboracin de este proyecto, la cual es una tabla de resumen en la que los datos se disponen en agrupamientos o categoras establecidas en clases ordenadas numricamente. Tambin nos fue de gran ayuda para recordar como podemos ayudarnos de la programacin para realizar todos estos clculos. Sin duda alguna, se cumplieron los objetivos que se tenan previstos, logramos realizar un estudio estadstico completo, pusimos en prctica los conocimientos adquiridos.
Bibliografa.
Mrquez, M. J., (1991). Probabilidad y estadstica para ciencias qumico-biolgicas. Distrito Federal, Mxico. Editorial McGraw-Hill. Canavos, G. (1992). Probabilidad y estadstica. Madrid, Espaa. Editorial McGrawHill.Devore, J.L. (2005) "Probabilidad y Estadstica para Ingeniera y Ciencias". 6 Ed. Thomson.Walpole, R.E. , Myers, R.H. y Myers, S.L. (1999). "Probabilidad y Estadstica Para Ingenieros". 6 Ed. Prentice Hall.
Sitio internet. Pg. oficial maratn: http://www.maratoncdmx.com