Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Bachillerato Internacional
—————————————————————————————————————
Nivel Medio
Declaración de autoría: Confirmo que el presente trabajo es original y que es la versión final
1
ÍNDICE
Introducción 3
Información, mediciones y datos obtenidos 5
● MUESTREO ESTRATIFICADO: 6
● MUESTREO ALEATORIO: 6
● IDENTIFICACIÓN DE VALORES ATÍPICOS: 7
Conclusión 19
Apéndices y anexos 21
2
Introducción
Al saber que tenía que elaborar una exploración matemática, lo primero que pensé fue en
investigar algo que me fuera a interesar. Las matemáticas no son algo que me apasione
mucho, por no decir nada, por eso me aseguré de que el trabajo de investigación que fuera a
elegir me gustase/interesase.
Al final, me decanté por el tenis, ya que es un deporte que llevo practicando desde pequeña,
Siempre me han interesado bastantes cosas sobre el tenis, pero lo que me llevo preguntando
toda la vida es que si una persona con menos altura tiene más dificultad al meter el saque, lo
que es igual que si una persona más alta tiene mayor facilidad a la hora de meter el saque.
Habiendo abordado con mayor concretación lo que realmente me interesa, podríamos decir
forma elegida de indagación ya que lo que buscamos en este trabajo es buscar la relación
entre dos variables, y eso con la estadística es posible. Adentrándonos ahora en qué cosas
voy a hacer para investigar. En primer lugar, realizaré una serie de muestreos estadísticos,
asociación de tenis femenino. En segundo lugar pero último dentro del apartado de
3
para que, en el caso de que haya, eliminarlos. Posteriormente, pasaremos al apartado de
relación entre las dos variables. Realizaremos, un diagrama de dispersión para saber como
correlación de Pearson para poder ver si la dos variables tienen relación en el caso de que
dependencia de ranking entre dos variables. Seguiremos con un test o prueba de Chi -
2
Cuadrado (χ ), para ver hipótesis referidas a la relación entre las variables y por último,
terminaremos con un test o prueba T - Student para ver si hay una diferencia significativa
saques que cada uno pueda meter en un partido, porque, siendo una persona que sabe de
tenis, pienso que al tener una mayor altura, hay una mejor perspectiva del recorrido que
tiene que hacer la bola para que caiga dentro del cuadrado de saque.
Aún así como no estoy segura de que sea así, posteriormente con operaciones matemáticas
de estadística, lo comprobaremos.
4
Información, mediciones y datos obtenidos
tabla de todos los datos obtenidos y poder trabajar con una mayor facilidad. Voy a realizar
estratificado lo haré para ver cuántos tenistas hay por rango de edad y así poder saber el
porcentaje. Cojeremos los tenistas por rango de edad divididos por hombres y mujeres, lo
dividiremos entre el total y los multiplicaremos por 100. Centrándonos ahora en el muestreo
aleatorio, esto lo voy a hacer para reducir los 138 datos que tengo a 52 que me van a quedar
para poder hacer más simple la indagación. Lo que voy a hacer es multiplicar el porcentaje
que he obtenido en el muestreo estratificado y multiplicarlo por 50 que son los datos con los
que quiero más o menos trabajar. Esta operación me va a dar un número y ese será el
número de los tenistas que tendré que coger en cada rango. Miraré que tenistas tengo en
cada rango y los meteré en un página web que me diga aleatoriamente cuántos tenistas
elegir en cada rango de edad. Por último, realizaremos una identificación de valores atípicos
5
Anexo 1: Tabla de los 138 datos obtenidos totales
● MUESTREO ESTRATIFICADO:
HOMBRE 10 29 18 13 1 71
MUJERES 12 28 24 3 0 67
TOTAL 22 67 42 16 1 138
Hombres:
10
- De 18 - 22 → 138
= 0, 07246376812 × 100 = 7, 246376812% → 7%
Mujeres:
12
- De 18 - 22 → 138
= 0, 08695652174 × 100 = 8, 695652174% → 9%
En las operaciones hechas anteriormente vemos un ejemplo de lo que habría que hacer con
● MUESTREO ALEATORIO:
En este pantallazo se ve la página web con la que voy a implementar el muestreo aleatorio.
Me fijaré en que tenistas están en cada rango y de dicho rango ver cuantos tengo que elegir.
Esta ruleta me facilitará elegir qué tenistas usar en la investigación. En el cuadro blanco que
se puede ver a la arriba a la derecha del pantallazo, meteremos a todos los tenistas de cada
rango y giraremos la ruleta el número de veces que nos dé el resultado de las operaciones
realizadas posteriormente.
6
Para poder sacar el resultado, cogeré el porcentaje que dio como resultado en el muestreo
estratificado y lo multiplicaré por 5o que son los datos que más o menos quiero.
Hombres:
7
- De 18 - 22 → 100
× 50 = 4
Mujeres:
9
- De 18 - 22 → 100
× 50 = 4, 5 = 5
Al igual que en el muestreo estratificado estos son un ejemplo de las operaciones que habría
tabla con datos reducidos, pero antes de pasar a toda la parte central del trabajo
Usaremos la tabla en la que ya están hechos los dos tipos de muestreo ya que la operaciones
que se van a realizar posteriormente van a ser solo con esos datos.
Para saber el resultado de Q1 y Q3 de las dos variables, usaremos en hojas de cálculo una
A continuación, vamos a calcular los valores atípicos para la variable Y, que es la altura del
tenista.
7
𝑄1 = 173 173 − (1, 5 × 15) = 150, 5
𝑄3 = 188 188 + (1, 5 × 15) = 210, 5
𝑅𝐼𝐶 = 188 − 173 = 15
No hay valores atípicos ya que de mis datos obtenidos de la altura, no hay ningún valor
Al haber realizado anteriormente los valores atípicos de la variable Y, ahora calcularemos los
de la variable X
En este caso sí que encontramos valores atípicos, así que posteriormente los eliminaremos
de la tabla. Al eliminar dichos valores atípicos, la tabla se nos quedaría con 47 datos en vez
de 52.
En este siguiente apartado ya nos dirigimos más a las operaciones más específicas que hay
que ejecutar para saber si realmente existe una relación entre la altura de un tenista y su
porcentaje de primeros saques en un partido. Así de primeras, viendo la tabla con los datos
comprobaremos con operaciones matemáticas. Haremos operaciones que nos sean útiles, o
sea, que nos faciliten de alguna manera ver si realmente existe una relación.
8
coeficiente de correlación de producto Pearson, el coeficiente de correlación de producto
vamos a realizar, en general, sirven para ver si hay una relación pero, aun así, en cada
específicamente el análisis.
● DIAGRAMA DE DISPERSIÓN:
El diagrama de dispersión nos va a permitir ver las relaciones entre la variable X y la variable
Y.
Habiendo ejecutado ya el diagrama de dispersión, podemos ver que tiene una correlación
débil porque los valores están entre 0,25 y 0,5. Dicho diagrama también nos permite
observar que tiene una relación no lineal, lo cual, quiere decir que según el diagrama, no
existe una relación entre la altura de un tenista y su porcentaje de primeros saques metidos
en un partido.
9
correlación Pearson no lo vamos a poder realizar ya que anteriormente, en el diagrama de
dispersión, nos ha salido una relación no lineal y Pearson solo se puede realizar cuando
Aún así, el coeficiente de correlación Spearman si que lo vamos a poder realizar ya que es
Este tipo de correlación nos permite estudiar en qué medida una variable varía cuando lo
hace la otra
En este apartado vamos a realizar el coeficiente de correlación Spearman. Para ello, vamos a
coger la tabla simplificada y vamos a ordenar los datos de mayor a menor en forma de
ranking formando una nueva tabla con nuevos datos. Posteriormente, meteremos todos los
datos de la nueva tabla en la calculadora, para así poder saber cual es el coeficiente de
correlación.
Después de haber metido todos los datos en la calculadora, el resultado del coeficiente de
fijándonos en la tabla en forma de ranking, nos demuestran que la relaciones entre estas dos
variables no existen.
10
● CONTRASTE O TEST CHI-CUADRADO (χ2):
Otro método estadístico que se puede utilizar para demostrar si existe una posible relación
entre las dos variables escogidas, es contraste o prueba de chi-cuadrado. Esta prueba nos
permite determinar si las dos variables están o no relacionadas, lo que es lo mismo, si existe
Esta tabla se va a rellenar a partir de los datos obtenidos en la tabla simplificada, la que ha
bastante simple ya que lo único que necesitamos hacer para rellenar, es fijarse la tabla que
160-170 0 2 5 0 7
170-180 0 9 10 0 19
11
180-190 0 3 9 0 12
190-200 0 2 6 0 8
200-210 0 0 0 0 0
210-220 0 0 1 0 1
TOTAL o 16 31 o 47
En esta siguiente tabla vamos a usar una pequeña fórmula para poder cambiar los datos y
que sea una tabla de frecuencia esperada. Vamos a tener que multiplicar el total de cada
0·7
Ejemplo: 47
= 0
200-210 0 0 0 0 0
TOTAL 0 16 31 0 47
Cuando realizamos una tabla de frecuencias esperadas, los valores que salgan en cada celda
menos la columna de total y la fila del total, tienen que ser mayores o iguales a 5, para ello
juntaremos todos los intervalos de columnas y filas que sean posibles para que de mayor o
juntaremos intervalos.
12
- 2ª tabla de frecuencia observada con lo intervalos juntos →
160 a 180 11 15 26
180 a 220 5 16 21
TOTAL 16 31 47
TOTAL 16 31 47
Para ello lo calcularemos mediante una fórmula expuesta en el libro y aprendida en clase.
primera tabla de observación y con la segunda ya que ha sido modificada juntando los
intervalos.
resultado sería:
𝐺𝑟𝑎𝑑𝑜𝑠 𝑑𝑒 𝑙𝑖𝑏𝑒𝑟𝑡𝑎𝑑 = (6 − 1) · (4 − 1) = 15
13
- Cálculo grados de libertad 2ª tabla de observación →
resultado sería:
𝐺𝑟𝑎𝑑𝑜𝑠 𝑑𝑒 𝑙𝑖𝑏𝑒𝑟𝑡𝑎𝑑 = (2 − 1) · (2 − 1) = 1
Habiendo hecho el cálculo podemos ver como los grados de libertad reducen ya que la tabla
investigación.
2
4. Como cuarto paso realizaremos el cálculo del estadístico χ y del valor-p:
Usaremos una fórmula específica que tendremos que calcular de forma manual pero que nos
2
dirá el resultado exacto de lo que va a ser el estadístico χ . Luego lo podremos comprobar
2
2 (𝑓𝑜−𝑓𝑒)
χ = Σ 𝑓𝑒
2 2 2 2
2 (11−8,84) (15−17,14) (5−7,14) (16−13,83)
χ = 8,84
+ 17,14
+ 7,14
+ 13,83
2
χ = 1, 77037915
𝑉𝑎𝑙𝑜𝑟 − 𝑝 = 0, 18333516
2
de significación (n.s) y el valor de χ con el valor crítico.
14
Anexo 4: Tabla de test chi - cuadrado
Este proceso funciona de la siguiente manera. En el caso de que el valor-p salga mayor que el
hipótesis nula con lo cual aceptaremos la alternativa. El nivel de significación no nos lo dan,
pero podemos elegirlo entre el 1%, 3% y 5%, en este caso, será del 5% ya que tener un nivel de
significación más alto hará que haya un mayor riesgo de concluir que existe una diferencia
2
cuando en realidad no la existe. Fijándonos en la siguiente comparación entre el valor χ y el
2
valor crítico, si el valor χ sale menor que el valor crítico se acepta la hipótesis nula y
2
rechazamos la alternativa, pero sin embargo, si sale mayor el valor χ rechazaremos la
hipótesis nula. El valor crítico tampoco nos lo dan en ningún lado, por lo que, tendremos que
de significación que hayamos elegido entre los posibles, y en la primera fila vertical nos
2
𝑉𝑎𝑙𝑜𝑟 χ (1, 77037915) < 𝑣. 𝑐. (3, 8415) → 𝑎𝐻𝑜
Comparando los dos casos nos ha salido que aceptemos la hipótesis nula con lo cual
metidos en un partido es independiente de la altura del jugador, lo cual esto cuadra con el
15
● CONTRASTE O TEST T - STUDENT:
Student. Este tipo de test se utiliza cuando tenemos dos muestras de datos que van a medir
la misma cosa. En este caso, cogeremos a todos los tenistas y los dividiremos entre más
altos y más bajos, y a partir de ahí realizaremos una tabla con todo en conjunto
1. Como primer paso, realizaremos una tabla de dos columnas. Entre todos los tenistas
de la tabla simplificada, denominaremos tenistas bajos a los que miden menos de 180
cm y tenistas altos a los que miden más de 180 cm. El 180 ha sido escogido para que
hubiese más o menos los mismos tenistas repartidos entre los altos y los bajos.
1 2
Porcentajes de los jugadores con menor altura (<180cm) Porcentajes de los jugadores con mayor altura (>180cm)
64,1 63,2
69,7 60,6
60,9 64,4
61 61,1
63,2 64,1
62 65,7
60,8 59,5
62,6 64,3
53,6 68,6
60,1 69,1
57,2 66,9
61,6 56,4
64,5 69,4
61,5 64,2
58 60,5
60,5 60,8
16
65,2 65
54,9 65
66,9 63,2
60 57,6
66,1 64
65
66,3
55,9
1 2
Porcentajes de los jugadores con menor altura (<180cm) Porcentajes de los jugadores con mayor altura (>180cm)
55,1
2. Como segundo paso, realizaremos los dos tipos de hipótesis, la nula y la alternativa:
- Hipótesis alternativa (𝐻1): µ1 < µ2 , es decir, el grupo 1 (los más bajos), tendrán un
mejor porcentaje de saques metidos en un partido
Calcular estas tres operaciones, nos servirá para después, en el siguiente paso poder hacer la
comparación entre el valor -t y el valor crítico y entre el valor -p y los niveles de significación
Valor - p = 1
17
El valor - t y el valor - p lo sacaremos de la calculadora. El nivel de significación puede ser 1%,
3% o 5%, en este caso, utilizaremos el mismo que en la prueba Chi-Cuadrado, 5%. Sin
embargo, el valor crítico, lo podremos averiguar con la tabla de T-Student, pero como para
de primeros saques de los tenistas más bajos y el porcentaje de primeros saques de los
18
Conclusión
hipótesis planteada al principio del trabajo era correcta, es decir, que no existe una relación
En primer lugar, con el diagrama de dispersión pude ver por primera vez como no existía
una relación ya que me salía una relación no lineal. Posteriormente, me disponía a realizar el
pude ver por segunda vez como mis variables no tenían una relación existente. Por último,
me dispuse a ejecutar dos tipos de test, recientemente dados en clase, el test Chi - Cuadrado
y el test T - Student. El objetivo de estos dos test era ver si se aceptaba o rechazaba la
hipótesis nula o se aceptaba o rechaza la hipótesis alternativa, siguiendo paso a paso las
operaciones, en los dos casos hemos aceptado la hipótesis nula, con lo cual hemos rechazado
la alternativa.
Sin embargo, soy consciente de que mi trabajo de investigación podría ser mejorado
mediante una tercera variable para ver cual tiene más relación. Aún así, estoy orgullosa de
herramientas estadísticas por haber podido responder a una pregunta que me llevaba
19
Referencias y bibliografía
- https://www.atptour.com/es/stats/leaderboard?boardType=serve&timeFrame=52Week&surf
ace=all&versusRank=all&formerNo1=false
- https://www.wtatennis.com/rankings/doubles
- https://es.piliapp.com/random/wheel/
- https://www.slideshare.net/mayhuasca2/tabla-chi-cuadrado-37003519
20
Apéndices y anexos
21
Nombre Porcentaje de saques metidos en un partido Altura (cm)
Alexander Bublik 57,6 196
Federico Delbonis 64,1 193
Grigor Dimitrov 63,3 190
Fabio Fognini 60,7 178
Albert Ramos-Vinolas 63,4 188
Sebastian Korda 65 196
Tommy Paul 59,8 185
Filip Krajinovic 69,1 185
Ilya Ivashka 61,4 193
Ugo Humbert 61,3 188
Jenson Brooksby 65 193
Dusan Lajovic 67,8 183
Alejandro Davidovich Fokina 67,5 183
Kei Nishikori 64,1 178
Botic Van De Zandschulp 63,6 191
Marton Fucsovics 59,6 188
Pedro Martinez 64,1 185
Dominic Thiem 64,3 185
Dominik Koepfer 62,7 180
Laslo Djere 59,5 188
Benoit Paire 51,4 196
Mikhail Kukushkin 74 183
Roman Safiullin 64,8 185
Lorenzo Musetti 68,3 185
Arthur Rinderknech 63,8 196
Jan-Lennard Struff 53,8 193
Mackenzie McDonald 62,9 178
Sebastian Korda 64 196
Miomir Kecmanovic 60,6 183
Albert Ramos-Vinolas 64,8 188
James Duckworth 55,9 183
Soon Woo Kwon 60 180
Federico Coria 66,9 180
Adrian Mannarino 69,4 181
Andy Murray 55,1 190
Hugo Gaston 57,7 173
22
Nombre Porcentaje de saques metidos en un partido Altura (cm)
Pablo Andujar 64,1 180
Emil Ruusuvuori 65,8 188
David Goffin 56,4 180
Maxime Cressy 63,8 198
Ashleigh Barty 61 166
Iga Swiatek 64,6 176
Maria Sakkari 60,7 172
Barbora Krejcikova 61,5 178
Aryna Sabalenka 60,5 182
Paula Badosa Gibert 60,9 180
Anett Kontaveit 62,3 174
Karolina Plikova 59,1 186
Garbiñe Muguruza Blanco 66 183
Ons Jabeur 52,9 167
Danielle Collins 56,9 178
Jelena Ostapenko 62,2 177
Emma Raducanu 68,9 175
Anastasia Pavlyuchenkova 75 176
Angelique Kerber 66,1 173
Visotria Azarenka 58 183
Cori Gauff 62,3 175
Elena Rybakina 55,2 184
Simona Halep 63,8 168
Elina Svitolina 61,2 174
Jessica Pegula 60,5 170
Leylah Annie Fernandez 64,1 168
Verinika Kudermetova 60,1 175
Elise Mertens 58 179
TAmara Zidansek 60,9 168
Madison Keys 65,7 178
Sorana Cristea 59,6 177
Belinda Bencic 61,6 175
Daria Kasatkina 68,7 170
Ludmila Samsoova 55,9 180
Camila Giorgi 48,6 168
Petra Kvitova 60,8 182
23
Nombre Porcentaje de saques metidos en un partido Altura (cm)
Marketa Vondrousova 53,6 172
Maria Camila Osorio Serrano 69,7 162
Sara Sorribes Tormo 72,4 176
Alize Cornet 60 173
Jil Belen Teichmann 57,2 170
Sloane Stephens 74,4 170
Ajla Tomljanovic 61,7 180
Clara Tauson 57,7 182
Amanda Anisimova 64,7 180
Viktorija Golubic 67,7 169
Bianca Andreescu 62,6 170
Jasmine Paolini 63,2 160
Tereza Martincova 69,7 178
Yulia Putintseva 67,4 163
Shelby Rogers 57,9 175
Nuria Parrizas Díaz 76,1 167
Alison Riske 66,9 173
Anhelina Kalinina 64,5 179
Ana Konjuh 57,9 174
KAterina Siniakova 65,1 174
Yekaterina Alexandrova 54,2 175
Marta Kostyuk 60,8 175
Alison Van Uytvanck 58,5 173
Madison Brengle 74,3 168
Aliaksandra Sasnovich 65,2 174
kaia Kanepi 51,3 181
Beatriz Haddad Maia 67,1 185
Magda Linette 65,5 171
Andrea Petkovic 70,2 180
Ann Li 59,1 170
Danka Kovinic 55,4 169
Caroline Garcia 60 177
Maryna Zanevska 54,9 175
Jaqueline Cristian 58,3 180
Irina-Camelia Begu 58,8 181
24
Anexo 2: Tabla con los datos definitivos para el trabajo de investigación
25
Variables X → Porcentaje de primeros Variable Y →
Nombre saques metidos en un partido Altura (cm)
Ashleigh Barty 61 166
Belinda Bencic 61,6 175
Anhelina Kalinina 64,5 179
Barbora Krejcikova 61,5 178
Elise Mertens 58 179
Jasmine Paolini 63,2 160
Jessica Pegula 60,5 170
Aliaksandra Sasnovich 65,2 174
Maryna Zanevska 54,9 175
Alison Riske 66,9 173
Petra Kvitova 60,8 182
Alize Cornet 60 173
Angelique Kerber 66,1 173
Variable X
Posición en el ranking del porcentaje de Variable Y
primeros saques metidos en un partido Posición en el ranking de la Altura (cm)
23 46
13 23
13 16,5
33 12,5
23 25
16 37
28 7,5
10 37
40 12,5
19,5 1
21 35
13 4
7 7,5
9 7,5
38 27,5
17 19,5
26
Variable X
Posición en el ranking del porcentaje de Variable Y
primeros saques metidos en un partido Posición en el ranking de la Altura (cm)
4 16,5
3 25
5,5 16,5
26 43,5
42 4
43 16,5
2 7,5
44 47
18 41
19,5 32
31,5 32
1 29
25 12,5
46 45
34,5 43,5
36 32
30 21,5
41 19,5
29 21,5
26 41
15 32
27 37
39 12,5
23 27,5
34,5 4
11 41
45 25
5,5 2
31,5 10
37 32
8 39
1 48
8,5 38
34,5 22,5
27
Variable X
Posición en el ranking del porcentaje de Variable Y
primeros saques metidos en un partido Posición en el ranking de la Altura (cm)
40 38
11 38
28