Está en la página 1de 36

DISTRIBUCIONES

BIDIMENSIONALES
1. INTRODUCCIÓN

ESTADÍSTICA

Es la Ciencia que se encarga de la recopilación, representación y el


uso de los datos sobre una o varias características de interés para, a
partir de ellos, tomar decisiones o extraer conclusiones generales.

Supuesto 1
Desde la organización de una carrera
popular quieren ver el tiempo que
dedican los participantes a preparar
una prueba de 10 Km.
Para ello, de entre los 500
participantes, escogen a un grupo 10.
El número de horas semanales que
dedican a preparar esta prueba son:

3, 10, 5, 7, 8, 7, 4, 9, 6 y 11.
1. INTRODUCCIÓN

VARIABLES
ESTADÍSTICAS

DISTRIBUCIONES BIDIMENSIONALES
CUALITATIVAS. Referidas CUANTITATIVAS.
a características que no Referidas a características
podemos expresar que podemos expresar
numéricamente. numéricamente.
Ejemplo: el color de los Ejemplo: el número de
ojos. aprobados

CONTINUAS. Cuando la
DISCRETAS. Cuando la
variable puede tomar
variable solo toma
cualquier valor.

12
valores enteros.
Ejemplo: número de hijos Ejemplo: tiempo de
de las familias españolas. espera
ante una llamada
telefónica,
1. INTRODUCCIÓN

CONCEPTO DEFINICIÓN SUPUESTO


Es el conjunto de
individuos o entes sujetos Los 500 participantes
Población

DISTRIBUCIONES BIDIMENSIONALES
a estudio. de la carrera.
Es el número de datos
que tomamos de la Los 10 corredores
Muestra población para realizar el seleccionados.
estudio.

Tamaño Número de observaciones


n = 10
muestral de la muestra.

Cada valor observado en 3, 10, 5, 7, 8, 7, 4, 9,


Dato
la variable. 6 y 11.
Característica que Horas semanales
Variable
estamos midiendo. dedicadas a entrenar.
2. DISTRIBUCIONES UNIDIMENSIONALES. PARÁMETROS

2.1. Distribuciones unidimensionales

Son aquellas que solamente estudian una variable estadística.

DISTRIBUCIONES BIDIMENSIONALES
2.2. Parámetros de centralización

Los parámetros de centralización o medidas de posición central son


números que nos indican alrededor de qué valor se distribuyen los
valores de la variable estadística observada.
Son:

-Media: es el valor promedio de la distribución.


-Moda: es el valor más repetido de la distribución.
-Mediana: es el valor de la serie que reparte los datos en dos
partes iguales.

12
2. DISTRIBUCIONES UNIDIMENSIONALES. PARÁMETROS

Media aritmética
- Se representa por x.
- Cálculo:
- Para datos sin frecuencias: Si la variable toma los n
valores x1, x2, ..., xn, la media aritmética se calcula mediante

DISTRIBUCIONES BIDIMENSIONALES
la expresión:
i=n

Xl + X2 + ... + Xn
I~
i=l
X= =
N N

- Para datos con frecuencias: Si la variable toma los


valores o marcas de clase x1, x2, ..., xn, con f1, f2, ..., fn las
frecuencias absolutas correspondientes de la distribución, la
media aritmética se calcula mediante la expresión:
i=n

X¡fl + x2fz + ... LX i=n

x LX
¡h

12
+ xnfn
= i=l Ji
i, + f2 + ... + i, i=n i=1
Lt N
i=1
2. DISTRIBUCIONES UNIDIMENSIONALES. PARÁMETROS

Supuesto 1

Horas semanales: ��

DISTRIBUCIONES BIDIMENSIONALES
3
10
5
7 70
8 � = 7 ℎ��𝑎�
= 10 ���𝑎�𝑎���
7
4
9
6
11

12
70
2. DISTRIBUCIONES UNIDIMENSIONALES. PARÁMETROS

Supuesto 2

El número de errores ortográficos cometido por un grupo de alumnos


son:

DISTRIBUCIONES BIDIMENSIONALES
Nº de errores Nº de alumnos
0 6
1 7
2 5
3 5
4 2

Determina el número medio de errores cometido por los alumnos.

12
2. DISTRIBUCIONES UNIDIMENSIONALES. PARÁMETROS

Supuesto 2

Nº de errores=�� Nº de alumnos=�� �� ·

DISTRIBUCIONES BIDIMENSIONALES
0 6 0
��
1 7 7
2 5 10
3 5 15
4 2 8
total 25 40

40
� = 1,6
= 25 �������

12
2. DISTRIBUCIONES UNIDIMENSIONALES. PARÁMETROS

2.3. Parámetros de dispersión

Son datos que informan de la concentración o dispersión de los datos


respecto de los parámetros de centralización.

DISTRIBUCIONES BIDIMENSIONALES
Son:
-Recorrido (R): es la diferencia entre el mayor y el menor de los
valores.
-Desviación media (DM): es la media de los valores de las
desviaciones de los datos respecto a la media aritmética
-Varianza (����): es la media aritmética de los cuadrados de las
desviaciones de los valores de la variable respecto de la media
aritmética.
-Desviación típica (��): es la raíz cuadrada con signo positivo de
la varianza.
-Coeficiente de variación (CV): es el cociente entre la
desviación típica y la media aritmética.

12
2. DISTRIBUCIONES UNIDIMENSIONALES. PARÁMETROS

Expresiones

𝑅 = ��á�−
��í�

DISTRIBUCIONES BIDIMENSIONALES

∑ � =1 |� � −
��
� |���
=
(��−�)2
∑�� =1 ∑�� =1� ·
� = �� ó 𝜎2 = 2 �� − 2

�2 � � (�)

�=
𝜎= � = 1 −
� ∑� � 2 · �(�)
� 2
2

𝜎
��
�= �

12
2. DISTRIBUCIONES UNIDIMENSIONALES. PARÁMETROS

2.4. Estudio conjunto de media aritmética y desviación típica

Para una distribución estadística de comportamiento normal, se


cumple lo siguiente:

DISTRIBUCIONES BIDIMENSIONALES
-En (� − ��, � + ��) está el 68,26% de los individuos.
-En (� − 2��, � + 2��) está el 95,45% de los individuos.
-En (� − 3��, � + está el 99,73% de los individuos.
3��)

12
jJl- lo 1Jl-.~.o jJl-
O
2. DISTRIBUCIONES UNIDIMENSIONALES. PARÁMETROS

Supuesto 1

Calculo de la desviación típica Horas



semanales: �� �2

DISTRIBUCIONES BIDIMENSIONALES
3 9
10 100
∑�� =1 � 2 ·
𝜎= − �2 5 25
�� �
7 49
8 64
550 7 49
𝜎= − 72 = 2,45 4 16
10
9 81
6 36

12
11 121
70 550
2. DISTRIBUCIONES UNIDIMENSIONALES. PARÁMETROS

Supuesto 2

Calculo de la desviación típica

DISTRIBUCIONES BIDIMENSIONALES
x f x·f �2 ·f
∑�=
� �� ·� 0 6 0 0
��� − �2
� 1
2 �
= 1 7 7 7
2 5 10 20
104
𝜎= − 1,62 = 1,265 3 5 15 45
25
4 2 8 32
total 25 40 104

12
3. DISTRIBUCIONES BIDIMENSIONALES

3.1. Distribuciones bidimensionales

Son aquellas que estudian, de manera simultánea, dos variables


estadísticas.

DISTRIBUCIONES BIDIMENSIONALES
La variable
estadística
bidimension
al se
representa
por el
símbolo (X,
Y) y cada
uno de los
Se llama distribución condicionada de la variable X para Y = yj,
individuos
y se escribelaX/Y= yj, a la distribución que tiene en cuenta todos los
de
valores de X bajo la condición de que Y tome el valor yj.
población
Se llama distribución condicionada de la variable Y para X = xi,
viene
caracterizad
y se escribe Y/X= xi, a la distribución que tiene en cuenta todos los

12
o por de Y
valores la bajo la condición de que X tome el valor xi.
pareja (xi , yj
), en el cual
3. DISTRIBUCIONES BIDIMENSIONALES

Supuesto 3
Horas de estudio: Nota:
El tiempo de estudio y la nota
� �
de un grupo de estudiantes
21 9

DISTRIBUCIONES BIDIMENSIONALES
en una determinada materia � �
es el siguiente: 15 7
10 5
15 2
20 7
30 8
18 8
20 6
25 5

12
16 4
4. CORRELACIÓN. NUBE DE PUNTOS

4.1. Nube de puntos o diagrama de dispersión

Considerando cada par de valores (x, y) como las coordenadas de un


punto se consigue una gráfica denominada diagrama de dispersión

DISTRIBUCIONES BIDIMENSIONALES
o nube de puntos.
Nos interesa saber si dos variables están o no relacionadas.
10

Nube de 9

puntos del 8
• •
supuesto 3. 7
• •
6

• •
NOTA

3

2

1

12
0
0 5 10 15 20 25 30 35
HORAS DE ESTUDIO
4. CORRELACIÓN. NUBE DE PUNTOS

4.2. Dependencia o correlación

Según la disposición de la nube de puntos, se puede apreciar, de


forma cualitativa, el tipo y grado de relación o dependencia entre

DISTRIBUCIONES BIDIMENSIONALES
ambas variables. A esa dependencia la llamamos correlación y puede
ser:
- Dependencia funcional, si la nube de puntos se sitúa en la
gráfica de una función, excepto que esta sea constante.
- Dependencia lineal, si la nube de puntos se sitúa sobre una
recta. y

12
x x
Dependencia funcional Dependencia lineal
4. CORRELACIÓN. NUBE DE PUNTOS

- Correlación o dependencia aleatoria, si la nube de puntos se


sitúa próxima a la gráfica de una función.
- Independencia o ausencia de correlación.

DISTRIBUCIONES BIDIMENSIONALES
y y •
•• • •

• •
• •
• • •
••• • •• ••

• • •
• • •
• •
•• •
••• • •
• • • • •
••
• ••
•• • • •

• •
x X
Dependencia o correlación Independencia
aleatoria

12
4. CORRELACIÓN. NUBE DE PUNTOS

CORRELACIÓN

CRITERIO 1 CRITERIO 2

DISTRIBUCIONES BIDIMENSIONALES
DÉBIL POSITIVA NEGATIVA
FUERTE
La nube no se A medida
A medida que quece A medida
A medida que ce
La nube se a
aaproxim
aproxima a una cre una crec una ce
variable cre que crec e
una a ouna
unarecta
recta o cur
curva
recta o curva lo ha variable
la otra lo launa
otra
recta o curv
hac variable
y y decrec

• • •
• •• •
• • •• • •• •
• •• • •
• ••• • •• • • ••
••• •• •
• •• • • ••
• • •
• • ••••
• •• • ••

• • • ••
• •• ••
• •••• • ••

12

x x x x
Correlación fuerte Correlación débil Correlación positiva Correlación negativa
5. MEDIDAS DE CORRELACIÓN

Nos interesa conocer de una forma cuantitativa si dos variables son


dependientes. La nube de puntos nos aporta una idea previa que
vamos a corroborar con el coeficiente de correlación.

DISTRIBUCIONES BIDIMENSIONALES
5.1. Coeficiente de correlación lineal de Pearson

La correlación de tipo lineal se mide mediante un coeficiente


universalmente aceptado, llamado coeficiente de correlación lineal
de Pearson, cuyo valor puede calcularse mediante la expresión:

∑�=
� �� ·�
� · 𝜎�
��� − �2
���� �1 2 �
=

�=𝜎
∑ ��� · � � �� ·
∑�=

12
�� =
� · ��

−�· ��� − �2
1
�� � = �� 2 �
5. MEDIDAS DE CORRELACIÓN

El coeficiente de correlación lineal de Pearson, r, permite analizar el


grado de aproximación de la nube de puntos a una línea recta y
siempre toma valores comprendidos entre -1 y 1.

DISTRIBUCIONES BIDIMENSIONALES
Si –1 < r < 0, existe correlación lineal negativa, y será más
fuerte cuanto más se aproxime r a –1.
r

Si 0 < r < 1, existe correlación lineal positiva, y será más fuerte


COEFICIENTE

cuanto más se aproxime r a 1.

Si r = 1 o r = –1, la correlación es una dependencia lineal.

Si r = 0, no existe correlación lineal o las variables no están


correlacionadas linealmente. Esto no excluye que las variables

12
estadísticas puedan estar relacionadas por una correlación
curvilínea.
5. MEDIDAS DE CORRELACIÓN

Supuesto 3
x y x^2 y^2 xy
21 9 189 MEDIA X 19
441 81 MEDIA Y 6,1

DISTRIBUCIONES BIDIMENSIONALES
15 7 225 49 105
DESV. TIP.
10 5 100 25 50 X 5,35
15 2 30 DESV. TIP.
225 4 Y 2,02
20 7 400 49 140
DES. TIP.
30 8 900 64 240 XY 4,8
18 8 144 r 0,44
324 64
20 6 400 36 120
25 5 625 25 125
16 4 256 16 64

190 61 3896 413 1207

12
Como 0<0,44<1 existe correlación lineal positiva  si que depende el tiempo de
estudio con la nota obtenida. A mayor tiempo invertido, mayor nota.
5. MEDIDAS DE CORRELACIÓN

Supuesto 4

Se ha solicitado a un grupo de 50 individuos información sobre el


número de horas que dedican diariamente a dormir y ver la televisión.

DISTRIBUCIONES BIDIMENSIONALES
La clasificación de las respuestas ha permitido elaborar la siente
tabla:
Nº horas dormidas Nº horas de tv Frecuencias
(x) (y) absolutas (f)
6 4 3
7 3 16
8 3 20
9 2 10
10 1 1

12
5. MEDIDAS DE CORRELACIÓN

Supuesto 4
x y f x·f x^2·f y·f y^2·f x·y·f
6 4 3 18 108 12 48 72

DISTRIBUCIONES BIDIMENSIONALES
7 3 16 112 784 48 144 336
8 3 20 160 1280 60 180 480
9 2 10 90 810 20 40 180
10 1 1 10 100 1 1 10
40 13 50 390 3082 141 413 1078

MEDIA X 7,8 Como r = -0,88, existen una fuerte correlación


MEDIA Y 2,82
lineal negativa. Esto implica que a mayor
DESV. TIP. X 0,894
número de horas de visionado de la TV se
dormirá un menor número de horas.

12
DESV. TIP. Y 0,555
DES. TIP. XY -0,436
r -0,88
6. RECTA DE REGRESIÓN. ESTIMACIONES

6.1. Recta de regresión

En numerosas situaciones el diagrama de dispersión, o nube de


puntos de una variable bidimensional, sugiere la línea curva o recta

DISTRIBUCIONES BIDIMENSIONALES
que mejor se aproxima a los valores de dicha variable. Esta curva
recibe el nombre de recta de regresión.

Sus ecuaciones son:

- Recta de regresión de Y sobre X:

� − � = ��
𝜎� 2 (� −
- Recta de regresión de X sobre�Y:
)
��

� − � = ��

12
𝜎� 2 (� −
�)
��
6. RECTA DE REGRESIÓN. ESTIMACIONES

Supuesto 3
Horas de estudio: Nota:
Determinar:
� �
21 9

DISTRIBUCIONES BIDIMENSIONALES
a) Recta de regresión de X � �
sobre Y. 15 7
b) ¿Cuál será el número de
10 5
horas que tenemos que
estudiar para obtener un 15 2
7,5? 20 7
30 8
18 8
20 6
25 5

12
16 4
6. RECTA DE REGRESIÓN. ESTIMACIONES

Supuesto 3
MEDIA X 19
MEDIA Y 6,1
�� DESV. TIP.
X 5,35

DISTRIBUCIONES BIDIMENSIONALES
� − � = ��
𝜎� 2 (� −
DESV. TIP.
�) Y 2,02
4,8 DES. TIP.
� − 19 (� −
= 2,022 6,1) XY 4,8
r 0,44
� = 1,176� + 11,824

Si la nota y = 7,5 basta con


despejar de la ecuación de la � = 1,176 · 7,5 + 11,824 =
20,644 ℎ��𝑎�
recta de X sobre Y obtenida:

12
6. RECTA DE REGRESIÓN. ESTIMACIONES

Supuesto 3
35

30

DISTRIBUCIONES BIDIMENSIONALES
25
• y = 1,1736x + 11,


1,841

• •
HORAS DE ESTUDIO

20


15
• • •
10

5

12
0
0 1 2 3 4 5 6 7 8 9 10
N
O
T
A
6. RECTA DE REGRESIÓN. ESTIMACIONES

Supuesto 4

Determinar:

DISTRIBUCIONES BIDIMENSIONALES
a) Recta de regresión de Y sobre X.
b) ¿Si dormimos 8,5 horas cuál es el tiempo que dedicamos a ver la
TV?

Nº horas dormidas Nº horas de tv Frecuencias


(x) (y) absolutas (f)
6 4 3
7 3 16
8 3 20
9 2 10

12
10 1 1
6. RECTA DE REGRESIÓN. ESTIMACIONES

Supuesto 4

MEDIA X 7,8
MEDIA Y 2,82
��

DISTRIBUCIONES BIDIMENSIONALES
DESV. TIP. X 0,894
� − � �� (� −
= 𝜎� �) DESV. TIP. Y 0,555
2 DES. TIP. XY -0,436
r -0,88
−0,436
� − 2,82 − 7,8)
0,8942 (�
=
� = −0,545� + 7,071

Si el nº de horas de sueño x =
8,5 basta con despejar de la � = −0,545 · 8,5 + 7,071 =
ecuación de la recta de Y 2,434 ℎ��𝑎� ��
𝑇𝑉

12
sobre X obtenida:
6. RECTA DE REGRESIÓN. ESTIMACIONES

Supuesto 4

4,5

DISTRIBUCIONES BIDIMENSIONALES
4

3,5

3
• •
2,5
HORAS DE TV

2

y = -0,545x + 7,071
1,5

1

0,5

12
0
0 2 4 6 8 10 12
H
O
R
7. COEFICIENTE DE DETERMINACIÓN

7.1. Coeficiente de determinación

El coeficiente de determinación de una variable estadística


bidimensional (X, Y) mide el grado de correlación (dependencia)

DISTRIBUCIONES BIDIMENSIONALES
entre las variables X e Y, se representa por R2, siempre toma valores
entre 0 y 1 y viene dado por la expresión:

��� 2
����. �� � =�=1− 2
��������𝑎��ó� = �2 2 �
y

Nos indica la precisión que tiene la recta�
de regresión con respecto a los puntos
(X, Y) obtenidos.

Es el cuadrado del coeficiente de Pearson.

12
x
7. COEFICIENTE DE DETERMINACIÓN

Si R2 = 1, es el caso extremo en el que los residuos son nulos,


�2

entonces el ajuste es perfecto.

DISTRIBUCIONES BIDIMENSIONALES
Si R2 = 0, en este caso extremo, el ajuste es inadecuado o, quizá,
COEFICIENTE

las variables X e Y son independientes.

Si 0 < R2 < 1, hay que tener en cuenta que para valores próximos
a 0,9 son indicativos de ajustes muy aceptables, mientras que
para valores inferiores a 0,6 tienen escasa fiabilidad y sugieren
la
búsqueda de otra línea de ajuste más adecuada.

12
7. COEFICIENTE DE DETERMINACIÓN

Supuesto 3
35
� = 0,44
→�=
� ��, 𝟐𝟎

DISTRIBUCIONES BIDIMENSIONALES
30

Como 𝟐
el valor
25
• y = 1,1736x + 11,841
obtenido
próximo a 0 no
es

• • • •
R² == 0,197
0, 1
hay una buena
HORAS DE ESTUDIO

20

aproximación con
15
• • • la recta de
regresión. Los
10
• valores obtenidos
a partir de ella no
5
son fiables.
Habría que
0
0 1 2 3 4 5 6 7 8 9 10
buscar una mejor

12
N aproximación.
O
T
A
7. COEFICIENTE DE DETERMINACIÓN

Supuesto 4
� = −0,88
4,5 →� =
� ��, 𝟕𝟕

DISTRIBUCIONES BIDIMENSIONALES
4
Como𝟐 el valor
3,5
obteni es
do a 1 hay
3
• • próxi buen
mo
aproximación a
con
2,5
HORAS DE TV

una recta
la de
2

y = -0,545x + 7,071
regresión. Lo
s
valores obtenidos
1,5 R² = 0,7725
a partir de ella
1
• son
razonablemente
0,5
fiables.

12
0
0 2 4 6 8 10 12
H
O
R

También podría gustarte