Está en la página 1de 79

Ciencias Básicas

ESTADÍSTICA DESCRIPTIVA

Por:
LILIANA MARÍA LÓPEZ VASQUEZ
Centro de Ciencia Básicas

Corporación Universitaria Minuto de Dios


2015
Ciencias Básicas

INTRODUCCIÓN

“Me lo contaron y lo olvidé, lo vi y lo entendí, lo hice y lo aprendí”. Confucio

La estadística es utilizada por las entidades públicas y privadas para realizar


investigaciones de la cotidianidad y en diferentes estudios interdisciplinarios, donde
permite organizar y resumir información de una población o muestra, para su
posterior interpretación, análisis y toma de decisiones con respecto al tema
investigado. En mercadeo, por ejemplo, una empresa dedicada a las ventas puede
estar interesada en conocer el comportamiento de estas en un período determinado;
los psicólogos realizan test de comportamiento para verificar patrones en un grupo
de estudio y analizan los resultados con bases estadísticas; los ingenieros hacen
estudios de suelos, recogiendo muestras que deben representar a todo un terreno
y evaluando las características fisicoquímicas y mecánicas con métodos analíticos
que contemplan el tratamiento estadístico; los meteorólogos…., los médicos…, en
fin, en todos los campos de actuación cuando sea necesaria la búsqueda de
patrones de comportamiento o la realización de proyectos de investigación.

Este documento ofrece a los estudiantes conceptos fundamentales


correspondientes al análisis exploratorio de datos, abordando temas como:
conceptos básicos, tablas de frecuencia para datos agrupados y no agrupados,
métodos gráficos, medidas descriptivas de tendencia central, de posición, de
dispersión y correlación de variables. Además, el documento presenta ejemplos
prácticos con información tomada de la cotidianidad. Así como ejercicios de práctica
tomando información de su cotidianidad.
Ciencias Básicas

1. CONCEPTOS BÁSICOS

1.1. UN POCO DE HISTORIA

“La épica de los pueblos es elemento fundamental de su identidad. De manera


análoga, la estadística tiene sus mitos alrededor del azar, los dioses y los
oráculos. Sus ilustres ancestros en la Teoría de la Probabilidad: Fermat, Pascal.
Sus monumentales precursores, creadores de la Estadística Matemática, Laplace
y Gauss (todavía matemáticos). Sus próceres: K. Pearson, Neyman, Student, E.
Pearson, Snedecor entre otros. Su genio: Sir R. A. Fisher.”

Sergio Yáñez, Revista Colombiana de Estadística.

La palabra estadística deriva del latín medieval Status, donde tiene el sentido de
estado político. Los comienzos de la estadística pueden ser hallados en el antiguo
Egipto, cuyos faraones lograron recopilar hacia el año 3050 antes de Cristo, datos
relativos a la población y la riqueza del país.

En el antiguo Israel, la Biblia, en el libro de los Números, da referencias de los datos


estadísticos obtenidos en dos recuentos de la población hebrea: “El censo de las
doce tribus 1:1 En el segundo año después de la salida de Egipto, el primer día del
segundo mes, el Señor dijo a Moisés en el desierto del Sinaí, en la Carpa del
Encuentro: 1:2 Hagan un censo de toda la comunidad de los israelitas, por clanes y
por familias, anotando uno por uno los nombres de todos los varones. 1:3 Tú y Aarón
registrarán a todos los hombres de Israel que son aptos para la guerra, es decir, a
los que tienen más de veinte años, agrupados por regimientos. 1:4 Para ello
contarán con la ayuda de un jefe de familia por cada tribu” (tomado del
http://www.vicariadepastoral.org.mx).
Ciencias Básicas

El rey David por otra parte, ordenó a Joab, general del ejército hacer un censo de
Israel con la finalidad de conocer el número de la población.

Durante la historia cada gobierno ha sentido la necesidad de conocer datos


relacionados con la población, con propósitos diferentes, como por ejemplo el
número de sus súbditos con el objeto de recaudar impuestos, presupuestar la
guerra, para conquistar otros imperios, conocer las tierras para dividirlas, entre
otros. Posteriormente se empiezan a registrar datos relacionados con
nacimientos, fallecimientos y matrimonios, para esto realizaban censos
periódicamente.

Pero fueron los romanos, maestros de la organización política, quienes mejor


supieron emplear los recursos de la estadística. Cada cinco años realizaban un
censo de la población y sus funcionarios públicos tenían la obligación de anotar
nacimientos, defunciones y matrimonios, sin olvidar los recuentos periódicos del
ganado y de las riquezas contenidas en las tierras conquistadas.

Para el nacimiento de Cristo sucedía uno de estos


empadronamientos de la población bajo la
autoridad del imperio.

De igual forma durante los siglos XV, XVI, y XVII, hombres como Leonardo de
Vinci, Nicolás Copérnico, Galileo, Neper, William Harvey, Sir Francis Bacon y
René Descartes, recolectaron datos con fines científicos, que ayudaron a mejorar
el método científico.
Ciencias Básicas

Por el año 1540 el alemán Sebastián Muster realizó una compilación estadística
de los recursos nacionales, comprensiva de datos sobre organización política,
instrucciones sociales, comercio y poderío militar.

Durante el siglo XVII se desarrollaron indicaciones más concretas de métodos de


observación y análisis cuantitativo y se ampliaron los campos de la inferencia y la
teoría Estadística.

Aunque la estadística ha sido una herramienta que se ha utilizado a través de la


historia, se empieza a considerar una ciencia a partir del siglo XVI, con la
aparición de obras de estadística descriptiva, destacándose las obras de Jean
Bodin en Francia (1530 – 1595)

Uno de los más grandes avances en estadística, se dio en el siglo XVII, cuando
los bancos y las compañías de seguros empezaron a utilizar los datos
estadísticos, además a tratar matemáticamente la demografía, la economía y
muchos aspectos de las ciencias sociales. Fue en Alemania donde comenzó a
tomar más fuerza esta disciplina orientada a la descripción de los bienes del
Estado, gozando de una sistematización y respondiendo a principios doctrinales.

Simultáneamente en Francia, se desarrolló la escuela probabilística, la cual basó


su desarrollo en el cálculo de probabilidades como instrumento de investigación.
Blas Pascal (1623 – 1662) y Pierre de Fermat (1601 – 1665) quienes dan inicio al
cálculo de probabilidades, trataron de dar soluciones a los juegos de azar y a las
preguntas hechas por el Caballero de Meré en 1654; la pregunta que movió a los
dos grandes matemáticos a escribir sobre el cálculo de probabilidades era:
“¿Cómo distribuir las apuestas en una partida de dados que se interrumpe?”
(Secretaría de Educación Departamental y Universidad de Antioquia , 2007).
Ciencias Básicas

1.2. ASPECTOS GENERALES

¿Qué es Estadística?

¿Con qué frecuencias comes frutas?

Tomado de: (2.0, 2015)

Para entrar en el estudio de la estadística es necesario conocer palabras claves


que ayudan a fundamentar los conceptos de estadística que se van a utilizar
durante el curso, como son: Estadística, población, muestra, variables
cuantitativas, variables cualitativas, datos y parámetros.

En estadística generalmente se diseña una serie de trabajos para alcanzar uno de


los siguientes objetivos, o ambos:

 Describir cuantitativamente una serie de personas, lugares o cosas, en la


que se incluye la recolección, presentación y descripción de datos
muestrales.
Ciencias Básicas

 Analizar e interpretar información para llegar a conclusiones acerca de un


grupo más grande o población basado en la información de un grupo menor
o muestra

Las actividades estadísticas encaminadas a lograr la primera meta son tratadas en


la estadística descriptiva y las que tienen por objeto alcanzar la segunda meta,
son tratadas en la estadística inferencial. Uno de los principales objetivos de la
estadística es hacer inferencias acerca de los valores estadísticos de la población,
denominados parámetros a través de la información obtenida en una muestra.

La Estadística es la ciencia que se ocupa del manejo de información que pueda


ser cuantificada. Es un conjunto de conceptos y métodos (recolectar, organizar,
interpretar y sacar conclusiones). En el proceso de recolección de datos es
importante identificar la naturaleza de estos, cuando se realiza una investigación
estadísticas los datos pueden ser poblacionales o muestrales. La POBLACIÓN es
el conjunto finito o infinito de elementos, también se puede definir como universo y
se refiere a la totalidad de los elementos que se están estudiando; cuando el estudio
es poblacional, a las medidas que se calculan se les llama parámetros. La
MUESTRA es una parte de la población a estudiar, la cual se espera que sea
representativa; cuando el estudio es muestral a las medidas que se calculan se les
llama estadísticos. Las entidades que realizan investigaciones estadísticas utilizan
con frecuencia estudios muestrales, debido a que los estudios poblacionales son
más costosos y en ocasiones no se pueden realizar.

A manera de ejemplo, una fábrica de lámparas está interesada en estudiar las


características que van a colocar en el empaque de estas. No podría hacer un
estudio poblacional, porque se quedaría sin producción para la venta, es por ello
que su estudio será muestral.
Ciencias Básicas

FOCO AHORRADOR DE ENERGIA IL-


3U-10W

Consumo: 10 Watts.
Luminosidad: 50 Watts.
Alta Calidad.
Embalaje: Caja.
Cantidad: 100 Unidades.
Empaque: Caja por Unidad

Cuando se está interesado en estudiar las características de las lámparas se debe


realizar una actividad planificada cuyos resultados producen conjuntos de datos;
esta actividad se llama Experimento. Por otro lado, los datos son cada uno de los
valores que se obtienen al realizar un estudio, es decir, en el estudio del consumo
de las lámparas los resultados pueden ser de 9, 10, 11 y 12 watts. Estos datos
pueden ser primarios, cuando son recogidos, anotados u observados por primera
vez; o secundarios, cuando son recopilados por otra persona o entidad diferente al
investigador; son fuentes secundarias: las bibliotecas, los centros de
documentación, folletos, revistas, archivos etc.

Otro elemento importante para la Estadística son las VARIABLES. Las variables
son un conjunto de características de interés en una investigación científica, las
cuales toman valores diferentes en cada estudio, como por ejemplo la estatura, la
vida de las llantas de un automóvil, el color de la piel, la raza, entre otros.
Dependiendo de la naturaleza de los datos y el tipo de variable se decide que
herramientas estadísticas se van a utilizar. Las variables pueden clasificarse en
Cuantitativas y Cualitativas.

Una Variable es Cuantitativa siempre que los valores que puede asumir sean los
resultados de medidas numéricas. Ejemplo: la estatura, la edad, el peso, etc. A su
vez estas variables pueden ser continuas o discretas. Continuas cuando
teóricamente pueden tomar un número incontable de valores dentro de un intervalo,
como es el caso de la estatura. Discretas cuando los valores que pueden tomar
Ciencias Básicas

están separados entre sí por una determinada cantidad, una característica de esta
variable son los vacíos o interrupciones entre los valores que puede tomar. Ejemplo,
el número de hijos.

Una Variable es Cualitativa cuando no es posible hacer medidas numéricas, sino


que aparecen como categorías (sexo, profesión, color de los ojos) y sólo pueden
ser nominales u ordinales. Las variables nominales se refieren a atributos que no
se pueden representar con números, como color, sexo, lugar de nacimiento,
preferencias de marca, y no presentan jerarquía cuando se van a clasificar. Las
variables ordinales representan un orden o jerarquía. Aunque pueden usarse
números para representarlas, estos solo indican el orden o "puesto" dentro de un
conjunto ordenado. Ejemplos: el orden de nacimiento dentro de un grupo de
hermanos, el orden en que llegaron los participantes en una competencia, el puesto
en el cuadro de honor en un grupo de alumnos, etc.
Ciencias Básicas

2. DISTRIBUCIONES DE FRECUENCIAS

La distribución de frecuencias o tabla de frecuencias es una ordenación en forma


de tabla de los datos estadísticos, asignando a cada dato su frecuencia
correspondiente.

Frecuencia absoluta (fi)

La frecuencia absoluta es el número de veces que aparece un determinado valor


en un estudio estadístico. La suma de las frecuencias absolutas es igual al número
total de datos, que se representa por N.

𝑓1 + 𝑓2 + 𝑓3 + ⋯ + 𝑓𝑛 = 𝑁

Para indicar resumidamente estas sumas se utiliza la letra griega Σ (sigma


mayúscula) que se lee suma o sumatoria.

∑ 𝑓𝑖 = 𝑁
𝑖=1

Frecuencia acumulada (F)

La frecuencia acumulada es la suma de las frecuencias absolutas de todos los


valores inferiores o iguales al valor considerado. Se calculan así:

𝐹1 = 𝑓1

𝐹2 = 𝑓1 + 𝑓2

𝐹3 = 𝑓1 + 𝑓2 + 𝑓3

𝐹4 = 𝑓1 + 𝑓2 + 𝑓3 + 𝑓4

𝐹𝑛 = 𝑓1 + 𝑓2 + 𝑓3 + 𝑓4 + ⋯ + 𝑓𝑛 = 𝑁
Ciencias Básicas

Frecuencia relativa (𝒉𝒊 )

La frecuencia relativa es el cociente entre la frecuencia absoluta de un


determinado valor y el número total de datos.

Se puede expresar en tantos por ciento y se representa por ℎ𝑖 . La suma de las


frecuencias relativas es igual a 1.

𝒇𝒊
Decimal 𝒉𝒊 = ó
𝒏

𝒇𝒊
En forma porcentual 𝒉𝒊 = ∗ 𝟏𝟎𝟎
𝒏

Frecuencia relativa acumulada (H)

La frecuencia relativa acumulada es el cociente entre la frecuencia acumulada de


un determinado valor y el número total de datos. Se puede expresar en tantos por
ciento. Se calcula de la misma forma que la Frecuencia acumulada Absoluta.

𝐻1 = ℎ1

𝐻2 = ℎ1 + ℎ2

𝐻3 = ℎ1 + ℎ2 + ℎ3

𝐻4 = ℎ1 + ℎ2 + ℎ3 + ℎ4

𝐻𝑛 = ℎ1 + ℎ2 + ℎ3 + ℎ4 + ⋯ + ℎ𝑛 = 1
Ciencias Básicas

2.1. DISTRIBUCIÓN DE FRECUENCIA PARA UNA VARIABLE DISCRETA


(TABLA SIMPLE):

Ejemplo 1). Supongamos que se tiene una población constituida por 2 000 cajas
y deseamos examinarlas con el fin de determinar el número de piezas o elementos
defectuosos que contiene cada caja. Por diferentes razones se desea que la
investigación no sea exhaustiva, es decir, no examinar la totalidad de las 2 000
cajas o universo, sino por el contrario, seleccionar una muestra de tamaño 30,
correspondiente a una investigación parcial. (Ciro, 2013)

N=2 000 n=30

Los resultados obtenidos en la encuesta, se anotan a continuación. Siendo 𝑥1 , el


número de piezas defectuosas en la primera caja examinada, que corresponde a
3; 𝑥2 el número de piezas defectuosas en la segunda caja examinada que
corresponde a 2 y así sucesivamente.

𝑥1 = 3, 𝑥2 = 2, 𝑥3 = 0, 𝑥4 = 2, 𝑥5 = 3, 𝑥6 = 1, 𝑥7 = 1, 𝑥8 = 0, 𝑥9 = 1,
𝑥10 = 3, 𝑥11 = 3, 𝑥12 = 4, 𝑥13 = 4, 𝑥14 = 3, 𝑥15 = 2, 𝑥16 = 4, 𝑥17 = 2,
𝑥18 = 4, 𝑥19 = 4 𝑥20 = 2, 𝑥21 = 4, 𝑥22 = 0, 𝑥23 = 0, 𝑥24 = 1, 𝑥25 = 3, 𝑥26 = 2
𝑥27 = 3, 𝑥28 = 1, 𝑥29 = 2, 𝑥30 = 2

𝑥𝑖 𝑓𝑖 𝐹 Frecuencia Relativa (ℎ𝑖 ) Frecuencia Relativa


acumulada(𝐻)
Fracción Decimal Porcentual Fracción Decimal Porcentual
0 4 4 4/30 0.13 13 4/30 0.13 13
1 5 9 5/30 0.17 17 9/30 0.30 30
2 8 17 8/30 0.27 27 17/30 0.57 57
3 7 24 7/30 0.23 23 24/30 0.80 80
4 6 30 6/30 0.20 20 30/30 1 100
Ciencias Básicas

Ejemplo 2). A continuación se escriben las edades de 25 estudiantes del grado 7º


de una institución educativa de la ciudad de Medellín:

12, 12, 13, 11, 12, 14 13, 13, 14, 12, 12, 13, 12, 15, 13, 13, 12, 12, 14, 14, 12, 13,
14, 12, 12

Construir una tabla de frecuencias que resuma los datos:

Xi fi F hi (Frecuencia H (Frecuencia
(Frecuencia (Frecuencia Relativa) Acumulada Relativa)
Absoluta) Acumulada Fracción Decimal % Fracción Decimal %
Absoluta)
11 1 1 1/25 0.04 4 1/25 0.04 4
12 11 12 11/25 0.44 44 12/25 0.48 48
13 7 19 7/25 0.28 28 19/25 0.76 76
14 5 24 5/25 0.2 20 24/25 0.96 96
15 1 25 1/25 0.04 4 25/25 1 100
Total 25 1.00 100

- El 44% de los estudiantes tiene 12 años.


- El 48% de los estudiantes tiene hasta 12 años o menos de 13 años
- El 4% de los estudiantes tiene 15 años o es mayor de 14 años
- El 4% de los estudiantes tiene 11 años
- El 76% de los estudiantes tiene hasta trece años
Ciencias Básicas

2.2. DISTRIBUCIÓN DE FRECUENCIAS PARA UNA VARIABLE CUALITATIVA


(TABLA SIMPLE)

Ejemplo 3). Las principales causas de incapacidad en los cotizantes afiliados a


la EPS Universitaria en el 2003, las constituyeron:

Causas fi hi
(variables cualitativa) (Frecuencia (Frecuencia
Absoluta) Relativa)
%
Enfermedades
499 30.8
respiratorias
las enfermedades del
292 18
sistema osteomuscular
los traumatismos 142 8.8
las enfermedades del
140 8.6
sistema nervioso
los trastornos mentales 105 6.5
las enfermedades
102 6.3
infecciosas
Otras causas 340 21
Total 1620 100

La distribución de frecuencia de para una variable cualitativa no considera las


frecuencias acumuladas.

2.3. DISTRIBUCIÓN DE FRECUENCIA PARA DATOS AGRUPADOS POR


INTERVALOS
Ciencias Básicas

Cuando la muestra consta de 30 o más datos numéricos, lo aconsejable es agrupar


los datos en clases y a partir de estas determinar las características de la muestra
y por consiguiente las de la población de donde fue tomada.

Ilustraremos el caso a través de un ejemplo, para ello, supongamos que la fábrica


de baldosas “de las casas”, con el objeto de ofrecer una garantía de su producto,
desea hacer un estudio técnico de su producción, para lo cual extrae una muestra
de 100 baldosas, cada una de las cuales se somete a una prueba de resistencia,
destructiva cuyos datos expresados en Kg/ Cm2, se relacionan a continuación
(Salazar, 2002):

Resistencia en Kg/Cm2 de 100 baldosas de la fabricas “De las Casas”

478 458 683 780 736 448 591 555 420 422 282 425 367 419 444
339 694 478 498 310 537 592 549 391 569 460 359 251 655 161
666 239 398 720 648 533 586 321 487 610 470 436 527 487
313 644 495 122 521 368 531 472 540 504 542 634 337 282
415 291 621 253 763 746 323 575 439 449 321 450 135 578
210 480 223 433 444 437 360 559 308 477 463 223 370 369
425 459 418 351 361 183 383 259 469 392 517 479 345 452
(Salazar, 2002)

Si se desea clasificar la información en una distribución de frecuencias simple,


aparecería 80 datos diferentes con frecuencia absoluta unitaria, es por ello que es
aconsejable realizar el agrupamiento en intervalos o clase, dado que es más
manejable y presentable la información.

Reglas para la construcción de una distribución de frecuencias por


intervalos:
Ciencias Básicas

Se aconseja seguir las reglas para la construcción de estas distribuciones, si no se


tiene experiencia en el manejo de información, cabe anotar que siempre se debe
tener presente la naturaleza de los datos.

1. Determinar el rango o recorrido (R)

𝑅 = 𝑋𝑚𝑎𝑥 − 𝑋𝑚𝑖𝑛

2. Calcular el número de intervalos (K)

𝐾 ≅ 1 + 3.3 log(𝑛); K es un número natural

3. Determinar la Amplitud del Intervalo (I)


𝑅
𝐼 > 𝐾; La amplitud del intervalo (𝐼) se aproxima siempre por encima de

acuerdo con la naturaleza de los datos.

4. Se calcula el rango ampliado 𝑅𝑎 = 𝐼. 𝐴

5. Establecer la diferencia 𝑎 = 𝑅𝑎 − 𝑅, es decir la cantidad en que ha sido


alterado el recorrido, la cual no debe ser superior a la amplitud. "𝑎"
también puede ser definida como la cantidad positiva más pequeña que le
hace falta al rango o recorrido para ser divisible exactamente por la
amplitud. Se distribuye adecuadamente el valor de 𝒂 en los intervalos de la
distribución así:

𝑎
Al valor 𝑋𝑚𝑖𝑛 se le resta aproximadamente y la parte restante se le suma
2

a 𝑋𝑚𝑎𝑥, obteniendo el límite inferior del primer intervalo y el límite superior


del último, respectivamente.

De acuerdo con el ejemplo anterior:


Ciencias Básicas

1. 𝑅𝑎𝑛𝑔𝑜 (𝑅) = 780 − 122 = 658

2. 𝑁𝑟𝑜 𝑑𝑒 𝐼𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜𝑠 𝐾 = 1 + 3,3 ∗ log(100) = 7,6 ≈ 8

658
3. 𝐴𝑚𝑝𝑙𝑖𝑡𝑢𝑑 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 (𝐼) > = 82,25 𝑙𝑢𝑒𝑔𝑜 𝐼 = 83
8

4. 𝑅𝑎𝑛𝑔𝑜 𝑎𝑚𝑝𝑙𝑖𝑎𝑑𝑜 𝑅 = 𝐼 ∗ 𝐾 = 83 ∗ 8 = 664

5. 𝑆𝑒 𝑒𝑠𝑡𝑎𝑏𝑙𝑒𝑐𝑒 𝑙𝑎 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑐𝑖𝑎 𝒂 = 664 − 658 = 6

𝒂
6. Se distribuye el valor de 𝒂 entre los intervalos; a 𝑋𝑚𝑖𝑛 = 122 y se le resta 𝟐
𝑎
y a 𝑋𝑚𝑎𝑥 = 780, se le suma 2 .

Luego el primer intervalo, tiene como límite inferior 119, que es el resultado de
restarle 3 a 122 y tiene como límite superior 202; porque a 119, se le suma la
amplitud que es 83. Quedando así: (119 − 202]; el segundo intervalo tiene como
límite inferior el límite superior del intervalo anterior (202): (202 − 285] y como
límite superior la suma de 202 y 83 y así sucesivamente.

7. Marca de Clase (𝑥𝑖 ) es el punto medio entre el límite inferior y el límite


superior; es decir:

𝐿𝑖𝑚𝑖𝑡𝑒𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 + 𝐿𝑖𝑚𝑖𝑡𝑒𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟
𝑥𝑖 =
2
Ciencias Básicas

Intervalos Marca de Frecuencia Frecuencia Frecuencia Frecuencia


clase 𝒙𝒊 Absoluta 𝒇𝒊 Absoluta Relativa 𝒉𝒊 Relativa
acumulada Acumulada
𝑭 𝑯𝒊
1 (119-202] 160,5 4 4 0,04 0,04
2 (202-285] 243,5 9 13 0,09 0,13
3 (285-368] 326,5 16 29 0,16 0,29
4 (368-451] 409,5 22 51 0,22 0,51
5 (451-534] 492,5 23 74 0,23 0,74
6 (534-617] 575,5 13 87 0,13 0,87
7 (617-700] 658,5 8 95 0,08 0,95
8 (700-783] 741,5 5 100 0,05 1

¿Qué conclusiones se podrían sacar de la tabla?

__________________________________________________________________

__________________________________________________________________

__________________________________________________________________

__________________________________________________________________
Ciencias Básicas

3. METODOS GRÁFICOS

“Un gráfico puede valer más que mil palabras, pero puede tomar muchas palabras
para hacerlo”

John Tukey

La presentación de datos mediante gráficos es algo que se realiza a diario y en


forma casi natural por personas de las diferentes profesiones. La revista americana
LIFE tenía como consigna “Una foto vale más que mil palabras”. La capacidad de
visualización del hombre hace que esto sea casi cierto. En comparación con otras
formas de presentación de los datos, los gráficos nos permiten, de una mirada,
comprender el comportamiento de los datos, aún de datos muy complejos, por lo
tanto ahorran tiempo al analista de información. (Nelfi, 2002)

Los gráficos estadísticos nos permiten usar nuestra habilidad para visualmente
procesar información de un gráfico. Esto nos permite hacer juicios respecto a la
variabilidad, escala, patrones y tendencias de los datos.

Elementos de un gráfico:

 Título Principal
 Título Secundario o Subtitulo
 Descripción del Grafico
 Región de Datos y Símbolos
 Eje Horizontal y Escala
 Eje Vertical y Escala
 Apuntadores
 Descriptores de Señales y marcas
Ciencias Básicas

RECOMENDACIONES GENERALES PARA ELABORAR UN GRÁFICO

 Haga que sus datos sobresalgan. Evite lo superfluo.


 Utilice elementos prominentes para mostrar sus datos.
 Utilice un par de líneas por cada variable. Haga que el interior del
 rectángulo formado por las líneas de escala sean la región de sus datos.
 Coloque marcas afuera de la región de los datos.
 No apeñusque la región de datos.
 No exagere el número de marcas.

Algunos gráficos:

3.1. HISTOGRAMAS

El histograma es el gráfico estadístico por excelencia. El histograma de un conjunto


de datos es un gráfico de barras que representan las frecuencias con que aparecen
las mediciones agrupadas en ciertos rangos o intervalos.

Para uno construir un histograma se debe dividir la recta real en intervalos o clases
(algunos recomiendan que sean de igual longitud) y luego contar cuántas
observaciones caen en cada intervalo.

El histograma se utiliza cuando se tiene una distribución de frecuencia agrupados


por intervalos; es un buen gráfico para una variable cuantitativa continua.

Desventajas:

 Las observaciones individuales se pierden.


 La selección del número de clases y su amplitud que adecuadamente
representen la distribución puede ser complicado. Un histograma con muy
pocas clases agrupa demasiadas observaciones y uno con muchas deja muy
pocas en cada clase. Ninguno de los dos extremos es adecuado.
Ciencias Básicas

Ejemplo 1). La tabla que aparece a continuación recoge los porcentajes de


disminución de las acciones de los 25 mayores fondos de pensiones el viernes 13
de noviembre de 1989. Construir un Histograma que sintetice estos datos de forma
adecuada

4.7 4.7 4.0 4.7 3.0 4.1 3.8

4.4 5.0 3.3 3.8 6.4 6.0 4.9

3.3 3.6 4.7 4.4 5.4 5.8 3.3

3.0 4.9 5.2 4.2

Histograma en R:

1. Se ingresan los datos:

> datos1<-scan()

1: 4.7 4.7 4 4.7 3 4.1 3.8 4.4 5 3.3 3.8 6.4 6 4.9 3.3 3.6 4.7 4.4 5.4 5.8 3.3 3.0

23: 4.9 5.2 4.2

26:
Ciencias Básicas

3.2. POLIGONO DE FRECUENCIAS

El polígono de frecuencia es un método gráfico que se construye a partir del


histograma, uniendo los puntos medios de cada clase; se utiliza para comparar
resultados de un proceso determinado; de igual forma para retratar varias
distribuciones distintas o la clasificación cruzada de una variable cuantitativa
continua con una cualitativa o cuantitativa discreta en el mismo dibujo.

El punto de más altura de un polígono de frecuencia equivale a la mayor frecuencia,


mientras que el área que se sitúa debajo de la curva incluye todos los datos que
existen.
Ciencias Básicas

3.3. OJIVA

Se construye a partir del histograma de frecuencias acumuladas y la marca de clase


o punto medio, nos permite ver cuántas observaciones están por encima de ciertos
valores, en lugar de hacer un mero registro de número de elementos que hay dentro
de los intervalos.
Ciencias Básicas

Ojiva
30
Frecuencia Acumulada

25
20
15
10
5
0
2,6 3,2 3,8 4,4 5 5,6 6,2 6,8
Marca de clase

3.4. GRAFICO DE BARRAS

Los gráficos de barras constituyen una herramienta muy adecuada para comparar
los tamaños relativos de cantidades que se distribuyen en el espacio, en el tiempo.

Estos diagramas se usan con frecuencia en los informes económicos, como por
ejemplo, en las memorias de las empresas y en la prensa financiera. Esta técnica
gráfica puede usarse también para ilustrar el movimiento de una magnitud a lo largo
del tiempo.
Ciencias Básicas

3.5. GRAFICOS TEMPORALES:

Una forma alternativa de ilustrar la evolución de una cantidad a lo largo del tiempo,
consiste en dibujar un gráfico con los diferentes valores a lo largo del tiempo.
Situando el tiempo a lo largo del eje horizontal, y la cantidad numérica de interés en
el eje vertical, se obtiene para cada observación un punto en el gráfico. Uniendo
los puntos consecutivos mediante líneas, se obtiene un gráfico temporal, que
proporciona una idea visual de la evolución fácil y rápida de la variable.
Ciencias Básicas

3.6. GRAFICO DE TORTAS:

Los pictogramas o diagramas de tortas, son útiles para representar la división de un


todo en las partes que constituyen.

Los gráficos de tortas son otro ejemplo de la utilidad de los métodos gráficos de
presentación de datos que se basan en la comparación de áreas para hacerse una
idea de las magnitudes relativas de los números.

Ejemplo: De todos los anuncios de bebidas alcohólicas en vallas publicitarias, el


75% son cerveza, el 19% de licores con alta graduación, el 2% de vino, y el 4%
restante de bebidas con baja graduación alcohólica.
Ciencias Básicas

3.7. DIAGRAMAS DE DISPERSIÓN

A menudo nos interesa relación entre dos números, en caso de que esta exista. Un
diagrama de dispersión proporciona una visión gráfica de la relación entre dos
variables. Este gráfico se utiliza para analizar el modelo de regresión lineal.

3.8. DIAGRAMA DE CAJA DE TURKEY (1977).

Este ha sido un aporte fundamental realizado por Tukey (1977). Es un gráfico


simple, ya que se realiza básicamente con cinco números, pero poderoso. Se
observa de una forma clara la distribución de los datos y sus principales
características. Permite compara diversos conjuntos de datos simultáneamente.

Como herramienta visual se puede utilizar para ilustrar los datos, para estudiar
simetría, para estudiar las colas, y supuestos sobre la distribución, también se
puede usar para comparar diferentes poblaciones.
Ciencias Básicas

Es una herramienta muy útil en el análisis gráfico de un conjunto de datos, este


gráfico resulta muy útil para comparar dos o más conjuntos de datos.

Se dibuja un rectángulo (o caja), de forma que sus límites inferior y superior


corresponden al primer y al tercer cuartil respectivamente. En el interior de la caja
se ha dibujado una línea para señalar el lugar que ocupa la mediana los valores
atípicos aparecen lejos de la caja y las líneas que van desde los bordes de la caja
hasta las líneas intermitentes (o “bigotes”) señalan la menor y la mayor de las
observaciones restantes.
Ciencias Básicas
Ciencias Básicas

4. MEDIDAS DE TENDENCIA CENTRAL

Una medida de tendencia central es un único número que indica el centro de una
serie de números a partir de los cuales se calcula. Las medidas de tendencia central
también se llaman de localización.

En este curso estudiaremos como medidas de tendencia central sólo tres la media
aritmética, la mediana y la moda.

4.1. MEDIDAS DE TENDENCIA CENTRAL PARA DATOS NO AGRUPADOS


POR INTERVALOS

4.1.1. LA MEDIA ARITMÉTICA

Es la suma de los valores de los elementos dividida por la cantidad de éstos. Es


conocida también como promedio, o media aritmética.

x1  x  x 3  ....  x n
Fórmula de la media:
n

MEDIA MUESTRAL (𝑥̅ ) MEDIA POBLACIONAL (𝝁)


Podemos indicar su cálculo en forma
∑N
i=1 X i
más condensada como μ=
N
∑ni=1 xi Esta fórmula se lee: “mu es igual a la
x̅ =
n sumatoria de X dividido entre N”, donde
= sumatoria N indica el tamaño de la población.

𝑥̅ = media

n= número de elementos

x= valores o datos
Ciencias Básicas

Ejemplo 1). Calcule la media de los siguientes números: 10, 11, 12, 12, 13

1. Sumar las cantidades <10 + 11 + 12 + 12 + 13 = 58>

2. Dividir la suma por la cantidad de elementos entre el total de datos< 58/5>

3. El resultado es la media <11.6>

Por lo tanto, la media de los 5 números es 11.6. Note que la media resulta un
número que está entre el rango de elementos; en este caso, 11.6 está entre 10, 11,
12 y 13.

4.1.2 LA MEDIA PONDERADA

La media ponderada (x̅m ) de un conjunto de datos es una medida de tendencia


central, que es apropiada cuando cada uno de los datos tiene una importancia
relativa (peso) respecto a los demás datos, para calcularlo se procede así:

∑ni=1 xi ∗ % x1 %1 + x2 %2 + x3 %3 … + xn %n
x̅m = =
∑ni=1 % %1 + %2 + %3 + ⋯ %n

Ejemplo: En el curso de estadística se han realizado 3 actividades evaluativas en


el primer 35%, Un estudiante obtiene las siguientes notas: en la actividad 1 la nota
es de 4,5 y tiene un peso del 0,12; en la actividad 2 la nota de de 3.4 y tiene un
peso de 0.1; en la actividad 3 la nota es de 2.8 y tiene un peso de 0.13; ¿Qué
promedio se le debe subir a Génesis en el primer 35%?

4.5 ∗ 0.12 + 3.4 ∗ 0.1 + 2.8 ∗ 0.13 1.244


x̅m = = = 3.55 = 3.6
0.12 + 0.1 + 0.13 0.35

La nota que docente le debe subir a Génesis es de 3.6.


Ciencias Básicas

4.1.3 LA MODA (𝑀𝑑 ):

Es el valor que aparece con mayor frecuencia en un grupo de datos.

Ejemplo 2). Once alumnos de primer año de un colegio obtuvieron los siguientes
puntajes en una prueba de destreza manual:

70, 83, 74, 75, 81, 75, 92, 75, 90, 94, 75.

La moda para estos datos es 75 puesto que este puntaje aparece con más
frecuencia que los demás.

Un grupo de datos puede no tener ninguna moda o tener más de una. Esto no
ocurre con la media y la mediana, medidas que, para un conjunto de datos, siempre
existen y son únicas. La moda no es una medida muy utilizada.

4.1.4. LA MEDIANA (𝑀𝑒 ):

Es aquel valor que se encuentra en la mitad de una muestra o población cuyos


valores están ordenados en la magnitud. Si el número de valores es impar, la
mediana es igual al valor de la mitad. Si el número de valores es par, la mediana
es igual a la media de los dos valores que quedan en la mitad. De esta manera la
mediana divide las observaciones en dos mitades. En una mitad los valores son
menores o iguales al valor de la mediana y en la otra mitad los valores son mayores
o iguales que la mediana. Antes de calcular la mediana hay que ordenar las
observaciones de la muestra o población según su magnitud.

Ejemplo 3). Cálculo de la mediana para datos no agrupados, n es impar

De acuerdo a los datos (13, 13, 14, 13, 14, 11, 12, 13, 14, 12, 15) calcular la mediana
de la edad de 11 estudiantes del grado séptimo de una institución educativa.
Ciencias Básicas

- Ordenando los valores de menor a mayor tenemos:

11, 12, 12, 13, 13, 13, 13, 14, 14, 14, 15

- Se busca el lugar que ocupa la mediana: n=11, n es impar el lugar que


𝑛+1 12
ocupa es = = 6 , es decir el lugar que ocupa la mediana es 6 y
2 2

corresponde al dato 13.

- Calculo de la Mediana: 𝑀𝑒 = 13

11, 12, 12, 13, 13, 13, 13, 14, 14, 14, 15 La mediana divide la población en
dos partes iguales

Ejemplo 3). Cálculo de la mediana para datos no agrupados, n es par:

De acuerde a los siguientes datos (24, 25, 22, 20, 12, 25, 17, 16, 15 y 17). Calcular
la mediana del número de horas gastadas en mirar televisión por los 10 estudiantes.

- Ordenando los valores de menor a mayor tenemos:

12, 15, 16, 17, 17, 20, 22, 24, 25, 25.

- Se busca el lugar que ocupa la mediana: n=10, n es par, el lugar que ocupa
𝑛 10 𝑛+2 10+2
es = =5 𝑦 = = 6, Al lugar 5 corresponde el dato 17 y al lugar 6
2 2 2 2

corresponde el dato 20.

- Calculo de la Mediana: Se halla el promedio entre los datos 17 y 20

12, 15, 16, 17, 17, 20, 22, 24, 25, 25.
Ciencias Básicas

17 + 20
𝑀𝑒 = = 18,5
2

La mediana no se ve afectada por los valores extremos tanto como la media. Para
aclarar este punto consideremos los puntajes de una prueba. Si las observaciones
se ordenan en forma ascendente, tenemos:

0, 91, 92, 93, 94, 95, 95, 96, 97, 98.

La mediana es 94,5 (verifique la respuesta) y la media es 85.1. ¿Qué nota


“promedio” preferiría informar?
Ciencias Básicas

4.2. MEDIDAS DE TENDENCIA CENTRAL PARA DATOS AGRUPADOS EN


UNA TABLA SIMPLE

4.2.1. La media Aritmética:


Se agrega una nueva columna donde
multiplicaremos el dato por la frecuencia.

xi fi hi Fi Hi fi*xi
3 5 20,8 5 21 15
4 7 29,2 12 50 28
5 8 33,3 20 83 40
6 4 16,7 24 100 24
total 24 107

∑n
i=1 xi ∙fi 107
Luego la media es x̅ = = = 4,46
n 24

4.2.2. La Moda

La ubicamos en la mayor frecuencia absoluta y nos fijamos en el dato que


corresponde a esa frecuencia.

xi fi hi Fi Hi

La moda es 5 porque es
3 5 20,8 5 21
el que tiene mayor
frecuencia.
4 7 29,2 12 50
𝑀𝑑 = 5
5 8 33,3 20 83

6 4 16,7 24 100

total 24
Ciencias Básicas

4.2.3. La Mediana

Se debe tener en cuenta si la variable es cuantitativa discreta o continua, luego se


mira si al dividir por dos el total de observaciones el valor obtenido se encuentra o
n en la columna de frecuencias absolutas acumuladas.

Para buscar la mediana en datos agrupados procedemos así:

1. Se busca el lugar que ocupa la mediana, dividiendo la población en dos


𝑛
partes iguales 2

2. El resultado anterior lo ubicamos en la columna de las frecuencias


acumuladas. Se pueden presentar dos situaciones que n/2 sea un número
natural o que n/2 sea un número decimal

- n/2 es número natural, se ubica el lugar en la frecuencia acumulada y la


mediana será el dato correspondiente

xi fi hi Fi Hi
El lugar de la
3 5 20,8 5 21𝑛
mediana es 2 =
4 7 29,2 1224 50
2
= 12
5 8 33,3 20 83
6 4 16,7 24𝑀𝑒 =100
4

total 24

𝑛 𝑛
- es número decimal, por ejemplo = 12,5, luego la mediana es la media
2 2

del dato que corresponde al lugar 12 y el dato que corresponde al lugar 13.

Contiene el dato que


ocupa el lugar 12 que es
4
Ciencias Básicas

xi fi hi Fi Hi
3 5 0,20 5 0,20
4 7 0,28 12 0,48
5 8 0,32 20 0,80
Contiene el dato que
6 5 0,20 25 1,00 ocupa el lugar 13 que es
total 25 5

4+5
Luego la mediana es 𝑀𝑒 = = 4.5
2

4.3. MEDIDAS DE TENDENCIA CENTRAL PARA DATOS AGRUPADOS POR


INTERVALOS

En algunas ocasiones es necesario calcular las medidas descriptivas a partir de


datos agrupados, aunque esto está perdiendo su importancia, debido a la facilidad
de calcular dichas medidas, cuando se utilizan paquetes estadístico o
computadoras electrónicas.

4.3.1. Media Aritmética

Cuando se agrupa un conjunto de valores en intervalos de clase, las observaciones


individuales pierden si identidad. Solamente es posible especificar el número de
observaciones que están incluidas dentro de unos límites de clase determinados.
Para calcular la media, suponemos que todos los valores que se incluyen dentro del
intervalo de clase determinado son iguales al punto medio de ese intervalo.
Podemos obtener el punto medio del intervalo calculando la media de los límites de
clase.

Punto medio ó Marca de clase (𝒙𝒊 )


Ciencias Básicas

Para obtener la media, simplemente sumamos los productos que se obtienen


multiplicando la frecuencia de cada intervalo por su punto medio y dividiendo luego
eses total por la suma de las frecuencias. Sea m i el punto medio del intervalo de
clase i, la fórmula para calcular la media de una muestra a partir de datos agrupados
es:

∑𝑘
𝑖=1 𝑥𝑖 𝑓𝑖
𝑥̅ = k es el número de intervalos de clase, n es la sumatoria de las
𝑛

frecuencias .

4.3.2. Mediana:

Para calcular la mediana partiendo de datos agrupados recordamos que esta


medida descriptiva se puede definir como el valor que se encuentra en la mitad de
una serie ordenada de valores. También podemos definir la mediana de una
distribución como aquel punto del eje horizontal del histograma correspondiente en
el cual, si se traza una línea vertical, el área comprendida bajo el histograma queda
dividida en dos partes iguales. De acuerdo con esta definición, se busca el lugar
𝑛
que ocupa dividiendo la población en dos partes iguales 2, cuando los valores han

sido organizados en orden de magnitud. Encontramos el valor empleando la


distribución de frecuencia acumulada y suponiendo que los valores que están
incluidos en cada uno de los intervalos se distribuyen uniformemente en ellos.

𝑗
𝑀𝑒 = 𝐿 + 𝑓 ∙ 𝐼; Dónde:

L= Límite inferior verdadero del intervalo de clase que contiene la mediana

j = número de observaciones que se necesitan para llegar hasta la mediana


después de que se ha llegado al intervalo de clase que contiene la mediana

f = número de observaciones que están incluidas en el intervalo que contiene la


mediana
Ciencias Básicas

I = amplitud del intervalo de clase que contiene la mediana.

Ejemplo: Determinar la mediana del siguiente conjunto de datos que corresponde


a las edades de 32 personas que ingresaron a una sala de juegos.

Intervalos 𝑓𝑖 𝐹 El lugar que ocupa la mediana es


𝑛
=
32
= 16; el dato
2 2
que ocupa el lugar 16, está ubicado en el tercer intervalo,
(2 – 7] 3 3 𝑗
para calcularlo utilizamos la fórmula 𝑀𝑒 = 𝐿 + 𝑓 ∙ 𝐼;
(7 – 12] 7 10
- 𝐿 = 12; límite inferior del intervalo

(12 – 17] 13 23 - 𝑗 = 16 − 10 = 6; la diferencia entre el lugar de la


mediana y la frecuencia acumulada del intervalo
(17 – 22] 6 29 anterior.

(22 – 27] 3 32

- 𝑓 = 13 frecuencia absoluta del intervalo que contiene la mediana.

- 𝐼 = 5; amplitud del intervalo.

6
Luego la mediana es: 𝑀𝑒 = 12 + 13 . 5 = 14,31

4.3.3. La Moda:

Es el valor que representa la mayor frecuencia absoluta, en datos agrupados por


intervalos la moda es:

𝑓𝑖 − 𝑓𝑖−1
𝑀𝑑 = 𝐿 + ×𝐼
(𝑓𝑖 − 𝑓𝑖−1 ) + (𝑓𝑖 − 𝑓𝑖+1 )

Donde:

𝐿: Límite inferior del intervalo modal

𝑓𝑖 : Frecuencia absoluta del intervalo modal


Ciencias Básicas

𝑓𝑖−1: Frecuencia absoluta del intervalo anterior modal

𝑓𝑖+1: Frecuencia absoluta del intervalo anterior modal

𝐼: Amplitud

Ejemplo: la moda de las personas que ingresaron a la sala de juegos es:

Intervalos 𝑓𝑖 𝐹 El intervalo de mayor frecuencia está ubicado en la tercera


fila, con 13 datos. Por tanto la moda es:
(2 – 7] 3 3
13 − 7 6
𝑀𝑑 = 12 + × 5 = 12 + × 5 = 14.3
(7 – 12] 7 10 (13 − 7) + (13 − 6) 13

El dato de mayor frecuencia es 14,3 que coincide con la


(12 – 17] 13 23
mediana.
(17 – 22] 6 29

(22 – 27] 3 32

4.4. CONCLUSIONES DE LA MEDIA, LA MODA Y LA MEDIANA

Hagamos comparaciones entre la media, la moda y la mediana

- La media aritmética es la más conocida y aplicada. Muchas personas


desconocen la existencia de otras medidas o si las conocen tiene dificultades
no solo en su cálculo sino en su verdadera aplicación.
- En una distribución simétrica, además de ser unímodal, la media, la mediana
y la moda son iguales. En este caso, se prefiere el uso de la media.
- Los tres promedios dependen de la forma que toma la distribución. Si es
simétrica o ligeramente asimétrica, debe utilizarse la media; cuando eso no
ocurre, la mediana es la más indicada.
- Si una distribución tiene más de un valor máximo, es decir, dos o más
valores alcanzan la mayor frecuencia, la sola aplicación de la media o la
mediana puede ocultar propiedades que podrían ser interesantes para el
estudio que se realiza.
Ciencias Básicas

- La media no se puede calcular en distribuciones que presenten los intervalos


extremos abiertos o no definidos; por tanto, la mediana y la moda son las
medias más indicadas
- Dos mediana o dos modas no pueden promediarse para obtener el valor
promedio de dos muestras combinadas, pero esta operación sí puede
realizarse con la media aritmética
- En una distribución de frecuencias, cuando la amplitud del intervalo no es
constante, no se aconseja la aplicación de la moda, y se prefiere el uso de la
media o mediana.
- La media es el promedio más estable o más confiable, ya que presenta
menos fluctuación entre el resultado obtenido a través de una muestra,
comparada con el de otras medidas aplicadas a la misma población, por
tanto, proporciona una mejor estimación del parámetro.
- Las relaciones entre estas medidas se describe de la siguiente manera:
𝑥̅ = 𝑀𝑒 = 𝑀𝑑
𝑥̅ > 𝑀𝑒 > 𝑀𝑑
𝑥̅ < 𝑀𝑒 < 𝑀𝑑

- La media aritmética es sensible a cualquier cambio que se haga en los


valores que toma la variable, y en especial cuando uno de ellos es
exageradamente grande. La Mediana y la Moda no se afectan mientras el
cambio no se realice en su propio valor, pero conservando el orden
ascendente o descendente de los valores que toma la variable.
- En gran parte de las distribuciones, se considera que la distancia entre la
media y la moda, es tres veces la distancia entre la media y la mediana. Esta
relación fue establecida por K. Pearson y sirve para calcular una de ellas en
función de las otras dos.
𝑥̅ − 𝑀𝑑 = 3(𝑥̅ − 𝑀𝑒 )

− Una distribución es simétrica cuando las frecuencias absolutas y relativas,


equidistantes a un valor central, son iguales: en caso contrario, la distribución
Ciencias Básicas

es asimétrica. En una distribución simétrica, la v mediana, la media y la


moda tendrán el mismo valor, el cual se localizará en el centro de la
variables. (Levin, 2012)
Ciencias Básicas

5. MEDIDAS DE POSICIÓN

Son indicadores estadísticos que muestran la frecuencia acumulada hasta un valor


k cualquiera.

La medidas de posición que estudiaremos son: Percentiles, Deciles y cuartiles

Es necesario revisar nuevamente el concepto de interpolación, ya que la base de


estos indicadores es encontrar el valor de la variable a partir de un porcentaje de
datos acumulados, de forma similar como se hizo con la mediana.

5.1. PERCENTILES (Pk)

Los percentiles representan los valores de la variable que están por debajo de un
porcentaje, el cual puede ser una valor de 1% a 100% (en otras palabras, el total
de los datos es divido en 100 partes iguales).

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

5.2. DECILES (Dk)

Para los deciles, tomaremos el total de los datos divididos en 10 partes iguales,
por tanto, existirán 10 deciles.
Ciencias Básicas

5.3. CUARTÍLES (Qk)

Para los cuartiles, tomaremos el total de los datos divididos en 4 partes iguales.

Ejemplo 1). Medidas de posición para datos sin agrupar - variable discreta

Suponga que se tienen los siguientes datos: 8 12 24 30 10 12 16 18 20 18


16 28 4 16 22

Calcule el primero y tercer cuartil; el séptimo decil y finalmente el percentil 32 y el


72.

Lo primero que se hace con la información anterior es ordenar los datos de menor
a mayor

4 8 10 12 12 16 16 16 18 18 20 22 24 28 30

 Se procede a determinar la posición donde se encuentra


Q1 (primer cuartil)
Ciencias Básicas

𝑘(𝑛+1) 1(15+1) 16
Para lo cual se usa la fórmula = = = 4, esto quiere decir que el
𝑄 4 4

lugar que ocupa esta entre el dato 4 y el dato 5

4 8 10 12 12 16 16 16 18 18 20 22 24 28 30

Luego Q1 = 12

 Para el 𝑸𝟑

𝑘(𝑛+1) 3(15+1) 48
= = = 12 ; La posición que ocupa Q3 está entre el dato 12 y 13
𝑄 4 4

4 8 10 12 12 16 16 16 18 18 20 22 24 28 30

 Séptimo decil

7(𝑛+1) 7(15+1) 48
D7= = = = 11,2
10 10 4

Como el D7 es un número decimal el procedimiento varia un poco, se busca el


dato 11 y el dato 12, el dato 11 es 20 y el dato 12 es 22

4 8 10 12 12 16 16 16 18 18 20 22 24 28 30

Luego se procede así:

𝐷7 = 20 + (22 − 20) ∗ 0,2 = 20,40; El 0,2 corresponde a 20/100

Finalmente, en el cálculo de P32, se procederá así:

32∗(15+1)
100
= 5,12;
Ciencias Básicas

Luego el 𝑃32 = 12 + (16 − 12) × 0,12 = 12,48

 ¿Cuál sería el percentil 72, P72?

Ejemplo 2). Medidas de posición para datos agrupados- variable discreta

Nuevamente se procede como en la mediana, primero se busca el lugar de la


posición que ocupa el dato.

Variable discreta: Calcula los cuartiles, deciles y percentiles Q1, Q2, D4, P42, en la
siguiente tabla:

xi fi Fi
0 3 3
1 7 10
2 15 25
3 10 35
4 8 43
5 5 48
6 2 50

 Para Q1 la posición será n/4 =50/4 =12,5, en este caso sería el dato 12 y el
dato 13; que está en el tercer renglón, observando la frecuencia acumulada;
luego Q1=2

 Para Q3, la posición será 3n/4 =150/4 =37,5; siendo los datos 37 y 38; los
cuales se encuentran ubicados en la fila 5; luego el Q3=4

 Para D4, la posición será 4n/10 = 200/10=20; siendo el dato 20, el cual se
encuentra ubicado en la tercera fila, luego D4=2
Ciencias Básicas

 Para P42, la posición será 42n/100=2100/100 =21, siendo el P42=2

Ejemplo 3). Medidas de posición para variable continúa

Para la variable continua se harán los mismos cálculos, utilizando únicamente la


siguiente tabla:

INTERVALO fi Fi
33,1 37,4 3 3
Q1
37,4 41,6 5 8
41,6 45,8 7 15
45,8 50 10 25
Q3
50 54,2 15 40
54,2 58,4 9 49
58,4 62,6 1 50

Para calcular Q1, se establece su posición 1(n/4)=50/4=12,5; que está en la


𝑗
tercera fila, se aplica la fórmula 𝑄1 = 𝐿 + 𝑓 × 𝐼; recuerde j es lo que le falta a 8

para llegar a 12,5; luego:

4,5
𝑄1 = 41,6 + × 4,2 = 44,3
7

Para calcular Q3, Su posición será 3(n/4)=150/4=27,5; por tanto

2,5
𝑄3 = 50 + × 4,2 = 50,7
15

Para calcular D4; la posición 4n/10=20, luego el D4 está ubicado en el intervalo 4,


por tanto
Ciencias Básicas

5
𝐷4 = 45,8 + × 4,2 = 47,9
10

Para calcular el P83: tendrá como posición 83(n/100)=41,5; que está en el sexto
intervalo; luego:

1,5
𝑃83 = 54,2 + ∗ 4,2 = 50,7
9
Ciencias Básicas

ACTIVIDAD

1. Con la siguiente serie de datos sin agrupar


xi: 8 2 16 24 2 8 2 16 2 8

Calcule: La mediana, media aritmética, decil siete, percentil 62

2. Con los siguientes datos de una distribución de frecuencias calcule:


Media, media aritmética, tercer cuartil, quinto decil, percentil 80

INTERVALO fi Fi
2,1 5,5 3 3
5,5 8,9 16 19
8,9 12,3 4 23
12,3 15,7 12 35
15,7 19,1 5 40

3. Completa la tabla y calcular el Q1, Q3, D1, D7, D5, P40, P75, del conjunto de
datos organizados en una distribución de frecuencia simple.

xi fi Fi

0 2

1 3

2 5

3 6

4 2

total 18
Ciencias Básicas
Ciencias Básicas

6. MEDIDAS DE DISPERSIÓN O VARIABILIDAD

Una medida de centralización, casi nunca es suficiente por sí sola, para resumir
adecuadamente las características de un conjunto de datos. Por lo general,
necesitaremos, además, una medida de la dispersión de los datos.
Rango, Varianza, Desviación típica, Media de las deviaciones absolutas,
Coeficiente de variación, cuartiles, percentiles, deciles

6.1. Rango o recorrido:

La medida más simple de la variabilidad, es la diferencia entre el dato máximo y el


mínimo de un conjunto de datos

𝑅 = 𝐷𝑎𝑡𝑜 𝑚𝑎𝑦𝑜𝑟 − 𝐷𝑎𝑡𝑜 𝑚𝑒𝑛𝑜𝑟 = 𝑥𝑛 − 𝑥𝑖

6.2. Varianza:

La varianza de un conjunto de datos se obtiene restando a cada uno de los


valores el valor de la media de todos los valores, elevando al cuadrado cada una
de las diferencias resultantes, sumando las diferencias al cuadrado y dividiendo
ese total por el número de valores menos 1.

Varianza poblacional: Varianza muestral:

∑N 2
i=1(xi −μ) ×fi ∑n ̅ )2 ×fi
i=1(xi −x
σ2 = s2 =
N n−1
Ciencias Básicas

6.3. Desviación Típica:

Es la raíz cuadrada positiva de la varianza. Para muchos fines es la medida de


variabilidad más útil que la varianza. Por un lado la desviación típica se expresa en
las mismas unidades que las observaciones originales y la media mientras que la
varianza se expresa en unidades elevadas al cuadrado. En relación con el
ejemplo anterior, la unidad de medida es la hora, podemos decir que la cantidad
media de tiempo que emplearon los estudiantes viendo televisión es de 19.6
horas. La desviación típica es horas y la varianza es 16.93 horas al cuadrado.

∑N 2
i=1(xi −μ) ×fi ∑n ̅ )2 ×fi
i=1(xi −x
σ=√ s=√
N n−1

6.4. Coeficiente de Variación:

Cuando se tienen dos o más varianzas, que están dadas en unidades con
medidas diferentes, estas pueden compararse entre sí, empleando el coeficiente
de variación que se define como el cociente de dividir la desviación típica por su
respectiva media aritmética, el cual se considera una desviación relativa. Si el
resultado obtenido se multiplica por 100, la variación comparativa entre dos o más
variables, dadas en unidades de medida diferentes, se expresarán en términos
porcentuales. Esta medida de dispersión se simboliza mediante CV

𝑠
𝐶𝑉 = × 100%
𝑥̅

El coeficiente de variación generalmente se expresa en términos porcentuales.


Una distribución cualquiera con un coeficiente de variación por debajo del 33%,
tiende a ser homogénea, es decir, la media obtenida será bastante representativa
Ciencias Básicas

del total de las observaciones y sí, por el contrario, el coeficiente de variación (CV)
se hace mayor al 33%, indicará que cada vez su valor es mayor será más
heterogénea. Por tanto la media irá perdiendo su representatividad, de ahí que en
muestreo se proceda, en estos casos, a dividir la población en grupos más
homogéneos, denominados estratos, permitiendo la aplicación del método de
muestreo aleatorio estratificado.

𝐶𝑉 ≤ 10% Existe poca variabilidad


𝐶𝑉 < 33% Tiende a ser homogénea
33% ≤ 𝐶𝑉 ≤ 50% Existe una variabilidad excesiva pero tolerable

6.5. Rango intercuartílico (𝑸)

Es una medida de dispersión de una distribución de datos. Es la diferencia entre el


tercer cuartil y el primer cuartil

𝑄 = 𝑄3 − 𝑄1

Al igual que con la mediana no está afectada por valores extremos, se recomienda
cuando la medida de centralización es la mediana.

Ejemplo 1) Cálculo de la varianza, desviación típica y coeficiente de variación


para datos sin agrupar

El conjunto de datos corresponde al tiempo en minutos que se demoraron los


asesores de una entidad bancaria en atender a 6 usuarios:
Ciencias Básicas

5, 12, 10, 30, 20, 25


Para calcular la varianza del conjunto del datos es necesario calcular la media que
es 𝑥̅ = 17 minutos, luego;

∑6𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑠2 =
𝑛−1

(5 − 17)2 + (12 − 17)2 + (10 − 17)2 + (30 − 17)2 + (20 − 17)2 + (25 − 17)2
=
6−1

(−12)2 + (−5)2 + (−7)2 + (13)2 + (3)2 + (8)2 144 + 25 + 49 + 169 + 9 + 64


= =
5 5
460
=
5

∑6𝑖=1(𝑥𝑖 −𝑥̅ )2 460


𝑠2 = = = 92
𝑛−1 5

La varianza 𝑠 2 = 92

∑6𝑖=1(𝑥𝑖 −𝑥̅ )2
Desviación típica es 𝑠 = √ = √92 = 9.59 minutos
𝑛−1

Los datos tienen una desviación típica de 9,59 minutos por usuario.

Coeficiente de variación

9.59
𝐶𝑉 = × 100 = 56.4
17
Ciencias Básicas

El coeficiente de variación 56,4% indica que la población no es homogénea, por lo


tanto la media no es representativa.

Ejemplo 2) Cálculo de la varianza, desviación típica y coeficiente de variación


para datos agrupados en una tabla simple.

𝑥𝑖 𝑓𝑖 𝑥𝑖 ∙ 𝑓𝑖 (𝑥𝑖 (𝑥𝑖 (𝑥𝑖 − 𝑥̅ )2


− 𝑥̅ ) − 𝑥̅ )2 ∙ 𝑓𝑖

0 3 0 -2 4 12

1 10 10 -1 1 10

2 25 50 0 0 0

3 8 24 1 1 8

4 4 16 2 4 16

50 100 46

100
𝑥̅ = =2
50

Varianza:

∑ni=1(xi − x̅)2 × fi 46
s2 = = = 0.94
n−1 49

Desviación típica:

∑n ̅ )2 ×fi
i=1(xi −x
s=√ = √0.94 = 0.97; Luego la desviación típica del conjunto de datos
n−1

es 0,97

Coeficiente de variación:
Ciencias Básicas

0.97
𝐶𝑉 = × 100 = 48,5%
2

El coeficiente de variación 48,5% indica que la población no es homogénea, por lo


tanto la media no es representativa.

Ejemplo 3) Calcular el rango intercuartílico para el conjunto de datos del ejemplo


2

𝑄1 = 1 𝑄3 = 2,

Rango intercuartílico 𝑄 = 2−1= 1

RESUMEN DE LAS MEDIDAS DE DISPERSIÓN

(Departamento de Matemáticas, 2014)


Ciencias Básicas

6.6. OTRAS MEDIDAS DE DISPERSIÓN:

6.6.1. La Desviación Media:

La desviación media de un conjunto de N datos, se define como la media


aritmética de sus desviaciones absolutas de su media aritmética

𝑁
1
𝑀. 𝐷. = ∑|𝑥𝑖 − 𝑥̅ |
𝑁
𝑖=1

La desviación media no es una medida importante, pero se usa ocasionalmente,


por ejemplo, en mediciones de laboratorio y en pruebas de normalidad de una
distribución. (B.Elmer, 2005)

Ejemplo 4) Cálculo de la desviación media.

𝑥𝑖 𝑓𝑖 𝑥𝑖 ∙ 𝑓𝑖 𝑥𝑖 − 𝑥̅ |𝑥𝑖 − 𝑥̅ | |𝑥𝑖 − 𝑥̅ | ∙ 𝑓𝑖

0 3 0 -2 2 6

1 10 10 -1 1 10

2 25 50 0 0 0

3 8 24 1 1 8

4 4 16 2 2 8

50 100 32
Ciencias Básicas

1 32
𝑀. 𝐷. = 𝑁 ∑𝑁
𝑖=1|𝑥𝑖 − 𝑥̅ | ∙ 𝑓𝑖 = 50 = 0.64,

Es una medida menos utilizada pero también indica la dispersión de los datos.

6.6.2. Medidas de deformación o asimetría

La simetría de una distribución de frecuencias hace referencia al grado en que


valores de la variable, equidistantes al valor central de la distribución. La
distribución es simétrica cuando la media, mediana y moda son iguales, es decir,
cuando en una curva normal las dos colas son iguales.

Asimétrica o deforme si la distribución es unimodal, siendo un valor mayor que la


media y la mediana, esta tendrá una cola más larga hacia uno de los lados, se
puede presentar una asimetría positiva o una asimetría negativa.
Ciencias Básicas

𝑥̅ < 𝑀𝑒 < 𝑀𝑑 𝑀𝑑 < 𝑀𝑒 < 𝑥̅

Índice de asimetría para variables cuantitativas: Primer coeficiente de Pearson,


se basa en la relación existente entre la media y la moda en distribuciones
unimodales asimétricas.

𝑥̅ −𝑀𝑑 3(𝑥̅ −𝑀𝑒 )


𝐴𝑠 = ó 𝐴𝑠 =
𝑠 𝑠

Interpretación del coeficiente de Pearson: los valores menores que 0 indican


asimetría negativa; los mayores, asimetría positiva y cuando sea cero, o muy
próximo a cero, simétrica. No está limitado a un rango de valores.

6.6.3. Medidas de apuntamiento o curtosis:

El apuntamiento o curtosis de una distribución de frecuencias no tiene un


referente natural como en el caso de la simetría, sino que se sustenta en la
comparación respecto a una distribución de referencia, en concreto, la distribución
normal o campana de Gauss. En consecuencia, su obtención sólo tendrá sentido
en variables cuya distribución de frecuencias sea similar a la de la curva normal –
en la práctica ello se reduce, básicamente, a que sea unimodal y más o menos
simétrica.

El apuntamiento expresa el grado en que una distribución acumula casos en sus


colas en comparación con los casos acumulados en las colas de una distribución
normal cuya dispersión sea equivalente. Así, de forma análoga a la asimetría, se
diferencian 3 grandes categorías de apuntamiento:

 Distribución platicúrtica (apuntamiento negativo): indica que en sus colas hay


más casos acumulados que en las colas de una distribución normal.

• Distribución leptocúrtica (apuntamiento positivo): justo lo contrario.


Ciencias Básicas

• Distribución mesocúrtica (apuntamiento normal): como en la distribución


normal. media. Tomado de: (Departamento de Matemáticas, 2014)

Para calcular el coeficiente de curtosis utilizamos:

0.5(𝑄3 −𝑄1 )
𝐾= 𝑃90 −𝑃10

𝐾 < 0,263 Mesocúrtica

𝐾 = 0,263 Normal

𝐾 > 0,263 Platicúrtica

Ejemplo 1). Se ha realizado un estudio a 200 mujeres mayores de 14 años,


observándose el número de hijos de las mismas. El resultado ha sido

Número de Númeo de
hijos 𝑥𝑖 mujeres 𝑓𝑖

0 26
1 40
2 50
3 40
4 22
5 14
6 8
Ciencias Básicas

a) Calcular el coeficiente de asimetría

b) Calcular el coeficiente de apuntamiento o curtosis

Solución:

a) Antes de calcular el coeficiente de asimetría es necesario calcular, la


media, la moda o la mediana y la desviación típica.

Donde:

𝑥̅ = 2,33 por ser una variable discreta se aproximaría a 2, pero no para


analizar simetría.

𝑀𝑑 = 2

𝑀𝑒 = 2

504.2
𝑠2 = = 2,53 luego la desviación típica es 𝑠 = √2,53 = 1,59
199

𝑥̅ −𝑀𝑑 3(𝑥̅ −𝑀𝑒 )


El coeficiente de asimetría 𝐴𝑠 = ó 𝐴𝑠 = , es:
𝑠 𝑠

2,33 − 2
𝐴𝑠 = = 0.207
1,59

Como la mediana y la moda son iguales con cualquiera de los estadísticos el


resultado será el mismo. De acuerdo con el resultado indica que la distribución se
aproxima a la normal o simétrica, con una ligera deformación a la derecha.
Ciencias Básicas

b) Para calcular las media de apuntamiento o curtosis, es necesario calcular


𝑄1 , 𝑄3 , 𝑃10 , 𝑃90

𝑄1 = 1 𝑄2 = 3 𝑃10 = 0 𝑃90 = 5

0,5 × (3 − 1) 1
𝐾= = = 0,20
(5 − 0) 5

𝑘 = 0,20 < 0,263. Por tanto la distribución es achatada, y se tendrá por tanto que
hay más distribución respecto al promedio.
Ciencias Básicas

7. CONCEPTO DE REGRESIÓN LINEAL

Tomado de: (Vila Alicia, 2014)

Modelo de regresión lineal simple: En la administración suelen basarse en la


relación entre dos o más variables. Por ejemplo, observar la relación entre el
gasto de publicidad y las ventas puede permitir a un gerente de mercadotecnia
tratar de predecir las ventas correspondientes a un determinado gasto en
publicidad. O en una empresa de servicios público puede emplear la relación
entre la temperatura diaria y la demanda de electricidad para predecir la demanda
de electricidad considerando las temperaturas diarias que se esperan el mes
siguiente. Algunas veces los directivos se apoyan en la intuición para juzgar la
relación entre dos variables. Sin embargo, cuando es posible tener datos, puede
Ciencias Básicas

emplearse un procedimiento estadística llamado análisis de regresión para


obtener una ecuación que indique cuál es la relación entre las variables. En la
terminología que se emplea en regresión, a la variable que se va a predecir se la
llama variable dependiente, A la variable o variables que se usan para predecir el
valor de la variable dependiente se le llama variables independientes. Por
ejemplo al analizar el efecto de los gasto en publicidad sobre las ventas, como lo
que basta el gerente de mercadotecnia en predecir las ventas, esto indica que las
ventas serán dependientes

Un modelo de regresión lineal tiene la forma

𝑦 = 𝛽0 + 𝛽1 𝑥+∈

β0 y β1, se conoce como parámetros del modelo y ∈ (letra griega épsilon) es una
variable aleatoria que se conoce como términos del error. Tel término del error da
cuenta de la variabilidad y que no puede ser explicada por relación lineal entre x y
y

(1 𝑛 ∑ 𝑥𝑖 𝑦𝑖 −∑ 𝑥𝑖 ∑ 𝑦𝑖
= 𝛽, se conoce como la pendiente
𝑛 ∑ 𝑥𝑖 2 −(∑ 𝑥𝑖 )2

𝛽0 = 𝑦̅ − 𝛽1 𝑥̅ , se conoce como punto de corte con el eje y

𝑦 = 𝛽0 + 𝛽1 𝑥 Ecuación de la recta de regresión lineal

Interpretación

El valor del índice de correlación varía en el intervalo [-1,1]:

 Si 𝑟 = 1, existe una correlación positiva perfecta. El índice indica una


dependencia total entre las dos variables denominada relación directa: cuando
una de ellas aumenta, la otra también lo hace en proporción constante.
 Si 0 < 𝑟 < 1, existe una correlación positiva.
Ciencias Básicas

 Si 𝑟 = 0, no existe relación lineal. Pero esto no necesariamente implica que las


variables son Independencia (probabilidad)|independientes: pueden existir
todavía relaciones no lineales entre las dos variables.
 Si −1 < 𝑟 < 0, existe una correlación negativa.
 Si 𝑟 = −1, existe una correlación negativa perfecta. El índice indica una
dependencia total entre las dos variables llamada relación inversa: cuando una
de ellas aumenta, la otra disminuye en proporción constante.

COEFICIENTE DE CORRELACIÓN

∑ 𝑥𝑖 𝑦𝑖 − 𝑛𝑥̅ 𝑦̅ 𝑛 ∑ 𝑥𝑖 𝑦𝑖 − ∑ 𝑥𝑖 ∑ 𝑦𝑖
𝑟𝑥𝑦 = =
𝑛𝑠𝑥 𝑠𝑦 √𝑛 ∑ 𝑥𝑖 2 − (∑ 𝑥𝑖 )2 √𝑛 ∑ 𝑦𝑖 2 − (∑ 𝑦𝑖 )2

Actividades para practicar:

1. En la tabla adjunta se alistan los pesos (en centenares de libras) y el


rendimiento del combustible en autopista (en mi/gal) de una muestra de
autos estadounidenses nuevos. Con base en el resultado, ¿cabe esperar
que se gastara más en gasolina si se adquiere un coche más pesado? ¿Los
resultados cambian si los pesos se introducen como 2900, 3500, …., 2400?

x peso 29 35 28 44 25 34 30 33 28 24

y 31 27 29 25 31 29 28 28 28 33
combustible

Número de
trabajadores (x) 5 15 20 25 30 30 40 50 60 70
Producción (y) 4 10 15 20 24 25 33 38 40 44

a. Dibujar el gráfico de dispersión (MANUAL)


Ciencias Básicas

b. Calcular el coeficiente de correlación lineal; la pendiente; el punto de


corte con el eje “y” y la ecuación de la recta.
c. Dibujar la gráfica de regresión lineal, usando la ecuación de la recta de
regresión "y" sobre "x"
d. Interpretar los resultados
Ciencias Básicas

8. PROBABILIDAD

Introducción a los conceptos básicos de la teoría de la probabilidad

La presencia del hueso astrágalo de oveja o ciervo en las excavaciones


arqueológicas más antiguas, parece confirmar que los juegos de azar tienen una
antigüedad de más de 40000 años, y la utilización del astrágalo en culturas más
recientes, ha sido ampliamente documentada. Existen en las pirámides de Egipto
pinturas que muestran juegos de azar que datan del año 3500 a. C. y Herodoto se
refiere a la popularidad y difusión en su época de los juegos de azar, especialmente
la tirada de astrágalos1 y dados. Los dados más antiguos se remontan a unos 3000
años antes de Cristo y se utilizaron en el juego como en ceremonias religiosas.

Las civilizaciones antiguas, explicaban el azar mediante la voluntad divina. En


Grecia y Roma, utilizaban la configuración resultante de tirar cuatro dados para
predecir el futuro y revelar la voluntad favorable o desfavorable de los dioses.
Prácticas similares se han encontrado en culturas tan distintas como la tibetana, la
india o la judía. Piaget ha hecho notar que esta actitud mágica ante el azar se
manifiesta igualmente en los niños.

Se destaca la importancia de hacer inferencias sobre una población a partir de


observaciones procedentes de una muestra. Esta muestra se obtiene con la
intención de conocer ciertas características de la población, pero normalmente no
aportará información sobre algunos aspectos. Por ejemplo, un producto puede ser
puesto a prueba a través de su venta en un número limitado de concesionarios,
evaluándose así la reacción de los consumidores. Los resultados se utilizan para
hacerse una idea de la posible demanda en caso de que el producto fuese puesto
a la venta en todo el ámbito nacional. Naturalmente, si nos basamos en la
información muestral, es imposible determinar exactamente la reacción de la

1
Astrágalos: Por su constitución y forma de seis caras, en la antigüedad se utilizaba para la aleatoriedad de
probabilidades por los ciudadanos. Se podría decir que el hueso de Astrágalo es el precursor del dado de seis caras que
conocemos en la actualidad
Ciencias Básicas

totalidad de la población; cualquier medida de dicha reacción inevitablemente


llevará consigo incertidumbre.

Aunque no es posible, basándonos en la muestra, deducir cierta información sobre


la población, puede ser posible hacer afirmaciones precisas sobre la naturaleza de
la incertidumbre. Estas afirmaciones se expresan en el lenguaje de la probabilidad,
que es, por tanto, un concepto fundamental en inferencia estadística. Es también
una noción que se encuentra frecuentemente en la vida diaria.

8.1. Conceptos Básicos

8.1.1. Experimentos Aleatorios, Resultados y Sucesos

Experimentos aleatorios son los que pueden dar lugar a varios resultados, sin
que pueda ser previsible enunciar con certeza cuál de éstos va a ser observado en
la realización del experimento.

Resultados básicos: los resultados posibles de un experimento aleatorio

Espacio muestral (S): el conjunto de todos los resultados básicos

Ejemplo se lanza un dado. Los resultados básicos son los números 1, 2, 3, 4, 5, 6.


De este modo, el espacio muestral es S = {1,2,3,4,5,6}

Al lanzar una moneda, el espacio muestral es

S = {sale cara, sale sello} ó S = {c, s}.

Al lanzar dos monedas, el espacio muestral es

S = {(c,c), (c,s), (s,c), (s,s)}.

Al lanzartresmonedas, elespaciomuestral es
Ciencias Básicas

S = {(c,c,c), (c,c,s), (c,s,c), (c,s,s), (s,c,c), (s,c,s), (s,s,c), (s,s,s)}

Suceso o evento aleatorio (A,B,..) es un acontecimiento que ocurrirá o no,


dependiendo del azar.

En muchas aplicaciones, estamos interesados simultáneamente de dos o más


sucesos. Por ejemplo si se lanza un dado, dos sucesos que podrían considerarse
son “el número resultante es par” y “el número resultante es mínimo 4”. Una
posibilidad es que todos los sucesos de interés podrían ocurrir; este sería el caso si
el resultado básico del experimento aleatorio pertenece a todos estos sucesos. El
conjunto de resultados básicos que pertenece a todos los sucesos de un grupo se
denomina intercesión de estos sucesos.

8.1.2. Operaciones entre conjuntos

Intersección: Sean A y B dos sucesos pertenencientes a un espacio muestral S.

Su intersección, que se denomina , es el conjunto de todos los resultados

básicos en S que pertenecen a A y a B. Por tanto, la intersección ocurre


si y sólo si tanto A como B ocurren.

De manera más general, dados K sucesos E1, E2, …Ek, su intersección,


E1  E 2 ...  E k , es el conjunto de todos los resultados básicos que pertenecen a
todo Ei (i=1, 2, …, k)

Cuando tienen Cuando no tienen


Ciencias Básicas

elementos comunes elementos comunes

Sucesos mutuamente excluyentes: Dos eventos son mutuamente excluyentes si


no pueden ocurrir en forma simultánea, esto es, si y sólo si su intersección es
vacía.

Por ejemplo, en el lanzamiento de un dado los eventos B = {2} y C = {5, 6} son


mutuamente excluyentes por cuanto B C=

Una ciudad pequeña tiene tres distribuidores de automóviles: un distribuidor de


GM que vendeChevrolets, Pontiacs y Buicks; uno de Ford que vende Fords y
Mercurys, y el de Chryslerque vende Plymouths y Chryslers. Si un experimento
consiste en observar la marca del siguienteautomóvil vendido, entonces los
eventos A = {Chevrolet, Pontiac, Buick} y B ={Ford, Mercury} son mutuamente
excluyentes, porque el siguiente automóvil vendido no puedeser ni un producto de
GM ni de Ford.

Unión: Sean A y B los dos sucesos en el espacio muestral S. su unión, denominada


A  B , es el conjunto de todos los resultados básicos en S que pertenecen al menos

a uno de estos dos sucesos. Por tanto, la unión A  B tiene lugar si y sólo si A y /o
B ocurren

De manera más general, dados K sucesos E1 U E2 U E3 U….U Ek, es el conjunto


de todos los resultados básicos perteneciente al menos a uno de estos k sucesos

Sucesos colectivamente exhaustivos: Sean E1, E2, ….Ek k sucesos en el espacio


muestral S. Si E1 U E2 U E3 U….U Ek = S, estos K sucesos se denominan
colectivamente exhaustivos
Ciencias Básicas

Complemento: sea A un suceso en el espacio muestral S. El conjunto de


resultados básicos de un experimento aleatorio perteneciente a S pero no a A se
___
denomina el complementario de A, y se representa por A

Las operaciones de unión e intersección se pueden extender a más de dos


eventos. Paratres eventos A, B y C, el evento A U B U C es el conjunto de
resultados contenidos en los treseventos. Dados los eventos A, A,, A,, . . . , se dice
que éstos son mutuamente excluyentes (odisjuntos por pares) si ninguno de los
dos eventos'tiene resultados en común.Por medio de diagramas de Venn se
obtiene una representación gráfica de eventos y manipulacionescon eventos. Para
construir un diagrama de Venn, se dibuja un rectángulo cuyointerior representa el
espacio muestra1 $Después, cualquier evento A se representa como el interiorde
una curva cerrada (a veces un círculo) contenida en S. En la figura 2.1 aparecen
ejemplosde diagramas de Venn.

8.2. Concepto de Probabilidad:

Un experimento aleatorio se caracteriza porque repetido muchas veces y en


idénticas condiciones el cociente entre el número de veces que aparece un
Ciencias Básicas

resultado (suceso) y el número total de veces que se realiza el experimento tiende


a un número fijo. Esta propiedad es conocida como ley de los grandes números,
establecida por Jakob Bernouilli. Tiene el inconveniente de variar la sucesión de las
frecuencias relativas de unas series de realizaciones a otras, si bien el valor al que
se aproximan a medida que el número de realizaciones aumenta se mantiene
estable.

Un ejemplo, supóngase que se lanza una moneda. La frase “la probabilidad de que
salga cara es ½” puede ser interpretada con la ayuda de dos conceptos: frecuencia
relativa y probabilidad subjetiva.

Probabilidad de frecuencia relativa:

Sea NA el número de ocurrencias de un suceso A en N repeticiones. Entonces,


siguiendo el concepto de probabilidad de frecuencia relativa, la probabilidad de que
A ocurra es el límite del cociente NA/N a medida que el número de intentos N se
hace infinitamente grande.

La frecuencia relativa del suceso A:

𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑣𝑒𝑐𝑒𝑠 𝑞𝑢𝑒 𝑎𝑝𝑎𝑟𝑒𝑐𝑒 𝐴


𝑓𝑟 (𝐴) =
𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑣𝑒𝑐𝑒𝑠 𝑞𝑢𝑒 𝑠𝑒 𝑟𝑒𝑎𝑙𝑖𝑧𝑎 𝑒𝑙 𝑒𝑥𝑝𝑒𝑟𝑖𝑚𝑒𝑛𝑡𝑜

Probabilidad subjetiva

Una visión alternativa, que no depende de la noción de experimentos repetibles


considera la probabilidad como un concepto personal subjetivo que expresa un
grado de creencia individual sobre la posibilidad de que un suceso ocurra. Una
manera de entender esta idea es en términos de apuestas justas. Por ejemplo, si
afirmo que la probabilidad de que salga cara al lanzar una moneda es ½, lo que
tengo en mente es que la moneda no parece estar trucada y que resultará
igualmente probable que salga cara o cruz. Al enjuiciar esta probabilidad subjetiva,
Ciencias Básicas

no estoy pensando necesariamente en términos de la experimentación repetida sino


que estoy interesado por un único lanzamiento de la moneda. Mi evaluación de la
probabilidad subjetiva implica que consideraría justa una apuesta que consistiese
en pagar un dólar si saliera cruz y recibir un dólar si saliera cara. Si fuera a recibir
más de un dólar si el lanzamiento resultase cara, consideraría favorable la apuesta.
Las probabilidades subjetivas son personales, no se requiere que diferentes
individuos consideren que el mismo suceso debe tener lugar con las mismas
probabilidades.

La probabilidad y sus postulados

Sea S el espacio muestral de un experimento aleatorio, Oi los resultados básicos y


A un suceso. Entonces, denominando la “probabilidad de que A ocurra” como P(A),
enunciamos los requisitos en el siguiente cuadro:

1. si A es un suceso cualquiera en el espacio muestral S

2. Sea A un suceso en S, y sean Oi los resultados básicos, entonces,

Donde la notación indica que el sumatorio corresponde a todos los resultados básicos
pertenecientes a A

Consecuencias de los postulados

1. Si el espacio muestral S está constituido por n resultados básicos igualmente


probables, O1, O2, ….On, entonces cada una de ellos tiene una probabilidad
1/n, es decir
1
P (o i )  (i = 1, 2, 3,….n)
n
Ciencias Básicas

2. El espacio muestral S está constituido por n resultados básicos igualmente


probables y el suceso A está formado por nA de estos resultados, entonces,
na
P( A) 
n

3. Sean A y B dos sucesos mutuamente excluyentes. Entonces la probabilidad


de la unión es la suma de las probabilidades individuales, es decir,

𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵)

P( A  B)   P(O
A B
I )

Donde la sumatoria se extiende a todos los resultados básicos en AUB, pero dado
que A y B son mutuamente excluyentes, un resultado no puede pertenecer a
ambos sucesos, pero por lo que el lado derecho de la ecuación puede ser dividido
en dos partes:

 P(O
A B
I )   P(O I )   P(O I )
A B

Cómo interpretar la probabilidad

Los axiomas sólo sirven para eliminar asignaciones inconsistentescon el concepto


intuitivo de probabilidad. En el experimento en el que se lanza unamoneda al aire,
son sugeridas dos asignaciones en particular (c, s). La asignacióncorrecta o
adecuada depende de la manera cómo se realiza un experimento, y también dela
interpretación que se haga de la probabilidad. La interpretación utilizada con más
frecuenciay que se entiende con más facilidad, está basada en la noción de
frecuencias relativas.
Ciencias Básicas

Considere un experimento que se puede llevar a cabo una y otra vez de una
manera idénticae independiente, y sea A un evento que consiste en un conjunto
fijo de resultados del experimento.

Los experimentos estudiadosantes, como lanzar una moneda y tirar dados,


sonejemplos simples de estos experimentos repetibles. Si el experimento se
realiza n veces, en algunasde las repeticiones ocurre el evento A (el resultado se
encuentra en el conjunto A), y enotros no ocurre A. Sea n(A) el número de
repeticiones en las que ocurre A. sea n(A) el número de repeticiones en las que
ocurre A. Entonces, la relación n(A)/n se denomina frecuencia relativa de
ocurrencia del evento A en la secuencia de n repeticiones. La evidencia empírica,
basada en los resultados de estas secuencias de experimentos reproducibles,
indica que a medida que crece n, se estabiliza la frecuencia relativa n(A)/n, como
se ilustra en la siguiente figura, es decir a medida que n se hace arbitrariamente
grande, la frecuencia relativa se aproxima a un valor límite que se llama frecuencia
relativa limitantedel evento A. La interpretación objetiva de probabilidad identifica
esta frecuencia relativalimitante con P(A).

Ejemplo:
Ciencias Básicas

1. Una organización de caridad vende 1.000 billetes de lotería, Hay diez


primeros premios y cien premios de consolación, todos los cuales deben ser
distribuidos. El proceso de selección de los ganadores es tal que, al principio, cada
boleto tiene las mismas posibilidades de ganar un primer premio y cada uno tiene
las mismas posibilidades de ganar un premio de consolación. Ningún boleto puede
ganar más de un premio. ¿Cuál es la probabilidad de ganar un premio con un único
boleto?¿cuál es la probabilidad de ganar un premio de consolación?¿Cuál es la
probabilidad de ganar algún premio?

De entre los 1.000 billetes, 10 ganarán primeros premios, 100 ganarán premios de
consolación y 890 no ganarán premio alguno. Nuestro único billete puede ser
considerado como uno elegido entre loa 1.000, sea A el suceso “el billete elegido
gana un primer premio”. Dado que son 1.000 resultados igualmente probables, 10
de los cuales corresponde al suceso A, tenemos que:

10
P( A)   0.01
1.000

De modo similar, para el suceso B, “el billete elegido gana un premio de


consolación”, se deduce que:

100
P( A)   0.10
1.000

Ahora bien, el suceso “el billete gana algún premio” es sencillamente la unión de
los sucesos A y B, además, dado que sólo se permite un premio por billete, estos
sucesos son mutuamente excluyentes. Por tanto, la probabilidad requerida es:

P( A  B)  P( A)  P( B)  0.01  0.10  0.11

2. En un determinado suburbio residencial, 60% de los hogares se suscriben al


periódico metropolitanopublicado en una ciudad cercana, 80% se suscriben al
Ciencias Básicas

periódico local y 50% se suscribena ambos periódicos. Si se selecciona al azar


una familia, ¿cuál es la probabilidad de queesté suscrita a) al menos a uno de los
dos periódicos y b) exactamente a uno de los dos periódicos?

Con A = {se suscribe al periódico metropolitano} y B= {se suscribe al periódico


local},la información proporcionada implica que P(A)= 0.6; P(B)=0.8 y
. Luego se aplica la proposición previa y se obtiene

a. P (se suscribe por lo menos a uno de los periódicos)

b. El evento de que una familia se suscriba sólo al periódico local se


puede escribir como {(no metropolitano) y local}. Ahora implica
que
Ciencias Básicas

Bibliografía

2.0, S. S. (23 de 06 de 2015). http://surveys.pro/. Recuperado el 2015, de Social


Statistics 2.0: http://surveys.pro/

B.Elmer, M. (2005). Elementos de probabilidad y estadística . En M. B.Elmer.


España: Reverte.

Ciro, M. B. (2013). Estadística y Muestreo . Bogotá: Ecoe Ediciones .

Departamento de Matemáticas, U. d. (2014). Universidad de Atacama.


Recuperado el 21 de 07 de 2015, de Departamento de Matemáticas :
http://www.mat.uda.cl/hsalinas/cursos/2011/2do/clase2.pdf

Levin, C. M.-R. (2012). Estadística Aplicada. Bogota: Pearson Edicación de


Colombia Ltda.

Nelfi, S. J. (11 de 2002). Doc Player. Recuperado el 11 de 07 de 2010, de Doc


Player:
http://www.google.es/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&ved=0CCEQ
FjAAahUKEwicurmYpNnGAhWLnYAKHf0nAFE&url=http%3A%2F%2Fcran.r-
project.org%2Fdoc%2Fcontrib%2Fgrafi3.pdf&ei=rkykVZyrEYu7ggT9z4CIBQ&usg=
AFQjCNEsWHj_QWCPD1d8xwlkIGtk3fK3nw&bvm=bv.97653015,d.
Ciencias Básicas

Salazar, N. G. (2002). Estadística Aplicada . Medellín : Universidad Nacional, Sede


Medellín.

Secretaría de Educación Departamental y Universidad de Antioquia . (2007).


Modulo 5, Pensamiento aleatorio y sistemas de datos. Medellín : Universidad de
Antioquia .

Vila Alicia, S. M. (2014). www.uoc.edu. Recuperado el 2015 de 07 de 2015, de


http://www.uoc.edu/in3/emath/docs/RegresionLineal.pdf

También podría gustarte