Está en la página 1de 50

ESTADÍSTICA Y

PROBABILIDAD

Prof. Gualberto E. Ruiz Diaz


Profesorado en Matemática
Facultad de Humanidades
Universidad Nacional de Formosa

29 de agosto de 2016
Capı́tulo 1

Recolección, organización y
presentación de datos

Introducción

En el trabajo cotidiano nos encontramos continuamente frente a situa-


ciones en las cuales se deben tomar decisiones basadas en la observación de
fenómenos. Ası́, por ejemplo, el médico debe establecer medidas de acción
basadas en una serie de diagnósticos, el psicólogo debe recomendar distintas
terapias después de un estudio a fondo del caso en particular, el ingeniero debe
solucionar problemas técnicos del proceso productivo en base a observaciones
efectuadas sobre una serie de defectos de los productos fabricados, etc. Estas
decisiones generalmente están apoyadas por una teorı́a pertinente en el campo
especı́fico y, a su vez, en la experiencia acumulada por el profesional en base a
la observación de hechos con caracterı́sticas similares.

La persona común concibe la estadı́stica como columnas de cifras o gráficos,


sin embargo, podemos decir que la estadı́stica llega a tener un sentido más
amplio. La función principal de la estadı́stica es elaborar principios y métodos
que nos ayuden a tomar decisiones frente a la incertidumbre.

La estadı́stica se emplea hoy en toda clase de estudios cientı́ficos, en toda


situación en la cual deba tomarse una decisión basada en datos empı́ricos.

1
2 1.1. Concepto de Estadı́stica

1.1. Concepto de Estadı́stica

Iniciaremos nuestro estudio de la estadı́stica señalando, como lo hicimos


en la introducción, que la palabra tiene dos significados básicos. En el primer
sentido, el término se utiliza para referirse a números que derivan de datos
obtenidos, como se muestran en los siguientes ejemplos:

En la Copa Mundial FIFA Brasil 2014 hubo un promedio de 2,7


goles por partido, superando al mundial anterior donde la media fue de
2,3 goles por partido.

La publicación Newsletter Transplant 2014, que recogió datos a ni-


vel mundial durante el 2013, reveló que la Argentina lidera en América
Latina el número total de pacientes trasplantados, con 42,7 donantes por
millón de habitantes, seguido por Uruguay, con 42,6, y Brasil, con 37,8,
y que tiene además la tasa más alta de trasplantes cardı́acos, con 2,4 do-
nantes por millón de habitantes, seguido por Chile, con 1,8, y Colombia,
con 1,7.

El ministro de Agricultura, Carlos Casamiquela, expresó que la pro-


ducción argentina de soja del ciclo 2013/14, cuya cosecha avanza a toda
velocidad, alcanzará un récord de 55 millones de toneladas.

El segundo significado, en un sentido más amplio, se refiere a la estadı́stica


como método de análisis.

Definición 1.1.1 . La estadı́stica es el estudio de los métodos y procedimien-


tos para recoger, clasificar, resumir y analizar datos y para hacer inferencias
cientı́ficas partiendo de tales datos que nos permitirá tomar decisiones en
determinados ámbitos.

Esta definición cubre gran parte de la actividad del cientı́fico. Es impor-


tante observar que el objeto sobre el que se realiza el análisis estadı́stico son
los datos y las observaciones cientı́ficas son por sı́ mismos, más que el material
quı́mico que interviene en el estudio.

Claramente, la estadı́stica implica mucho más que simplemente trazar


gráficas y calcular promedios.
1. Recolección, organización y presentación de datos 3

1.2. Estadı́stica descriptiva y Estadı́stica


inductiva

La estadı́stica se puede dividir en 2 categorı́as, la estadı́stica descriptiva


y la estadı́stica inductiva. La estadı́stica descriptiva es una ciencia que sirve
como método para organizar, analizar series de datos (por ejemplo, edad de
una población, altura de los estudiantes de una escuela, temperatura en los
meses de verano, etc.) y poner de manifiesto sus caracterı́sticas esenciales con
el propósito de llegar a conclusiones.

La estadı́stica inductiva se basa en las conclusiones a la que se llega por la


ciencia experimental basándose en la utilización de datos muestrales.

En la terminologı́a estadı́stica, el procedimiento inductivo implica el hacer


inferencias acerca de una población adecuada o universo a la luz de lo averi-
guado en un subconjunto aparte o muestra. La inferencia estadı́stica se refiere
a los procedimientos mediante los cuales se pueden hacer tales generalizaciones
o inducciones.

Es importante por todo lo dicho anteriormente, que el proceso de la inferen-


cia cientı́fica, implica el grado más elevado de cooperación entre la estadı́stica
y el estudio experimental.

Las causas por las cuales se recurre al muestreo son:

Analizar a la población resulta muy costoso por la relación costo/beneficio.

Analizar a la población completa lleva mucho tiempo.

Al analizar el objeto de estudio se lo destruye, por lo cual si analizamos


a toda la población nos quedamos sin unidades.

La población a analizar es infinita, por lo cual es imposible analizarla en


su totalidad.

La población a analizar es inaccesible.

1.3. Etapas del Método estadı́stico

El método estadı́stico consiste en una secuencia de procedimientos para el


manejo de los datos cualitativos y cuantitativos de la investigación. Dicho

Prof. Gualberto Ruiz Diaz Apuntes de Estadı́stica


4 1.3. Etapas del Método estadı́stico

manejo de datos tiene por propósito la comprobación, en una parte de la


realidad, de una o varias consecuencias verificables deducidas de la hipótesis
general de la investigación.

Las caracterı́sticas que adoptan los procedimientos propios del método


estadı́stico dependen del diseño de investigación seleccionado para la compro-
bación de la consecuencia verificable en cuestión.

El método estadı́stico tiene las siguientes etapas:

1. Recolección

2. Organización

3. Presentación

4. Sı́ntesis

5. Análisis

6. Interpretación

Tales etapas siempre se encuentran en el orden descrito y cada una de ellas


consiste, de manera resumida, en lo siguiente:

1. Recolección (medición). En esta etapa se recoge la información cuali-


tativa y cuantitativa señalada en el diseño de la investigación. En vista
de que los datos recogidos suelen tener diferentes magnitudes o intensi-
dades en cada elemento observado (por ejemplo el peso o la talla de un
grupo de personas), a dicha información o datos también se les conoce
como variables. Por lo anterior, puede decirse que esta etapa del método
estadı́stico consiste en la medición de las variables.
La recolección o medición puede realizarse de diferentes maneras, a veces
ocurre por simple observación y en otras ocasiones se requiere de comple-
jos procedimientos de medición, en algunas ocasiones basta con una sola
medición y en otras se requiere una serie de ellas a lo largo de amplios
perı́odos de tiempo.
La calidad técnica de esta etapa es fundamental ya que de ella depende
que se disponga de datos exactos y confiables en los cuales se fundamen-
ten las conclusiones de toda la investigación.
Es tan grande la importancia de esta etapa que algunas clasificaciones de
las investigaciones se basan en la forma en que ocurre la medición; por
1. Recolección, organización y presentación de datos 5

ejemplo si la información es recogida en una sola ocasión suele decirse que


la investigación es transversal ; en cambio, si la información es recogida
a lo largo del tiempo se denomina longitudinal a la investigación.
En ocasiones, la recolección de la información debe ocurrir en grupos
tan grandes de individuos que se hace impráctico tratar de abarcar a
todos ellos, entonces es cuando se ponen en práctica procedimientos de
muestreo. Tales procedimientos de muestreo están subordinados a la con-
secuencia verificable que se desea comprobar y al diseño de investigación
seleccionado.

2. Organización. En esta etapa del método estadı́stico la información re-


colectada es sometida a revisión realizando correcciones, clasificación y
cómputo numérico.
A veces la organización puede realizarse de manera muy simple, por
ejemplo con rayas o palotes, en otras ocasiones se requiere el empleo
de tarjetas con los datos y, en investigaciones con mucha información y
muchos casos puede requerirse el empleo de computadoras y programas
especiales para el manejo de bases de datos.
En términos generales puede decirse que la organización consiste en la
cuantificación de la frecuencia con que aparecen las diversas caracterı́sti-
cas medidas en los elementos en estudio; por ejemplo: el número de per-
sonas de sexo femenino y el de personas de sexo masculino, o el número
de niños con peso menor a 3 kilos y el número de niños con peso igual o
mayor a dicha cifra.

3. Presentación. En esta etapa del método estadı́stico se elaboran los


cuadros y los gráficos que permiten una inspección precisa y rápida de
los datos.
La elaboración de cuadros, que también suelen llamarse tablas, tiene
por propósito acomodar los datos de manera que se pueda efectuar una
revisión numérica precisa de los mismos.
La elaboración de gráficos tiene por propósito facilitar la inspección visual
rápida de la información.
Casi siempre a cada cuadro con datos le puede corresponder una gráfica
pertinente que represente la misma información.
Presentar la misma información tanto en un cuadro como en su corres-
pondiente gráfico permite obtener una clara idea de la distribución de
las frecuencias de las caracterı́sticas estudiadas.

4. Sı́ntesis. En esta etapa la información es resumida en forma de medidas


que permiten expresar de manera sintética las principales propiedades

Prof. Gualberto Ruiz Diaz Apuntes de Estadı́stica


6 1.3. Etapas del Método estadı́stico

numéricas de grandes series o agrupamientos de datos.


La condensación de la información, en forma de medidas llamadas de
resumen, tiene por propósito facilitar la comprensión global de las carac-
terı́sticas fundamentales de los agrupamientos de datos.
Tales medidas de resumen, al ser comunicadas, permiten a los interlocu-
tores evocar de una misma manera la esencia de los datos; por ejemplo,
cuando alguien informa que el promedio de calificaciones de un grupo de
alumnos es 9.6, en una escala que va del 0 al 10, la imagen que se trans-
mite es la de un grupo con buen aprovechamiento escolar; igualmente,
cuando se dice que el porcentaje de defunciones con una cierta técnica
quirúrgica es de 80 %, las personas que escuchan se imaginan que se trata
de un procedimiento peligroso.
La información cualitativa, como el sexo, la ocupación o los tipos de
enfermedades, requiere ser condensada a través de medidas de resumen
diferentes a la que se usan para sintetizar la información cuantitativa o
numérica como el peso, la talla o la concentración de glucosa.
Entre las principales medidas de resumen para sintetizar a los datos
cualitativos se encuentran las razones, las proporciones y las tasas.
Entre las principales medidas para sintetizar los datos cuantitativos se
encuentran la moda y la amplitud, la mediana y los percentiles, y el
promedio y la desviación estándar.
5. Análisis. En esta etapa, mediante fórmulas estadı́sticas apropiadas y el
uso de tablas especı́ficamente diseñadas, se efectúa la comparación de
las medidas de resumen previamente calculadas: por ejemplo, si antes se
han calculado los promedios de peso de dos grupos de personas someti-
das a diferentes dietas, el análisis estadı́stico de los datos consiste en la
comparación de ambos promedios con el propósito de decidir si parece
haber diferencias significativas entre tales promedios.
Existen procedimientos bien establecidos para la comparación de las me-
didas de resumen que se hayan calculado en la etapa de descripción. Tales
procedimientos, conocidos como pruebas de análisis estadı́stico cuentan
con sus fórmulas y procedimientos propios.
Cada prueba de análisis estadı́stico debe utilizarse siempre en función del
tipo de diseño de investigación que se haya seleccionado para la compro-
bación de cada consecuencia verificable deducida a partir de la hipótesis
general de investigación.
6. Interpretación. Es una etapa que está presente en todo trabajo es-
tadı́stico y está ligada a una apreciación subjetiva de los resultados del
trabajo.
1. Recolección, organización y presentación de datos 7

1.4. Conceptos básicos

En estadı́stica es común utilizar los términos población, muestra y variable


entre otros. Estos términos son centrales en la estadı́stica, ası́ que los definimos
a continuación.

Individuo: es cualquier elemento que porte información sobre el fenómeno


que se estudia. Ası́, si estudiamos la altura de los niños de una clase, cada
alumno es un individuo; si estudiamos la salud de mujeres embarazadas
en un centro de salud, cada mujer embarazada es un individuo.
Al individuo también se lo conoce como unidad de observación o unidad
experimental.

Población: es el conjunto de todos los individuos (personas, objetos, ani-


males, etc.) que porten información sobre el fenómeno que se estudia.
Por ejemplo, si estudiamos la alfabetización en una ciudad, la población
será el total de los individuos mayores de 10 años de dicha ciudad.
Una población es finita cuando todos los elementos que la constituyen
pueden ser fı́sicamente listados e individualizados, en caso contrario se
dirá que la población es infinita. Una forma de simbolizar a la población
será mediante la letra N .

Muestra: es un subconjunto representativo de la población que se selec-


ciona para ser estudiado ya que la población es demasiado grande como
para analizarla en su totalidad. Ası́, si se estudia la deserción escolar
de una ciudad, lo normal será no recoger información sobre todas las
escuelas de la ciudad (serı́a una labor muy compleja), sino que se suele
seleccionar un subgrupo (muestra) que se entienda que es suficientemen-
te representativo. Una forma de simbolizar a una muestra será mediante
la letra n.

Parámetro: es una medición numérica que describe alguna caracterı́stica


de una población.

Estadı́stica: es una medición numérica que describe alguna caracterı́stica


de una muestra.

Censo: es el estudio realizado sobre la totalidad de la población.

Encuesta o muestreo: es el estudio realizado sobre una muestra.

Prof. Gualberto Ruiz Diaz Apuntes de Estadı́stica


8 1.4. Conceptos básicos

Dato: es la información o caracterı́stica que se registra en el proceso de


observación de un individuo. Ejemplos de datos son la edad, el peso y la
estatura de un niño.

Variable: es cualquier caracterı́stica que varı́a de individuo a individuo en


la muestra o población. Ejemplos de variables son los diferentes grados
de desnutrición en que se puede clasificar a un niño según su edad, peso
y estatura. Otro ejemplo de variable es la nacionalidad de los turistas
que ingresan al paı́s durante temporada de vacaciones.
Las variables se clasifican en:

• Variable cualitativa o categórica: son aquellas que clasifican a las


unidades de observación o individuos en clases o categorı́as. Si las
categorı́as tienen un orden propio (por ejemplo: nunca, a veces,
siempre), se dice que la variable es ordenable. Si las categorı́as no
tienen un orden (por ejemplo: mujer, varón), se dice que la variable
es no ordenable. Las observaciones hechas sobre variable cualitativas
se denominan datos categóricos y muchas veces son codificados.
• Variable cuantitativa o numérica: son aquellas cuyas observaciones
provienen de procesos de medición o conteo (finito, infinito nume-
rable). Las operaciones aritméticas definidas sobre tales variables
tienen significado. Son datos mensurables. Ejemplos son edad, pe-
so, altura, ingreso salarial, cantidad de autos, etc. Por su parte, las
variables cuantitativas se pueden clasificar en discretas y continuas:
◦ Discreta: sólo puede tomar valores enteros (1, 2, 8, –4, etc.). Un
ejemplo es el número de hermanos de un alumno de la escuela
primaria (puede ser 1, 2, 3, . . . , etc., pero nunca podrá ser 3,45).
Estos valores se obtienen mediante el conteo.
◦ Continua: puede tomar cualquier valor real dentro de un inter-
valo. Un ejemplo es la estatura de un adolescente del colegio
secundario (puede ser 1, 83m, 1, 51m, 1, 79m, . . . , etc.). Estos
valores se obtienen mediante una medición.

Escala de medición: la recolección de datos requiere una escala de medi-


ción. Esta puede ser nominal, ordinal, de intervalo o de razón.

• Escala nominal. Sus valores sólo se pueden clasificar en clases (o


categorı́as), no se pueden ordenar de pequeño a grande o de menos
a más. Ejemplos: sexo, estado civil, profesión, ocupación. En oca-
ciones estos valores se codifican asignándoles un sı́mbolo alfabético
o numérico.
1. Recolección, organización y presentación de datos 9

• Escala ordinal. Sus valores se pueden clasificar en categorı́as y se


pueden ordenar en jerarquı́as con respecto a la caracterı́stica que se
evalúa. Ejemplos: nivel de estudio (primario, secundario, terciario,
universitario), calidad de un producto (malo, regular, bueno, muy
bueno), clase social (baja, media, alta), lugar en la clase (primero,
..., último).
• Escala de intervalo. Sus valores no solo tienen un orden natural,
además es posible cuantificar la diferencia entre dos valores de in-
tervalo. Generalmente tienen unidad de medida. Una variable de
intervalo es discreta cuando sólo puede tomar un valor entero (por
ejemplo: número de hijos, veces que se consultó al establecimiento
de salud); o bien es continua si puede tomar cualquier valor en un
intervalo (por ejemplo: peso, talla, ı́ndice de masa corporal, etc).
• Escala de razón. Cuando una escala tiene todas las caracterı́sticas
de una escala de intervalo y además un punto cero real en su origen,
se llama escala de razón. Además de distinción, orden y distancia,
esta es una escala que permite establecer en que proporción es ma-
yor una categorı́a de una escala que otra. El cero absoluto o natural
representa la nulidad de lo que se estudia. Ejemplos: en el deporte,
por la escala de razones, se miden la distancia, la fuerza, la veloci-
dad y otras decenas de variables. Por la escala de razones también
se miden aquellas magnitudes que se forman como resultado de la
diferencia entre números calculados por la escala de intervalos. Ası́
el tiempo calendario se cuenta por la escala de intervalos, mientras
que los intervalos de tiempo se calculan por la escala de razones.

1.5. Organización y presentación de la


información

Un conjunto de datos puede ser resumido y clasificado de acuerdo con


criterios convenientes, de modo de facilitar su análisis y poder extraer conclu-
siones.

Los datos se pueden organizar, reuniendo todos los valores observados, en


forma bruta, en un arreglo ordenado, en exhibición de tallo y hoja o en tablas
de distribución de frecuencias.

Forma bruta: es decir, en el orden aleatorio que se han recolectado. Se


utiliza cuando el número de observaciones es pequeño.

Prof. Gualberto Ruiz Diaz Apuntes de Estadı́stica


10 1.5. Organización y presentación de la información

Arreglo ordenado: se colocan los datos brutos en forma ordenada, de la


menor observación a la mayor observación. Esto facilita la evaluación por
parte del investigador.

Exhibición de tallo y hoja: esta es una técnica sencilla de gran utilidad


para explorar y describir gran número de datos.

Distribución de frecuencias: estas asocian cada valor de la variable con


la cantidad de veces que se observa dicho valor.

Ejemplo 1.5.1 En la siguiente lista se presentan en forma bruta las preci-


pitaciones durante un mes en 50 localidades del interior de la provincia en
mm.

112 72 69 97 107
73 92 76 86 73
126 128 118 127 124
82 104 132 134 83
92 108 96 100 92
115 76 91 102 81
95 149 81 80 106
84 119 113 98 75
68 98 115 106 95
100 85 94 106 119

Para desarrollar un diagrama de tallo y hoja, primero se colocan los dı́gitos


principales de cada valor a la izquierda de una lı́nea vertical. A la derecha de
dicha lı́nea se registra el último dı́gito de cada valor de datos.

Ejemplo 1.5.2 A continuación se presenta los datos del ejemplo anterior en


tallo y hoja.

Primero se colocan el último dı́gito de cada valor en la lı́nea que corres-


ponde según el orden en que aparecen los datos.
1. Recolección, organización y presentación de datos 11

6 9 8
7 2 3 6 3 6 5
8 6 2 3 1 1 0 4 5
9 7 2 2 6 2 1 5 8 8 5 4
10 7 4 8 0 2 6 6 0 6
11 2 8 5 9 3 5 9
12 6 8 7 4
13 2 4
14 9

Con esta organización de los datos, la colocación de los dı́gitos en cada lı́nea
en el orden de clasificación es simple. Hacerlo ası́ proporciona el diagrama de
tallo y hoja.

6 8 9
7 2 3 3 5 6 6
8 0 1 1 2 3 4 5 6
9 1 2 2 2 4 5 5 6 7 8 8
10 0 0 2 4 6 6 6 7 8
11 2 3 5 5 8 9 9
12 4 6 7 8
13 2 4
14 9

Los números a la izquierda de la lı́nea vertical forman el tallo, y cada dı́gito


a la derecha de la lı́nea es una hoja.

Una vez organizados los datos, estos deben ser presentados. La información
puede ser presentada en forma textual, en cuadros o tablas, y mediante gráficos.

Textual. Los datos se presentan en forma literal. Entre las ventajas de esta
presentación podemos encontrar que los datos de importancia se pueden
resaltar mediante subrayados, palabras o cifras en negrita, palabras en
cursiva o entre comillas. Entre las desventajas podemos nombrar que
solo se puede utilizar esta forma cuando los datos a presentar son pocos
o reducidos.
Tabular. Cuando los datos a presentar son abundantes, estos se presen-
tan mediante cuadros estadı́sticos. Como ventaja encontramos que los
cuadros son más breves, claros y fáciles de leer. Además facilita las com-
paraciones. Un cuadro consta de las siguientes partes:

Prof. Gualberto Ruiz Diaz Apuntes de Estadı́stica


12 1.6. Gráficos y tablas. Principios generales. Tipos

• Tı́tulo: debe dar una descripción del contenido del cuadro. Además,
debe responder a las preguntas: ¿Qué datos son los incluidos en el
cuerpo de la tabla? ¿Dónde está el área representada por los datos?
¿Cómo están clasificados los datos? ¿Cuándo ocurrieron los datos?
• Encabezado: es el tı́tulo de la parte superior de las columnas. Una
tabla puede tener subencabezado.
• Cuerpo o columna matriz : son las descripciones en hileras colocadas
en el lado izquierdo de la tabla. Representan las clasificaciones de
las cifras incluidas en el cuerpo de la tabla. Pueden ser divididos en
subconceptos.
• Cuerpo: es el contenido de los datos estadı́sticos.
• Nota de encabezado: es usado para expresar ciertos puntos relacio-
nados con el cuadro total y que no han sido incluidos en el tı́tulo ni
en el encabezado ni en los conceptos.
• Nota de pie: se utiliza para clasificar algunas partes incluidas en el
cuadro que no son explicados en otras partes.
• Fuente: debe ser declarada al pie del cuadro. Es el dato en el cual
se informa de dónde o a quien corresponde la información.

Gráficos. Los datos se presentan en gráficos circulares, de barras, de


lı́neas, etc., esto dependerá de lo que se quiera informar. Las partes prin-
cipales de una gráfica son:

• Tı́tulo: es la descripción del contenido de la gráfica. Puede encon-


trarse en la parte superior o en la parte inferior.
• Diagrama: representa, al igual que en un cuadro, los datos mostra-
dos en la gráfica.
• Escala: frecuentemente se coloca en el eje de las abscisas la clasifi-
cación y en el eje de las ordenadas las magnitudes.
• Fuente: debe ser colocada al pie de la gráfica e indicar cual fue el
origen de los datos a partir de los cuales la gráfica fue construida.

1.6. Gráficos y tablas. Principios generales.


Tipos

Los gráficos se han de explicar enteramente por sı́ mismos. El contenido


de un gráfico deberá ser tan completo como sea posible.
1. Recolección, organización y presentación de datos 13

Las escalas vertical y horizontal estarán rotuladas con claridad dando las
unidades pertinentes. La mayorı́a de los gráficos presentan información numéri-
ca con escalas, que deben rotularse para describir completamente la variable
presentada en la escala y para variables de medida se dirán las unidades de
medición.

No se debe tratar de abarcar demasiada información en un solo gráfico. Es


mejor hacer varios gráficos, que comprimir toda la información en uno solo.
Una regla práctica segura es evitar gráficos que contengan más de 3 curvas.
Los gráficos tienen que dar una visión general y no una imagen detallada de
un conjunto de datos. Las presentaciones detalladas se deben reservar para las
tablas.

Las tablas se explicarán por sı́ mismas enteramente. Como los gráficos,
se ha de dar suficiente información en el tı́tulo y en los encabezamientos de
columnas y filas de la tabla para permitir que el lector identifique fácilmente
su contenido.

Como el tı́tulo será por lo general lo primero que se lee en detalle, deberá
suministrar toda la información esencial sobre el contenido de la tabla y deberá
especificar el tiempo, lugar, material o estudio experimental y relaciones que
se presentan en la tabla.

A continuación se muestran algunos ejemplos de cuadros generales y es-


pecı́ficos, y ejemplos de gráficos.

Cuadro general

Prof. Gualberto Ruiz Diaz Apuntes de Estadı́stica


14 1.6. Gráficos y tablas. Principios generales. Tipos

Cuadro especı́fico

Gráfico de lı́neas
1. Recolección, organización y presentación de datos 15

Gráfico de barras múltiples

Gráfico de barras compuestas

Gráfico de sectores circulares

Prof. Gualberto Ruiz Diaz Apuntes de Estadı́stica


16 1.6. Gráficos y tablas. Principios generales. Tipos

1.6.1. Tablas de distribución de frecuencias

Una tabla de distribución de frecuencias puede ser simple o con intervalos


de clase. La primera se utiliza cuando la variable es discreta de corto recorrido
y la segunda cuando la variable es continua o discreta de amplio recorrido.

Tabla de distribución de frecuencias simple

(1) Campo de variabilidad : son todos los valores que puede tomar la variable.
También se lo conoce como dominio.

(2) Frecuencia absoluta: indica la cantidad de veces que se presenta un valor


observado de la variable. La suma de las frecuencias absolutas es igual
al número de observaciones.

(3) Frecuencia acumulada: es la suma de las frecuencias absolutas de los va-


lores de la variable inferior o igual a un determinado valor de la variable.

(4) Frecuencia relativa: es el cociente entre la frecuencia absoluta de un valor


de la variable y el número total de observaciones. La frecuencia relativa
es un número fraccionario positivo comprendido entre 0 y 1. La suma de
las frecuencias relativas es igual a 1.
n
fi X
hi = ; 0 ≤ hi < 1 ; hi = 1
n i=1

(5) Frecuencia relativa acumulada: es la suma de las frecuencias relativas de


los valores de la variable inferior o igual a un determinado valor de la
variable.

(6) Frecuencia relativa porcentual : es la frecuencia relativa de un valor de la


variable expresada en porcentaje, es decir, multiplicada por 100.
1. Recolección, organización y presentación de datos 17

(7) Frecuencia relativa acumulada porcentual : es la frecuencia relativa acu-


mulada de un valor de la variable expresada en porcentaje.

Tabla de distribución de frecuencias con intervalos de clase

(8) Intervalo de clase: es cada una de las subdivisiones o intervalos en que


se ha dividido al campo de variabilidad de una variable.
Lı́mite de clase: son los valores que definen los extremos de una clase. Se
llaman Lı́mite inferior (Li) y Lı́mite superior (Ls).
(9) Marca de clase: es el punto medio o centro de una clase. Se obtiene
mediante la semisuma de los lı́mites superior e inferior de un intervalo o
clase.
Ls + Li
xi =
2
Amplitud del intervalo: es la diferencia entre el lı́mite superior y el lı́mite
inferior de una clase.
h = Ls –Li

En el caso de una distribución de frecuencias para datos agrupados es


necesario determinar los intervalos de clase para llegar a un resumen efectivo
de la información original que se presenta en la tabla. El problema fundamental
es pensar en una amplitud adecuada del intervalo y una cantidad razonable
de intervalos. Se aconseja no menos de 5 y no más de 20, de modo que no
sean tantas y la tabla resulte inmanejable, ni tampoco que la amplitud de los
mismos haga perder información. Para calcular la amplitud de un intervalo o
la cantidad de ellos que tendrá una tabla se busca primero el rango o recorrido
de la variable.

Rango: es la diferencia entre el mayor valor y el menor valor que toma


la variable en las observaciones.
R = xmáx –xmı́n

Prof. Gualberto Ruiz Diaz Apuntes de Estadı́stica


18 1.6. Gráficos y tablas. Principios generales. Tipos

Puede ser que se ha decidido agrupar la información en una cierta canti-


dad de intervalos, entonces es necesario fijar la amplitud de cada uno de los
intervalos.
Rango
Amplitud del intervalo=
Cantidad de intervalos
O puede ocurrir que se necesite la información agrupada en clases con una
determinada amplitud, entonces es necesario fijar la cantidad de intervalos.
Rango
Cantidad de intervalos=
Amplitud del intervalo

Ejemplo 1.6.1 Con los datos del Ejemplo 1.5.2 construimos una tabla con
intervalos.

intervalo fi Fi hi Hi hi % Hi %
[60 − 70) 2 2 0,04 0,04 4% 4%
[70 − 80) 6 8 0,12 0,16 12 % 16 %
[80 − 90) 8 16 0,16 0,32 16 % 32 %
[90 − 100) 11 27 0,22 0,54 22 % 54 %
[100 − 110) 9 36 0,18 0,72 18 % 72 %
[110 − 120) 7 43 0,14 0,86 14 % 86 %
[120 − 130) 4 47 0,08 0,94 8% 94 %
[130 − 140) 2 49 0,04 0,98 4% 98 %
[140 − 150] 1 50 0,02 1,00 2% 100 %

Tabla 1.1

1.6.2. Representación gráfica

La representación gráfica de una tabla de distribución de frecuencias per-


mite percibir con mayor claridad algunas caracterı́sticas del conjunto de datos
que se investiga.

Gráfico de Bastones: es la representación gráfica de las frecuencias ab-


solutas o relativas de una variable discreta mediante un gráfico de puntos en el
sistema de coordenadas cartesianas ortogonal (perpendicular) cuyas abscisas
son los valores de la variable y cuyas ordenadas son las frecuencias absolutas
o relativas del valor de la variable.
1. Recolección, organización y presentación de datos 19

Gráfico de Escalones: es la representación gráfica de las frecuencias acu-


muladas o relativas acumuladas de una variable discreta mediante segmentos
paralelos al eje de las abscisas. Cada segmento se extiende entre dos valores
consecutivos de la variable, siendo las respectivas ordenadas las frecuencias
acumuladas correspondientes al valor de la variable que es la abscisa del punto
inicial del segmento.

Histograma: es la representación en un sistema de coordenadas cartesia-


nas de las frecuencias absolutas o relativas de una variable agrupada en clases
mediante un gráfico de superficie. Sobre el eje de las abscisas se representan
las clases y se levanta sobre cada una de ellas un rectángulo cuya superficie es
proporcional a la frecuencia del intervalo respectivo.

Polı́gono de frecuencias: es una lı́nea poligonal obtenida en un histogra-


ma de frecuencias absolutas uniendo los puntos medios de los lados superiores
de cada rectángulo.

Prof. Gualberto Ruiz Diaz Apuntes de Estadı́stica


20 1.6. Gráficos y tablas. Principios generales. Tipos

Ojiva o Polı́gono de frecuencias acumuladas: es la representación


gráfica de las frecuencias acumuladas (absolutas o relativas) de una variable
agrupada en clases mediante una curva uniendo los puntos que tienen por
abscisa los lı́mites superiores de cada clase y por ordenadas las respectivas
frecuencias acumuladas.

Clasificación de las distribuciones de frecuencias


Algunas de las curvas de frecuencias que aparecen en la práctica adoptan
ciertas formas caracterı́sticas como se muestran a continuación.
1. Recolección, organización y presentación de datos 21

Ejemplo 1.6.2 Construimos a continuación el polı́gono de frecuencias corres-


pondiente a la Tabla 1.1.

11
fi
9
8
7
6

2 2
1

60 70 80 90 100 110 120 130 140 150

Prof. Gualberto Ruiz Diaz Apuntes de Estadı́stica


Capı́tulo 2

Análisis exploratorio de datos

Al describir grupos de observaciones, con frecuencia se desea describir el


grupo con un solo número. Para tal fin, desde luego, no se usará el valor
más elevado ni el valor más pequeño como único representante, ya que solo
representan los extremos más bien que valores tı́picos. Entonces serı́a adecuado
buscar un valor central.

2.1. Medidas de tendencia central

Las medidas de posición que describen un valor tı́pico en un grupo de ob-


servaciones suelen llamarse medidas de tendencia central. Es importante tener
en cuenta que estas medidas se aplican a grupos más bien que a individuos.
Un promedio es una caracterı́stica de grupo, no individual.

Entre las medidas de tendencia central encontramos la media aritmética,


la mediana y la moda.

2.1.1. Media aritmética

La medida de tendencia central más obvia que se puede elegir, es el simple


promedio de las observaciones del grupo.

Definición 2.1.1 La media aritmética es la medida que se obtiene sumando


el valor de cada una de las observaciones y dividiendo esta suma por el número
de observaciones que hay en el grupo.

23
24 2.1. Medidas de tendencia central

Hay muchas clases de promedios y a esta se la llama media aritmética para


denotar la suma de un grupo de observaciones dividida por su número.

Si los datos son de una muestra, la media o promedio se denota por x; si


son de una población, la media se denota por µ.

En las fórmulas estadı́sticas se acostumbra a denotar el valor de la primera


observación de la variable x mediante x1 , el valor de la segunda observación
de la variable x por medio de x2 , en general, el valor de la i-ésima observación
de la variable x es denotada por xi .

Su cálculo difiere de acuerdo al tipo de variable con que se trabaja y


presenta algunas modificaciones según se trabaja con datos agrupados o no.

Si se tiene una muestra con n observaciones, la fórmula para la media


muestral de una distribución de datos sin agrupar es

n
X
xi
i=1
x=
n

Cuando la tabla de distribución de frecuencias es con intervalos, la media


aritmética se obtiene dividiendo la suma de los productos entre la frecuencia
absoluta y el punto medio de cada intervalo por el número de observaciones.
n
X xi : punto medio o marca de clase
xi · f i
i=1
x= fi : frecuencia absoluta de la clase
n

La fórmula para determinar la media poblacional es la misma, pero se


usa una notación diferente para indicar que se está trabajando con toda una
población, el número de observaciones se denota por N .

Datos sin agrupar Datos agrupados


N
X N
X
xi xi · f i
i=1 i=1
µ= µ=
N N

Lo más positivo de la media aritmética es que en su cálculo se utilizan todos


los valores de la serie o grupo de observaciones, por lo que no se pierde ninguna
2. Análisis exploratorio de datos 25

información. Sin embargo, presenta el problema de que su valor se puede ver


muy influido por valores extremos, que se aparten en exceso del resto de la
serie. Estos valores anómalos podrı́an condicionar en gran medida el valor de
la media, perdiendo representatividad. Otro problema que presenta su cálculo
es que en tablas abiertas no se puede calcular, pues queda indeterminado el
punto medio del intervalo abierto.

Ejemplo 2.1.1 Con los datos de la Tabla 1.1 calculamos la media aritmética.

65 · 2 + 75 · 6 + 85 · 8 + 95 · 11 + 105 · 9 + 115 · 7 + 125 · 4 + 135 · 2 + 145 · 1


x=
50
4970 ∼
x= = 99
50

Propiedades de la media aritmética

Definición 2.1.2 Una desviación o variación con respecto a una medida de


posición es la diferencia entre un valor de la variable y la medida de posición.
El desvı́o puede ser positivo o negativo.

Propiedad 1. La suma de las desviaciones con respecto a la media


aritmética es nula. Significa que la media aritmética compensa las des-
viaciones positivas con las negativas.
Datos sin agrupar Datos agrupados
Xn Xn
Muestra (xi − x) = 0 (xi − x) · fi = 0
i=1 i=1
N
X N
X
Población (xi − µ) = 0 (xi − µ) · fi = 0
i=1 i=1

Propiedad 2. La suma de los cuadrados de las desviaciones es igual a un


mı́nimo. Es decir, que cualquier suma de los cuadrados de las desviaciones
respecto de un valor a (distinto de la media aritmética) siempre será
mayor.
Datos sin agrupar Datos agrupados
n
X n
X n
X n
X
2
(xi − x) < (xi − a)2 2
(xi − x) fi < (xi − a)2 fi
i=1 i=1 i=1 i=1
N
X N
X N
X N
X
(xi − µ)2 < (xi − a)2 (xi − µ)2 fi < (xi − a)2 fi
i=1 i=1 i=1 i=1

Prof. Gualberto Ruiz Diaz Apuntes de Estadı́stica


26 2.1. Medidas de tendencia central

Propiedad 3. La media aritmética de una constante c es igual a la


constante.
Muestra Población
Xn XN
c c
n · c N ·c
x = i=1 = =c x = i=1 = =c
n n N N
Propiedad 4. Si sumamos a cada valor de la variable una constante c,
la media aritmética queda afectada por dicha constante.
Datos sin agrupar de una muestra
Xn n
X Xn
(xi + c) xi c
i=1
x+c= = i=1 + i=1 = x + c
n n n
Datos agrupados de una muestra
n
X Xn X n n
X
(xi + c) · fi xi · f i c · fi c· fi
i=1 i=1 i=1 i=1
x+c= = + =x+ =x+c
n n n n
Propiedad 5. Si multiplicamos cada valor de la variable por una cons-
tante c, la media aritmética queda multiplicada por dicha constante.
Datos sin agrupar de una población
XN XN
(c · xi ) xi
i=1
c·x= = c · i=1 =c·x
N N
Datos agrupados de una población
XN XN
(c · xi ) · fi xi · f i
i=1 i=1
c·x= =c· =c·x
N N

2.1.2. Mediana

Otra medida de tendencia central que se utiliza con mucha frecuencia es


la mediana.

Definición 2.1.3 La mediana es el valor situado justamente en el centro de


un conjunto de observaciones ordenado por magnitud (un 50 % de valores son
inferiores y otro 50 % son superiores).

La mediana suele denotarse por x̃ y para calcularla, se procede según los


datos estén agrupados o no.
2. Análisis exploratorio de datos 27

En una tabla simple se ordenan los datos y, si la cantidad de observaciones


es impar, se toma como mediana el valor central; en caso contrario, se calcula
el promedio de los dos valores centrales.

En una tabla de distribución con intervalos, solamente se obtiene el inter-


valo de la mediana, que será aquel que contenga a la mitad del número de
observaciones en la columna de las frecuencias acumuladas.

Si se pretende obtener un valor de la mediana en tabla con intervalos, luego


de obtener el intervalo de la mediana, se utiliza la siguiente fórmula:
Li : lı́mite inferior de la clase de la mediana
n n: número total de observaciones
− Fi−1 Fi−1 : frecuencia acumulada de la clase anterior
x̃ = Li + 2 ·h fi : frecuencia absoluta de la clase de la mediana
fi
h: amplitud de la clase de la mediana

Ejemplo 2.1.2 De la Tabla 1.1 hallamos la mediana.

25 − 16
x̃ = 90 + · 10 ∼
= 90 + 8 = 98
11
Esta medida de posición no presenta el problema de estar influido por los
valores extremos, pero en cambio no utiliza en su cálculo toda la información
de la serie de datos (no pondera cada valor por el número de veces que se ha
repetido).

2.1.3. Moda

Otra medida de tendencia central es la moda o modo.

Definición 2.1.4 La moda es el valor que ocurre con más frecuencia en un


conjunto de observaciones, o sea, es el valor que tiene la frecuencia absoluta
más alta entre todas las observaciones.

La moda suele denotarse por x̂ y la distribución es unimodal si tiene una


sola moda, si hay dos modas se llama bimodal y si la distribución tiene más
de 2 modas se llama multimodal.

A veces la moda no es usada como medida de centro dado que el valor más
frecuente podrı́a estar lejos del centro de la distribución sin embargo se tiene
en cuenta para datos cualitativos.

Prof. Gualberto Ruiz Diaz Apuntes de Estadı́stica


28 2.1. Medidas de tendencia central

Su cálculo en tabla con datos agrupados requiere la determinación del


intervalo modal, que será aquella clase que tiene la mayor frecuencia absoluta.
La moda se encontrará en este intervalo utilizando la siguiente fórmula:

Li : lı́mite inferior de la clase de la moda


∆1 : diferencia entre la frecuencia absoluta de la
∆1 clase modal y la clase anterior
x̂ = Li + ·h ∆2 : diferencia entre la frecuencia absoluta de la
∆1 + ∆2
clase modal y la clase posterior
h: amplitud de la clase de la moda

Ejemplo 2.1.3 De los datos de la Tabla 1.1 calculamos la moda.

3
x̂ = 90 + · 10 = 90 + 6 = 96
3+2

2.1.4. Relación empı́rica entre la media, la mediana y


la moda

¿Cuál medida de tendencia central es mejor? Desafortunadamente, esta


pregunta no tiene una sola respuesta óptima porque no existen criterios ob-
jetivos para determinar cuál es la medida más representativa para todos los
conjuntos de datos.

Una distribución se dice que es sesgada, si no es simétrica y se extiende


más hacia un lado que hacia el otro. Una comparación de la media, la mediana
y la moda puede revelar información acerca de la caracterı́stica del sesgo que
se define e ilustra a continuación.

a) Sesgada a la izquierda b) Simétrica (sesgo cero): La c) Sesgada a la derecha (ses-


(sesgo negativo): La media y media, la mediana y la moda go positivo): La media y la
la mediana están a la izquier- son iguales. mediana están a la derecha
da de la moda. de la moda.
2. Análisis exploratorio de datos 29

Para curvas de frecuencias unimodales, que sean moderadamente sesgadas,


se tiene la siguiente relación empı́rica.

x − x̂ = 3(x − x̃)

Ejemplo 2.1.4 Si hacemos el cálculo con los valores centrales que obtuvimos
de la Tabla 1.1 vemos como en este caso particular:

99 − 96 = 3(99 − 98)

2.1.5. Otras medidas de tendencia central


Media geométrica. La media geométrica de un conjunto de n observa-
ciones es la raı́z n-ésima de su producto. El cálculo de la media geométrica
exige que todas las observaciones sean positivas.

Datos sin agrupar Datos agrupados


s n s n
Y Y
xG = n xi xG = n xi f i
i=1 i=1

La media geométrica se suele utilizar en series de datos como tipos de


interés anuales, inflación, etc., donde el valor de cada año tiene un efecto
multiplicativo sobre el de los años anteriores.
Media armónica. Es el inverso de la media aritmética de los inversos
de las n observaciones.

Datos sin agrupar Datos agrupados


n n
xA = n xA = n
X 1 X 1
fi
i=1
xi i=1
x i

2.2. Medidas de orden

Las medidas de orden o de posición no centrales permiten conocer otros


puntos caracterı́sticos de la distribución que no son los valores centrales. Entre
otros indicadores, se suelen utilizar una serie de valores que dividen la muestra
en tramos iguales. También se las conocen como fractilas.

Prof. Gualberto Ruiz Diaz Apuntes de Estadı́stica


30 2.2. Medidas de orden

2.2.1. Cuartiles (Q1 , Q2 , Q3 )

Son 3 valores que distribuyen la serie de datos, ordenada de forma creciente


o decreciente, en cuatro tramos iguales, en los que cada uno de ellos concentra
el 25 % de los resultados.

Primer cuartil (Q1 ). Es un valor tal que el 25 % de las observaciones


son menores que dicho cuartil y el 75 % de las observaciones son mayores.
En una tabla simple se ordenan los datos y se toma como Q1 el valor que
acumula el 25 % de los datos.
Para calcularlo en una tabla con intervalos se debe utilizar una fórmula
similar a la de la mediana.
Segundo cuartil (Q2 ). Coincide con la mediana.
Tercer cuartil (Q3 ). Es un valor tal que el 75 % de las observaciones
son menores a dicho cuartil y el 25 % son mayores. En una tabla simple
se ordenan los datos y se toma como Q3 el valor que acumula el 75 % de
los datos. Para calcularlo en una tabla con intervalos se debe utilizar la
fórmula similar a la del primer cuartil.
i
n − Fi−1
FÓRMULA GENERAL Qi = Li + 4 h i = 1, 2, 3
fQi
Li : lı́mite inferior de la clase del cuartil Qi
fQi : frecuencia absoluta de la clase del cuartil Qi
Fi−1 : frecuencia acumulada de la clase anterior del cuartil Qi

Ejemplo 2.2.1 De los datos de la Tabla 1.1 calculamos los cuartiles Q1 y Q3 .

13 − 8 50 ∼
Q1 = 80 + 10 = 80 + = 86
8 8
38 − 36 20 ∼
Q3 = 110 + 10 = 110 + = 113
7 7

2.2.2. Deciles

Son 9 valores que distribuyen la serie de datos, ordenada en forma creciente


o decreciente, en diez tramos iguales, en los que cada uno de ellos concentra el
10 % de los resultados. Los deciles se denotan D1 , D2 , . . . , D9 .
2. Análisis exploratorio de datos 31

i
n − Fi−1
FÓRMULA GENERAL Di = Li + 10 h i = 1, 2, . . . , 9
fDi

Li : lı́mite inferior de la clase del decil Di

fDi : frecuencia absoluta de la clase del decil Di

Fi−1 : frecuencia acumulada de la clase anterior del decil Di

Ejemplo 2.2.2 De los datos de la Tabla 1.1 calculamos el decil D7 .

35 − 27 80 ∼
D7 = 100 + 10 = 100 + = 109
9 9

2.2.3. Percentiles

Son 99 valores que distribuyen la serie de datos, ordenada en forma crecien-


te o decreciente, en cien tramos iguales, en los que cada uno de ellos concentra
el 1 % de los resultados.

i
n − Fi−1
FÓRMULA GENERAL Pi = Li + 100 h i = 1, 2, . . . , 99
fPi

Li : lı́mite inferior de la clase del percentil Pi

fPi : frecuencia absoluta de la clase del percentil Pi

Fi−1 : frecuencia acumulada de la clase anterior del percentil Pi

Ejemplo 2.2.3 De los datos de la Tabla 1.1 calculamos el percentil P66 .

33 − 27 60 ∼
P66 = 100 + 10 = 100 + = 107
9 9

2.3. Medidas de variabilidad

Con estas medidas se estudia la distribución de los valores de la serie,


analizando si estos se encuentran más o menos concentrados, o más o menos
dispersos.

Prof. Gualberto Ruiz Diaz Apuntes de Estadı́stica


32 2.3. Medidas de variabilidad

Existen dos tipos de medidas de dispersión, las absolutas y las relativas.


Las primeras llevan unidad de medida y las últimas no. Entre las más utilizadas
podemos destacar las siguientes: el rango, el rango intercuartı́lico, la varianza,
el desvı́o estándar (absolutas) y el coeficiente de variación (relativa).

Rango. Es la diferencia entre el mayor valor y el menor valor en un


conjunto de observaciones. El rango que denotamos por R tiene la ventaja
de que es fácil de calcular y sus unidades son las mismas que las de la
variable que se mide. El rango no toma en consideración el número de
observaciones de la muestra estadı́stica, sino solamente la observación
del valor máximo y la del valor mı́nimo. Serı́a deseable utilizar también
los valores intermedios del conjunto de observaciones.
Si llamamos xM al máximo valor que toma la variable y xm al mı́nimo
valor, entonces
R = xM − xm
Rango intercuartı́lico. Es la diferencia entre el tercer cuartil y el pri-
mero. Es una medida de variabilidad que supera la dependencia sobre
los valores extremos y lo denotaremos por RIC.
RIC = Q3 − Q1
RIC
Rango semiintercuartı́lico. Se define como Q = , es decir, el
2
rango semiintercuartı́lico es igual a
Q3 − Q1
Q=
2
Rango percentilar. Es la diferencia entre los percentiles 90 y 10.
Rango percentilar 10 − 90 = P90 − P10

Desviación Media. Esta medida es más acorde que la de amplitud,


ya que involucra a todos los valores del conjunto de observaciones co-
rrigiendo la desviación. Esta medida que denotamos por DM se obtiene
calculando la media de la muestra, y luego realizando la sumatoria de las
diferencias (positivas, para evitar la anulación de los desvı́os) de todos
los valores con respecto de la media. Luego se divide por el número de
observaciones.
Datos sin agrupar Datos agrupados
Xn Xn
|xi − x| |xi − x|fi
i=1 i=1
DM = DM =
n n
2. Análisis exploratorio de datos 33

Una medida como esta tiene la ventaja de que utiliza cada observación
y corrige la variación en el número de observaciones al hacer la división
final. Y por último también se expresa en las mismas unidades que las
observaciones mismas.

Varianza. Existe otro mecanismo para solucionar el efecto de cancela-


ción para entre diferencias positivas y negativas. Si elevamos al cuadrado
cada diferencia antes de sumar, desaparece la cancelación. Si denotamos
por s2 la varianza muestral y por σ 2 la varianza poblacional tenemos las
fórmulas

Datos sin agrupar Datos agrupados


Xn Xn
(xi − x)2 (xi − x)2 fi
i=1 i=1
Muestra s2 = s2 =
n−1 n−1

n
X N
X
2
(xi − µ) (xi − µ)2 fi
i=1 i=1
Población σ2 = σ2 =
N N

Estas fórmulas tienen una desventaja, y es que sus unidades no son las
mismas que las de las observaciones, ya que son unidades cuadradas.

Desvı́o estándar. La dificultad anterior se soluciona, tomando la raı́z


cuadrada de la ecuación anterior. El desvı́o estándar es la raı́z cuadrada
de la varianza.

Datos sin agrupar Datos agrupados


v n v n
uX uX
(xi − x)2 (xi − x)2 fi
u u
u u
t t
i=1 i=1
Muestra s= s=
n−1 n−1

v v
uXn u N
uX
(xi − µ)2 (xi − µ)2 fi
u u
u u
t
i=1
t i=1
Población σ= σ=
N N

El desvı́o estándar es una medida de dispersión absoluta porque su valor


numérico está expresado en la misma unidad de medida de la variable.

Prof. Gualberto Ruiz Diaz Apuntes de Estadı́stica


34 2.3. Medidas de variabilidad

Esta medida además, es la adecuada para establecer la variabilidad de


los valores observados con respecto a la media aritmética.
En distribuciones normales, resulta que:

a) El 68 % de los datos están entre un desvı́o estándar a la izquierda


de la media y un desvı́o estándar a la derecha.
b) El 95 % de los datos están entre dos desvı́o estándar a la izquierda
de la media y dos desvı́o estándar a la derecha.
c) El 99 % de los datos están entre tres desvı́o estándar a la izquierda
de la media y tres desvı́o estándar a la derecha.

Coeficiente de variación. Se calcula como cociente entre el desvı́o


estándar y la media, y lo denotamos por CV . El coeficiente de variación
es un número puro desprovisto de magnitud. Es una medida de dispersión
relativa. Su valor numérico permite establecer criterios generales acerca
de la homogeneidad de los datos, de la representatividad de la media
aritmética y la comparación de variabilidad de otras variables, aunque
las unidades de medidas o las magnitudes sean distintas.

Muestra Población
s σ
CV % = 100 CV % = 100
x µ

Hemos visto que las medidas de centralización y dispersión nos dan infor-
mación sobre una muestra. Nos podemos preguntar si tiene sentido usar
estas magnitudes para comparar dos poblaciones. Por ejemplo, si nos pi-
den comparar la dispersión de los pesos de las poblaciones de estudiantes
de dos escuelas diferentes, s nos dará información útil.
¿Pero qué ocurre si lo que comparamos es la altura de unos estudiantes
con respecto a su peso? Tanto la media como la desviación estándar, x
y s, se expresan en las mismas unidades que la variable. Por ejemplo, en
la variable altura podemos usar como unidad de longitud el metro y en
la variable peso, el kilogramo. Comparar una desviación (con respecto
a la media) medida en metros con otra en kilogramos no tiene ningún
sentido.
El problema no deriva solo de que una de las medidas sea de longitud
y la otra sea de masa. El mismo problema se plantea si medimos cierta
cantidad, por ejemplo, la masa de dos poblaciones, pero con distintas
unidades. Por ejemplo, es el caso en que comparamos el peso en toneladas
de una población de 100 elefantes con el correspondiente en miligramos
de una población de 50 hormigas.
2. Análisis exploratorio de datos 35

El problema no se resuelve tomando las mismas escalas para ambas po-


blaciones. Por ejemplo, se nos puede ocurrir medir a las hormigas con las
mismas unidades que los elefantes (toneladas). Si la ingenierı́a genética
no nos sorprende con alguna barbaridad, lo lógico es que la dispersión de
la variable peso de las hormigas sea prácticamente nula (¡Aunque haya
algunas que sean 1.000 veces mayores que otras!).
En los dos primeros casos mencionados anteriormente, el problema vie-
ne de la dimensionalidad de las variables, y en el tercero de la diferencia
enorme entre las medias de ambas poblaciones. El coeficiente de variación
es lo que nos permite evitar estos problemas, pues elimina la dimensio-
nalidad de las variables y tiene en cuenta la proporción existente entre
medias y desviación estándar.

Ejemplo 2.3.1 De los datos de la Tabla 1.1 calculamos:

R = 149 − 68 = 81

RIC = 113 − 86 = 27
17040
s2 = = 340, 8
50
r
17040 √
s= = 340, 8 = 18, 46
50
18, 46
CV = 100 = 18, 64 %
99

2.4. Medidas de asimetrı́a y curtosis

Estas medidas informan sobre dos aspectos importantes de la forma de


la distribución: su grado de asimetrı́a y su grado de homogeneidad. Al ser
medidas de forma, no dependen de las unidades de medida de los datos.

Coeficiente de asimetrı́a.
P En un conjunto de datos simétricos respecto
3
a su media x, la suma (xi − x) será nula, mientras que con datos
asimétricos esta suma crecerá con la asimetrı́a. Para obtener una medida
adimensional, se define el coeficiente de asimetrı́a mediante:

Prof. Gualberto Ruiz Diaz Apuntes de Estadı́stica


36 2.4. Medidas de asimetrı́a y curtosis

Datos sin agrupar Datos agrupados


(xi − x)3 (xi − x)3 fi
P P
CA = CA =
ns3 ns3

donde s es el desvı́o estándar. El signo del coeficiente indica la forma de


la distribución. Si es negativo, la distribución se alarga para valores infe-
riores a la media. Si el coeficiente es positivo, la distribución se extiende
para valores superiores a la media.

Ejemplo 2.4.1 De los datos de la Tabla 1.1 calculamos el coeficiente de


asimetrı́a.

(xi − x)3 fi
P
107360
CA = 3
= = 0, 34
ns 50 · 18, 463

Otra medida de asimetrı́a poco utilizada es:

x − x̃
s
que también es adimensional.

Coeficiente de curtosis. El coeficiente de curtosis nos informa respecto


a la heterogeneidad de la distribución. Se define el coeficiente de curtosis
como

Datos sin agrupar Datos agrupados


(xi − x)4 (xi − x)4 fi
P P
CAP = CAP =
ns4 ns4

El valor mı́nimo que puede tomar el coeficiente de curtosis es 1; si es


muy bajo (menor de 2), indica una distribución mezclada; si es muy alto
(mayor de 6), indica la presencia de valores atı́picos.

Ejemplo 2.4.2 De los datos de la Tabla 1.1 calculamos el coeficiente de


curtosis.

(xi − x)4 fi
P
15108480
CAP = 4
= = 2, 6
ns 50 · 18, 464
2. Análisis exploratorio de datos 37

2.5. Datos atı́picos y diagramas de cajas

Es muy frecuente que los datos presenten observaciones que contienen erro-
res de medida o de transcripción o que son heterogéneas con el resto porque
se han obtenido en circunstancias distintas. Llamaremos datos atı́picos a estas
observaciones generadas en forma distinta del resto de los datos. Cuando los
datos son recogidos con especial control es frecuente que aparezcan entre un 1 y
3 % de observaciones atı́picas; si los datos se han recogido sin cuidado especial,
la proporción de datos atı́picos puede llegar al 5 % e incluso ser mayor.

Los datos atı́picos se identifican fácilmente con un histograma o diagrama


de barras de los datos, porque aparecerán separados del resto de la distribución.

Un criterio simple para identificar datos atı́picos es considerar sospechosas


aquellas medidas que están alejadas de la media tres desviaciones estándar,
pero puede ocurrir que existan varios valores atı́picos muy grandes que dis-
torsionen la media y el desvı́o estándar no pudiendo identificarse los valores
atı́picos.

Un criterio más elaborado en utilizar es, considerar dos valores extremos


que se obtienen a partir del rango intercuartı́lico (Q3 − Q1 ). Se consideran
valores atı́picos aquellas observaciones que son menores de

x < Q1 − 1, 5(Q3 − Q1 )

o son mayores de
x > Q3 + 1, 5(Q3 − Q1 )

Un diagrama de caja es una representación semigráfica de una distribución


construida para mostrar sus caracterı́sticas principales y señalar los posibles
datos atı́picos. Se diferencia de las representaciones gráficas anteriores en que
está especialmente pensada para identificar los valores atı́picos.

Se construye de la siguiente manera:

1. Ordenar los datos de la muestra y obtener el valor máximo, el mı́nimo y


los tres cuartiles.

2. Dibujar un rectángulo cuyos extremos sean Q1 y Q3 e indicar la posición


de la mediana (Q2 ) mediante una lı́nea.

3. Calcular los lı́mites admisibles superior e inferior que van a servir para
identificar los valores atı́picos. Estos lı́mites se calculan con:

Prof. Gualberto Ruiz Diaz Apuntes de Estadı́stica


38 2.5. Datos atı́picos y diagramas de cajas

Li = Q1 − 1, 5(Q3 − Q1 )
Ls = Q3 + 1, 5(Q3 − Q1 )

4. Considerar como valores atı́picos los situados fuera del intervalo (Li , Ls ).

5. Dibujar una lı́nea que vaya desde cada extremo del rectángulo central
hasta el valor más alejado no atı́pico.

6. Identificar todos los datos que están fuera del intervalo (Li , Ls ) marcándo-
los como atı́picos.

Li Q1 Q3 Ls
~
x Dato atípico

1,5(RIC) RIC 1,5(RIC)


xi
Capı́tulo 3

Análisis de regresión y
correlación

A menudo se observa en la práctica que existe una relación entre dos o más
variables en un conjunto de observaciones. En una distribución bidimensional
puede ocurrir que las dos variables guarden algún tipo de relación entre si.
Por ejemplo, si se analiza la estatura y el peso de los alumnos de una clase es
muy posible que exista relación entre ambas variables: mientras más alto sea
el alumno, mayor será su peso; observamos también que el perı́metro de una
circunferencia depende de su radio; y ası́, podrı́amos enumerar varios ejemplos
más.

El objetivo principal del Análisis de regresión es estimar el valor de una de


las variables conociendo el valor de la otra, es decir, establecer una ecuación
matemática que relacione estas variables de la distribución bidimensional.

3.1. Diagrama de dispersión y ajuste


de curvas

Para determinar una ecuación que relacione las variables, un primer paso es
recolectar datos que muestren los valores correspondientes de las variables en
consideración. Por ejemplo, supongamos que x e y denotan, respectivamente,
la estatura y peso de los alumnos de una clase. Recordemos que el peso de
la persona depende de su estatura, podrı́amos decir que a mayor estatura del
alumno mayor será su peso; x es una variable independiente, mientras que y

39
40 3.1. Diagrama de dispersión y ajuste de curvas

es una variable dependiente. Ası́, una muestra de n individuos reveları́a las


estaturas x1 , x2 , . . . , xn y los correspondientes pesos y1 , y2 , . . . , yn .

El siguiente paso es graficar los puntos (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) en un


sistema de coordenadas cartesianas ortogonal. El valor de la variable inde-
pendiente se grafica con respecto al eje horizontal o eje de las abscisas (X)
y el valor de la variable dependiente con respecto al eje vertical o eje de las
ordenadas (Y ).

Definición 3.1.1 Un diagrama de dispersión es una gráfica en el que se


trazan cada uno de los puntos que representan un par de valores para las
variables independiente y dependiente observados en una muestra.

A partir del diagrama de dispersión es posible visualizar una curva suave


que se aproxima a los datos. Tal curva se denomina curva de aproximación.
Si los datos parecen aproximarse bien a una lı́nea recta, se dice que hay una
relación lineal ; en cambio, si los datos parecen ajustarse a una lı́nea curva, se
dice que existe una relación no lineal.

Y Y Y

X X X

Relación lineal Relación no lineal No existe relación


lineal

El problema general para encontrar ecuaciones de curvas de aproximación


que se ajusten a conjuntos de datos se denomina ajuste de curvas.

Definición 3.1.2 La ecuación de regresión es la fórmula algebraica mediante


la cual se estima el valor una variable dependiente en función de la variable
independiente.

Esta ecuación puede ser, dependiendo de la relación entre las variables,


la ecuación de una recta, una parábola, una curva de grado n, una curva
exponencial, una curva logarı́tmica, etcétera.
3. Análisis de regresión y correlación 41

3.1.1. Ajuste de curvas a mano

Con frecuencia puede utilizarse el juicio personal para dibujar una curva
de aproximación que ajuste un conjunto de datos. Este se denomina método
de ajuste de curvas a mano.

Una vez representados los datos en el diagrama de dispersión, habiendo


una relación entre las variables, es cuestión de trazar la curva que el observa-
dor considere que ajusta los datos representados y a partir de allı́ obtener la
ecuación de la curva.

Este método es subjetivo, tiene la desventaja de que diferentes observado-


res trazarán distintas curvas de ajuste y obtendrán diferentes ecuaciones.

3.1.2. Método de los mı́nimos cuadrados

Para evitar el juicio personal en la construcción de rectas, parábolas u otras


curvas de aproximación para ajustar los conjuntos de datos, es necesario tener
una definición de una “recta de mejor ajuste”, “parábola de mejor ajuste”,
etcétera.

Para lograr tal definición, considérese la Figura 3.1, en donde los datos
están dados por los puntos (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ). Para un valor deter-
minado de x, por ejemplo x1 habrá una diferencia D1 (desviación o error) entre
el valor y1 y el valor correspondiente deducido a partir de la curva de ajuste.
De manera similar se obtienen las desviaciones D2 , . . . , Dn para los valores
x2 , . . . , x n .

Y (xn,yn)
Dn

(x1,y1)

D2
D1
(x2,y2)
X

Figura 3.1: Curva de ajuste óptimo

Una medida de la “bondad de ajuste” de la curva de los datos está pro-

Prof. Gualberto Ruiz Diaz Apuntes de Estadı́stica


42 3.1. Diagrama de dispersión y ajuste de curvas

porcionada por la cantidad D12 + D22 + . . . + Dn2 . Si esta es pequeña, el ajuste


es bueno; si es grande, el ajuste es malo.

Definición 3.1.3 De todas las curvas que se aproximan a un conjunto de


datos definidos por puntos, la curva que tiene la propiedad de que D12 + D22 +
. . . + Dn2 es un mı́nimo se denomina curva de ajuste óptimo.

Se dice que una curva con esta propiedad se ajusta a los datos en el sen-
tido de mı́nimos cuadrados y se le llama curva de mı́nimos cuadrados. Enton-
ces, una recta con esta propiedad se denomina recta de mı́nimos cuadrados,
una parábola con esta propiedad se denomina parábola de mı́nimos cuadrados,
etcétera.

Recta de mı́nimos cuadrados

La recta de mı́nimos cuadrados que se aproxima al conjunto de puntos


(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) tiene por ecuación

ŷ = a0 + a1 x (3.1)

donde ŷ es un valor estimado (o esperado) de la variable dependiente, las


constantes a0 y a1 se determinan resolviendo el siguiente sistema de ecuaciones

X X
y = a0 n + a1 x
X X X
xy = a0 x + a1 x2 (3.2)

denominadas ecuaciones normales para la recta de mı́nimos cuadrados. Las


constantes a0 (ordenada al origen) y a1 (pendiente o coeficiente de regresión)
se calculan mediante las siguientes fórmulas

y)( x2 ) − ( x)( xy)


P P P P
(
a0 = P 2 P (3.3)
n x − ( x)2
P P P
n xy − ( x)( y)
a1 = P 2 P (3.4)
n x − ( x)2
3. Análisis de regresión y correlación 43

Nótese que en las ecuaciones (3.2), (3.3) y (3.4) se utilizaron las notaciones
Xn n
X
P P
abreviadas x, xy, etcétera, en lugar de xi , xi yi , etcétera.
i=1 i=1

Otra forma de calcular a1 es mediante la siguiente ecuación:

P
(x − x)(y − y)
a1 = P (3.5)
(x − x)2

Si se calcula primero la pendiente a1 , se podrá usar la ecuación (3.6) pa-


ra obtener la ordenada al origen a0 . Obsérvese que es más fácil calcular la
ordenada utilizando la ecuación (3.6).

a0 = y − a1 x (3.6)

Parábola de mı́nimos cuadrados

La parábola de mı́nimos cuadrados que se aproxima al conjunto de puntos


(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) tiene por ecuación

ŷ = a0 + a1 x + a2 x2 (3.7)

donde las constantes a0 , a1 y a2 se determinan resolviendo el sistema de ecua-


ciones

X X X
y = a0 n + a1 x + a2 x2
X X X X
xy = a0 x + a1 x 2 + a2 x3
X X X X
x 2 y = a0 x 2 + a1 x 3 + a2 x4 (3.8)

3.2. Correlación

En esta sección abordaremos el problema de determinar si hay alguna


relación aparente entre dos variables.

Prof. Gualberto Ruiz Diaz Apuntes de Estadı́stica


44 3.2. Correlación

Definición 3.2.1 Existe una correlación entre dos variables si una de ellas
está relacionada con la otra de alguna manera.

Supongamos que tenemos una colección de datos apareados que contiene


el punto especı́fico (x, y), que ŷ es el valor esperado para y (que se obtiene
usando la ecuación de regresión) y que la media de los valores muestrales de y
es y.

La desviación total (respecto a la media) del punto especı́fico (x, y) es


la distancia vertical y − y, que es la distancia entre el punto (x, y) y la
lı́nea horizontal que pasa por la media muestral y.

La desviación explicada es la distancia vertical ŷ−y, que es la distancia


entre el valor esperado o predicho para y y la lı́nea horizontal que pasa
por la media muestral y.

La desviación no explicada es la distancia vertical y − ŷ, que es la


distancia vertical entre el punto (x, y) y la lı́nea de regresión. La distancia
y − ŷ también se llama residual.

La desviación total es igual a la suma de la desviación explicada con la


desviación no explicada o residuo.

(y − y) = (ŷ − y) + (y − ŷ)

Esta última expresión aplica a un punto especı́fico (x, y), pero se puede
generalizar aún más y modificarse para incluir todos los pares de datos de la
muestra.

Definición 3.2.2 La variación total se expresa como la suma de los cuadra-


dos de los valores de desviación total, la variación explicada es la suma de los
cuadrados de los valores de desviación explicada y la variación no explicada
es la suma de los cuadrados de los valores de desviación no explicada.
X X X
(y − y)2 = (ŷ − y)2 + (y − ŷ)2

Los componentes de esta última expresión se usan en la definición siguiente:

Definición 3.2.3 El coeficiente de determinación es la cantidad de la varia-


ción en y que se explica con la lı́nea de regresión, y se calcula ası́.
variación explicada
r2 =
variación total
3. Análisis de regresión y correlación 45

Este coeficiente mide el porcentaje de variación en la variable respuesta o


dependiente, explicada por la variable independiente.

El coeficiente de correlación lineal mide el grado de intensidad de esta


posible relación entre las variables. Este coeficiente se aplica cuando la relación
que puede existir entre las variables es lineal (es decir, si representáramos en un
gráfico los pares de valores de las dos variables la nube de puntos se aproximarı́a
a una recta).

No obstante, puede que exista una relación que no sea lineal, sino expo-
nencial, parabólica, etcétera. En estos casos, el coeficiente de correlación lineal
medirı́a mal la intensidad de la relación entre las variables, por lo que con-
vendrı́a utilizar un tipo de coeficiente más apropiado.

Para determinar si se puede utilizar el coeficiente de correlación lineal, lo


mejor es representar los pares de valores en un sistema de coordenadas y ver
que forma describe.

El coeficiente de correlación lineal se calcula hallando la raı́z cuadrada del


coeficiente de determinación, o utilizando la siguiente fórmula

P
P P
xy − ( x)( y)
n
r=p P P p P 2 P (3.9)
n x2 − ( x)2 n y − ( y)2

Los valores que puede tomar el coeficiente de correlación lineal “r” son:
−1 ≤ r ≤ 1.

Si r > 0, la correlación lineal es positiva (si sube el valor de una variable


sube el de la otra). La correlación es tanto más fuerte cuanto más se aproxime
a 1. Por ejemplo, altura y peso de personas, las más altas suelen pesar más.

Si r < 0, la correlación lineal es negativa (si sube el valor de una variable


disminuye el de la otra). La correlación negativa es tanto más fuerte cuanto
más se aproxime a −1.

Si r = 0, no existe correlación lineal entre las variables. Aunque podrı́a


existir otro tipo de correlación (parabólica, exponencial, etcétera). Ahora bien,
si no existe ningún tipo de relación entre las variables, sin discusión alguna,
r = 0.

De todos modos, aunque el valor de r fuera próximo a 1 o −1, tampoco


esto quiere decir obligatoriamente que existe una relación de causa–efecto entre
las dos variables, ya que este resultado podrı́a haberse debido al puro azar.

Prof. Gualberto Ruiz Diaz Apuntes de Estadı́stica


46 3.2. Correlación

Definición 3.2.4 El error estándar de estimación, denotado por se es una


medida de las diferencias (o distancias) entre los valores y de muestra observa-
dos y los valores ŷ predichos que se obtienen usando la ecuación de regresión;
está dada por sP
(y − ŷ)2
se =
n−2

La deducción del error estándar de estimado se es muy similar a la de la


desviación estándar que se presentó en el capı́tulo 2.
Índice general

1. Recolección, organización y presentación de datos 1

1.1. Concepto de Estadı́stica . . . . . . . . . . . . . . . . . . . . . . 2

1.2. Estadı́stica descriptiva y Estadı́stica inductiva . . . . . . . . . . 3

1.3. Etapas del Método estadı́stico . . . . . . . . . . . . . . . . . . . 3

1.4. Conceptos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.5. Organización y presentación de la información . . . . . . . . . . 9

1.6. Gráficos y tablas. Principios generales. Tipos . . . . . . . . . . . 12

1.6.1. Tablas de distribución de frecuencias . . . . . . . . . . . 16

1.6.2. Representación gráfica . . . . . . . . . . . . . . . . . . . 18

2. Análisis exploratorio de datos 23

2.1. Medidas de tendencia central . . . . . . . . . . . . . . . . . . . 23

2.1.1. Media aritmética . . . . . . . . . . . . . . . . . . . . . . 23

2.1.2. Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

2.1.3. Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2.1.4. Relación empı́rica entre la media, la mediana y la moda . 28

2.1.5. Otras medidas de tendencia central . . . . . . . . . . . . 29

2.2. Medidas de orden . . . . . . . . . . . . . . . . . . . . . . . . . . 29

47
48 ÍNDICE GENERAL

2.2.1. Cuartiles (Q1 , Q2 , Q3 ) . . . . . . . . . . . . . . . . . . . 30

2.2.2. Deciles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2.2.3. Percentiles . . . . . . . . . . . . . . . . . . . . . . . . . . 31

2.3. Medidas de variabilidad . . . . . . . . . . . . . . . . . . . . . . 31

2.4. Medidas de asimetrı́a y curtosis . . . . . . . . . . . . . . . . . . 35

2.5. Datos atı́picos y diagramas de cajas . . . . . . . . . . . . . . . . 37

3. Análisis de regresión y correlación 39

3.1. Diagrama de dispersión y ajuste de curvas . . . . . . . . . . . . 39

3.1.1. Ajuste de curvas a mano . . . . . . . . . . . . . . . . . . 41

3.1.2. Método de los mı́nimos cuadrados . . . . . . . . . . . . . 41

3.2. Correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

Índice alfabético 48