Está en la página 1de 80

Antología de

Probabilidad y
Estadística I

Ing. Elizabeth Luna López


Nombre:
Grupo:

Coordinación de Matemáticas

AGOSTO-DICIEMBRE 2020

1
Elaborado por: Ing. Elizabeth Luna López

Circulación y uso exclusivo para la asignatura de Probabilidad y Estadística II


en el Instituto Blaise Pascale.

2
ÍNDICE
INTRODUCCIÓN 5

Bloque I Elementos Estadísticos 6

 Elementos estadísticos
 Población
 Muestra
 Datos
 Variable y sus tipos
 Técnicas de recolección de datos
 Encuesta
 Entrevista
 Observación
 Experimentación
 Documental
 Técnicas de muestreo
 Probabilístico
 No probabilístico

Bloque II Descripción gráfica de un conjunto de datos 31

 Representación tabular mediante distribución de frecuencias


 Frecuencia absoluta
 Frecuencia acumulada
 Frecuencia relativa
 Determinación de clases para datos agrupados.
 Criterios, representación y análisis de gráficas
 Histograma
 Polígono de frecuencias
 Circular
 Ojiva

Bloque III Medidas Estadísticas 43

 Medidas de tendencia central para datos simples y agrupados


 Media
 Mediana
 Moda
 Sesgo
 Medidas de dispersión para datos simples y agrupados
 Rango
 Desviación media
 Varianza
 Desviación estándar

3
 Límites estadísticos
 Cuartiles, deciles y percentiles

Bloque IV Comportamiento de dos variables 64

 Correlación de variables
 Representación
 Regresión lineal

BIBLIOGRAFÍA 79

4
Introducción

Nuestra vida cotidiana está llena de cosas que nos suceden sin que podamos predecir los
resultados con exactitud. Por ejemplo, si vamos caminando por la calle y se nos cae una
moneda al piso, ¿sabemos si caerá con la cara al cielo? Claramente no, pues nuestra
experiencia nos indica que algunas veces el lado del águila cae hacia abajo y otras hacia arriba.

A los sucesos donde interviene el azar se los llama “aleatorios” o “probabilísticos”. Diremos
que hay una probabilidad de que caiga águila o sol. En la vida cotidiana son más frecuentes las
situaciones que podemos atribuir al azar (eventos o sucesos aleatorios) que las que
corresponden al acontecer predecible con exactitud. ¿Nos resfriaremos este invierno? ¿Quién
ganará el campeonato? Hechos tan simples como los mencionados requieren ser
interpretados con pensamiento probabilístico, el cual gira alrededor de las nociones azar e
incertidumbre.

Una rama de las matemáticas se ha encargado de estudiar el problema y de desarrollar


métodos que nos ayuden a tal fin: se trata del estudio de probabilidades, o “estadística”. El
que sabe tomar decisiones ocupa los mejores lugares en la dirección de una empresa. Para
tomar decisiones se debe estar en capacidad de llenar los vacíos de información de la manera
más racional posible. Es aquí donde la Estadística puede ayudar a tomar decisiones
racionalmente correctas: ayuda a llenar los vacíos de información.

Algunos ejemplos de estadística en la vida diaria son: cálculo de elecciones y candidatos


(intención de voto), cantidad de gente con educación, nivel de consumo con tarjeta de crédito
(porcentaje de ventas en cuotas con tarjetas, por ejemplo), entre otros.

El objetivo de la presente antología es ayudar al estudiante de quinto semestre de


Probabilidad y Estadística a tener las nociones básicas que no solo le ayudaran a
desenvolverse en el área académica, sino a tomar decisiones en su vida y en el campo
laboral.

En este curso se abarcarán los temas: Elementos estadísticos; descripción de gráficas a


partir de un conjunto de datos; medidas de tendencia central como son la media, la
mediana y la moda; y por último el comportamiento de dos variables a través de su
correlación.

Esperamos que el presente material contenga la información básica para el desarrollo de


este curso, bienvenido y.... ¡A estudiar!

5
BLOQUE I ELEMENTOS ESTADÍSTICOS

 Elementos estadísticos
 Población
 Muestra
 Datos
 Variable y sus tipos
 Técnicas de recolección de datos
 Encuesta
 Entrevista
 Observación
 Experimentación
 Documental
 Técnicas de muestreo
 Probabilístico
 No probabilístico

6
BLOQUE I ELEMENTOS ESTAÍSTICOS

INTRODUCCIÓN A LA ESTADÍSTICA

En la vida cotidiana se presentan fenómenos que requieren del empleo de una serie de tablas,
medidas, gráficas, de su análisis e interpretación para comprenderlos, lo cual nos lleva a
plantearnos una serie de interrogantes donde para poder responderlas la Estadística día a día
va ganando mayores adeptos, convirtiéndose en un método efectivo para describir con
exactitud los valores y datos de situaciones problemáticas de las distintas ciencias agrícolas,
biológicas, de salud, económicas, educativas, físicas, políticas, psicológicas, sociales, etcétera.

Se llama Estadística a la rama de las matemáticas que se sirve de un conjunto de métodos,


normas, reglas y principios para la observación, toma, organización, descripción, presentación
y análisis del comportamiento de un grupo de datos para la conclusión sobre un experimento
o fenómeno.

 ELEMENTOS ESTADÍSTICOS
POBLACIÓN, MUESTRA, DATO, VARIABLE Y TIPOS DE VARIABLE

Montanero (2007) Blair y Taylor (2008) Cardaso et al. (2014)


Población
Define a la población como el Por su parte la definen como Explica que es el universo de
objeto de estudio de la una población es un conjunto individuos al cual se refiere
estadística. de personas (u objetos) que el estudio que se pretende
tienen una característica realizar.
observable en común.
Muestra
Es un subconjunto de la Es un subconjunto de una La definen como un
población de tamaño “n”. población. Por ejemplo, las subconjunto de la población
presiones sanguíneas de los cuyos valores de la variable
estudiantes de un determinado que se pretende analizar son
grupo en la universidad conocidos.
constituirían una muestra
(aunque no una escogida al
azar).

7
Se dice que una población es finita cuando incluye un número limitado de elementos; por
ejemplo, el conjunto de estudiantes de bachillerato de cierta escuela en un determinado
ciclo escolar conforma una población finita, puesto que al contar la matrícula registrada
podemos llegar a un número definido de alumnos; de igual manera, el conjunto de
habitantes de la Ciudad de México en el año 2005, aunque es un número muy grande –
aproximadamente 9 millones– tiene un número limitado.

Por otro lado, una población infinita incluye un gran número de elementos que no pueden
contarse en su totalidad; por ejemplo, la población formada por todos los nacimientos de
seres humanos en el pasado y en el futuro es infinita, debido a que no existe límite para su
número (bajo el supuesto de que la vida del mundo es indefinida).

Individuo
Montanero (2007) Becerra (2009) Pita y Pértega (2001)
Hace referencia a los individuos Cualquier elemento que porte El individuo es cada uno de
como parte de la muestra de información sobre el fenómeno los componentes de la
una población. que se estudia. Así, si población y la muestra.
estudiamos la altura de los
niños de una clase, cada alumno
es un individuo; si se estudia el
precio de la vivienda, cada
vivienda es un individuo.

Dato
Blair y Taylor (2008) Asurza (2006) Becerra (2009)
El registro de mediciones hechas La información o valor de la Las medidas y/o números
sobre características. variable asociada a un elemento recopilados a partir de la
de una población o una observación.
muestra.

José Domínguez Perales ingresó a la universidad a los “22 años”, su cabello es “negro”,
mide “1.78 metros” y pesa “80 kilogramos”. Cada uno de los cuatro valores es un dato
respecto de las variables consideradas para José Domínguez Perales.

Variable
Blair y Taylor (2008) Cardaso et al. (2014) Asurza (2006)
Están conformadas por las Un rasgo o característica de los Una característica de la
características de interés, elementos de la población que población o de la muestra
cuando tales características se pretende analizar. cuya medida puede cambiar
toman diferentes valores se de valor.
conocen como variables.

8
Asurza (2006), define los siguientes tipos de variables:
Variable aleatoria: Es la Variable bidimensional: Es Variable continua: Es una
característica considerada en un aquella que proporciona variable cuantitativa. Puede
experimento aleatorio cuyo valor información sobre dos tomar cualquier valor real
de ocurrencia sólo puede saberse características de la población. dentro de un intervalo.
con exactitud una vez observado. Por ejemplo, edad y altura de los
alumnos de una clase.
Variable cualitativa: Es aquella Variable cuantitativa: Es aquella Variable determinística: Es
que representa cualidades, característica de la población o de aquella cuyo valor puede ser
atributos o características. la muestra que es posible predicho con exactitud.
representar numéricamente.
Variable discreta: Es una variable Variable nominal: Es una variable Variable ordinal: Es una
cuantitativa. Es la característica cualitativa la cual sólo permite variable cualitativa cuyos
de la población, cuyos valores asignar nombres a los datos y no valores solamente pueden ser
están representados mediante el implica ningún orden. ordenados con algún criterio.
conjunto de los números
naturales.
Variable pluridimensional: Es Variable unidimensional: Es
aquella que proporciona aquella que proporciona
información sobre tres o más información sobre una sola
características. Por ejemplo; característica. Por ejemplo; edad
edad, altura y peso de los alumnos de los alumnos de una clase.
de una clase.

Cardaso et al. (2014), definen los siguientes tipos de variables:


Cualitativas nominales: Miden características que no toman valores
numéricos. A estas características se les llama modalidades. Por
Variables cualitativas: No ejemplo, en la variable sexo las modalidades son hombre y mujer.
aparecen en forma numérica, sino
como categorías o atributos. Cualitativas ordinales: Miden características que no toman valores
Por ejemplo, el sexo, color de numéricos, pero sí presentan entre sus posibles valores una relación
ojos, profesión, resultado de un de orden. Por ejemplo, si se desea examinar el resultado de un
tratamiento, etc. tratamiento, las modalidades podrían ser: en remisión, mejorado,
estable, empeorado.
Variables cuantitativas: Toman Cuantitativas discretas: Toman un número discreto de valores (en el
valores numéricos porque son conjunto de números naturales). Por ejemplo, el número de hijos de
frecuentemente el resultado de una familia, número de cigarrillos fumados por día, etc.
una medición. Por ejemplo, el
peso (kg) de una persona, la Cuantitativas continuas: Toman valores numéricos dentro de un
estatura (m), número de llamadas intervalo real. Por ejemplo, la altura, el peso, concentración de un
diarias a un servicio de urgencias, elemento, tiempo transcurrido hasta que se inicia una reacción
temperatura (°C) corporal, etc. alérgica a una picadura de insecto, etc.

9
Becerra (2009), dice que las variables pueden ser:
Variables cualitativas o Variables unidimensionales: sólo Discretas: sólo pueden tomar
categóricas: no se pueden medir recogen información sobre una valores enteros (1, 2, 8, -4,
numéricamente, por ejemplo: característica. etc.).
nacionalidad, color de la piel, Variables bidimensionales: recogen
sexo. información sobre dos Continuas: pueden tomar
Variables cuantitativas: tienen características de la población. cualquier valor real dentro de
valor numérico. Por ejemplo, Variables pluridimensionales: un intervalo.
edad, precio de un producto, recogen información sobre tres o
ingresos anuales. más características.

Clasificación de la estadística
Blair y Taylor (2008) Asurza (2006) Mendenhall et al. (2010)
La estadística descriptiva está Estadística descriptiva: Rama de la La estadística descriptiva está
formada por varias técnicas utilizadas ciencia estadística que se encarga formada por procedimientos
para resumir la in formación desde la recopilación, empleados para resumir y
contenida en un conjunto de datos. procesamiento y análisis de la describir las características
información siendo sus conclusiones importantes de un conjunto de
La estadística inferencial está válidas sólo para el grupo analizado. mediciones.
conformada por varias técnicas
utilizadas para proveer información Estadística inferencial: Rama de la La estadística inferencial está
acerca de los valores de los ciencia estadística que proporciona formada por procedimientos
parámetros basados en métodos y procedimientos que empleados para hacer inferencias
observaciones hechas sobre los permiten obtener conclusiones para acerca de características
valores de los estadísticos. una población a partir del estudio de poblacionales, a partir de
una o más muestras representativas. información contenida en una
muestra sacada de esta
población.

¿Qué es un indicador y un índice estadístico?


UIE (1999) De la Fuente (2013) Mondragón (2002)
Herramientas para clarificar y Los números indicadores son una La ONU (1999), dice que no existe
definir de forma más precisa, medida estadística que permite una definición oficial por parte de
objetivos e impactos, son comprar una gran magnitud ningún organismo internacional,
medidas verificables de cambio o simple o compleja en dos sólo algunas referencias que lo
resultado diseñadas para contar situaciones respecto al tiempo o describen como: “Herramientas
con un estándar contra el cual al espacio tomando una de ellas para clarificar y definir, de forma
evaluar, estimar o demostrar el como referencia. más precisa, objetivos e
progreso con respecto a metas impactos; son medidas
establecidas. Facilitan el reparto verificables de cambio o
de insumos, produciendo resultado, diseñadas para contar
productos y alcanzando objetivos. con un estándar contra el cual
evaluar, estimar o demostrar el
progreso con respecto a metas
establecidas, facilitan el reparto
de insumos, produciendo
productos y alcanzando
objetivos”

10
EJEMPLO:
La aplicación de la estadística en el área de la nutrición es incontable, por mencionar un ejemplo, se
puede hacer una comparación del incremento de la obesidad infantil en América Latina en los últimos
diez años. En ese aspecto ya existen múltiples páginas de internet en las que nos podemos basar para
obtener esos indicadores.

Parámetros y estadísticos

Para estimar valoraciones cuantitativas en una población resulta más práctico y menos costoso
si éstas se realizan mediante muestras, para ello es importante comprender el siguiente par de
conceptos.

Todo valor numérico que describa a una población recibe el nombre de parámetro; si se refiere
a una muestra, estadístico. Por ejemplo, el coeficiente intelectual promedio de todos los
estudiantes de primer grado de secundaria en cierto país es un parámetro; dicho promedio
obtenido en una muestra de la población mencionada es un estadístico.

En resumen, un estadístico es para una muestra lo que un parámetro para una población. La
utilidad de los estadísticos radica en que éstos permiten una estimación de los parámetros,
puesto que regularmente la información se obtiene a partir de las muestras cuando éstas son
representativas.

Resuelve la actividad 1 de tu compendio de ejercicios.

11
 TÉCNICAS DE RECOLENCCIÓN DE DATOS
La estadística descriptiva incluye la recolección, análisis e interpretación de resultados
muestrales. El objetivo de la estadística inferencial es inferir las características de la
población a partir de las características de la muestra.

1. Planteamiento del problema


2. Recolección de datos
Estadística descriptiva 3. Exploración de datos:
3.1 Análisis de datos.
3.2 Interpretación de resultados.
Estadística inferencial 4. Generalización a toda la población.

1. Planteamiento del problema:

12
13
Esquemáticamente tenemos:

Recolección de
datos

• Población • Objetivo de la investigación • Muestra


• ¿Qué es necesario conocer?
• ¿Qué esperamos encontrar?
• ¿Cómo se obtendrán los
Determinar lo que datos de la muestra? Estadística
se quiere saber. descriptiva

Estadística
inferencial
• Estudio de la muestra • Población
• Tablas • Característica
• Gráficas s muestrales
• Medidas Se repite el
ciclo

14
2. Plan de recolección de datos

¿Qué contempla el plan de recolección de datos?


La recolección de datos es equivalente a medir.

¿Qué mide? Las fluctuaciones de las variables contenidas en la hipótesis o


pregunta de investigación.
¿Cómo de mide? Se registran los valores visibles que presentan a las variables,
valores que han sido previamente vinculados con ítems numéricos.
¿Con qué se mide? Con algún instrumento de medición disponible como:
cuestionarios, escala de medir actitudes, pruebas estandarizadas,
observación, análisis de contenidos, otros.
¿Cómo se aplica el Puede ser auto aplicado, por entrevistas o por observación.
instrumento?
¿Cómo se preparan Las respuestas obtenidas, previamente codificadas, se trasfieren a
los datos para una matriz de datos y se preparan para su análisis estadístico.
analizarlos?

Fuentes
Para poder llevar a cabo un estudio estadístico de una población, primero se debe tener muy
claro qué se quiere analizar para recolectar los datos adecuados. Ahora, la recolección se
puede hacer recurriendo a diversas fuentes. En términos generales, las fuentes de donde se
obtienen los datos pueden clasificarse en primarias o secundarias:
• Primarias, mediante la observación o realización de experimentos, encuestas o
cuestionarios.

• Secundarias, como las bases de datos ya existentes, por ejemplo, la del INEGI o
BANXICO

Observación, entrevista, encuesta


Como verás, la recolección de los datos es la primera de estas etapas. Ya hemos señalado que,
para recolectar información puedes recurrir a fuentes primarias (directas) o secundarias
(indirectas).
Observación Entrevista Encuesta
Proceso que se realiza para dar Se realiza siguiendo un guion de preguntas Puede ser auto aplicada (la
seguimiento al fenómeno que previamente establecidas, según en persona encuestada la llena por sí
se desea analizar. Para hacerlo fenómeno que se está estudiando. Puede ser miasma), o puede ser llenada por
se utiliza una guía de cuáles abierta (sólo se dice el tema general y se el otro (conocido como
son los aspectos que se deben permite al entrevistador hablar libremente encuestador) el cual va llenando el
observar. al respecto) o semiestructurada (se lleva un formulario. Las preguntas
guion con las preguntas que se desean generalmente son cerradas (sí o
conocer, pero hay flexibilidad para decidir no, poco, mucho, nada, etc.).
cuáles utilizar al momento de realizar la
entrevista).

15
¿Cómo elaborar encuestas?
Generalmente, para obtener información de los grupos humanos y de las personas, es
recomendable recurrir a métodos que nos permiten ahorrar esfuerzo y tiempo como lo son las
encuestas.

Ventajas: Desventajas:
- Técnica que permite obtener información de casi cualquier tipo - No permite analizar con profundidad
de población. temas complejos.
- Permite obtener información sobre hechos presentes y pasados
de los encuestados, así como prever comportamientos futuros.
- Gran capacidad para estandarizar datos, lo que permite su
tratamiento informático y el análisis estadístico.

En la formulación de una encuesta se siguen ciertas normas que ayudan a asegurar


que la información recogida sea significativa:

1. Vocabulario adecuado para transmitir las ideas.


2. El lenguaje de la encuesta. Se pueden crear preguntas con términos que las personas
entiendan.
3. Toda pregunta debe estar redactada de modo equivalente al nivel actual de
información del entrevistado y de manera que tenga sentido.
4. Preguntas que no insinúen las respuestas, por esto es preciso formular las preguntas de
manera que no contengan insinuaciones acerca de las respuestas apropiadas.
5. Las preguntas deben limitarse a una sola idea o a un solo concepto.
6. El orden consecutivo de las preguntas nos permite que éstas sean más lógicas para la
persona interrogada.
7. Hacer primero la pregunta más general y posteriormente las preguntas más específicas,
de lo general a lo particular.
8. El tiempo para responder las encuestas no deberá tomar más de 30 minutos.

Tipos de preguntas

Abierta
Dicotómicas: si/no
Categorizada:
*Respuesta espontánea: el encuestador no debe leerle la
Según las respuesta al encuestado.
respuestas Cerrada *Respuesta sugerida: el entrevistador lee las preguntas al
encuestado.
*Valoración: el entrevistador lee una escala de intensidad
creciente o decreciente de categorías de respuesta.

16
Se utilizan mucho en los cuestionarios para eliminar aquellas
personas que no les afecten determinadas preguntas, es decir que
Filtro
marcan la realización o no de preguntas posteriores.

Todas las preguntas tratan sobre un mismo tema.


Batería
Según la Se utilizan para comprobar la veracidad de las respuestas de los
función encuestados y normalmente lo que se hace en estos casos es
Control colocar la misma pregunta, pero redactada de forma distinta en
lugares separados una de la otra.

Amortiguadora Suavizando la pregunta y no preguntar de modo brusco y directo.

Identificación Ej. Edad, sexo, profesión.

Tratan sobre las acciones de los entrevistados. Ej. ¿Va al


Acción
cine?¿fuma?.

Indagan sobre las intenciones de los encuestados. Ej. ¿Va a ir a


Intención
Según el votar?
contenido
Tratan sobre la opinión encuestados sobre determinados temas.
Opinión
Ej. ¿Qué piensa sobre...?

Información Analizan el grado de conocimiento sobre determinados temas.

Motivos Tratan de saber el porqué de determinadas opiniones o actos.

Reglas para la formulación de preguntas:

• No deben ser excesivamente largas.


• Tiene que ser sencillas.
• No deben incorporar términos morales (juicios de valor).
• Nunca sugerir la respuesta.

17
Ejemplo de formatos de encuesta:

¿Cómo elaborar entrevistas?


La clasificación más usual de las entrevistas de acuerdo con su planeación corresponde a tres
tipos:
• Entrevistas estructuradas o enfocadas: las preguntas se fijan de antemano, con un
determinado orden y contiene un conjunto de categorías u opciones para que el sujeto elija.
• Entrevistas semiestructuradas: presentan un grado mayor de flexibilidad que las
estructuradas, debido a que parten de preguntas planeadas, que pueden ajustarse a los
entrevistados.
• Entrevistas no estructuradas: son más informales, más flexibles y se planean de manera
tal, que pueden adaptarse a los sujetos y a las condiciones.

18
Fases de la entrevista Tipos de preguntas
1er Fase: preparación 1. Descriptivas, tratan de reconocer tanto
• Reunión de la información el lenguaje del informante, así como la
• Planificación de la encuesta forma particular con la cual describe un
• Preparación de la cita acontecimiento.
2da Fase: apertura
• Hacer explícito el motivo, la 2. Estructurales, muestran cómo el
confidencialidad y la duración. entrevistado organiza su conocimiento
• Convenir los propósitos sobre el tema.
3ra Fase: desarrollo
• Intercambio de información 3. Preguntas de contraste, proporcionan
• Identificación de puntos de acuerdo información sobre el significado que utiliza
4ta Fase: Cierre el sujeto para diferenciar los objetos y
• Hacer explícitas las conclusiones acontecimientos de su realidad.
• Realizar síntesis

Ejemplo de entrevista:
Entrevista al entrenador de la U.N.D
Por Juan Pablo Perales.
Reportero de: “El deportista Joven”.

Entrevista al entrenador de la sección de velocidad de campus de la Universidad Nacional


Deportiva.
El pasado sábado, nos fue concedida una entrevista por el señor Joaquín Borrego Manso,
entrenador en jefe de la U.N.D (Universidad Nacional Deportiva) respondiéndonos lo siguiente:
- Juan Pablo: Buenas tardes Sr. Borrego, hemos venido para entrevistarlo y que nos dé un
pormenor del resultado de sus deportistas y estudiantes, así como de sus proyectos frente a la
justa deportiva que se avecina ante las universidades del país.
- Joaquín: Hola Juan Pablo; como se avecinan las justas deportivas entre las universidades,
hemos redoblado nuestros esfuerzos para que los jóvenes mejoren sus tiempos.
- Juan Pablo: Tengo entendido que existieron problemas con las pruebas de dopaje con
algunos de sus estudiantes. ¿Qué nos puede decir sobre eso?
- Joaquín: Mira, es claro que ante tanta presión los jóvenes buscan formas fáciles para mejorar
sus tiempos y capacidades, pero por más que nosotros los revisemos, no podemos controlarlos
fuera de los planteles; sé que somos sus sinodales, pero siempre existe un momento en el que
se encuentran solos y ahí solo se pueden cobijar con su libre albedrío.
- Juan Pablo: ¿Con esto nos quiere decir que no puede hacer nada?
- Joaquín: ¡No! por supuesto que no, pero puedo decir que esto nos ha obligado a tomar
medidas más estrictas, como son revisiones semanales y la ayuda de nutriólogos y psicólogos
que nos asesoren para poder corregir los problemas que se nos presentaron.
- Juan Pablo: ¿Respecto a las penalizaciones que sus deportistas sufrieron que nos puede decir.
- Joaquín: Los jóvenes que infringieron, fueron dos, y éstos ya cumplieron las penas impuestas
por los dirigentes deportivos; y se demostró que se produjo por consumir alimentos que

19
contenían clembuterol, los cuales fueron proporcionados en el centro deportivo de la
universidad en la que competimos, en donde también se presentaron penalizaciones.
- Juan Pablo: ¿Esto los dejo exentos a ustedes?
- Joaquín: Bueno, nuestros deportistas podrán jugar nuevamente, pero se les retiraron las
medallas, pues se encontraban en ventaja a los demás por el problema del dopaje. Ellos
quedaron exentos de responsabilidad y limpios en su expediente.
- Juan Pablo: ¿Qué dijeron los muchachos sobre esto?
- Joaquín: Solo dicen que hay ocasiones en que pagan justos por pecadores, pero dicen que
esperan mejorar esto en la justa de este año.
- Juan Pablo: Por ultimo y ya para terminar, cuantos estudiantes enviarán a la justa deportiva.
- Joaquín: Serán un total de treinta y dos (32), que ya cuentan con todos sus documentos y
exámenes físicos cumplidos y que tienen los mejores tiempos en todo el plantel.
- Juan Pablo: Bien, esperemos que tengan la mejor de las suertes y que nos veamos después
de la justa deportiva con noticias nuevas.
- Joaquín: Al contrario, gracias a ti y a “el deportista joven” por habernos visitado.

¿Qué son las unidades de observación?


Llamaremos unidad de observación a la unidad física que nos interesa estudiar u observar con
fines de investigación. Ejemplo: un paciente, una familia, una vivienda, una persona, un cajón
de manzanas, un pollo, un predio, etc. Cada uno de los elementos mencionados puede ser
considerado como unidad de observación cuando es nuestro particular interés observarlo de
manera sistemática. El conjunto de todas las unidades de observación constituye la población
en estudio.

Dato o unidad de observación

Variables Tipo Datos


Edad (años) Cuantitativa continua 18, 30, 50
Sexo Cualitativa M, F
Nivel educacional Cualitativa Educación básica, medio
superior, superior
Número de hijos en una Cuantitativa discreta 1, 2, 3
familia
Ingreso ($) Cuantitativa continua $150, 000.00,
$250, 000.00
Peso (kg) Cuantitativa continua 45.5, 60.8, 50.6

20
Tipos de observación

Directa El observador es presentado físicamente y maneja los criterios.


Indirecta El observador para inadvertido por los demás.
Participante El observador es aceptado como miembro del grupo.
No participante El observador permanece ajeno a la situación observada.
Estructurada Es sistemática y guiada en todas sus pautas.
No estructurada Carece de un guía de evaluación.
Individual La efectúa una sola persona.
Grupal La efectúa un grupo de personas.
De campo Considera la observación de la realidad en el tiempo y contexto en
el que sucede.
De laboratorio El hecho es provocado y luego observado.

Experimentación

La experimentación forma parte natural de la mayoría de las investigaciones científicas e


industriales, en muchas de las cuales, los resultados del proceso de interés se ven afectados
por la presencia de distintos factores, cuya influencia puede estar oculta por la variabilidad de
los resultados muestrales.

Las técnicas de diseño de experimentos se basan en estudiar simultáneamente los efectos de


todos los factores de interés, son más eficaces y proporcionan mejores resultados con un
menor coste.

Las etapas para seguir en el desarrollo de un problema de diseño de experimentos son las
siguientes:
• Definir los objetivos del experimento. Identificar todas las posibles fuentes de variación,
incluyendo:
(i) factores tratamiento y sus niveles,
(ii) unidades experimentales,
(iii) factores molestos: factores bloque, factores ruido.
• Elegir una regla de asignación de las unidades experimentales a las condiciones de estudio
(tratamientos)
• Ejecutar un experimento piloto.
• Especificar el modelo.
• Esquematizar los pasos del análisis.
• Determinar el tamaño muestral.
• Revisar las decisiones anteriores. Modificarlas si se considera necesario.

Se denomina factor tratamiento a cualquier variable de interés para el experimentador cuyo


posible efecto sobre la respuesta se quiere estudiar. Los niveles de un factor tratamiento son

21
los tipos o grados específicos del factor que se tendrán en cuenta en la realización del
experimento. Los factores tratamiento pueden ser cualitativos o cuantitativos.

Ejemplos de factores cualitativos y sus niveles respectivos son los siguientes:


• Proveedor (diferentes proveedores de una materia prima),
• Tipo de máquina (diferentes tipos o marcas de máquinas),
• Trabajador (los trabajadores encargados de hacer una tarea),
• Tipo de procesador (los procesadores de los que se quiere comparar su velocidad de
ejecución),
• Un aditivo químico (diferentes tipos de aditivos químicos),
• El sexo (hombre y mujer),
• Un método de enseñanza (un número determinado de métodos de enseñanza cuyos
resultados se quieren comparar).

Ejemplos de factores cuantitativos son los siguientes:


• Tamaño de memoria (diferentes tamaños de memoria de ordenadores),
• Droga (distintas cantidades de la droga),
• La temperatura (conjuntos de temperaturas seleccionadas en unos rangos de interés).

Cuando en un experimento se trabaja con más de un factor, se denomina:


Tratamiento, a cada una de las combinaciones de niveles de los distintos factores.
Observación, es una medida en las condiciones determinadas por uno de los tratamientos.

Experimento factorial, es el diseño de experimentos en que existen observaciones de todos los


posibles tratamientos.

Ejemplos de unidades experimentales son:


• En informática, ordenadores, páginas web, buscadores de internet,
• En agricultura, parcelas de tierra,
• En medicina, individuos humanos u animales,
• En industria, lotes de material, trabajadores, máquinas.

En resumen, las posibles fuentes de variación de un experimento son:


Fuente Tipo
Debida a las condiciones de interés
Planificada y sistemática
(factores tratamiento).
Debida al resto de condiciones
Planificada y sistemática
controladas.
Debida a condiciones no controladas (error
No planificada
de medida, material experimental, etc.).

22
Documental
La investigación documental, consiste en el estudio de documentos escritos sobre un objeto
determinado, es decir son todos aquellos documentos registrados en diferentes dispositivos
físicos (o electrónicos) a los que podemos tener acceso en forma directa o indirecta para su
consulta y se puede clasificar en:
1.- Documental bibliográfica.
2.- Documental hemerográfica.
3.- Documental escrita.
4.- Documental audiográfica.
5.- Documental videográfica.
6.- Documental iconográfica.

Resuelve la actividad 2 de tu compendio de ejercicios.

 TÉCNICAS DE MUESTREO

Una vez comprendido los conceptos anteriores, procederemos a estudiar las cuestiones
básicas de los procedimientos de muestreo.
Hay muchos tipos de muestreo, sin embargo, todos pueden clasificarse en dos categorías:
muestreo no probabilístico y muestreo probabilístico.

De juicio

No
Por conveniencia
Probabilístico

Voluntario
Muestreo
Aleatorio simple

Sistemático
Probabilístico
Aleatorio estratificado

Por conglomerados

23
PROBABILÍSTICO

Muestreo probabilístico: son procedimientos de muestreo en las que, con la ayuda de la


probabilidad, puede determinarse tanto el tamaño de la muestra requerida como el grado de
error de la muestra.

Muestreo aleatorio simple: es aquel en el que todos los elementos de la población tienen la
misma probabilidad de ser elegidos.

Las muestras aleatorias simples pueden ser sin reemplazo y con reemplazo. En el primer caso.
Al extraer un individuo de la población, no se devuelve a ésta. En el segundo caso, una vez
registrado el individuo seleccionado, se devuelve a la población pudiendo ser elegido de
nuevo.

Ejemplo 1
Sugerir una forma para seleccionar una muestra aleatoria de 10 alumnos:
a) De tu grupo.
b) De toda la escuela.
c) Describir alguna manera incorrecta de seleccionar la muestra y decir por qué.

Solución:
a) Basta con asignar números a los alumnos de tu grupo empezando con 00, 01, 02, 03, …
enseguida se extraen pares de dígitos aleatorios de alguna tabla, hasta completar los
10 alumnos de la muestra. (en caso de que un número aleatorio, por ejemplo 98, no
corresponda a algún compañero, no se toma en cuenta).
b) De la misma forma que en el inciso a), sólo sería necesario asignar números a toda la
escuela.
c) Una manera incorrecta sería elegir únicamente de entre los que se encuentran en la
biblioteca. Estos alumnos serán por lo general más estudiosos que los demás y también
podrían diferir en otras características.

Ejemplo 2
Supóngase que en un salón de clase determinado hay 50 butacas y se desea obtener una
muestra de 4 elementos para conocer su deterioro.

Solución
Paso 1. Se enumeran las butacas del 01 al 50. (Atención: puesto que el tamaño de la población
dos dígitos, la numeración de los elementos debe ser de dos dígitos, por eso se escribe 01).
Paso 2. De manera aleatoria se selecciona una porción de la tabla, una columna y un renglón.
Supongamos que, en la tabla siguiente, el comienzo fue a partir del segundo bloque y tercer
renglón. Es decir, a partir del número 36292.

24
Paso 3. Ahora, puesto que el tamaño de la población es un número de dos dígitos, los dígitos
de escogen de dos en dos. Entonces los números escogidos (siguiendo hacia abajo) son:

Obsérvese que se descartan el 62, 57, 71 y 51, por que no pertenecen a la población.
Muestreo aleatorio sistemático
Recomendable para poblaciones grandes, heterogéneas y ordenadas aleatoriamente.
Para obtener una muestra sistemática, se procede como se indica a continuación:

Paso 1. Conocido N (el tamaño de la población) y n (el tamaño de muestra), se particionan


las N unidades ordenadas de la población en n grupos de tamaño k; es decir, se calcula el
cociente:

Paso 2: Ahora, del primer grupo seleccionamos aleatoriamente una unidad, digamos que es
la identificada con i; entonces del segundo se tomará la identificada con el número i + k; del
tercero i + 2k; del cuarto i + 3k; del quinto i + k y así sucesivamente hasta completar n.

25
Ejemplo: de una preparatoria de 1000 estudiantes, se desea obtener una muestra
sistemática de tamaño 100. ¿Qué elementos deben seleccionarse?

Ahora, del primer grupo seleccionamos aleatoriamente una unidad, sigamos que es la
identificada con el número 3; entonces del segundo se tomará la identificada con el número
3 + 10; del tercero al 13 +10; del cuarto el 23+10… y del último 983+10.

Muestreo estratificado
Si la variable que nos interesa asume valores muy distintos en diferentes subpoblaciones, se
podrían obtener estimaciones más precisas de las cantidades de la población al tomar una
muestra aleatoria estratificada.

Para obtener una muestra aleatoria estratificada, se procede como sigue:

Primero, se divide la población en subpoblaciones relativamente homogéneas, llamadas


estratos; los estratos no se traslapan y deben conformar la población completa, de modo que
cada unidad de muestreo pertenece exactamente a un estrato.

26
Segundo, se hace un muestreo aleatorio en cada estrato y, posteriormente reunimos la
información para obtener las estimaciones globales de la población. Existen dos criterios para
hacer esta selección:

• Sección simple: es el más sencillo, pero el menos recomendable; consiste en repartir


la muestra total en partes iguales para cada estrato.
• Selección proporcional: se obtiene dividiendo la muestra total en partes
proporcionales a la población de cada estrato.

Ejemplo: se requieren conocer los ingresos semestrales por concepto de exámanes


extraordinarios en 37 preparatorias. Para ellos, se estudiarán 10 preparatorias. ¿Qué
procedimiento de muestreo es el más adecuado?

Solución
Puesto que se sabe de antemano que algunas preparatorias tienen más de 1000 alumnos y
otras menos de 500, se puede dividir la población formada por todas las preparatorias en tres
estratos: preparatorias grandes (con más de 1200 alumnos), medianas (entre 500 y 1200
alumnos) y chicas (con menos de 500 alumnos). El número de preparatorias en cada una de
estas categorías (estratos), es el suiguiente:

Estrato Número de preparatorias


Chica 12
mediana 11
Grande 14
Total 37

Una vez establecidos los estratos, el siguiente paso será un plan de muestreo de manera que
cada grupo quede representado proporcionalmente. La tabla siguiente muestra el porcentaje
correspondiente a cada estrato:

27
Entonces, se estudiarán 3 preparatorias chicas, 3 medianas y 4 grandes.

Muestreo por conglomerados

En los tres procedimientos de muestreo estudiados hasta el momento, se parte de que es fácil
la enumeración de la población. Esto permite tomar de toda la población o de todos los
estratos, la muestra de unidades que serán investigadas directamente. Sin embargo, existen
situaciones en las que no existe ninguna lista utilizable de unidades para ser enumeradas y de
la cual seleccionar la muestra. De aquí, surge la necesidad de seleccionar grandes unidades o
conglomerados en vez de seleccionar elementos directamente de la población.

El procedimiento para seguir es el siguiente:


1. Identificar subdivisiones posibles de la población: estas subdivisiones se denominan
conglomerados, y a menudo ocurren de manera natural. Para lograr los mejores resultados,
las diferencias entre los conglomerados se hacen tan pequeñas como sea posible, en tanto
que las diferencias entre los elementos individuales dentro de cada conglomerado se hacen
tan grandes como sea posible. Lo ideal sería que cada conglomerado fuera una miniatura de
toda la población.
2. Tomar una muestra aleatoria de conglomerados, y analizar a cada individuo
perteneciente a los conglomerados seleccionados. Obsérvese que, en este procedimiento,
los elementos individuales de la población sólo participarán en la muestra, si pertenecen a
un conglomerado incluido en la muestra.

Comparación entre los muestreos

Muestreo aleatorio simple


Se extrae una muestra aleatoria de
toda la población

28
Muestreo aleatorio sistemático
A partir del primer elemento elegido
aleatoriamente del intervalo [1,k] donde
k es el entero más próximo a , se eligen
los
elementos de k en k.
Muestreo por conglomerados
La población se divide en
conglomerados. Se extrae una
muestra aleatoria simple de
conglomerados. Se seleccionan
todos los elementos incluidos en
los conglomerados elegidos.

Muestreo estratificado
La población se divide en estratos. Se
extrae una muestra
aleatoria de cada estrato.

Ejemplo: el director de cierta preparatoria, quiere estimar el número de butacas en mal


estado de su escuela. Puesto que no existe una lista de todas las butacas que le permitan
realizar un muestreo aleatorio simple, y puesto que el sabe que en dicha preparatoria hay
30 aulas cada una con aproximadamente 50 butacas, decide aplicar un muestreo por
conglomerados. Para ello, elige 5 aulas al azar y procede revisar cada una de las butacas de
dichas aulas.

NO PROBABILÍSTICO

Muestreo no probabilístico. En este muestreo, el investigador escoge los elementos de


acuerdo con su juicio, necesidades o conveniencia. Otras muestras que no son de este tipo
son las muestras voluntarias, en las que los receptores de lo solicitado deciden si deben
contestar o no. Ninguno de estos procedimientos es estadísticamente aceptable.

29
Ejemplos
• Si queremos estimar cánto gasta una persona que va de compras a un centro
comercial y extraemos una muestra entre los compradores que parecen haber
gastado cierta cantidad, habremos elegido de manera deliberada una muestra para
confirmar nuestra opinión anterior. Este tipo de muestra se llama muestra de jucio
porque el investigador emplea su propio juicio para elegir los individuos que deben
incluir en la muestra.
• Se desea introducir en el mercado un jabón que limpia las impurezas de la cara. Con
base en su experiencia el investigador decide aplicar directamente el jabón al
público y pedir su opinión en forma escrita. Tal actividad se realiza en centros
comerciales. Todo ello es a conveniencia del investigador, por lo que es una muestra
de conveniencia.
• En algunos restaurantes, se muestra una libreta abierta para que los clientes
escriban de manera voluntaria, su opinión acerca del servicio brindado. Esta es una
muestra voluntaria.
• Son muestras voluntarias, las producidas por las encuestas realizadas por diversos
medios de comunicación, que piden a las personas den su opinión por teléfono u
otro medio, sobre ciertos temas.

Las muestras no probabilísticas, no son aceptables desde el punto de vista estadístico, porque
la selección arbitraria y no estructurada, impide controlar el error muestral. No se conoce
ningún método objetivo para medir la confianza que debe tenerse en los resultados. Sin
embargo, existen algunas situaciones en las que el muestreo no probabilístico se vuelve
alternativa útil. Por ejemplo, en la investigación médica, a menudo se utilizan grupos de
voluntarios.

Resuelve la actividad 3 de tu compendio de ejercicios.

30
BLOQUE II DESCRIPCIÓN GRÁFICA DE UN CONJUNTO DE DATOS

 Representación tabular mediante distribución de frecuencias


 Frecuencia absoluta
 Frecuencia acumulada
 Frecuencia relativa
 Determinación de clases para datos agrupados.
 Criterios, representación y análisis de gráficas
 Histograma
 Polígono de frecuencias
 Circular
 Ojiva

31
BLOQUE II DESCRIPCIÓN GRÁFICA DE UN CONJUNTO DE DATOS

 REPRESENTACIÓN TABULAR MEDIANTE DISTRIBUCIÓN DE FRECUENCIAS

Toda la información recopilada se llama datos. La información puede ser una opinión de las
personas encuestadas sobre un tema en específico, sus gustos por una comida, fritura, bebida,
edad o sexo, el lugar donde viven, el número de personas que viven en una casa habitación,
su tipo sanguíneo, el lugar donde les gustaría a los jóvenes de tu escuela que fuera su
graduación al salir del bachillerato, etcétera.

A continuación, mostramos un ejemplo de una base de datos o tabla, donde se concentra la


información recaba de la variable de interés:

Nombre del Edad Color preferido Inasistencias a Tipo de animal


alumno clase en el mes de que tiene en su
septiembre casa
Vianey 17 Amarillo 0 Perro
Juanita 19 Azul 3 Gato
Isaac 19 Negro 2 Pez
Alejandra 20 Rojo 0 Perro
Elizabeth 16 Azul 0 Ninguno
Guadalupe 18 Rosado 1 Gato
José 18 Amarillo 2 Perro
Alfredo 17 Azul 2 Ninguno
Dolores 18 Verde 6 Perro
Mario 17 Verde 2 Ninguno

Con la tabla anterior, podemos decir que el evento de nuestro interés puede ser: “el color
preferido de tus compañeros de clase”, “el tipo de animal más habitual que tienen en su casa
tus compañeros”, “la cantidad de inasistencias de tus compañeros de clase”, o cualquier otro
fenómeno que se registre.

32
Veamos ahora qué pasa con nuestra base de datos, si agrupamos las veces que se repite un
fenómeno:

Animal
Núm. De que
Color Frecuencia Edad Frecuencia Frecuencia Frecuencia
inasistencias tienen en
su casa
Amarillo 2 16 1 0 3 Perro 4
Azul 3 17 3 1 1 Gato 2
Negro 1 18 3 2 4 Pez 1
Rojo 1 19 2 3 1 Ninguno 3
Rosado 1 20 1 4 0
Verde 2 5 0
6 1

Para llevar a cabo la construcción de dichas tablas, resulta más fácil hacer un coteo de dichos
fenómenos:
Animal
que
Edad Frecuencia Frecuencia
tienen en
su casa
16 / 1 Perro //// 4
17 /// 3 Gato // 2
18 /// 3 Pez / 1
19 // 2 Ninguno /// 3
20 / 1

Elaboración de tablas:

Para la elaboración de informes de algún fenómeno recabado, es necesario la elaboración de


tablas bien elaboradas. Las cuales deben tener los siguientes elementos:
• Título
• Cuerpo de la tabla
• Encabezado (encabezamiento) de las columnas
• Encabezado de las finas
• Nota al pie
• Fuente

33
Ejemplo:

FRECUENCIA ABSOLUTA, ACUMULADA Y RELATIVA


Toda variable o atributo tiene asociada una distribución de frecuencias, que implica una
correspondencia entre dos conjuntos. Por un lado, tenemos el conjunto formado por los
valores que toman la variable o el atributo; por el otro, el de las frecuencias relacionadas con
ellos.

Frecuencia absoluta, es la cantidad de datos que integran cada una de las clases, o sea que
son las repeticiones que encontramos dentro de una misma clase, por ejemplo:
Tipo de Frecuencia
animal (f)
Perro 4
Gato 2
Pez 1
Ninguno 3
Total 10

34
Las frecuencias relativas son un porcentaje, ya que relacionan una parte del conjunto con el
total. La correspondencia entre los valores de la variable y su frecuencia relativa determina lo
que denominamos distribución de frecuencias relativas.

Ejemplo 1 Ejemplo 2
Tipo de Frecuencia Frecuencia Área Frecuencia Frecuencia Porcentaje
animal (f) relativa académica absoluta relativa
Perro 4 4/10=0.4 (f)
Gato 2 2/10=0.2 Ciencias 18 0.60 60%
Pez 1 1/10=0.1 sociales
Ninguno 3 3/10=0.3 Químico- 8 0.27 27%
Total 10 1 biológicas
Físico- 4 0.13 13%
matemáticas
Total 30 1 100%

Resuelve la actividad 4 de tu compendio de ejercicios.

 DETERMINACIÓN DE CLASES PARA DATOS AGRUPADOS

Población en edad preescolar y en edad típica de estudiar en mi comunidad


(Distribución de frecuencias organizadas en clases)
Clases Frecuencia Frecuencia Marca
Cuadro Frecuencia Frecuencia
Límite Límite absoluta relativa de
de absoluta relativa
inferior superior acumulada acumulada clase
conteo fa fr
faa fra mi
0 Menos de 6
6 Menos de 12
12 Menos de 15
15 Menos de 18
18 Menos de 24
24 Mayores de 24
Suma/total

El cuadro anterior contiene varios conceptos que son muy importantes:

• Clase: es cada uno de los grupos en los que concentras la información. (En nuestro ejemplo
hay seis clases). Se denota como un intervalo.
• Límite inferior de una clase: es el valor de la variable con que inicia una clase.
• Límite superior de una clase: es el valor de la variable con que termina una clase.
• Intervalo de clase: es la distancia entre el valor del límite superior y el del límite inferior de
una clase.

35
• Marca de clase: es el resultado de sumar los valores de los límites inferior y superior de cada
clase y dividirlos entre dos. En pocas palabras, es el promedio de los valores de los límites
inferior y superior de una clase.

Cuando los datos son continuos, es decir, provenientes de un proceso de medición es


necesario modificar la distribución de frecuencias, puesto que los datos deben organizarse en
clases.
El proceso para construir una distribución de frecuencias para datos continuos es el siguiente:
1. Se ordenan los datos de menor a mayor.
2. Se determinan el valor máximo y mínimo del conjunto de datos y de calcula la amplitud
o rango con esta fórmula:
Amplitud o rango= valor máximo- valor mínimo
3. Se establece el número de clases (intervalos) de acuerdo con la fórmula:
Número de clases=1+3.3log(n)
Donde log (n) es el logaritmo del número de datos.
Es aconsejable que una distribución de frecuencias tenga cinco clases o más ya que así
se puede determinar el mejor comportamiento de los datos.
4. Se calcula el ancho que debe tener cada clase:

El ancho de clase se refiere a la longitud que existe entre el límite inferior y el límite
superior de una clase.
5. Se ubican los límites de cada clase.
6. Se determina la marca de clase, que es el punto medio entre el límite inferior y el
superior
7. Por último, se cuenta el número de observaciones que corresponden a cada clase, es
decir, la frecuencia absoluta. También se pude calcular la frecuencia relativa (f r)

Ejemplo: se entrevistó a 20 jóvenes para conocer qué cantidad (en litros) de refresco de cola
beben al día. Los resultados se representan a continuación. Con ellos construye una
distribución de frecuencias.

Solución
Primero ordenamos los datos de menor a mayor:

36
En este caso, como la variable de estudio es la cantidad de refresco que beben al día 20
jóvenes, determinamos intervalos para establecer la frecuencia absoluta (f a). el procedimiento
es el siguiente:

1) Identifica el valor mínimo y máximo del conjunto de datos y calcula la amplitud


Amplitud= 1.65-0=1.65
2) Determina el número de clases:
Número de clases= 1+3.3log(20)=5.29
3) Calculamos ahora el ancho que debe tener cada clase:

4) Hallamos los límites de cada clase:

Clase Límites inferiores Límites superiores


1 0 0.33
2 0.33 0.66
3 0.66 0.99
4 0.99 1.32
5 1.32 1.65

5) Determinamos la marca de clase:

Clase Límites inferiores Límites superiores Marca de clase


1 0 0.33 0.165
2 0.33 0.66 0.495
3 0.66 0.99 0.825
4 0.99 1.32 1.155
5 1.32 1.65 1.485

6) Ahora debemos contar el número de observaciones que corresponden a cada clase,


o sea, la frecuencia absoluta (fa). aquí también podemos calcular la frecuencia
relativa (fr)
Clase Límites Límites Marca de fa fr
inferiores superiores clase
1 0 0.33 0.165 6 30%
2 0.33 0.66 0.495 4 20%
3 0.66 0.99 0.825 3 15%
4 0.99 1.32 1.155 3 15%
5 1.32 1.65 1.485 4 20%
Total 20 100%
37
 CRITERIOS, REPRESENTACIÓN Y ANÁLISIS DE GRÁFICAS

HISTOGRAMA
Un histograma es una gráfica de columnas que representa la distribución de frecuencias de
datos continuos. Se utiliza para ver cómo se distribuyen estos últimos, así como qué clases
tienen mayor concentración de datos.

Para trazar un histograma se siguen estos pasos:


1. Se dibujan los ejes coordenados.
2. En el eje x se localizan las marcas de cada clase. Como cada columna ejemplifica un
intervalo de clase, la base debe coincidir con el ancho de clase.
3. En el eje y se refiere la frecuencia (absoluta o relativa), así que la altura de cada
columna corresponde a ésta.

POLÍGONO DE FRECUENCIAS
Un polígono de frecuencias es una gráfica de línea que sirve para representar la distribución
de frecuencias de datos continuos. Igual que el histograma, se utiliza para ver la forma de
la distribución de los datos, así como la ubicación de la mayor concentración de éstos.
Como ya se explicó, un histograma y un polígono de frecuencias sirven para ver la forma de
la distribución de datos. Cada persona decide cómo presentar la gráfica, si con columnas o
con línea.
Para graficar un polígono de frecuencias se siguen estos pasos:
1. Se trazan los ejes coordenados.
2. Se dibuja un punto por cada coordenada. Las coordenadas son pares ordenados
donde la abscisa es la marca de clase (el eje x) y la ordenada es la frecuencia absoluta
o relativa (el eje y).
3. Se unen los puntos.
4. Se cierran los extremos con el eje horizontal.

OJIVA
Una ojiva es una gráfica de línea donde se representa la frecuencia relativa acumulada.
Para graficar una ojiva se siguen estos pasos:
1. Se calcula la frecuencia relativa acumulada.
2. Se dibujan los ejes coordenados.
3. Se dibuja un punto por cada coordenada. Las coordenadas son marca de clase en el
eje x, y la frecuencia relativa acumulada en el eje y.
4. Se unen los puntos.

Ejemplo: retomemos el ejemplo de la entrevista a 20 jóvenes para conocer la cantidad de


litros de refresco de cola que beben al día. Los resultados se presentan en una tabla de
frecuencias. Con esa información, elabora el histograma de frecuencias relativas, el
polígono de frecuencias relativas y la ojiva correspondientes. Asimismo, escribe tus
comentarios.
38
Límite Límite Marca de
Clase fa fr
inferior superior clase
1 0 0.33 0.165 2 10%
2 0.33 0.66 0.495 4 20%
3 0.66 0.99 0.825 4 20%
4 0.99 1.32 1.155 3 15%
5 1.32 1.65 1.485 7 35%
Total 20 100%

Solución
Tracemos primero el histograma. Para ello, tomamos los datos de las columnas Marca de
clase y fr.

Como se observa en la gráfica, la clase con mayor concentración es la de 1.485 L y la clase con
menor concentración es la de 0.165 L. Es decir, 35% de los entrevistados toman en promedio
1.485 L de refresco, mientras que 10% bebe en promedio 0.165 L.

Para el polígono de frecuencias, tomamos los datos de las columnas marca de clase y f r, pero
se realiza una gráfica de línea.

39
Al observar el polígono de frecuencias, llegamos a las mismas conclusiones que en el
histograma: 35% de los entrevistados toman en promedio 1.485 L de refresco y 10% bebe en
promedio 0.165 L.

Antes de trazar la ojiva debemos calcular la frecuencia relativa acumulada.


Límite Límite Marca de fr
Clase fa fr
inferior superior clase acumulada
0 0 0 0
1 0 0.33 0.165 2 10% 10%
2 0.33 0.66 0.495 4 20% 30%
3 0.66 0.99 0.825 4 20% 50%
4 0.99 1.32 1.155 3 15% 65%
5 1.32 1.65 1.485 7 35% 100%
Total 20 100% ----

Ahora, para elaborar la ojiva, tomamos los datos de las columnas marca de clase y f racum y
trazamos una gráfica de línea:

De la ojiva podemos concluir que 30% de los entrevistados consumieron menos de 0.4125
L de refresco. La mitad, es decir, 50% consumieron menos de 0.825 L, en tanto, 65%
consumieron menos de 1.2375 L.

CIRCULAR
Un diagrama circular o de pastel, se usa para representar una
distribución de frecuencias de datos discretos o categóricos
y, como su nombre lo indica, hay que trazar un círculo, en el
que luego hay que dibujar divisiones (rebanadas) que
representan la frecuencia relativa.

El ángulo que describe una circunferencia mide 360°, osea, el


circulo es el sector circular cuyo ángulo mide 360°; y por otra
parte la suma de todos los datos de una distribuación
determinada equivale al 100%. En consecuencia todo el
circulo equivale al 100% y esto nos permite establecer una
relación entre grados y porcientos.

40
Entonces, para convertir porcentajes a grados, multiplicamos por 3.6

Procedimiento para dibujar un diagrama circular


1. Multiplicar los porcentajes por 3.6; esto da la medida angular del sector representado
de cada porcentaje.
2. Se traza una circunferencia de radio arbitrario, en función del espacio disponible.
3. Se traza un radio y a partir de él se miden con un trasportador los grados
correspondientes a cada sector yendo del mayor al menor.
4. Terminado el punto anterior se escriben en cada sector los datos porcentuales
correspondientes; luego se anexa el título y la fuente y demás indicaciones necesarias
para hacer comprensible la gráfica.

Ejemplo 1
Construiremos ahora, el gráfico circular con base en la tabla de
frecuencias correspondiente a los datos de elección de fase
especializada.

Anexar una columna a la tabla anterior y anotar en ella, la equivalencia


de cada porcentaje a grado.

Finalmente, con la ayuda de un transportador dibujamos el gráfico


circular:

41
Resuelve la actividad 5 de tu compendio de ejercicios.

¡Felicidades!, has concluido la primera unidad que corresponde al bloque 1 y bloque 2,


ve a la sección de ejercicios y resuelve los ejercicios correspondientes.

42
BLOQUE III MEDIDAS ESTADÍSTICAS

 Medidas de tendencia central para datos simples y agrupados


 Media
 Mediana
 Moda
 Sesgo
 Medidas de dispersión para datos simples y agrupados
 Rango
 Desviación media
 Varianza
 Desviación estándar
 Límites estadísticos
 Cuartiles, deciles y percentiles

43
BLOQUE III MEDIDAS ESTADÍSTICAS

 MEDIDAS DE TENDENCIA CENTRAL PARA DATOS SIMPLES Y AGRUPADOS


Las medidas de tendencia central son llamadas así porque “tienden” a localizarse en el
centro de la información (de ahí que también se les conozca como medidas de posición).
Son de gran importancia en el manejo estadístico de los datos porque sirven para resumir
todo un conjunto de valores. Su interpretación es importante, pero no debe hacerse de
manera aislada ya que son de gran utilidad combinadas con otras medidas que se explican
más adelante, las de variabilidad.

MEDIA
La media de un conjunto de valores es igual a la suma de dichos valores dividida entre el
número de ellos.

̅, media muestral
µ, media poblacional; 𝒙
Fórmula :

Ejemplo para datos simples:

Un grupo de 50 bailarinas se presentó a un casting para una comedia musical, registrando las
siguientes edades:

Aplicando la fórmula para la media tenemos:

44
Ejemplo para datos agrupados:
Interpretando este resultado diríamos que la edad promedio de las bailarinas candidatas a
participar en la comedia musical fue de 20.1 años. La figura muestra la distribución de los
datos y la ubicación de la media para este caso, observa que se localiza cerca del centro de los
valores.

La figura muestra que varios datos se repiten, esto es, se tiene 3 valores 18,16 valores de 19,
10 valores de 20, etc., lo que simplifica el cálculo gracias a la relación entre la suma y la
multiplicación. De esta manera, la media quedaría:

El número dentro del paréntesis es el número de veces que se presenta el valor, es decir, su
frecuencia absoluta, lo cual nos permite construir una tabla de frecuencias simple:

45
Así, la fórmula para calcular la media sufre algunas modificaciones:

MEDIANA

Es el valor que divide al grupo de datos en dos partes iguales, 50% por debajo de él y el otro
50% por arriba del mismo.

Para encontrar la mediana, para la cual utilizaremos el símbolo Me, se procede de la


siguiente manera:
1. Se ordenan los datos de menor a mayor.
2. Identificamos el valor que se ubique justo en medio de los datos, aquí se pueden
presentar dos casos:
a) Cuando el número de datos n es impar, la mediana coincidirá con uno de los
valores, siendo éste precisamente el que queda justo en medio de ellos. Si observas
los dedos de tu mano derecha, cuyo número es impar (5), y los enumeramos
viéndolos del lado de la palma, empezando por el meñique, encontramos que el
dedo de en medio (3), queda exactamente a la mitad de los dedos.
b) Cuando n es par, la mediana es el promedio de los dos valores centrales. En este
caso no necesariamente con uno de los valores, salvo que los dos fueron iguales.

46
Ejemplo para datos simples:

Hallemos la mediana de los siguientes valores, los cuales representan las calificaciones de 5
estudiantes en una prueba:

3.9 7.7 5.1 8.1 7.8

En este caso n es impar, 5, por lo tanto, la mediana será justo el valor de en medio, una vez
ordenados los datos. Así, tenemos:

3.9 5.1 7.7 7.8 8.1

El valor central, es la mediana: así Me=7.7. esto significa que 50% de los alumnos tienen
calificaciones menores o iguales que 7.7, entre 3.9 y 7.7 para ser más precisos; mientras que la
otra mitad obtuvo calificaciones mayores o iguales que 7.7.

Ahora veamos un caso en donde n sea par. Continuando con las calificaciones, supongamos
que se tienen los siguientes datos:

6 8 10 7 9 9

En donde n=6, número par. Ordenando tenemos:

6 7 8 9 9 10 n= par

Es este caso tenemos dos valores centrales, 8y9; por lo tanto, la mediana se obtiene
promediando dichos valores, es decir, sumándolos y dividiendo el resultado entre 2.

47
Ejemplo 1 para datos agrupados:
En la siguiente figura se representan las
calificaciones en un examen de Taller de Lectura y
Redacción de un grupo de alumnos de bachillerato,
indicando las frecuencias respectivas.

Para proceder a ubicar la posición de la mediana, es necesario agregar la columna de


frecuencias acumuladas, quedando la tabla anterior así:

Como los valores ya están ordenados de manera ascendente, ahora procedemos a


utilizar la fórmula para conocer la posición de la mediana:

Me=7

Ejemplo 2 para datos agrupados:

Veamos el caso de una variable medida en escala ordinal.

A continuación, se presentan las evaluaciones de 33 clientes sobre la calidad en el servicio de


un restaurante.

48
Agregando la columna de la frecuencia acumulada tenemos:

MODA

Es el dato o valor de la variable que ocurre con mayor frecuencia. El símbolo que se utiliza es
Mo.

Hallar la moda es muy sencillo:


1. Organiza los datos en una tabla de frecuencias simple.
2. Identifica el dato con mayor frecuencia y éste será la moda.

Ejemplo para datos agrupados:

Los siguientes datos representan las calificaciones de 15 alumnos en un examen de


matemáticas:
5, 9, 9, 8, 7, 6, 8, 10, 8, 8, 8, 7, 6, 6, 7
Reorganizando los datos en una tabla de frecuencias simple tenemos:

49
La mayor frecuencia es 5; por lo tanto, Mo=8.
El valor de la moda lo encontramos dentro de los valores de la variable.

SESGO

El sesgo describe cómo es la distribución de los datos, ya que indica hacia dónde tienden a
concentrarse éstos. Una distribución puede ser:
• Simétrica, si la mayor concentración de datos se localiza en el centro de la
distribución.
• Sesgada a la derecha, si la mayor concentración de datos está a la izquierda de la
distribución.
• Sesgada a la izquierda, si la mayoría de los datos están concentrados a la derecha.
Esto se puede determinar gráficamente, o bien, comparando la media, la moda y la mediana,
de allí la importancia de estas tres medidas de tendencia central:

50
Resuelve la actividad 6 de tu compendio de ejercicios.

 MEDIDAS DE DISPERSIÓN PARA DATOS SIMPLES Y AGRUPADOS

Es importante también analizar cuán cercanos o lejanos están los datos respecto, por ejemplo,
al valor medio. Para determinar esto se recurre a las llamadas medidas de dispersión o de
variabilidad; de ellas, las medidas más importantes son el rango, la varianza y la desviación
estándar

RANGO PARA DATOS SIMPLES


El rango, a veces también denominado recorrido, es la medida de dispersión más fácil de
determinar, ya que depende de dos valores. Se calcula de esta manera:
R= Xmáx – Xmín
Donde R, es el rango o recorrido.
Xmáx, es el valor máximo del arreglo ordenado.
Xmín, es el valor mínimo del arreglo ordenado.

Algunas desventajas que presenta el rango son:


• Ignora la distribución de los datos, es decir, no considera si es unimodal o miltimodal,
o cuál es el sesgo.
• Los valores aberrantes influyen en el valor del rango.

Ejemplo:
Calcula los rangos de las muestras siguientes:

Solución
Para la muestra 1:

Para la muestra 2:

51
VARIANZA PARA DATOS SIMPLES

La varianza es la medida de dispersión más importante, pues tiene como base el promedio
aritmético de las desviaciones (distancia de un valor con respecto a la media) elevado al
cuadrado. En otras palabras, muestra cuán alejados o cuán cercanos están los datos
respecto a la media.

Para calcular la varianza de la población o poblacional se utiliza esta fórmula:

Si se desea calcular la varianza de la muestra o muestral, entonces se usa:

DESVIACIÓN ESTÁNDAR PARA DATOS SIMPLES

La desviación estándar es la medida de dispersión más utilizada, ya que el resultado se expresa


en las mismas unidades que los datos originales. La desviación es la raíz cuadrada de la
varianza.

Para calcular la desviación estándar de la población se utiliza:

52
Si se desea calcular la desviación estándar de la muestra o muestral, entonces se usa:

En el cálculo de la desviación estándar muestral se divide entre n-1, y no entre N, como en


el caso del cálculo de la desviación estándar poblacional, porque la media que se utiliza es
la de la muestra; por tanto, hay que realizar un pequeño ajuste.

Ejemplo:
Calcula la varianza y la desviación estándar de la muestra siguiente:

5, 6, 3, 0, -2, -1, 3
Solución
Primero, calculamos la media:

Después, calculamos la varianza de la muestra:

Esto es, s2= 9.3333


Finalmente, obtenemos la raíz cuadrada de la varianza para conocer la desviación
estándar:

53
VARIANZA APROXIMADA PARA DATOS AGRUPADOS
Si se desea calcular la varianza de la muestra, entonces se usa:

DESVIACIÓN ESTÁNDAR PARA DATOS AGRUPADOS


Si se desea calcular la desviación estándar de la muestra, entonces se usa:

Ejemplo:
Cantidades consumidas de refresco de cola:

54
Con esta información calcula las medidas de tendencia central y de dispersión aproximadas. ¿A qué
conclusiones llegas?

Solución
Para la media aproximada:

Lo que indica que una persona bebe, en promedio, 1.2169 litros.


Para la mediana aproximada, como el tamaño de la muestra es un número par (n=20),
20 20
entonces la mediana se encuentra entre 2 y 2 + 1, es decir, en la posición 10.5.
nos fijamos en la columna de la frecuencia acumulada, donde se encuentra el 10.5.

Clase Marca de clase fa fa acum


0 0.4125 0.2063 2 2
0.4125 0.825 1.6188 4 6
0.825 1.2375 1.0313 4 10
1.2375 1.65 1.4438 3 13
1.65 2.065 1.8563 7 20

Entonces:

Lo que indica que 50% de las personas beben menos (o más) de 1.2375 litros.

55
Para la moda, como es la marca de clase con mayor frecuencia absoluta, entonces la cantidad típica
consumida de refresco es de 1.8563 litros.
Para la varianza aproximada, calculamos las columnas siguientes,
Clase Marca de fa fa acum fa*X fa*X2
clase(x)
0 0.4125 0.2063 2 2 0.4126 0.0851
0.4125 0.825 1.6188 4 6 2.475 1.5314
0.825 1.2375 1.0313 4 10 4.125 4.2539
1.2375 1.65 1.4438 3 13 4.33125 6.2532
1.65 2.065 1.8563 7 20 12.99375 24.1196
Suma= 24.3375 36.2433

Sustituimos en la fórmula,

Para la desviación estándar aproximada sólo calculamos la raíz cuadrada de la varianza:

Lo que significa que la dispersión respecto al consumo promedio de refrescos de cola es de +/- 0.5906
litros. En otras palabras, una persona toma en promedio 1.2169 litros de refresco, pero podría tomar
entre 0.6263 y 1.8075 litros.

DESVIACIÓN MEDIA
Medida de dispersión menos ocupada:
La desviación media, se define como la media de los valores absolutos de las desviaciones
de los datos de una variable con respecto a la media.

Ejemplo para datos simples:


Calcular la desviación estándar media de los datos:
6, 10, 10, 10, 9, 7, 10, 9, 10, 7, 10
Solución
Para hallar la desviación media seguiremos cuatro pasos:
1. Calcular la media.
2. Se resta la media de cada dato de la variable, lo que produce la separación de cada
dato respecto a la media (desviación).
3. Se toman los valores absolutos de cada desviación.

56
4. Se suman los valores absolutos de las desviaciones y el resultado se divide entre
el total de datos.

Resuelve la actividad 7 de tu compendio de ejercicios.

 LÍMITES ESTADÍSTICOS

Para comprender el concepto de límites estadísticos, analicemos el siguiente ejemplo: Una


muestra aleatoria de 10 latas de alimento, elegidos en los dos turnos de producción, pasan al
departamento de control de calidad para verificar los estándares establecidos.

La variable para medir es el peso drenado del producto, cuyos límites permitidos varían de
220g (límite inferior) a 230g (límite superior), para ambos límites se incluyen (en
probabilidad, se maneja el término inclusive) los valores de referencia (220 ≥ X ≤ 230).

La muestra arroja una media de 215 g, razón por la cual se ha tomado la decisión de detener
y revisar el proceso de producción y revisar el proceso con el propósito de corregirlo y
normalizar la producción.

57
Ejemplo para datos simples:

El ácido úrico es un compuesto orgánico de carbono, nitrógeno, oxígeno e hidrógeno, éste es


un deshecho del metabolismo del cuerpo humano y se encuentra en la orina en pequeñas
cantidades.

También se puede decir que el ácido úrico son sustancias que se forman principalmente en
el hígado a partir de los núcleos celulares animales como la carne o el pescado, y que se
eliminan a través de la orina. Los valores normales en el caso de los hombres adultos se
encuentran en el intervalo de 3.0 a 8.5 mg/dL.

Los siguientes datos representan los niveles de ácido úrico de 20 pacientes varones adultos:

En este ejemplo se puede ver que el límite inferior permitido es 3.0 mg de ácido úrico/dL de
orina; y que el límite superior es 8.5 mg de ácido úrico /dL de orina. De acuerdo con los datos
registrados hay 3 personas con muestras menores al límite inferior: 1.4 mg/dL, 2.7 mg/dL y
2.4 mg/dL y deben ser atendidos; pero ninguna persona sobre pasa el límite superior por lo
que se consideran dentro del rango normal.

 CUARTILES, DECILES Y PERCENTILES

La utilización de un único número para resumir un conjunto de datos, muy rara vez es
suficiente. Por tal razón, es necesario determinar otros indicadores que nos orienten en donde
están los datos. la mediana junto con otras cuatro medidas, constituyen los llamados cinco
números de resumen. Estos cinco números son: el mínimo (dato), el primer cuartil, la mediana
(o segundo cuartil), el tercer cuartil y el máximo. Estas medidas, se llaman de posición puesto
que se utilizan para describir la posición que un dato específico posee en relación con el resto
de los datos cuando están ordenados de menor a mayor.

El primer cuartil (denotado por Q1), es un número tal que a lo sumo 25% de los datos son
menores que Q1 y a lo sumo 75% son mayores. El segundo cuartil es la mediana. El tercer
cuartil (denotado Q3), es un número tal que a lo sumo 75% de los datos son menores que Q3
y a lo sumo 25% son mayores.

58
Cálculo de los cuartiles para datos NO Cálculo de los cuartiles para datos
agrupados agrupados

𝒏
𝒌 (𝟒 ) − 𝑭𝒌−𝟏
𝑸𝒌 = 𝑳𝒌 + ∗𝑪
𝒇𝒌

Ejemplo 1 para datos no agrupados:


Determinar los cuartiles de los datos:
5, 9, 8, 10, 6, 8, 10, 8, 9
Solución
1. Ordenar los datos: 5, 6, 8, 8, 8, 9, 9, 10, 10
2. Posición de la mediana:
n=9

3. La mediana es la 5ta observación de la serie ordenada:

4. Ignorando la posición (y el valor de la mediana), el primer cuartil es la mediana de los


números 5, 6, 8y 8. Entonces,

De manera similar,

Entonces,

Ejemplo 2 para datos no agrupados:

Los siguientes datos fueron obtenidos en el laboratorio de suelos de la Universidad Cooperativa


de Colombia midiendo con un termómetro eléctrico la temperatura (en °C) de 24 picnómetros,
con el finde calibrarlos, obteniendo:
59
Determine el cuartil 1 y 3. Concluya.

Solución:
1. Organizamos los datos de menor a mayor
25, 25, 25, 26, 26, 27, 27, 28, 28, 28, 28, 28, 29, 30, 30, 30, 31, 31, 31, 31, 31, 32, 32, 35
2. Aplicamos la fórmula:

3. Buscamos en los datos la posición dada (6), dando como Q1=27ºC


El 25% de los picnómetros usados en el laboratorio de suelos de la Universidad Cooperativa de
Colombia tienen una temperatura de 27ºC o menos y el otro 75% más.

El 75% de los picnómetros usados en el laboratorio de suelos de la Universidad Cooperativa de


Colombia tienen una temperatura de 31ºC o menos y el otro 25% más.

Ejemplo 3, para datos agrupados:

Hallar el primer y tercer cuartil en la siguiente tabla de frecuencias acumuladas:


Estaturas, en pulgadas, de 50 obreras de Estados Unidos.
Clase Intervalo fi mi Fi fi/n Fi/n
1 53-55 2 54 2 2/50 2/50
2 56-58 5 57 7 5/50 7/50
3 59-61 9 60 16 9/50 16/50
4 62-64 15 63 31 15/50 31/50
5 65-67 12 66 43 12/50 43/50
6 68-70 5 69 48 5/50 48/50
7 71-73 2 72 50 2/50 50/50

Solución:
Para el primer cuartil:
El elemento i-ésimo en donde finaliza el cuartil= k(n/4)=1(50/4)= 12.5
Ubicamos la clase en donde la frecuencia acumulada es igual o sobrepasa este número.
El elemento 13 (en la tabla ordenada) está en la tercera clase.
Entonces: L1=58.5 n=50 F1=7 f1=9 c=3

60
Q1= 60.33

El 25% de las obreras tienen estatura por debajo de las 60.33 pulgadas.
El 75% de las obreras tienen estatura por encima de las 60.33 pulgadas.

Recoerdemos que partimos de una tabla ordenada:


Para el tercer cuartil:
El elemento i-ésimo en donde finaliza el cuartil= k(n/4)=3(50/4)=37.5
Ubicamos la clase en donde la frecuencia acumulada es igual o sobre pasa este número.
El elemento 38 (en la tabla ordenada) está en la quinta clase.
Entonces: L3= 64.5 n=50 F3=31 f3=12 c=3

Q3= 66.13
El 75% de las obreras tienen estatura por debajo de las 66.13 pulgadas
El 25% de las obreras tienen estatura por encima de las 66.13 pulgadas.

Deciles: Los deciles son los nueve valores que dividen la serie de datos en diez partes
iguales. Los deciles dan los valores correspondientes al 10%, 20%, … y al 90% de los datos.

El decil 5 (D5) coincide con la mediana.

Cálculo de los deciles para datos NO Cálculo de los deciles para datos
agrupados agrupados

K= 1, 2, …, 9 en los datos previamente


organizados.

Ejemplo para datos no agrupados o simples:

Para la siguiente colección de datos 1, 1, 1, 2, 3, 3, 4, 4, 5, 9, 9, 19, 20 y 20 calcule el octavo decil.


Datos:
Decil a calcular= 8, por lo tanto k=8
n= número de observaciones= 14
Solución:
D8=8(14+1)= 12 (posición 12), el valor en la posición 12 es el número 19

61
10

Ejemplo para datos agrupados:

Hallar el decil 7 para la tabla de frecuencias.


Estaturas, en pulgadas, de 50 obreras de Estados Unidos.
Clase Intervalo fi mi Fi fi/n Fi/n
1 53-55 2 54 2 2/50 2/50
2 56-58 5 57 7 5/50 7/50
3 59-61 9 60 16 9/50 16/50
4 62-64 15 63 31 15/50 31/50
5 65-67 12 66 43 12/50 43/50
6 68-70 5 69 48 5/50 48/50
7 71-73 2 72 50 2/50 50/50

Para el decil 7:

El elemento i-ésimo en donde finaliza el decil= k(n/10)= 7(50/50)=35

Ubicamos la clase en donde la frecuencia acumulada es igual o sobrepasa este número.

El número 35 (en la tabla ordenada) está en la quinta clase.

Entonces: L7=64.5 n=50 F7=31 f7=12 c=3

D7=65.5
El 70% de las obreras tienen estatura por debajo de la 65.5 pulgadas.
El 30% de las obreras tienen estatura por encima de las 65.5 pulgadas.

Percentiles: los percentiles son los 99 valores que dividen la serie de datos en 100 partes
iguales.
Los percentiles dan los valores correspondientes al 1%, 2%, … y al 99% de los datos.
El percentil 50 coincide con la mediana (P50)
Cálculo de los PERCENTILES para datos Cálculo de los PERCENTILES para datos
NO agrupados agrupados
𝒌(𝒏 + 𝟏) 𝒌𝒏
𝑷𝒌 = − 𝑭𝒌−𝟏
𝟏𝟎𝟎 𝑷𝒌 = 𝑳𝒌 + 𝟏𝟎𝟎 𝑪
𝒇𝒌

62
Ejemplo para datos agrupados:
Hallar el percentil 8 de la tabla de frecuencias.
Estaturas, en pulgadas, de 50 obreras de Estados Unidos.
Clase Intervalo fi mi Fi fi/n Fi/n
1 53-55 2 54 2 2/50 2/50
2 56-58 5 57 7 5/50 7/50
3 59-61 9 60 16 9/50 16/50
4 62-64 15 63 31 15/50 31/50
5 65-67 12 66 43 12/50 43/50
6 68-70 5 69 48 5/50 48/50
7 71-73 2 72 50 2/50 50/50

Para el percentil 8:
El elemento i-ésimo en donde finaliza el percentil= k(n/100)=8(50/100)=40
Ubicamos la clase en donde la frecuencia acumulada es igual o sobrepasa este número.
El elemento 40 (en la tabla ordenada) está en la quinta clase.
Entonces: L8=64.5 n=50 F8=31 f8=12 c=3

P8=66.75
El 80%de las obreras tienen estatura por debajo de las 66.75 pulgadas.
El 20% de las obreras tienen estatura por encima de las 66.75 pulgadas.

Resuelve las actividades 8, 9 y 10 de tu compendio de ejercicios.

¡Felicidades!, has concluido la segunda unidad que corresponde al bloque 3, ve a la


sección de ejercicios y resuelve los ejercicios correspondientes.

63
BLOQUE IV COMPORTAMIENTO DE DOS VARIABLES

 Correlación de variables
 Representación
 Regresión lineal

64
BLOQUE IV CORRELACIÓN DE DOS VARIABLES

 CORRELACIÓN DE VARIABLES

Hasta ahora, nuestro estudio se ha limitado a investigar el comportamiento de sólo una


variable. Por ejemplo, de un grupo de estudiantes estudiamos: calificaciones, estaturas, color
favorito, etc. En esta última unidad de nuestro curso, estudiaremos el comportamiento de dos
variables simultáneamente, con el fin de determinar la posible relación entre ellas. Por
ejemplo, ¿podría haber alguna relación entre las calificaciones obtenidas por un estudiante y
el tiempo que dedicó a estudiar?, ¿o entre su estatura y la de su papá?
Así pues, manejaremos dos variables simultáneamente. Esto nos lleva a la siguiente definición:
Datos bivariados o bidimensionales, son los valores de dos variables diferentes que se
obtienen del mismo individuo poblacional.

REPRESENTACIÓN

En fenómenos que llevan directamente a una relación funcional, los puntos que representan
los valores de las variables, se ajustan perfectamente a una recta o a una curva.

En cambio, en fenómenos que implican una relación estadística, los datos observados originan
una “nube de puntos”, como los mostrados a continuación:

65
Estos gráficos reciben el nombre de gráficos de dispersión y se utilizan para representar
distribuciones bidimensionales.

Distribución bidimensional de una muestra de tamaño n, es un conjunto de datos originados


al tomar dos medidas a cada individuo de la muestra, es decir, se investigan qué valores
toman, en ellos, dos variables, X y Y. Se obtienen así un conjunto de pares de valores:

Gráfico de dispersión, es una representación gráfica de dos valores (bivariados), en la que


cada par de datos (xi, yi) es representado por un punto de coordenadas (xi, yi), en un sistema
de ejes coordenados.

Ejemplo:
La tabla siguiente muestra las calificaciones obtenidas en los exámenes finales de
matemáticas, mecánica e inglés por 12 estudiantes de un grupo de segundo de preparatoria.

66
¿Existe alguna relación entre:
- Calificaciones de matemáticas y calificaciones de mecánica?
- Calificaciones de matemáticas y calificaciones de inglés?

A continuación, construimos un gráfico de dispersión para las dos distribuciones


bidimensionales señaladas:
-Calificaciones de matemáticas y calificaciones de mecánica.
-Calificaciones de matemáticas y calificaciones de inglés.

Los gráficos nos permiten observar que en la primera distribución (matemáticas-mecánica),


los puntos están más alineados y, por tanto, la correlación o (relación) entre las variables es
más fuerte. En la segunda se ve una correlación débil.

La fuerza o debilidad de una correlación se percibe mejor su trazamos una recta que se ajuste
lo mejor posible a la nube de puntos. Esta recta se llama recta débil.
La fuerza o debilidad de una correlación se percibe mejor si trazamos una recta que se ajuste
lo mejor posible a la nube de puntos. Esta recta se llama recta de regresión.

En un primer momento, estas rectas pueden trazarse al tanteo, intentando que crucen por
el centro de la nube de puntos. Para lograr esto, ayuda mucho el pasar la recta por el punto
(𝑥̅ , 𝑦̅), es decir, por el punto con abscisa igual a la media de la primera variable y como
ordenada la media de la segunda variable.

67
REGRESIÓN LINEAL
Gráficos de la dispersión con la recta de regresión.

Resuelve:
a) Calcula la media de las calificaciones en matemáticas, llámala 𝑥̅ .
b) Calcula la media de las calificaciones en mecánica, llámala 𝑦̅.
c) Calcula la media de las calificaciones en inglés, también llámala 𝑦̅.

Tabla de contingencia
La de contingencia es una tabla que se utiliza para clasificar el número de observaciones
respecto a dos características o variables de interés. Las variables pueden ser cualitativas o
cuantitativas.

Ejemplo:
Alicia es una persona que gusta de la lectura y la estadística. Un día, se pregunta si podría
asociar el número de páginas de un libro con su precio; es decir, considera que el precio
de un libro depende del número de páginas.
Para comprobarlo, decide recopilar la información correspondiente a ocho libros y
construir una tabla de contingencia, lo cual queda de esta manera:

En este caso, “Título” es una variable cualitativa que sirve de identificador, en tanto que
“Núm. de págs.” y “Precio” son variables cuantitativas.

68
Muchas veces no es necesario incluir en la tabla de contingencia variables cualitativas, sólo
se presentan los valores de las variables cuantitativas; de esta forma, la tabla anterior
quedaría como sigue:

Paso 1: Diagrama de dispersión.


Ya que Alicia ha recopilado la información sobre el precio de los libros y el número de
páginas, realiza un diagrama de dispersión para determinar cómo es la relación que hay
entre ambas variables. En el diagrama de dispersión, se asigna una variable al eje x y la
otra al eje y. En el diagrama siguiente, nota que la variable “Número de páginas” se asignó
al eje x y la variable “Precio (en $)” al eje y: (Realizar el diagrama de dispersión)

69
Paso 2: Análisis de correlación, covarianza.
Covarianza
La covarianza es una medida descriptiva que permite determinar el tipo de asociación
lineal entre dos variables. La covarianza poblacional se obtiene mediante la fórmula:

Por su parte, la covarianza muestral se calcula de la siguiente manera:

La interpretación es sencilla

70
Una vez que Alicia dibujó el diagrama de dispersión para relacionar el número de páginas
y el precio de los libros, calcula la covarianza entre estas variables para determinar
numéricamente, cómo es la relación lineal, si ésta existe, entre ellas.

71
Como cree que el número de páginas determina el precio de un libro, entonces:

Por tanto,

Interpretación. Como el valor de la covarianza es positivo, indica que la relación lineal entre
el número de páginas y el precio del libro es directa, es decir, cuando aumenta el número de
páginas, el precio del libro aumenta también.

Paso 3: Análisis de correlación, coeficiente de correlación.


Aunque la covarianza indica el tipo de relación lineal que hay entre dos variables, no
podemos saber la fortaleza de esa relación. Para eso debemos calcular otro valor, llamado
coeficiente de correlación. El coeficiente de correlación se utiliza para medir la magnitud
de la relación lineal entre dos variables, es decir, indica cuán fuerte o débil es una relación
lineal.

Se denota con la letra r y también se le conoce como r de Pearson, en honor a Karl Pearson.

72
Se calcula de esta forma:

Si lo que se desea (aunque no es muy usual) es determinar el coeficiente de correlación


poblacional, la fórmula es la siguiente:

El rango de valores está entre -1 y +1; los valores intermedios pueden interpretarse, de
forma intuitiva, de esta manera:

73
Gráficamente se verían así:

74
Ahora, Alicia calcula el coeficiente de correlación entre número de páginas y el precio de
los libros para establecer cuán fuerte (o débil) es la relación lineal entre las variables:
Datos:

Entonces:

Interpretación. El coeficiente de correlación obtenido es 0.6497, lo que indica que la


asociación lineal entre el número de páginas y el precio del libro es directa (cuanto mayor
el número de páginas, mayor el precio y viceversa) y débil.

Paso 5: Análisis de correlación, coeficiente de determinación.


Cuando lo que interesa es analizar una relación de causalidad entre dos variables, primero
debemos definir cuál de ellas es la variable Y, variable dependiente, y cuál es la variable X,
variable independiente.

La variable dependiente Y es la que se busca explicar; en términos estadísticos, es


la que se busca estimar o pronosticar. A su vez, la variable independiente X es la que brinda
información para explicar Y y recibe el nombre de variable de predicción.

Para saber si una variable X es “buena” para explicar la variable Y se calcula el coeficiente de
determinación, que representaremos con r2 y que tiene las características siguientes:
• Es el cuadrado del coeficiente de correlación.
75
• Su rango de valores está entre 0 a 1.
• No da ninguna información sobre la dirección de la relación entre las variables.

Cuanto más cerca esté de 1, la variable independiente X será una buena variable
para explicar Y. Es decir, es un factor determinante para Y. En contraparte, conforme r2 se
acerca a 0, indica que X no es un factor significativo para explicar Y.
Siguiendo con el ejemplo, ahora Alicia calcula el coeficiente de determinación:
r2=0.4221

Interpretación. El coeficiente de determinación indica que la variable “número de páginas”,


explica el 42.21% de la variabilidad del “precio del libro”. En otras palabras, para poder
explicar completamente el precio de un libro debemos considerar otros factores, no sólo el
número de páginas.

Paso 6: Regresión lineal, método de mínimos cuadrados.


El análisis de regresión consiste en definir la variable independiente X que ayude a explicar
(estimar) la variable dependiente Y, siempre que exista una relación lineal entre ellas,
además de que ambas variables deben ser cuantitativas.

El método de mínimos cuadrados se usa para determinar la ecuación de la recta de


regresión, es decir, por medio de él se encuentra la única recta que pasa lo más cerca que
se puede de todos los puntos (observaciones) ubicados en un diagrama.

La ecuación del método de mínimos cuadrados es:

Para obtener la pendiente y la ordenada al origen de dicha recta, llamada recta de


regresión o de mínimos cuadrados, hay que minimizar el término:

76
Minimizando esas distancias se obtienen b o, la ordenada al origen, y b1, la pendiente de la
recta. Así las ecuaciones para determinar b 0 y b1 son:

Ahora sí, como Alicia ya aprendió el método de mínimos cuadrados, puede determinar la
ecuación de la recta para el precio del libro.
Datos:

Se sustituyen los valores en la fórmula y queda:

La ecuación de regresión es: Y´=0.1944X + 128.19

77
Interpretación. Cuando el libro tiene cero páginas, el precio estimado es de $128.19. por cada
página que aumente el libro, el precio estimado aumenta en $0.1944.
Si se tiene un libro con 666 páginas, entonces el precio estimado será de:

Y´=0.1944(666)+128.19=257.66; es decir $257.66

Resuelve la actividad 11 de tu compendio de ejercicios.

¡Felicidades!, has concluido la tercera unidad que corresponde al bloque 4, ve a la sección de


ejercicios y resuelve los ejercicios correspondientes.

78
BIBLIOGRAFÍA

 Asurza O., H. (2006). Glosario básico de términos estadísticos.


https://www.inei.gob.pe/media/MenuRecursivo/publicaciones_digitales/Est/Lib0900/Libro.pdf

 Becerra E., J. M. (2009). Matemáticas básicas. Estadística descriptiva.


http://132.248.164.227/publicaciones/docs/apuntes_matematicas/34.%20Estadistica%20Descript
iva.pdf

 Blair, R. C. & Taylor, R. A. (2008). Bioestadística.


https://s3.amazonaws.com/academia.edu.documents/52083716/Bioestadistica.Blair.Taylor.pdf?A
WSAccessKeyId=AKIAIWOWYYGZ2Y53UL3A&Expires=1531118825&Signature=KeDxtNZQNfrbmqW
tiQRguYxxHic%3D&response-content-
disposition=inline%3B%20filename%3DBioestadistica_Blair_Taylor.pdf

 Cardoso, C. M., Carollo, M. C., Otero, X. L. & Pateiro, B. (2014). Bioestadística.


http://eio.usc.es/pub/pateiro/files/Bioestadistica_Theory.pdf

 Castillo V., L. C. y Lozada H., J. (2012). Probabilidad y estadística. Gobierno del estado de
Veracruz.
https://pacoelchato.org/Preparatoria/Quinto-Grado/Probabilidad-y-estadistica-
I/index.html

 Córdoba N., V. M. y Cortés L., A. U. (2009). Probabilidad y estadística I. Colegio de bachilleres


del estado de Sonora.
https://www.cobachenlinea.com/Materiales/NYP05/PROBESTADISTICA1.pdf

 De la Fuente F., S. (2013). Estadística descriptiva: Números índices. Departamento de


Economía aplicada. Universidad de Madrid.
http://www.fuenterrebollo.com/Economicas2013/indices-teoria.pdf

 Durazo A., A. (2016). Probabilidad y estadística 1. Colegio de bachilleres del estado de


Sonora.
http://www.cobachsonora.edu.mx/files/semestre5-2016/probabilidadyestadistica.pdf

 Gutiérrez B., A. L. (2012). Probabilidad y estadística. Enfoque por competencias. McGraw-


Hill.
https://www.academia.edu/26422695/Ana_Laura_Gutierrez_Banegas_Probabilidad_y_Es
tadistica_Enfoque_por_Competencias_Mc_Graw_Hill_Education_2012

 Juárez D., J. A., Yié M., A, Flórez A., A. y Inzunsa C., S. (2012). Estadística. Exploración de
datos. Servicios editoriales once ríos. Universidad Autónoma de Sonora.
http://dgep.uas.edu.mx/librosdigitales/5to_SEMESTRE/37_Estadistica.pdf

79
 Mendenhall, W., Beaver, R. J. & Beaver, B. M. (2010). Introducción a la probabilidad y
estadística.
https://www.educacion-
holistica.org/notepad/documentos/Medicina/Epidemiología%20y%20Bioestadistíca/Introduccion
%20a%20la%20Probabilidad%20y%20Estadistica.pdf

 Mondragón P., A. R. (2002). ¿Qué son los indicadores?. Revista de información y análisis.
http://www.orion2020.org/archivo/sistema_mec/10_indicadores2.pdf

 Montanero F., J. (2007). Manual de Bioestadística. Universidad de Extremadura.


http://matematicas.unex.es/~jmf/Archivos/Bioestadistica.pdf

 Pita F., S. & Pértega D., S. (2001). Investigación: Estadística descriptiva de los datos.
Universidad de Alicante.
https://www.fisterra.com/gestor/upload/guias/10descriptiva2.pdf

 Unidad de inteligencia económica (UIE). (1999). Unidad de Indicadores económicos. Unidad


de inteligencia económica Sitio web:
http://www.elsalvadorcompite.gob.sv/portal/page/portal/ESV/Pg_Unidad_Indica

80

También podría gustarte