Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Probabilidad y
Estadística I
Coordinación de Matemáticas
AGOSTO-DICIEMBRE 2020
1
Elaborado por: Ing. Elizabeth Luna López
2
ÍNDICE
INTRODUCCIÓN 5
Elementos estadísticos
Población
Muestra
Datos
Variable y sus tipos
Técnicas de recolección de datos
Encuesta
Entrevista
Observación
Experimentación
Documental
Técnicas de muestreo
Probabilístico
No probabilístico
3
Límites estadísticos
Cuartiles, deciles y percentiles
Correlación de variables
Representación
Regresión lineal
BIBLIOGRAFÍA 79
4
Introducción
Nuestra vida cotidiana está llena de cosas que nos suceden sin que podamos predecir los
resultados con exactitud. Por ejemplo, si vamos caminando por la calle y se nos cae una
moneda al piso, ¿sabemos si caerá con la cara al cielo? Claramente no, pues nuestra
experiencia nos indica que algunas veces el lado del águila cae hacia abajo y otras hacia arriba.
A los sucesos donde interviene el azar se los llama “aleatorios” o “probabilísticos”. Diremos
que hay una probabilidad de que caiga águila o sol. En la vida cotidiana son más frecuentes las
situaciones que podemos atribuir al azar (eventos o sucesos aleatorios) que las que
corresponden al acontecer predecible con exactitud. ¿Nos resfriaremos este invierno? ¿Quién
ganará el campeonato? Hechos tan simples como los mencionados requieren ser
interpretados con pensamiento probabilístico, el cual gira alrededor de las nociones azar e
incertidumbre.
5
BLOQUE I ELEMENTOS ESTADÍSTICOS
Elementos estadísticos
Población
Muestra
Datos
Variable y sus tipos
Técnicas de recolección de datos
Encuesta
Entrevista
Observación
Experimentación
Documental
Técnicas de muestreo
Probabilístico
No probabilístico
6
BLOQUE I ELEMENTOS ESTAÍSTICOS
INTRODUCCIÓN A LA ESTADÍSTICA
En la vida cotidiana se presentan fenómenos que requieren del empleo de una serie de tablas,
medidas, gráficas, de su análisis e interpretación para comprenderlos, lo cual nos lleva a
plantearnos una serie de interrogantes donde para poder responderlas la Estadística día a día
va ganando mayores adeptos, convirtiéndose en un método efectivo para describir con
exactitud los valores y datos de situaciones problemáticas de las distintas ciencias agrícolas,
biológicas, de salud, económicas, educativas, físicas, políticas, psicológicas, sociales, etcétera.
ELEMENTOS ESTADÍSTICOS
POBLACIÓN, MUESTRA, DATO, VARIABLE Y TIPOS DE VARIABLE
7
Se dice que una población es finita cuando incluye un número limitado de elementos; por
ejemplo, el conjunto de estudiantes de bachillerato de cierta escuela en un determinado
ciclo escolar conforma una población finita, puesto que al contar la matrícula registrada
podemos llegar a un número definido de alumnos; de igual manera, el conjunto de
habitantes de la Ciudad de México en el año 2005, aunque es un número muy grande –
aproximadamente 9 millones– tiene un número limitado.
Por otro lado, una población infinita incluye un gran número de elementos que no pueden
contarse en su totalidad; por ejemplo, la población formada por todos los nacimientos de
seres humanos en el pasado y en el futuro es infinita, debido a que no existe límite para su
número (bajo el supuesto de que la vida del mundo es indefinida).
Individuo
Montanero (2007) Becerra (2009) Pita y Pértega (2001)
Hace referencia a los individuos Cualquier elemento que porte El individuo es cada uno de
como parte de la muestra de información sobre el fenómeno los componentes de la
una población. que se estudia. Así, si población y la muestra.
estudiamos la altura de los
niños de una clase, cada alumno
es un individuo; si se estudia el
precio de la vivienda, cada
vivienda es un individuo.
Dato
Blair y Taylor (2008) Asurza (2006) Becerra (2009)
El registro de mediciones hechas La información o valor de la Las medidas y/o números
sobre características. variable asociada a un elemento recopilados a partir de la
de una población o una observación.
muestra.
José Domínguez Perales ingresó a la universidad a los “22 años”, su cabello es “negro”,
mide “1.78 metros” y pesa “80 kilogramos”. Cada uno de los cuatro valores es un dato
respecto de las variables consideradas para José Domínguez Perales.
Variable
Blair y Taylor (2008) Cardaso et al. (2014) Asurza (2006)
Están conformadas por las Un rasgo o característica de los Una característica de la
características de interés, elementos de la población que población o de la muestra
cuando tales características se pretende analizar. cuya medida puede cambiar
toman diferentes valores se de valor.
conocen como variables.
8
Asurza (2006), define los siguientes tipos de variables:
Variable aleatoria: Es la Variable bidimensional: Es Variable continua: Es una
característica considerada en un aquella que proporciona variable cuantitativa. Puede
experimento aleatorio cuyo valor información sobre dos tomar cualquier valor real
de ocurrencia sólo puede saberse características de la población. dentro de un intervalo.
con exactitud una vez observado. Por ejemplo, edad y altura de los
alumnos de una clase.
Variable cualitativa: Es aquella Variable cuantitativa: Es aquella Variable determinística: Es
que representa cualidades, característica de la población o de aquella cuyo valor puede ser
atributos o características. la muestra que es posible predicho con exactitud.
representar numéricamente.
Variable discreta: Es una variable Variable nominal: Es una variable Variable ordinal: Es una
cuantitativa. Es la característica cualitativa la cual sólo permite variable cualitativa cuyos
de la población, cuyos valores asignar nombres a los datos y no valores solamente pueden ser
están representados mediante el implica ningún orden. ordenados con algún criterio.
conjunto de los números
naturales.
Variable pluridimensional: Es Variable unidimensional: Es
aquella que proporciona aquella que proporciona
información sobre tres o más información sobre una sola
características. Por ejemplo; característica. Por ejemplo; edad
edad, altura y peso de los alumnos de los alumnos de una clase.
de una clase.
9
Becerra (2009), dice que las variables pueden ser:
Variables cualitativas o Variables unidimensionales: sólo Discretas: sólo pueden tomar
categóricas: no se pueden medir recogen información sobre una valores enteros (1, 2, 8, -4,
numéricamente, por ejemplo: característica. etc.).
nacionalidad, color de la piel, Variables bidimensionales: recogen
sexo. información sobre dos Continuas: pueden tomar
Variables cuantitativas: tienen características de la población. cualquier valor real dentro de
valor numérico. Por ejemplo, Variables pluridimensionales: un intervalo.
edad, precio de un producto, recogen información sobre tres o
ingresos anuales. más características.
Clasificación de la estadística
Blair y Taylor (2008) Asurza (2006) Mendenhall et al. (2010)
La estadística descriptiva está Estadística descriptiva: Rama de la La estadística descriptiva está
formada por varias técnicas utilizadas ciencia estadística que se encarga formada por procedimientos
para resumir la in formación desde la recopilación, empleados para resumir y
contenida en un conjunto de datos. procesamiento y análisis de la describir las características
información siendo sus conclusiones importantes de un conjunto de
La estadística inferencial está válidas sólo para el grupo analizado. mediciones.
conformada por varias técnicas
utilizadas para proveer información Estadística inferencial: Rama de la La estadística inferencial está
acerca de los valores de los ciencia estadística que proporciona formada por procedimientos
parámetros basados en métodos y procedimientos que empleados para hacer inferencias
observaciones hechas sobre los permiten obtener conclusiones para acerca de características
valores de los estadísticos. una población a partir del estudio de poblacionales, a partir de
una o más muestras representativas. información contenida en una
muestra sacada de esta
población.
10
EJEMPLO:
La aplicación de la estadística en el área de la nutrición es incontable, por mencionar un ejemplo, se
puede hacer una comparación del incremento de la obesidad infantil en América Latina en los últimos
diez años. En ese aspecto ya existen múltiples páginas de internet en las que nos podemos basar para
obtener esos indicadores.
Parámetros y estadísticos
Para estimar valoraciones cuantitativas en una población resulta más práctico y menos costoso
si éstas se realizan mediante muestras, para ello es importante comprender el siguiente par de
conceptos.
Todo valor numérico que describa a una población recibe el nombre de parámetro; si se refiere
a una muestra, estadístico. Por ejemplo, el coeficiente intelectual promedio de todos los
estudiantes de primer grado de secundaria en cierto país es un parámetro; dicho promedio
obtenido en una muestra de la población mencionada es un estadístico.
En resumen, un estadístico es para una muestra lo que un parámetro para una población. La
utilidad de los estadísticos radica en que éstos permiten una estimación de los parámetros,
puesto que regularmente la información se obtiene a partir de las muestras cuando éstas son
representativas.
11
TÉCNICAS DE RECOLENCCIÓN DE DATOS
La estadística descriptiva incluye la recolección, análisis e interpretación de resultados
muestrales. El objetivo de la estadística inferencial es inferir las características de la
población a partir de las características de la muestra.
12
13
Esquemáticamente tenemos:
Recolección de
datos
Estadística
inferencial
• Estudio de la muestra • Población
• Tablas • Característica
• Gráficas s muestrales
• Medidas Se repite el
ciclo
14
2. Plan de recolección de datos
Fuentes
Para poder llevar a cabo un estudio estadístico de una población, primero se debe tener muy
claro qué se quiere analizar para recolectar los datos adecuados. Ahora, la recolección se
puede hacer recurriendo a diversas fuentes. En términos generales, las fuentes de donde se
obtienen los datos pueden clasificarse en primarias o secundarias:
• Primarias, mediante la observación o realización de experimentos, encuestas o
cuestionarios.
• Secundarias, como las bases de datos ya existentes, por ejemplo, la del INEGI o
BANXICO
15
¿Cómo elaborar encuestas?
Generalmente, para obtener información de los grupos humanos y de las personas, es
recomendable recurrir a métodos que nos permiten ahorrar esfuerzo y tiempo como lo son las
encuestas.
Ventajas: Desventajas:
- Técnica que permite obtener información de casi cualquier tipo - No permite analizar con profundidad
de población. temas complejos.
- Permite obtener información sobre hechos presentes y pasados
de los encuestados, así como prever comportamientos futuros.
- Gran capacidad para estandarizar datos, lo que permite su
tratamiento informático y el análisis estadístico.
Tipos de preguntas
Abierta
Dicotómicas: si/no
Categorizada:
*Respuesta espontánea: el encuestador no debe leerle la
Según las respuesta al encuestado.
respuestas Cerrada *Respuesta sugerida: el entrevistador lee las preguntas al
encuestado.
*Valoración: el entrevistador lee una escala de intensidad
creciente o decreciente de categorías de respuesta.
16
Se utilizan mucho en los cuestionarios para eliminar aquellas
personas que no les afecten determinadas preguntas, es decir que
Filtro
marcan la realización o no de preguntas posteriores.
17
Ejemplo de formatos de encuesta:
18
Fases de la entrevista Tipos de preguntas
1er Fase: preparación 1. Descriptivas, tratan de reconocer tanto
• Reunión de la información el lenguaje del informante, así como la
• Planificación de la encuesta forma particular con la cual describe un
• Preparación de la cita acontecimiento.
2da Fase: apertura
• Hacer explícito el motivo, la 2. Estructurales, muestran cómo el
confidencialidad y la duración. entrevistado organiza su conocimiento
• Convenir los propósitos sobre el tema.
3ra Fase: desarrollo
• Intercambio de información 3. Preguntas de contraste, proporcionan
• Identificación de puntos de acuerdo información sobre el significado que utiliza
4ta Fase: Cierre el sujeto para diferenciar los objetos y
• Hacer explícitas las conclusiones acontecimientos de su realidad.
• Realizar síntesis
Ejemplo de entrevista:
Entrevista al entrenador de la U.N.D
Por Juan Pablo Perales.
Reportero de: “El deportista Joven”.
19
contenían clembuterol, los cuales fueron proporcionados en el centro deportivo de la
universidad en la que competimos, en donde también se presentaron penalizaciones.
- Juan Pablo: ¿Esto los dejo exentos a ustedes?
- Joaquín: Bueno, nuestros deportistas podrán jugar nuevamente, pero se les retiraron las
medallas, pues se encontraban en ventaja a los demás por el problema del dopaje. Ellos
quedaron exentos de responsabilidad y limpios en su expediente.
- Juan Pablo: ¿Qué dijeron los muchachos sobre esto?
- Joaquín: Solo dicen que hay ocasiones en que pagan justos por pecadores, pero dicen que
esperan mejorar esto en la justa de este año.
- Juan Pablo: Por ultimo y ya para terminar, cuantos estudiantes enviarán a la justa deportiva.
- Joaquín: Serán un total de treinta y dos (32), que ya cuentan con todos sus documentos y
exámenes físicos cumplidos y que tienen los mejores tiempos en todo el plantel.
- Juan Pablo: Bien, esperemos que tengan la mejor de las suertes y que nos veamos después
de la justa deportiva con noticias nuevas.
- Joaquín: Al contrario, gracias a ti y a “el deportista joven” por habernos visitado.
20
Tipos de observación
Experimentación
Las etapas para seguir en el desarrollo de un problema de diseño de experimentos son las
siguientes:
• Definir los objetivos del experimento. Identificar todas las posibles fuentes de variación,
incluyendo:
(i) factores tratamiento y sus niveles,
(ii) unidades experimentales,
(iii) factores molestos: factores bloque, factores ruido.
• Elegir una regla de asignación de las unidades experimentales a las condiciones de estudio
(tratamientos)
• Ejecutar un experimento piloto.
• Especificar el modelo.
• Esquematizar los pasos del análisis.
• Determinar el tamaño muestral.
• Revisar las decisiones anteriores. Modificarlas si se considera necesario.
21
los tipos o grados específicos del factor que se tendrán en cuenta en la realización del
experimento. Los factores tratamiento pueden ser cualitativos o cuantitativos.
22
Documental
La investigación documental, consiste en el estudio de documentos escritos sobre un objeto
determinado, es decir son todos aquellos documentos registrados en diferentes dispositivos
físicos (o electrónicos) a los que podemos tener acceso en forma directa o indirecta para su
consulta y se puede clasificar en:
1.- Documental bibliográfica.
2.- Documental hemerográfica.
3.- Documental escrita.
4.- Documental audiográfica.
5.- Documental videográfica.
6.- Documental iconográfica.
TÉCNICAS DE MUESTREO
Una vez comprendido los conceptos anteriores, procederemos a estudiar las cuestiones
básicas de los procedimientos de muestreo.
Hay muchos tipos de muestreo, sin embargo, todos pueden clasificarse en dos categorías:
muestreo no probabilístico y muestreo probabilístico.
De juicio
No
Por conveniencia
Probabilístico
Voluntario
Muestreo
Aleatorio simple
Sistemático
Probabilístico
Aleatorio estratificado
Por conglomerados
23
PROBABILÍSTICO
Muestreo aleatorio simple: es aquel en el que todos los elementos de la población tienen la
misma probabilidad de ser elegidos.
Las muestras aleatorias simples pueden ser sin reemplazo y con reemplazo. En el primer caso.
Al extraer un individuo de la población, no se devuelve a ésta. En el segundo caso, una vez
registrado el individuo seleccionado, se devuelve a la población pudiendo ser elegido de
nuevo.
Ejemplo 1
Sugerir una forma para seleccionar una muestra aleatoria de 10 alumnos:
a) De tu grupo.
b) De toda la escuela.
c) Describir alguna manera incorrecta de seleccionar la muestra y decir por qué.
Solución:
a) Basta con asignar números a los alumnos de tu grupo empezando con 00, 01, 02, 03, …
enseguida se extraen pares de dígitos aleatorios de alguna tabla, hasta completar los
10 alumnos de la muestra. (en caso de que un número aleatorio, por ejemplo 98, no
corresponda a algún compañero, no se toma en cuenta).
b) De la misma forma que en el inciso a), sólo sería necesario asignar números a toda la
escuela.
c) Una manera incorrecta sería elegir únicamente de entre los que se encuentran en la
biblioteca. Estos alumnos serán por lo general más estudiosos que los demás y también
podrían diferir en otras características.
Ejemplo 2
Supóngase que en un salón de clase determinado hay 50 butacas y se desea obtener una
muestra de 4 elementos para conocer su deterioro.
Solución
Paso 1. Se enumeran las butacas del 01 al 50. (Atención: puesto que el tamaño de la población
dos dígitos, la numeración de los elementos debe ser de dos dígitos, por eso se escribe 01).
Paso 2. De manera aleatoria se selecciona una porción de la tabla, una columna y un renglón.
Supongamos que, en la tabla siguiente, el comienzo fue a partir del segundo bloque y tercer
renglón. Es decir, a partir del número 36292.
24
Paso 3. Ahora, puesto que el tamaño de la población es un número de dos dígitos, los dígitos
de escogen de dos en dos. Entonces los números escogidos (siguiendo hacia abajo) son:
Obsérvese que se descartan el 62, 57, 71 y 51, por que no pertenecen a la población.
Muestreo aleatorio sistemático
Recomendable para poblaciones grandes, heterogéneas y ordenadas aleatoriamente.
Para obtener una muestra sistemática, se procede como se indica a continuación:
Paso 2: Ahora, del primer grupo seleccionamos aleatoriamente una unidad, digamos que es
la identificada con i; entonces del segundo se tomará la identificada con el número i + k; del
tercero i + 2k; del cuarto i + 3k; del quinto i + k y así sucesivamente hasta completar n.
25
Ejemplo: de una preparatoria de 1000 estudiantes, se desea obtener una muestra
sistemática de tamaño 100. ¿Qué elementos deben seleccionarse?
Ahora, del primer grupo seleccionamos aleatoriamente una unidad, sigamos que es la
identificada con el número 3; entonces del segundo se tomará la identificada con el número
3 + 10; del tercero al 13 +10; del cuarto el 23+10… y del último 983+10.
Muestreo estratificado
Si la variable que nos interesa asume valores muy distintos en diferentes subpoblaciones, se
podrían obtener estimaciones más precisas de las cantidades de la población al tomar una
muestra aleatoria estratificada.
26
Segundo, se hace un muestreo aleatorio en cada estrato y, posteriormente reunimos la
información para obtener las estimaciones globales de la población. Existen dos criterios para
hacer esta selección:
Solución
Puesto que se sabe de antemano que algunas preparatorias tienen más de 1000 alumnos y
otras menos de 500, se puede dividir la población formada por todas las preparatorias en tres
estratos: preparatorias grandes (con más de 1200 alumnos), medianas (entre 500 y 1200
alumnos) y chicas (con menos de 500 alumnos). El número de preparatorias en cada una de
estas categorías (estratos), es el suiguiente:
Una vez establecidos los estratos, el siguiente paso será un plan de muestreo de manera que
cada grupo quede representado proporcionalmente. La tabla siguiente muestra el porcentaje
correspondiente a cada estrato:
27
Entonces, se estudiarán 3 preparatorias chicas, 3 medianas y 4 grandes.
En los tres procedimientos de muestreo estudiados hasta el momento, se parte de que es fácil
la enumeración de la población. Esto permite tomar de toda la población o de todos los
estratos, la muestra de unidades que serán investigadas directamente. Sin embargo, existen
situaciones en las que no existe ninguna lista utilizable de unidades para ser enumeradas y de
la cual seleccionar la muestra. De aquí, surge la necesidad de seleccionar grandes unidades o
conglomerados en vez de seleccionar elementos directamente de la población.
28
Muestreo aleatorio sistemático
A partir del primer elemento elegido
aleatoriamente del intervalo [1,k] donde
k es el entero más próximo a , se eligen
los
elementos de k en k.
Muestreo por conglomerados
La población se divide en
conglomerados. Se extrae una
muestra aleatoria simple de
conglomerados. Se seleccionan
todos los elementos incluidos en
los conglomerados elegidos.
Muestreo estratificado
La población se divide en estratos. Se
extrae una muestra
aleatoria de cada estrato.
NO PROBABILÍSTICO
29
Ejemplos
• Si queremos estimar cánto gasta una persona que va de compras a un centro
comercial y extraemos una muestra entre los compradores que parecen haber
gastado cierta cantidad, habremos elegido de manera deliberada una muestra para
confirmar nuestra opinión anterior. Este tipo de muestra se llama muestra de jucio
porque el investigador emplea su propio juicio para elegir los individuos que deben
incluir en la muestra.
• Se desea introducir en el mercado un jabón que limpia las impurezas de la cara. Con
base en su experiencia el investigador decide aplicar directamente el jabón al
público y pedir su opinión en forma escrita. Tal actividad se realiza en centros
comerciales. Todo ello es a conveniencia del investigador, por lo que es una muestra
de conveniencia.
• En algunos restaurantes, se muestra una libreta abierta para que los clientes
escriban de manera voluntaria, su opinión acerca del servicio brindado. Esta es una
muestra voluntaria.
• Son muestras voluntarias, las producidas por las encuestas realizadas por diversos
medios de comunicación, que piden a las personas den su opinión por teléfono u
otro medio, sobre ciertos temas.
Las muestras no probabilísticas, no son aceptables desde el punto de vista estadístico, porque
la selección arbitraria y no estructurada, impide controlar el error muestral. No se conoce
ningún método objetivo para medir la confianza que debe tenerse en los resultados. Sin
embargo, existen algunas situaciones en las que el muestreo no probabilístico se vuelve
alternativa útil. Por ejemplo, en la investigación médica, a menudo se utilizan grupos de
voluntarios.
30
BLOQUE II DESCRIPCIÓN GRÁFICA DE UN CONJUNTO DE DATOS
31
BLOQUE II DESCRIPCIÓN GRÁFICA DE UN CONJUNTO DE DATOS
Toda la información recopilada se llama datos. La información puede ser una opinión de las
personas encuestadas sobre un tema en específico, sus gustos por una comida, fritura, bebida,
edad o sexo, el lugar donde viven, el número de personas que viven en una casa habitación,
su tipo sanguíneo, el lugar donde les gustaría a los jóvenes de tu escuela que fuera su
graduación al salir del bachillerato, etcétera.
Con la tabla anterior, podemos decir que el evento de nuestro interés puede ser: “el color
preferido de tus compañeros de clase”, “el tipo de animal más habitual que tienen en su casa
tus compañeros”, “la cantidad de inasistencias de tus compañeros de clase”, o cualquier otro
fenómeno que se registre.
32
Veamos ahora qué pasa con nuestra base de datos, si agrupamos las veces que se repite un
fenómeno:
Animal
Núm. De que
Color Frecuencia Edad Frecuencia Frecuencia Frecuencia
inasistencias tienen en
su casa
Amarillo 2 16 1 0 3 Perro 4
Azul 3 17 3 1 1 Gato 2
Negro 1 18 3 2 4 Pez 1
Rojo 1 19 2 3 1 Ninguno 3
Rosado 1 20 1 4 0
Verde 2 5 0
6 1
Para llevar a cabo la construcción de dichas tablas, resulta más fácil hacer un coteo de dichos
fenómenos:
Animal
que
Edad Frecuencia Frecuencia
tienen en
su casa
16 / 1 Perro //// 4
17 /// 3 Gato // 2
18 /// 3 Pez / 1
19 // 2 Ninguno /// 3
20 / 1
Elaboración de tablas:
33
Ejemplo:
Frecuencia absoluta, es la cantidad de datos que integran cada una de las clases, o sea que
son las repeticiones que encontramos dentro de una misma clase, por ejemplo:
Tipo de Frecuencia
animal (f)
Perro 4
Gato 2
Pez 1
Ninguno 3
Total 10
34
Las frecuencias relativas son un porcentaje, ya que relacionan una parte del conjunto con el
total. La correspondencia entre los valores de la variable y su frecuencia relativa determina lo
que denominamos distribución de frecuencias relativas.
Ejemplo 1 Ejemplo 2
Tipo de Frecuencia Frecuencia Área Frecuencia Frecuencia Porcentaje
animal (f) relativa académica absoluta relativa
Perro 4 4/10=0.4 (f)
Gato 2 2/10=0.2 Ciencias 18 0.60 60%
Pez 1 1/10=0.1 sociales
Ninguno 3 3/10=0.3 Químico- 8 0.27 27%
Total 10 1 biológicas
Físico- 4 0.13 13%
matemáticas
Total 30 1 100%
• Clase: es cada uno de los grupos en los que concentras la información. (En nuestro ejemplo
hay seis clases). Se denota como un intervalo.
• Límite inferior de una clase: es el valor de la variable con que inicia una clase.
• Límite superior de una clase: es el valor de la variable con que termina una clase.
• Intervalo de clase: es la distancia entre el valor del límite superior y el del límite inferior de
una clase.
35
• Marca de clase: es el resultado de sumar los valores de los límites inferior y superior de cada
clase y dividirlos entre dos. En pocas palabras, es el promedio de los valores de los límites
inferior y superior de una clase.
El ancho de clase se refiere a la longitud que existe entre el límite inferior y el límite
superior de una clase.
5. Se ubican los límites de cada clase.
6. Se determina la marca de clase, que es el punto medio entre el límite inferior y el
superior
7. Por último, se cuenta el número de observaciones que corresponden a cada clase, es
decir, la frecuencia absoluta. También se pude calcular la frecuencia relativa (f r)
Ejemplo: se entrevistó a 20 jóvenes para conocer qué cantidad (en litros) de refresco de cola
beben al día. Los resultados se representan a continuación. Con ellos construye una
distribución de frecuencias.
Solución
Primero ordenamos los datos de menor a mayor:
36
En este caso, como la variable de estudio es la cantidad de refresco que beben al día 20
jóvenes, determinamos intervalos para establecer la frecuencia absoluta (f a). el procedimiento
es el siguiente:
HISTOGRAMA
Un histograma es una gráfica de columnas que representa la distribución de frecuencias de
datos continuos. Se utiliza para ver cómo se distribuyen estos últimos, así como qué clases
tienen mayor concentración de datos.
POLÍGONO DE FRECUENCIAS
Un polígono de frecuencias es una gráfica de línea que sirve para representar la distribución
de frecuencias de datos continuos. Igual que el histograma, se utiliza para ver la forma de
la distribución de los datos, así como la ubicación de la mayor concentración de éstos.
Como ya se explicó, un histograma y un polígono de frecuencias sirven para ver la forma de
la distribución de datos. Cada persona decide cómo presentar la gráfica, si con columnas o
con línea.
Para graficar un polígono de frecuencias se siguen estos pasos:
1. Se trazan los ejes coordenados.
2. Se dibuja un punto por cada coordenada. Las coordenadas son pares ordenados
donde la abscisa es la marca de clase (el eje x) y la ordenada es la frecuencia absoluta
o relativa (el eje y).
3. Se unen los puntos.
4. Se cierran los extremos con el eje horizontal.
OJIVA
Una ojiva es una gráfica de línea donde se representa la frecuencia relativa acumulada.
Para graficar una ojiva se siguen estos pasos:
1. Se calcula la frecuencia relativa acumulada.
2. Se dibujan los ejes coordenados.
3. Se dibuja un punto por cada coordenada. Las coordenadas son marca de clase en el
eje x, y la frecuencia relativa acumulada en el eje y.
4. Se unen los puntos.
Solución
Tracemos primero el histograma. Para ello, tomamos los datos de las columnas Marca de
clase y fr.
Como se observa en la gráfica, la clase con mayor concentración es la de 1.485 L y la clase con
menor concentración es la de 0.165 L. Es decir, 35% de los entrevistados toman en promedio
1.485 L de refresco, mientras que 10% bebe en promedio 0.165 L.
Para el polígono de frecuencias, tomamos los datos de las columnas marca de clase y f r, pero
se realiza una gráfica de línea.
39
Al observar el polígono de frecuencias, llegamos a las mismas conclusiones que en el
histograma: 35% de los entrevistados toman en promedio 1.485 L de refresco y 10% bebe en
promedio 0.165 L.
Ahora, para elaborar la ojiva, tomamos los datos de las columnas marca de clase y f racum y
trazamos una gráfica de línea:
De la ojiva podemos concluir que 30% de los entrevistados consumieron menos de 0.4125
L de refresco. La mitad, es decir, 50% consumieron menos de 0.825 L, en tanto, 65%
consumieron menos de 1.2375 L.
CIRCULAR
Un diagrama circular o de pastel, se usa para representar una
distribución de frecuencias de datos discretos o categóricos
y, como su nombre lo indica, hay que trazar un círculo, en el
que luego hay que dibujar divisiones (rebanadas) que
representan la frecuencia relativa.
40
Entonces, para convertir porcentajes a grados, multiplicamos por 3.6
Ejemplo 1
Construiremos ahora, el gráfico circular con base en la tabla de
frecuencias correspondiente a los datos de elección de fase
especializada.
41
Resuelve la actividad 5 de tu compendio de ejercicios.
42
BLOQUE III MEDIDAS ESTADÍSTICAS
43
BLOQUE III MEDIDAS ESTADÍSTICAS
MEDIA
La media de un conjunto de valores es igual a la suma de dichos valores dividida entre el
número de ellos.
̅, media muestral
µ, media poblacional; 𝒙
Fórmula :
Un grupo de 50 bailarinas se presentó a un casting para una comedia musical, registrando las
siguientes edades:
44
Ejemplo para datos agrupados:
Interpretando este resultado diríamos que la edad promedio de las bailarinas candidatas a
participar en la comedia musical fue de 20.1 años. La figura muestra la distribución de los
datos y la ubicación de la media para este caso, observa que se localiza cerca del centro de los
valores.
La figura muestra que varios datos se repiten, esto es, se tiene 3 valores 18,16 valores de 19,
10 valores de 20, etc., lo que simplifica el cálculo gracias a la relación entre la suma y la
multiplicación. De esta manera, la media quedaría:
El número dentro del paréntesis es el número de veces que se presenta el valor, es decir, su
frecuencia absoluta, lo cual nos permite construir una tabla de frecuencias simple:
45
Así, la fórmula para calcular la media sufre algunas modificaciones:
MEDIANA
Es el valor que divide al grupo de datos en dos partes iguales, 50% por debajo de él y el otro
50% por arriba del mismo.
46
Ejemplo para datos simples:
Hallemos la mediana de los siguientes valores, los cuales representan las calificaciones de 5
estudiantes en una prueba:
En este caso n es impar, 5, por lo tanto, la mediana será justo el valor de en medio, una vez
ordenados los datos. Así, tenemos:
El valor central, es la mediana: así Me=7.7. esto significa que 50% de los alumnos tienen
calificaciones menores o iguales que 7.7, entre 3.9 y 7.7 para ser más precisos; mientras que la
otra mitad obtuvo calificaciones mayores o iguales que 7.7.
Ahora veamos un caso en donde n sea par. Continuando con las calificaciones, supongamos
que se tienen los siguientes datos:
6 8 10 7 9 9
6 7 8 9 9 10 n= par
Es este caso tenemos dos valores centrales, 8y9; por lo tanto, la mediana se obtiene
promediando dichos valores, es decir, sumándolos y dividiendo el resultado entre 2.
47
Ejemplo 1 para datos agrupados:
En la siguiente figura se representan las
calificaciones en un examen de Taller de Lectura y
Redacción de un grupo de alumnos de bachillerato,
indicando las frecuencias respectivas.
Me=7
48
Agregando la columna de la frecuencia acumulada tenemos:
MODA
Es el dato o valor de la variable que ocurre con mayor frecuencia. El símbolo que se utiliza es
Mo.
49
La mayor frecuencia es 5; por lo tanto, Mo=8.
El valor de la moda lo encontramos dentro de los valores de la variable.
SESGO
El sesgo describe cómo es la distribución de los datos, ya que indica hacia dónde tienden a
concentrarse éstos. Una distribución puede ser:
• Simétrica, si la mayor concentración de datos se localiza en el centro de la
distribución.
• Sesgada a la derecha, si la mayor concentración de datos está a la izquierda de la
distribución.
• Sesgada a la izquierda, si la mayoría de los datos están concentrados a la derecha.
Esto se puede determinar gráficamente, o bien, comparando la media, la moda y la mediana,
de allí la importancia de estas tres medidas de tendencia central:
50
Resuelve la actividad 6 de tu compendio de ejercicios.
Es importante también analizar cuán cercanos o lejanos están los datos respecto, por ejemplo,
al valor medio. Para determinar esto se recurre a las llamadas medidas de dispersión o de
variabilidad; de ellas, las medidas más importantes son el rango, la varianza y la desviación
estándar
Ejemplo:
Calcula los rangos de las muestras siguientes:
Solución
Para la muestra 1:
Para la muestra 2:
51
VARIANZA PARA DATOS SIMPLES
La varianza es la medida de dispersión más importante, pues tiene como base el promedio
aritmético de las desviaciones (distancia de un valor con respecto a la media) elevado al
cuadrado. En otras palabras, muestra cuán alejados o cuán cercanos están los datos
respecto a la media.
52
Si se desea calcular la desviación estándar de la muestra o muestral, entonces se usa:
Ejemplo:
Calcula la varianza y la desviación estándar de la muestra siguiente:
5, 6, 3, 0, -2, -1, 3
Solución
Primero, calculamos la media:
53
VARIANZA APROXIMADA PARA DATOS AGRUPADOS
Si se desea calcular la varianza de la muestra, entonces se usa:
Ejemplo:
Cantidades consumidas de refresco de cola:
54
Con esta información calcula las medidas de tendencia central y de dispersión aproximadas. ¿A qué
conclusiones llegas?
Solución
Para la media aproximada:
Entonces:
Lo que indica que 50% de las personas beben menos (o más) de 1.2375 litros.
55
Para la moda, como es la marca de clase con mayor frecuencia absoluta, entonces la cantidad típica
consumida de refresco es de 1.8563 litros.
Para la varianza aproximada, calculamos las columnas siguientes,
Clase Marca de fa fa acum fa*X fa*X2
clase(x)
0 0.4125 0.2063 2 2 0.4126 0.0851
0.4125 0.825 1.6188 4 6 2.475 1.5314
0.825 1.2375 1.0313 4 10 4.125 4.2539
1.2375 1.65 1.4438 3 13 4.33125 6.2532
1.65 2.065 1.8563 7 20 12.99375 24.1196
Suma= 24.3375 36.2433
Sustituimos en la fórmula,
Lo que significa que la dispersión respecto al consumo promedio de refrescos de cola es de +/- 0.5906
litros. En otras palabras, una persona toma en promedio 1.2169 litros de refresco, pero podría tomar
entre 0.6263 y 1.8075 litros.
DESVIACIÓN MEDIA
Medida de dispersión menos ocupada:
La desviación media, se define como la media de los valores absolutos de las desviaciones
de los datos de una variable con respecto a la media.
56
4. Se suman los valores absolutos de las desviaciones y el resultado se divide entre
el total de datos.
LÍMITES ESTADÍSTICOS
La variable para medir es el peso drenado del producto, cuyos límites permitidos varían de
220g (límite inferior) a 230g (límite superior), para ambos límites se incluyen (en
probabilidad, se maneja el término inclusive) los valores de referencia (220 ≥ X ≤ 230).
La muestra arroja una media de 215 g, razón por la cual se ha tomado la decisión de detener
y revisar el proceso de producción y revisar el proceso con el propósito de corregirlo y
normalizar la producción.
57
Ejemplo para datos simples:
También se puede decir que el ácido úrico son sustancias que se forman principalmente en
el hígado a partir de los núcleos celulares animales como la carne o el pescado, y que se
eliminan a través de la orina. Los valores normales en el caso de los hombres adultos se
encuentran en el intervalo de 3.0 a 8.5 mg/dL.
Los siguientes datos representan los niveles de ácido úrico de 20 pacientes varones adultos:
En este ejemplo se puede ver que el límite inferior permitido es 3.0 mg de ácido úrico/dL de
orina; y que el límite superior es 8.5 mg de ácido úrico /dL de orina. De acuerdo con los datos
registrados hay 3 personas con muestras menores al límite inferior: 1.4 mg/dL, 2.7 mg/dL y
2.4 mg/dL y deben ser atendidos; pero ninguna persona sobre pasa el límite superior por lo
que se consideran dentro del rango normal.
La utilización de un único número para resumir un conjunto de datos, muy rara vez es
suficiente. Por tal razón, es necesario determinar otros indicadores que nos orienten en donde
están los datos. la mediana junto con otras cuatro medidas, constituyen los llamados cinco
números de resumen. Estos cinco números son: el mínimo (dato), el primer cuartil, la mediana
(o segundo cuartil), el tercer cuartil y el máximo. Estas medidas, se llaman de posición puesto
que se utilizan para describir la posición que un dato específico posee en relación con el resto
de los datos cuando están ordenados de menor a mayor.
El primer cuartil (denotado por Q1), es un número tal que a lo sumo 25% de los datos son
menores que Q1 y a lo sumo 75% son mayores. El segundo cuartil es la mediana. El tercer
cuartil (denotado Q3), es un número tal que a lo sumo 75% de los datos son menores que Q3
y a lo sumo 25% son mayores.
58
Cálculo de los cuartiles para datos NO Cálculo de los cuartiles para datos
agrupados agrupados
𝒏
𝒌 (𝟒 ) − 𝑭𝒌−𝟏
𝑸𝒌 = 𝑳𝒌 + ∗𝑪
𝒇𝒌
De manera similar,
Entonces,
Solución:
1. Organizamos los datos de menor a mayor
25, 25, 25, 26, 26, 27, 27, 28, 28, 28, 28, 28, 29, 30, 30, 30, 31, 31, 31, 31, 31, 32, 32, 35
2. Aplicamos la fórmula:
Solución:
Para el primer cuartil:
El elemento i-ésimo en donde finaliza el cuartil= k(n/4)=1(50/4)= 12.5
Ubicamos la clase en donde la frecuencia acumulada es igual o sobrepasa este número.
El elemento 13 (en la tabla ordenada) está en la tercera clase.
Entonces: L1=58.5 n=50 F1=7 f1=9 c=3
60
Q1= 60.33
El 25% de las obreras tienen estatura por debajo de las 60.33 pulgadas.
El 75% de las obreras tienen estatura por encima de las 60.33 pulgadas.
Q3= 66.13
El 75% de las obreras tienen estatura por debajo de las 66.13 pulgadas
El 25% de las obreras tienen estatura por encima de las 66.13 pulgadas.
Deciles: Los deciles son los nueve valores que dividen la serie de datos en diez partes
iguales. Los deciles dan los valores correspondientes al 10%, 20%, … y al 90% de los datos.
Cálculo de los deciles para datos NO Cálculo de los deciles para datos
agrupados agrupados
61
10
Para el decil 7:
D7=65.5
El 70% de las obreras tienen estatura por debajo de la 65.5 pulgadas.
El 30% de las obreras tienen estatura por encima de las 65.5 pulgadas.
Percentiles: los percentiles son los 99 valores que dividen la serie de datos en 100 partes
iguales.
Los percentiles dan los valores correspondientes al 1%, 2%, … y al 99% de los datos.
El percentil 50 coincide con la mediana (P50)
Cálculo de los PERCENTILES para datos Cálculo de los PERCENTILES para datos
NO agrupados agrupados
𝒌(𝒏 + 𝟏) 𝒌𝒏
𝑷𝒌 = − 𝑭𝒌−𝟏
𝟏𝟎𝟎 𝑷𝒌 = 𝑳𝒌 + 𝟏𝟎𝟎 𝑪
𝒇𝒌
62
Ejemplo para datos agrupados:
Hallar el percentil 8 de la tabla de frecuencias.
Estaturas, en pulgadas, de 50 obreras de Estados Unidos.
Clase Intervalo fi mi Fi fi/n Fi/n
1 53-55 2 54 2 2/50 2/50
2 56-58 5 57 7 5/50 7/50
3 59-61 9 60 16 9/50 16/50
4 62-64 15 63 31 15/50 31/50
5 65-67 12 66 43 12/50 43/50
6 68-70 5 69 48 5/50 48/50
7 71-73 2 72 50 2/50 50/50
Para el percentil 8:
El elemento i-ésimo en donde finaliza el percentil= k(n/100)=8(50/100)=40
Ubicamos la clase en donde la frecuencia acumulada es igual o sobrepasa este número.
El elemento 40 (en la tabla ordenada) está en la quinta clase.
Entonces: L8=64.5 n=50 F8=31 f8=12 c=3
P8=66.75
El 80%de las obreras tienen estatura por debajo de las 66.75 pulgadas.
El 20% de las obreras tienen estatura por encima de las 66.75 pulgadas.
63
BLOQUE IV COMPORTAMIENTO DE DOS VARIABLES
Correlación de variables
Representación
Regresión lineal
64
BLOQUE IV CORRELACIÓN DE DOS VARIABLES
CORRELACIÓN DE VARIABLES
REPRESENTACIÓN
En fenómenos que llevan directamente a una relación funcional, los puntos que representan
los valores de las variables, se ajustan perfectamente a una recta o a una curva.
En cambio, en fenómenos que implican una relación estadística, los datos observados originan
una “nube de puntos”, como los mostrados a continuación:
65
Estos gráficos reciben el nombre de gráficos de dispersión y se utilizan para representar
distribuciones bidimensionales.
Ejemplo:
La tabla siguiente muestra las calificaciones obtenidas en los exámenes finales de
matemáticas, mecánica e inglés por 12 estudiantes de un grupo de segundo de preparatoria.
66
¿Existe alguna relación entre:
- Calificaciones de matemáticas y calificaciones de mecánica?
- Calificaciones de matemáticas y calificaciones de inglés?
La fuerza o debilidad de una correlación se percibe mejor su trazamos una recta que se ajuste
lo mejor posible a la nube de puntos. Esta recta se llama recta débil.
La fuerza o debilidad de una correlación se percibe mejor si trazamos una recta que se ajuste
lo mejor posible a la nube de puntos. Esta recta se llama recta de regresión.
En un primer momento, estas rectas pueden trazarse al tanteo, intentando que crucen por
el centro de la nube de puntos. Para lograr esto, ayuda mucho el pasar la recta por el punto
(𝑥̅ , 𝑦̅), es decir, por el punto con abscisa igual a la media de la primera variable y como
ordenada la media de la segunda variable.
67
REGRESIÓN LINEAL
Gráficos de la dispersión con la recta de regresión.
Resuelve:
a) Calcula la media de las calificaciones en matemáticas, llámala 𝑥̅ .
b) Calcula la media de las calificaciones en mecánica, llámala 𝑦̅.
c) Calcula la media de las calificaciones en inglés, también llámala 𝑦̅.
Tabla de contingencia
La de contingencia es una tabla que se utiliza para clasificar el número de observaciones
respecto a dos características o variables de interés. Las variables pueden ser cualitativas o
cuantitativas.
Ejemplo:
Alicia es una persona que gusta de la lectura y la estadística. Un día, se pregunta si podría
asociar el número de páginas de un libro con su precio; es decir, considera que el precio
de un libro depende del número de páginas.
Para comprobarlo, decide recopilar la información correspondiente a ocho libros y
construir una tabla de contingencia, lo cual queda de esta manera:
En este caso, “Título” es una variable cualitativa que sirve de identificador, en tanto que
“Núm. de págs.” y “Precio” son variables cuantitativas.
68
Muchas veces no es necesario incluir en la tabla de contingencia variables cualitativas, sólo
se presentan los valores de las variables cuantitativas; de esta forma, la tabla anterior
quedaría como sigue:
69
Paso 2: Análisis de correlación, covarianza.
Covarianza
La covarianza es una medida descriptiva que permite determinar el tipo de asociación
lineal entre dos variables. La covarianza poblacional se obtiene mediante la fórmula:
La interpretación es sencilla
70
Una vez que Alicia dibujó el diagrama de dispersión para relacionar el número de páginas
y el precio de los libros, calcula la covarianza entre estas variables para determinar
numéricamente, cómo es la relación lineal, si ésta existe, entre ellas.
71
Como cree que el número de páginas determina el precio de un libro, entonces:
Por tanto,
Interpretación. Como el valor de la covarianza es positivo, indica que la relación lineal entre
el número de páginas y el precio del libro es directa, es decir, cuando aumenta el número de
páginas, el precio del libro aumenta también.
Se denota con la letra r y también se le conoce como r de Pearson, en honor a Karl Pearson.
72
Se calcula de esta forma:
El rango de valores está entre -1 y +1; los valores intermedios pueden interpretarse, de
forma intuitiva, de esta manera:
73
Gráficamente se verían así:
74
Ahora, Alicia calcula el coeficiente de correlación entre número de páginas y el precio de
los libros para establecer cuán fuerte (o débil) es la relación lineal entre las variables:
Datos:
Entonces:
Para saber si una variable X es “buena” para explicar la variable Y se calcula el coeficiente de
determinación, que representaremos con r2 y que tiene las características siguientes:
• Es el cuadrado del coeficiente de correlación.
75
• Su rango de valores está entre 0 a 1.
• No da ninguna información sobre la dirección de la relación entre las variables.
Cuanto más cerca esté de 1, la variable independiente X será una buena variable
para explicar Y. Es decir, es un factor determinante para Y. En contraparte, conforme r2 se
acerca a 0, indica que X no es un factor significativo para explicar Y.
Siguiendo con el ejemplo, ahora Alicia calcula el coeficiente de determinación:
r2=0.4221
76
Minimizando esas distancias se obtienen b o, la ordenada al origen, y b1, la pendiente de la
recta. Así las ecuaciones para determinar b 0 y b1 son:
Ahora sí, como Alicia ya aprendió el método de mínimos cuadrados, puede determinar la
ecuación de la recta para el precio del libro.
Datos:
77
Interpretación. Cuando el libro tiene cero páginas, el precio estimado es de $128.19. por cada
página que aumente el libro, el precio estimado aumenta en $0.1944.
Si se tiene un libro con 666 páginas, entonces el precio estimado será de:
78
BIBLIOGRAFÍA
Castillo V., L. C. y Lozada H., J. (2012). Probabilidad y estadística. Gobierno del estado de
Veracruz.
https://pacoelchato.org/Preparatoria/Quinto-Grado/Probabilidad-y-estadistica-
I/index.html
Juárez D., J. A., Yié M., A, Flórez A., A. y Inzunsa C., S. (2012). Estadística. Exploración de
datos. Servicios editoriales once ríos. Universidad Autónoma de Sonora.
http://dgep.uas.edu.mx/librosdigitales/5to_SEMESTRE/37_Estadistica.pdf
79
Mendenhall, W., Beaver, R. J. & Beaver, B. M. (2010). Introducción a la probabilidad y
estadística.
https://www.educacion-
holistica.org/notepad/documentos/Medicina/Epidemiología%20y%20Bioestadistíca/Introduccion
%20a%20la%20Probabilidad%20y%20Estadistica.pdf
Mondragón P., A. R. (2002). ¿Qué son los indicadores?. Revista de información y análisis.
http://www.orion2020.org/archivo/sistema_mec/10_indicadores2.pdf
Pita F., S. & Pértega D., S. (2001). Investigación: Estadística descriptiva de los datos.
Universidad de Alicante.
https://www.fisterra.com/gestor/upload/guias/10descriptiva2.pdf
80