Está en la página 1de 31

GUIA DE ESTUDIOS PARA

PRESENTAR EL EXAMEN
EXTRAORDINARIO DE
ESTADISTICA

Q.F.B
2024-1
PROGRAMA DEL MODULO
UNIDADES TEMÁTICAS
1 1 Introducción y probabilidad
1.1 Variable aleatoria, variable aleatoria discreta, variable
aleatoria continua.

1.2 Distribuciones de probabilidad de variables aleatorias:


discretas y continuas.

1.3 Función de probabilidad de una variable aleatoria


discreta. Función distribución, función densidad de
probabilidad de una variable aleatoria continua. Media y
varianza de una distribución de probabilidad. Esperanza y
momentos de una distribución de probabilidad
1.4 Función generatriz de momentos.

1.5 Distribuciones de probabilidad de variables aleatorias


discretas: uniforme, binomial, Poisson, multinomial,
hipergeométrica, binomial negativa o de Pascal y
geométrica. Aplicaciones.

1.6 Distribuciones de probabilidad de variables aleatorias


continuas: distribución uniforme, distribución normal
2 Muestreo y estadística descriptiva
2.1 Conceptos básicos: población, muestra, censo,
muestreo, parámetro y estadístico, unidad elemental y dato.
Muestreo aleatorio simple, sistemático, estratificado y por
conglomerados.

2.2 Estadística descriptiva, datos, clasificación, datos


cuantitativos y datos cualitativos, datos continuos, discretos,
nominales o categóricos y ordinales.

2.3 Tratamiento de datos: datos no agrupados y datos


agrupados.

2.4 Medidas de posición: mediana, cuartos y dispersión de


los cuartos.

2.5 Representación gráfica de datos: diagramas de tallo y


hoja, diagramas de caja, histogramas, polígono de
frecuencia, diagrama escalonado y ojiva.

2.6 Medidas de tendencia central (MTC): media, mediana,


moda, centro de amplitud, media geométrica, media
armónica, media ponderada.

2.7 Medidas de dispersión: rango, varianza, desviación


estándar, desviación media y coeficiente de variación.

2.8 Propiedades de las MTC y de dispersión


3 Distribuciones muestrales y estadística inferencia
3.1 Distribuciones muestrales de la media, de la mediana,
de la varianza. Error estándar. Teorema central del límite
(TCL).

3.2 Estimación puntual y por intervalo de confianza.


Características de un buen estimador puntual.

3.3 Pruebas de hipótesis. Tipos de hipótesis. Tipos de


errores.

3.4 Procedimiento de prueba.

3.5 Estimación y contraste de hipótesis acerca de un


parámetro: media con varianza conocida, media con
varianza desconocida. Proporción. Varianza.

3.6 Estimación y contraste de hipótesis acerca de dos


parámetros: cociente de varianzas. Diferencia de
proporciones. Diferencia de medias con varianzas
conocidas. Diferencia de medias con varianzas desconocidas
no diferentes. Diferencia de medias con varianzas
desconocidas y diferentes. Diferencia de medias para
muestras pareadas.

3.7 Prueba para datos de frecuencia. Bondad de ajuste


uniforme, binomial, multinomial, Poisson y normal.
3.8 Pruebas de independencia. Tablas de contingencia o de
clasificación cruzada de 2X2 y mXn.

3.9 Control de calidad. Pruebas de tolerancia. Cartas de


control para la media y para la dispersión
V Análisis de varianza, análisis de regresión y de correlación
5.1 Análisis de varianza de un factor en el diseño
completamente al azar.

5.2 Prueba de homosedasticidad (igualdad de varianzas) de


Cochran y de Bartlet.

5.3 Análisis de varianza de un factor en diseño de bloques al


azar.

5.4 Análisis de varianza en el diseño factorial completo (dos


factores). Aplicaciones.
5.5 Análisis de regresión lineal simple por el método de
mínimos cuadrados. Aplicaciones.

5.6 Inferencia en regresión lineal. Aplicaciones. Coeficiente


de determinación.

5.7 Análisis de regresión curvilínea: exponencial y potencial.


Aplicaciones.

5.8 Análisis de regresión lineal múltiple y polinómica por el


método de mínimos cuadrados y por matrices. Aplicaciones.

5.9 Coeficiente de correlación lineal de Pearson. Inferencia


en correlación lineal. Aplicaciones.

5.10 Inferencias acerca de la regresión y correlación entre


variables.
CONCEPTOS GENERALES

1. Introducción y probabilidad
¿Qué es la Estadística?
Cuando se escucha la palabra estadística, la mayoría de las personas piensa en
una gran colección de datos, tablas, gráficas, porcentajes y promedios. Sin
embargo, no debemos reducir a esto la visión sobre la Estadística.
En la naturaleza existen fenómenos que no obedecen a leyes fijas y que
dependen de circunstancias prácticamente incontrolables: fenómenos
sociológicos, psicológi-cos, políticos, económicos, médicos, biológicos,
industriales, meteorológicos, etcétera, los cuales presentan una gran variabilidad.
La investigación científica y la toma de decisiones en la vida diaria se enfrentan
a esta presencia de la variabilidad, de modo que, para realizarlas de manera
óptima, la información que se recolecta debe obtenerse con objetivos definidos,
reflejar la realidad, resumirse de manera eficiente e interpretarse adecuadamente.
De manera general, podemos decir que la razón principal del uso de la Estadística
es la existencia de la variabilidad en los fenómenos que se estudian.
La Estadística es la rama de las matemáticas que estudia los métodos de
recopilación, organización, descripción y análisis de datos así como la
interpretación de la información, con el objetivo de tomar la decisión más eficaz
ante alguna situación de incertidumbre.

Investigación estadística
En este tipo de investigaciones se analiza un problema y se utilizan
procedimientos estadísticos que convierten datos en información útil para la toma
de decisiones eficientes dirigidas a su solución.
Pueden identificarse seis etapas o fases durante su desarrollo, que se explican a
continuación mediante un ejemplo.

Etapa1. Identificación del problema y del objetivo de la investigación.


Problema: Durante años se observó que un número muy grande de estudiantes
del bachillerato de la UNAM, terminaba sus estudios con rezago o no lograba
concluirlos.1
1 Rezago

Objetivo: Identificar las principales causas que provocan el rezago de estudiantes


de la UNAM en el nivel medio superior.
Etapa 2. Recolección de los datos. En el ejemplo, se requiere diseñar una
encuesta y determinar un procedimiento para su aplicación, es decir, ¿qué se
preguntará para identificar las causas del rezago? ¿a quiénes se les aplicará?
¿cuántas encuestas se requieren? ¿será presencial o en línea? etcétera.
De esta encuesta se puede obtener información sobre género, edad, ingreso
familiar, situación de empleo, nivel de estudio de los padres, promedio en
secundaria, calificación en el examen de admisión, calificación en el examen
diagnóstico inicial, entre otros aspectos.
Etapa 3. Validación de los datos recabados. En toda encuesta, se suelen
encontrar preguntas sin contestar, respuestas incomprensibles o ambiguas y otros
problemas que dificultan la utilización de una parte de los datos. Se requiere
limpiar los datos recabados para dejar los que sean válidos en el estudio.
Etapa 4. Exploración de los datos. El siguiente paso es ordenar los datos a
través de tablas y gráficas para que su presentación permita que resalten las
características más importantes de los mismos. A partir de una presentación
ordenada, se puede iniciar la exploración de los datos haciendo observaciones,
calculando medidas estadísticas, identificando grupos, revisando posibles
relaciones entre dos o más de las características, etcétera.
Etapa 5. Uso de técnicas estadísticas para el análisis de los datos. La
exploración descrita en la etapa anterior, se complementa mediante técnicas
estadísticas que permiten inferir algún tipo de información sobre características de
una población a partir de información parcial, es decir, información que no fue
recabada en toda la población sino solo en una muestra representativa.
Etapa 6. Interpretación de la información y conclusiones. Determinar cuáles
son las principales características que tiene en común la población de estudiantes
Introducción.
Supongamos que estamos interesados en conocer la posibilidad de ganar en una
noche de casino o la posibilidad de obtener premios cuando jugamos una tarjeta
de QUINI 6. También podríamos querer conocer la posibilidad de que un trabajo
que estamos por iniciar resulte exitoso, o que termine dentro del plazo pactado.
Ese tipo de problemas se puede resolver usando el concepto de Probabilidad. Se
trata de un número que permite cuantificar la posibilidad de que ocurra un cierto
evento. Fue definido en el siglo XVIII, por matemáticos tan destacados como
Leibniz, Gauss, etc con la finalidad de encontrar cábalas que ayuden a ganar en
los juegos de azar. Hablando con mayor formalidad, se aplica al análisis de
Experimentos Aleatorios, es decir aquellos en los cuales no se puede predecir con
exactitud el resultado, como por ejemplo la tirada de un dado o la medición de
rugosidad de una pieza en una planta industrial. Para este tipo de experiencias
resulta útil determinar el conjunto de todos los resultados posibles, al que se
denomina Espacio Muestral (Ω). Por ejemplo, en la tirada del dado podemos decir
que el resultado debe ser algún entero entre 1 y 6. Por su parte, para la rugosidad
sabemos que la medición dará algún número real positivo. El hecho es que dentro
de los espacios muestrales siempre hay resultados que nos interesan en
particular; por ejemplo, si una pieza es rechazada cuando su rugosidad excede las
veinte milésimas de milímetro y nosotros somos responsables por la producción,
entonces nos preocupará esa posibilidad. Aquellos resultados que nos interesan
en particular se denominan Eventos. Precisamente la Probabilidad es un número
que mide la posibilidad de que ocurra un evento.
Experimentos
aleatorio

Eventos Probabilidad

La definición general de probabilidades plantea que si un experimento se realiza


una gran cantidad de veces (digamos n) y en nA de esas veces ocurre el evento A,
entonces la probabilidad de A es:

𝑛𝑛𝑛𝑛
P(A) = lim � 𝑛𝑛 �
𝑛𝑛→∞

Veces el experimento y contar en cuantas ocurre el evento en cuestión. Luego la


frecuencia relativa nos da la probabilidad buscada. Afortunadamente una vez
determinadas las probabilidades de eventos simples, podemos realizar
operaciones aritméticas para determinar las chances de eventos de mayor
complejidad. En particular, la regla de la suma permite evaluar P (AUB), es decir la
posibilidad que ocurra el evento A, que ocurra el evento B, o que ocurran ambos
eventos simultáneamente. Por ejemplo, que una pieza cualquiera presente una
excesiva rugosidad o tenga errores de forma. Por su parte, la regla del producto
nos permite evaluar P (A∩B), o sea la chance de que los dos resultados se
presenten simultáneamente.

Siguiendo con el ejemplo anterior, sería la posibilidad de que la pieza tenga


simultáneamente problemas de rugosidad y de forma. Sin embargo, el manejo de
la probabilidad y sus reglas no es suficiente como para abordar la mayoría de los
problemas que se nos plantean en la realidad, donde trabajamos con muchos
fenómenos cuyos resultados dependen del azar.

Es necesario introducir otro concepto muy importante: el de Variable Aleatoria


(variable cuantitativa que depende del azar), función que asigna un número a cada
uno de los resultados de un experimento aleatorio. Muchas cantidades que
manejamos cotidianamente son ejemplos de variable aleatorias: diámetro o
rugosidad de una pieza, temperatura de un fluido, número de detenciones de una
máquina, o cantidad de defectos de una pieza. Para cada una de estas variables
sería interesante asociar probabilidades a los diferentes valores que toma la
misma; esta asignación se denomina Distribución de Probabilidades y describe el
comportamiento esperado de una variable aleatoria. Supongamos por ejemplo el
experimento consistente en arrojar tres veces una moneda perfecta. Podemos
definir la variable X: cantidad de veces que sale Número. En este caso, si los
resultados son: Cara - Cara - Número (CCN), la variable toma el valor X = 1 (hay
sólo un Número en ese evento).

Más aún, podemos asignar una probabilidad a este valor analizando todos los
resultados del experimento que conducen a que X tome el valor 1. Si continuamos
con esta modalidad para todos

los valores posibles de X, podemos construir la siguiente tabla:


Espacio Muestral X P(X = x) P(X ≤ x)
CCC 0 1/8 1/8

CCN
CNC 1 3/8 4/8
NCC

CNN
NCN 2 3/8 7/8
NNC
NNN 3 1/8 1

Como observamos, a cada elemento del espacio muestral se le puede asignar un


valor de la variable, y a su vez a cada valor de ésta se le puede relacionar una
probabilidad. Esta relación funcional es formalmente lo que definimos como
Variable Aleatoria. Con este razonamiento, podemos asegurar que toda variable
aleatoria tendrá siempre una Población y una Función de Distribución de
Probabilidad.

En nuestro ejemplo la Población es: Ω = { 0,1,2,3 }. Ahora bien, las variables


aleatorias pueden ser Discretas o Continuas. Aún cuando buscaremos una
definición formal a lo largo de esta Unidad, podemos adelantar que las Discretas
se utilizan habitualmente para conteos en tanto que las Continuas permiten
representar el resultado de mediciones. Por ejemplo, la variable “Cantidad de
imperfecciones en la pintura de un auto” es Discreta, en tanto que el “Espesor de
la capa de pintura”, es Continua. Ambos tipos de variables tienen propiedades
diferentes y por lo tanto debemos analizar especialmente cada modalidad.
población
Variables aleatorisas

Distribución de
continuas discretass probabilidad

En el caso de las variables Discretas es posible individualizar a cada elemento de


la Población, y luego a cada elemento se le puede asignar una fracción de la
Probabilidad total a repartir (recordemos que ese total es igual a uno).

En cambio, en las variables Continuas los valores no son individualizables y por lo


tanto no es posible realizar una asignación similar a la anterior. Bajo esas
condiciones, determinamos la Probabilidad de que la variable tome valores dentro
de un cierto intervalo. En este caso la probabilidad que la variable tome
exactamente un valor determinado se considera igual a cero.

Para ejemplificar lo anterior vamos a suponer que estudiamos la variable X:


Estatura de una persona de sexo masculino. Entre los dos problemas siguientes
uno es absurdo y el otro interesante, decidamos cuál está en cada condición:
Problema 1: determinar la posibilidad que una persona mida entre 1,70 y 1,80 mts.
Problema 2: determinar la posibilidad que una persona mida exactamente
1,7634915 mts. Cualquiera sea el tipo de variable aleatoria, podemos resumir sus
principales propiedades en un conjunto de medidas. Recordemos que ya
utilizamos esta modalidad anteriormente cuando resumimos las propiedades de
una muestra en medidas de ubicación y dispersión. Para efectuar ese resumen
son importantes dos propiedades denominadas Valor Esperado y Varianza. La
primera representa la condición promedio de la variable en una gran cantidad de
realizaciones del experimento; la segundo sintetiza la variabilidad de esa
propiedad respecto al valor medio.

Variables Variables
discretas continuass

Características
E(X): µ

V(X): σ 2
Asimetría: γ

La elección de una variable aleatoria apropiada y la identificación de su


distribución de probabilidades es un paso fundamental en el análisis de
fenómenos que dependen del azar.
CUESTIONARIO
1) ¿Qué se entiende por experimento aleatorio? Explique en qué consiste el
espacio muestral de un experimento aleatorio. ¿Qué es un suceso (o evento)?

2) ¿Cómo se puede definir el concepto de probabilidad? ¿Cuáles son sus


propiedades?

3) Explique de qué manera se pueden asignar probabilidades, y cuál es la regla


general de asignación.

4) Explique qué significa afirmar que dos sucesos sean: excluyentes, exhaustivos,
independientes. ¿Qué se entiende por complemento de un suceso?

5) ¿En que consisten las reglas de la suma y del producto de probabilidades?


¿Para qué se utilizan?
6) ¿Cómo afecta la regla de la suma el hecho de que los eventos sean
excluyentes o no excluyentes?

7) ¿Cómo afecta la regla de la multiplicación el hecho de que los eventos sean


dependientes o independientes?

8) Elabore una definición de probabilidad condicional, y explique cómo se calcula.

9) ¿Qué es una variable aleatoria? ¿Qué representa la distribución de


probabilidades de una variable aleatoria?

10) ¿Cuál es la diferencia entre las variables aleatorias discretas y continuas?


¿Cómo es la representación gráfica de c/u?

11) ¿Cuáles son las propiedades de una función de probabilidad? ¿Y de una


función de densidad de probabilidad?

12) ¿Qué es la función de distribución acumulada? ¿Para qué se utiliza? ¿Cómo


se la calcula?

13) ¿De qué manera se puede caracterizar el comportamiento de una variable


aleatoria (o de su distribución de probabilidades)?

14) Explique cómo se calcula el valor esperado y la varianza de una variable


aleatoria. Indique qué significado tiene cada una de esas cantidades estadísticas.
Analice, además, las propiedades de la esperanza y la varianza.

Ejercicios Propuestos.

1. Proponer ejemplos de Experimentos Aleatorios. Para cada experimento


determinar si el espacio muestral es de tamaño finito o infinito. Dentro de cada
espacio definir eventos excluyentes y eventos no excluyentes. Acordar con el
grupo el significado de la afirmación “un evento ha ocurrido”.

2. Un edificio tiene dos ascensores. La probabilidad que en un cierto momento


funcione el ascensor A es de 0,90; por su parte, la probabilidad de que funcione B
es de 0,80; la probabilidad que funcionen los dos de manera independiente es
0,72. Si en un día de cuarenta grados llegamos al edificio para visitar a un amigo
que vive en el décimo piso, ¿cuál es la probabilidad de que no se deba subir por la
escalera?

3. De un mazo de naipes españoles (40 naipes) se extrae una carta al azar.


Determinar la probabilidad de que: a) la carta sea un REY b) la carta sea una
COPA c) la carta sea un REY o una COPA. d) la carta no sea ni REY ni COPA.

4.. Proponer ejemplos en que se apliquen los conceptos de probabilidad


condicional y de independencia.

6. En términos de probabilidades: ¿es lo mismo decir: P( A∩B ) que P( B∩A )? 7.


En una caja hay diez piezas, de las cuales siete son Buenas (B) y las restantes
son Defectuosas (D). Se extraen dos piezas, sucesivamente y sin reposición. a)
Determinar la Probabilidad de que: - las dos sean buenas. - la 1º sea buena y la 2º
defectuosa. - la 1º sea defectuosa y la 2º buena. - las dos sean defectuosas.

b) Listar todos los eventos compuestos del punto anterior y verificar que la suma
de sus probabilidades sea uno.

c) Calcular la Probabilidad de que la primera pieza sea Buena y comparar con la


Probabilidad Marginal del resultado Buena.

d) Calcular la Probabilidad de que la segunda pieza sea Buena y comparar con la


Probabilidad Marginal del resultado Buena.

ESTADISTICA DESCRIPTIVA.

Introducción. La Estadística es la ciencia que permite estudiar la variabilidad de


algunas propiedades que caracterizan a un conjunto de elementos, que pueden
ser personas o cosas.

El conjunto formado por todos los elementos que son objeto de un análisis
estadístico es la población de ese estudio, por ejemplo, todos los alumnos de la
Facultad o todas las piezas que produce una máquina. Cuando la población es
muy grande los estudios estadísticos se llevan a cabo mediante el empleo de
muestras, que son subconjuntos representativos de la Población seleccionados de
acuerdo a criterios provistos por la Estadística.
El armado de muestras depende del tamaño de la población y de la variabilidad
que presentan sus componentes. Una vez que tenemos identificados cada uno de
los elementos de la población o de la muestra, según sea el objetivo del estudio es
necesario medir u observar algunas características específicas, registrándose
como resultado una serie de datos. Estos datos pueden ser de tipo cualitativo o
cuantitativo.

ESTADÍSTICA DESCRIPTIVA

La Estadística Descriptiva es la parte de la Estadística que proporciona las


herramientas necesarias para realizar el procesamiento de esos datos, con la
finalidad de organizarlos, facilitar su presentación, sintetizar sus principales
propiedades e identificar tendencias o patrones de comportamiento. El tipo de
análisis que se puede realizar depende de los datos disponibles (tipo y cantidad) y
del objetivo específico del estudio. Por lo general los datos se organizan
agrupándolos en tablas de frecuencias, y el resultado de este agrupamiento se
muestra mediante gráficos apropiados. Si los datos son numéricos se calculan
cantidades estadísticas representativas (como promedios o rangos) que resumen
sus principales propiedades. Este tipo de procesamiento permite transformar
“datos en bruto” en “información”, en conocimiento práctico que permite orientar la
toma de decisiones relacionadas con la población en estudio.

ESTIMACIÓN.

Introducción.

Supongamos que debemos estudiar la resistencia a la tensión de una componente


empleada en la carrocería de un automóvil. Esta resistencia presenta una
variabilidad natural, debido a las variaciones inevitables en la materia prima, en las
máquinas, en los sistemas de medición, etc. Obviamente, los diseñadores de la
pieza, atentos a esta variabilidad inevitable, han fijado tolerancias, en este caso el
valor mínimo admisible para dicha característica de calidad. Con este
razonamiento, si una de estas componentes tiene una resistencia inferior a la
tolerancia, la pieza debe ser rechazada. Nuestro problema es determinar el
porcentaje de unidades dentro de la producción que no satisfacen la tolerancia.
Este y cualquier otro problema puede ser resuelto si se conoce la distribución de
probabilidades de la variable. Sin embargo, en la práctica resulta imposible o poco
práctico observar toda la población. En el ejemplo, tratándose de un ensayo
destructivo, debiéramos romper todas las unidades producidas para comprobar si
cumplen o no con la resistencia mínima establecida. La solución que planteamos
en las unidades anteriores es tomar una muestra y luego, a partir de sus
propiedades, elegir un modelo de probabilidad que represente adecuadamente a
la variable aleatoria. Pero para poder usar el modelo, debemos ajustarlo dándole
valores a los parámetros, y verificar que la representación obtenida sea correcta.
Ahora bien, ¿cómo debemos utilizar la información muestral para obtener las
mejores aproximaciones posibles de los parámetros de la población? Por ejemplo,
si el modelo elegido es el Normal, es preciso aproximar sus propiedades
fundamentales: µ y σ. ¿Cuál es la forma de hacerlo y qué nivel de error podemos
cometer? Este es el problema central que plantea la presente unidad, la forma en
que se puede asignar valores a los parámetros de una población, sin haberla
medido en su totalidad y el análisis de los errores que se cometen al realizar esta
aproximación. Conviene destacar que la temática tiene una terminología
específica. Por ejemplo, se denomina Parámetro a una propiedad de la población
y Estimador a una propiedad de la muestra que se utiliza como aproximación al
parámetro poblacional. Entre los aspectos que se deben analizar se encuentra la
forma adecuada de estimar los parámetros de modelos como son el Binomial;
Poisson; Exponencial; Normal; etc. Dedicándole especial atención al promedio
muestral, dado que posee interesantes propiedades a la hora de realizar
estimaciones. Además, a fin de estudiar la variabilidad de los estimadores,
utilizamos distribuciones de probabilidad especialmente desarrolladas para
representar la incertidumbre del muestreo. Estas distribuciones se denominan:
Chi.cuadrado; t de Student y F de Fischer. Por otra parte es posible realizar dos
tipos de estimaciones: Puntual y por Intervalo. En la estimación puntual se obtiene
un valor único como aproximación del parámetro poblacional desconocido.

MODA

En estadística, la moda de una serie de números es el número que aparece con mayor
frecuencia en dicha serie. Una serie de datos no necesariamente tiene una sola moda. Si
dos o más valores están "vinculados" por ser los más comunes, se puede decir que la serie
es bimodal o multimodal, respectivamente. En otras palabras, todos los valores más
comunes son las modas de la serie. Al depender sólo de las frecuencias, puede calcularse
para variables cualitativas. Datos a granel: Mira estos números: 3, 7, 5, 13, 20, 23, 39, 23,
40, 23, 14, 12, 56, 23, 29 Ordenados quedan: (siempre primero ordenarlos) 3, 5, 7, 12, 13,
14, 20, 23, 23, 23, 23, 29, 39, 40, 56 Así es más fácil ver qué números aparecen más veces.
En este caso la moda es 23.

TABLAS DE DISTRIBUCIÓN DE FRECUENCIAS

Ejemplo 1. Calificaciones obtenidas por 48 alumnos en Inglés

8 10 7 10 5 8 6 7 7 8 10 9 9 5 6 9
6 7 8 8 9 5 8 7 6 7 9 5 9 7 9 8
5 7 10 9 68 6 6 8 9 9 10 8 8 8 7 10

Escribe dos observaciones sobre los datos anteriores.


________________________________________________________________

En la siguiente tabla, se escribió cada calificación junto al número de alumnos que


obtuvo cada calificación.
Ahora escribe 4 observaciones sobre la colección de calificaciones.
_____________________________________________
CALIF ALUMNOS
______________________________________________
5 5
______________________________________________
6 8
______________________________________________
7 9
8 11
9 9
10 6
TOTAL 48

¿Cómo te resultó más sencillo analizar los datos anteriores: revisados en la lista
original u ordenados en la tabla? _______________________________________

Una tabla de frecuencias es una tabla que muestra los valores que toma una
variable, junto con el número de veces que se observa cada uno de ellos en una
colección de datos. A este número se le llama frecuencia o frecuencia absoluta. El
objetivo de construir esta tabla es obtener una presentación sencilla, ordenada y
fácil de leer, que permita distinguir las características más evidentes de una
colección de datos y proporcionar elementos para su análisis.

Datos no agrupados en intervalos Este tipo de tablas se usan cuando la variable


de estudio es cualitativa o bien cuantitativa discreta con pocos valores. La
restricción de que los valores sean pocos se debe a que una tabla con muchos
renglones no es fácil de leer.

Una tabla de frecuencias es una tabla que muestra los valores que toma una
variable, junto con el número de veces que se observa cada uno de ellos en una
colección de datos. A este número se le llama frecuencia o frecuencia absoluta. El
objetivo de construir esta tabla es obtener una presentación sencilla, ordenada y
fácil de leer, que permita distinguir las características más evidentes de una
colección de datos y proporcionar elementos para su análisis.

Estadística Inferencial

Se trata de procedimientos que permiten obtener ciertas conclusiones acerca de


una población con base exclusivamente en la información proporcionada por una
muestra aleatoria representativa.
El azar interviene en la elección de la muestra por lo que debe ser tomado en
cuenta al hacer inferencias, y es aquí donde la Estadística se relaciona con la
Probabilidad, que es la rama de las matemáticas encargada de la toma de
decisiones en condiciones de incertidumbre.

EJERCICIOS 1.1.1
1. Para organizar una campaña que promueva el deporte entre niños y
adolescentes, el gobierno del estado de Chihuahua decidió realizar una encuesta
entre alumnos de escuelas primarias y secundarias.
Se eligieron 300 escuelas al azar y se aplicó una encuesta a todos los estudiantes
de esas escuelas.
a. ¿Cuál es la población de este estudio?

b. ¿Cuál es la muestra?

c. ¿Qué procedimiento se utilizó para recabar información? 2.1 El proceso de


recoger, organizar y representar los datos demográficos de los estudiantes de un
salón de clase corresponde a un estudio de Estadística

2.2 El total de elementos bajo consideración al hacer una investigación estadística


se llama
2.3 La parte de la población escogida para hacer un análisis estadístico que
permita obtener algunas conclusiones sobre la población se llama

2.4 Los métodos que permiten obtener ciertas conclusiones sobre una población
con base en la información que brinda una muestra, integran la Estadística

3. Selecciona solo una opción que corresponda al concepto descrito en cada uno de
los siguientes casos

3.1 El proceso de recoger, organizar y representar los datos demográficos de los


estudiantes de un salón de clase corresponde a un estudio de Estadística

a) Inferencial b) Descriptiva c) Muestreo d) Probabilidad

3.2. El total de elementos bajo consideración al hacer una investigación estadística se


llama

a) Población b) Muestra c) Selección d) Variable

3.3 La parte de la población escogida para hacer un análisis estadístico que permita
obtener algunas conclusiones sobre la población se llama

a) Población b) Muestra c) Selección d) Variable

3.4 Los métodos que permiten obtener ciertas conclusiones sobre una población con
base en la información que brinda una muestra, integran la Estadística

a) Inferencial b) Descriptiva c) Muestreo d) Probabilidad


3.5 Una característica de interés en un estudio estadístico es una

a) Población b) Muestra c) Selección d) Variable

4. Escribe de qué población fueron extraídas las muestras que se describen a


continuación.

a. Se elige a 250 mujeres de 15 años y más que asisten a la clínica 22 del IMSS
para un estudio sobre el número de hijos que tienen.

b. Se seleccionan al azar 600 estudiantes matriculados este semestre en el


CCH Sur para un estudio sobre hábitos de tabaquismo.

c. Se aplica una encuesta telefónica (en teléfonos fijos) a 800 mexicanos con
credencial del INE vigente para que califiquen el desarrollo de las anteriores
elecciones presidenciales.

TIPOS DE VARIABLES

Las variables estadísticas pueden clasificarse de acuerdo a los valores que toman,
en variables cuantitativas y variables cualitativas.
A. Variables cuantitativas o numéricas

Son aquellas variables que toman valores numéricos como resultado de un


proceso de conteo o medición. Por ejemplo:
a) Peso de jóvenes mexicanos de 15 a 18 años de edad.
b) Cantidad de personas que viven en el hogar de cada estudiante del CCH.
c) Edad en años cumplidos de los estudiantes de un grupo.
d) Altura de los arbustos de cedro blanco que crecen en la CdMx.

Estas variables se subdividen en


Cuantitativas discretas
Son resultado de un proceso de conteo. Usualmente toman valores enteros no
negativos. De los ejemplos mencionados antes, las variables de los incisos b y c
son discretas.

Cuantitativas continuas
Son resultado de un proceso de medición. Toman valores en intervalos. De los
ejemplos mencionados antes, las variables de los incisos a y d son continuas.

B. Variables cualitativas o categóricas

Son las variables que toman como valores categorías o nombres que identifican
distintas cualidades o atributos de los elementos de la población o muestra. Por
ejemplo:

a) Género de personas de una población.


b) Color de ojos de estudiantes del plantel.
c) Nivel máximo de estudios de trabajadores de una empresa.
d) Nivel socioeconómico de personas que habitan en cierta región.

A. Datos no agrupados en intervalos Este tipo de tablas se usan cuando la variable de estudio es
cualitativa o bien cuantitativa discreta con pocos valores. La restricción de que los valores sean
pocos se debe a que una tabla con muchos renglones no es fácil de leer.

REPRESENTACIÓN GRÁFICA

Además de la distribución de frecuencias, resulta conveniente construir alguna


representación gráfica de los datos. De esta manera, se tiene una imagen que
describe visualmente el comportamiento de los datos.
Toda gráfica debe tener un título descriptivo, el nombre de la variable que representa,
las unidades de la variable, preferentemente la fuente de la cual se recaba la
información y en su caso la escala utilizada.
La siguiente tabla muestra algunas recomendaciones para el uso de gráficas en
función al tipo de variable que se analiza:

Tipo de variable Gráfica recomendada


Cualitativa Circulares
De barras
Cuantitativas discretas con pocos valores De líneas
De barras
De puntos
Series de tiempo De líneas
Cuantitativas discretas con muchos Histogramas
valores Polígonos de frecuencia
Cuantitativas continuas De puntos
Cualquier variable con frecuencias Ojiva
acumuladas

Gráfica Circular

Se conoce también como diagrama de pastel o de sectores. Ayuda a percibir la


importancia relativa de cada categoría respecto al total.
Para determinar el ángulo central de cada sector, se divide 360º de manera
proporcional a la frecuencia absoluta o relativa de cada valor (usando, por
ejemplo, una regla de tres).
En cada sector circular, se suele escribir la frecuencia relativa dada en porcentaje.
Las gráficas circulares se acompañan de una leyenda en la que se indica la
categoría que corresponde a cada uno de los sectores.

Gráfica de barras
En un sistema de ejes coordenados, se localizan en el eje horizontal los valores de
la variable y en el eje vertical, la frecuencia absoluta o relativa que corresponde a
cada valor. Con esa información, se construyen barras separadas, una para cada
valor.
Las barras son rectángulos cuya altura es la frecuencia de cada valor o categoría
y cuyo ancho es arbitrario, pero debe ser el mismo para todos los casos.
La separación de las barras es arbitraria, pero también debe ser la misma. Las
bases de los rectángulos deben estar centrados sobre los valores de la variable.
Este tipo de gráfica se usa en variables cualitativas o cuantitativas discretas con
pocos valores.

Gráfica de Puntos

En esta gráfica se identifica cada uno de los datos por un punto trazado sobre su
valor a lo largo de una recta numérica, de manera que se observa cada valor
individual. Si dos o más datos tienen el mismo valor se colocará un punto sobre
otro.

En estas gráficas se muestran la acumulación, variabilidad y la forma de la


distribución de los datos. También es útil para comparar dos muestras y aunque
es muy fácil de construirlo manualmente es recomendable usar un software
cuando se tienen muestras numerosas.
Estas gráficas se usan en cualquier colección de datos cuantitativos.

Gráfica de líneas
Se usa en series de tiempo, es decir, datos que varían en el tiempo, y en datos de
variables cuantitativas discretas con pocos valores.

Se trata de una poligonal formada por segmentos de recta que unen una colección
de vértices. Cada vértice tiene como abscisa el valor o la categoría y su ordenada
es la frecuencia o el dato en el tiempo.

Histograma
Se usa principalmente para datos agrupados en intervalos. Se trata de un gráfico
de barras en el que la barras se colocan pegadas, una junto a la otra, pues cada
intervalo termina donde empieza el siguiente. Las alturas de las barras pueden ser
las frecuencias absolutas o relativas.
El ancho de los rectángulos corresponde al tamaño de los intervalos. Las bases de
las barras se encuentran centradas en el punto medio del intervalo, al que
llamaremos marca de clase.

Polígono de Frecuencias
Es un gráfico de líneas que se cierra para formar un polígono trazando segmentos
de recta que lo unen con el eje horizontal.
Se usan sobre todo en datos que se pueden agrupar en intervalos. Los vértices
tienen como abscisas las marcas de clase o puntos medios de los intervalos, y
como ordenadas las frecuencias correspondientes.
Se debe cerrar sobre el eje horizontal en dos puntos que corresponden a las
marcas de clase de dos intervalos ficticios a los que se les asigna una frecuencia
cero, uno anterior al primer intervalo real y el otro posterior al último intervalo real.

Ojiva
Consiste en una gráfica de líneas en la que la altura de los vértices corresponde a
las frecuencias acumuladas. Por ello, la gráfica es ascendente. Siempre empieza
en el eje horizontal.
Se usa en datos de cualquier variable que tenga frecuencias acumuladas.
Para datos no agrupados en intervalos, se trazan los puntos que corresponden a
los valores de la variable cuantitativa y la frecuencia acumulada (relativa o
absoluta), a continuación se unen los puntos mediante segmentos de recta, el
extremo derecho no se une con el eje horizontal.

MEDIDAS ESTADÍSTICAS

Además de ordenar los datos en tablas de frecuencias y de representarlos a


través de gráficas, la exploración de los datos se enriquece calculando medidas
estadísticas que nos permitan contestar preguntas como:

• Si ordenamos los datos de menor a mayor, ¿entre qué cantidades se encuentra


la mitad menor de los datos? ¿Y la mitad mayor?
• ¿Hay algún valor que se repite más en los datos?
• ¿Hay algún número en torno al cual se agrupe una buena cantidad de los datos?
• En promedio, ¿qué tan lejos están los datos de ese número?
• ¿Qué tan lejos está el dato mayor del menor?

Estudiaremos aquí tres clases de medidas: las medidas de tendencia central, las
medidas de dispersión y las medidas de posición.

Medidas de tendencia central

Buscamos cantidades que sean representativas de la colección de datos en el


sentido de que todos los datos o la mayoría de ellos, se encuentren más o menos
cerca de esas cantidades. A veces esto no es fácil de lograr porque hay algunos
datos con valores notablemente diferentes a los demás, sea porque son mucho
más grandes o porque son mucho más chicos. A los valores de estos datos
notablemente diferentes, les llamaremos valores extremos.
Se les llaman medidas de tendencia central porque cuando no hay valores
extremos, las cantidades representativas suelen ubicarse por el centro de los
datos.
Estudiaremos tres medidas de tendencia central: la media aritmética o promedio,
la mediana y la moda

Media aritmética o promedio

La media aritmética solo puede calcularse cuando la variable es cuantitativa y se


obtiene sumando todos los datos y dividiendo el resultado entre la cantidad de
datos. Cuando los datos son elementos de una muestra, la media se representa
por 𝑋𝑋, cuando los datos corresponden a toda la población se puede denotar por μ .
Mediana
La mediana es un valor que se localiza en el centro de los datos ordenados (de
menor a mayor o de mayor a menor). Puede determinarse cuando los datos
corresponden a una variable cuantitativa y cuando se trata de una variable
cualitativa ordinal.
Se Identifica con las letras Mdn. Si los datos corresponden a una muestra, la
mediana se suele denotar por 𝑋𝑋̃.
Si la cantidad de datos es impar, la mediana es el dato que se encuentra en el
centro, una vez que los datos han sido ordenados. Si la cantidad es par, se
promedian los dos datos centrales, y la mediana no necesariamente es uno de los
datos.

Moda
La moda es el valor que más se repite en el conjunto de datos, es decir, es el dato
con mayor frecuencia. Se puede identificar con las letras Mo y se suele usar el
símbolo 𝑋𝑋̂ para la moda de una muestra.
Esta medida es aplicable en cualquier tipo de variable y es la única medida de
tendencia central posible cuando la variable es cualitativa nominal. Puede haber
una moda, varias modas y también puede no haber ninguna.

Medidas de dispersión
Estas medidas estadísticas indican qué tan cercanos o alejados están los valores
que toma la variable de estudio.
Rango
El rango de una colección de datos es el resultado de restar el valor máximo
menos el mínimo, y es un indicador de qué tan alejados están los datos entre sí.

Varianza y Desviación estándar


Ahora buscamos una medida que indique qué tan lejos están los valores que toma
una variable de su media aritmética o promedio.

Medida de dispersión relativa


En un zoológico, el peso promedio de los elefantes es de 4800 kg y su desviación
estándar es de 2200 kg. En cambio, el peso promedio de los conejos es de 4.3 kg y
su desviación estándar es de 1.8 kg. ¿Cuáles pesos están más dispersos, los de los
elefantes o los de los conejos?
Evidentemente, en términos absolutos la dispersión en el peso de los elefantes es
mucho más grande. Sin embargo, para darnos una idea más precisa debemos tomar
en cuenta el peso promedio de cada grupo de animales.
Una buena forma de comparar estas colecciones tan diferentes, es analizar qué parte
de la media es la desviación estándar en cada caso. A esto se le llama Coeficiente de
Variación (CV) y se expresa en porcentaje.

Medidas de posición
Las medidas de posición son cantidades que dividen una colección ordenada de
datos, en 4, 10 o 100 partes iguales.

Cuartiles
Los cuartiles son 3 números que dividen a la colección ordenada de datos en 4
partes iguales. Sus valores pueden ser datos, o bien cantidades obtenidas al
promediar dos datos consecutivos de la colección ordenada.
Cuartil 1 (Q1): es un número tal que el 25% de los datos son menores o iguales a
él y el 75% de los datos son mayores o iguales a él.

Cuartil 2 (Q2): coincide con la mediana porque es una cantidad tal que el 50% de
los datos son menores o iguales a ella y el otro 50% son mayores o iguales.
Cuartil 3 (Q3): es un número tal que el 75% de los datos son menores o iguales a
él y el 25% son mayores o iguales.

Deciles
Se trata de 9 números que dividen a la colección ordenada de datos en 10 partes
iguales. Se denotan por D1, D2, D3, …, D9. Estas medidas se usan cuando la
cantidad de datos es grande. Sus valores se calculan de manera similar a la forma
en que se calcularon los cuartiles.
El 10% de los datos son menores o iguales que D1 y el 90% mayores o iguales.
El 20% de los datos son menores o iguales que D2 y el 80% mayores o iguales.
El 30% de los datos son menores o iguales que D3 y el 70% mayores o iguales.
Y así sucesivamente.

Percentiles
Son 99 números que dividen a la colección ordenada de datos en 100 partes
iguales. Se denotan por P1, P2, P3, … P99. Estos permiten determinar rangos de
variación de cualquier porcentaje de los datos. Por ejemplo, el 22% de los datos
son menores o iguales a P22 y el 78% son mayores o iguales. El 65% de los datos
son menores o iguales que P65 y el 35% es mayor o igual.

RELACIÓN LINEAL ENTRE DOS VARIABLES CUNTITATIVAS


La relación entre dos variables numéricas puede ser funcional, si se trata de una
relación matemática exacta entre ellas, o puede ser estadística si la relación entre
ellas es sólo aproximada a una relación matemática. Aquí se va a abordar la
relación estadística entre dos variables cuantitativas.
El modelo al que una colección de datos bivariados se aproxima, puede ser de
muy distinta naturaleza, ya sea lineal, cuadrático, exponencial, logarítmico,
trigonométrico, etc. En el curso de Estadística y Probabilidad I solo se aborda el
modelo de relación lineal. La pregunta a responder es: ¿Qué tan lineal es la
relación entre dos variables cuantitativas involucradas en una colección de datos
bivariados?
Para responder esta pregunta se harán tres pasos o procedimientos: la
elaboración de un diagrama de dispersión, la determinación de una recta de
regresión lineal y el cálculo del coeficiente de correlación lineal.

Diagrama de dispersión
En un plano cartesiano se localiza cada dato bivariado como un punto. La nube de
puntos que se forma se llama diagrama de dispersión.
Se debe identificar cuál de las dos variables se usará como variable independiente
(también llamada explicativa, regresora o exógena) y cuál será la dependiente
(respuesta o endógena). La variable independiente se localiza en el eje horizontal
y la dependiente en el eje vertical.
A veces, el diagrama da una idea de qué tan cerca o lejos están los datos de una
relación lineal. Se habla de correlación lineal negativa cuando el modelo lineal
aproximado tiene pendiente negativa. Análogamente, se habla de correlación
lineal positiva cuando la recta aproximada tiene pendiente positiva.

Recta de regresión (mínimos cuadrados)


Antes de medir qué tan cerca o lejos de una recta está una colección de puntos,
se requiere encontrar la recta con la que se va a comparar. Por ello, el propósito
en esta parte es encontrar la recta que más se parece a una nube de puntos.
Un criterio puede ser que sea la recta para la cual la suma de distancias verticales
sea lo más chica posible.

Coeficiente de correlación lineal


En cualquier colección de puntos, se puede encontrar la recta de regresión por
mínimos cuadrados. Pero que exista esa recta no significa que los puntos sean
muy cercanos a ella, nada más que es la recta que más se parece a la nube de
puntos.
Por ejemplo, en los siguientes diagramas se ven dos nubes de puntos y las rectas
de regresión correspondientes. La distancia de los puntos a la recta es muy
diferente en esos dos casos.

También podría gustarte