Está en la página 1de 61

1

Introducción a la Temática del Capítulo.


Puntos del Proyecto de Trabajo
Las Distribuciones de Datos
El Caso a Analizar
Abrir a la Hoja Electrónica
La Variable Continua: Peso del huevo.
La Variable Cualitativa: Sexo del Producto.
La Variable Discreta: Número de Huevos
Conclusiones y Recomendaciones. Salida
Arrancar el Libro Excel

Curso Programado de Estadística Esc: Menú Anterior

Marte 2004 © Manuel Pontigo Alvarado: mpontigo@itcr.ac.cr. ISBN 978-9968-9634-3-5


2
La Era de la Información

Nunca la humanidad ha generado tantas Noticias y Datos.


La tecnología ha desarrollado aparatos que reciben, procesan
y emiten señales de manera automatizada.
Tal es la magnitud de estas señales que se ha creado toda una
Teoría de la Información:
Encargada de relacionar el medio, el canal y el código con
los cuales se trasmite la información.
Los medios más usuales a la información son: La INTERNET
(Red Mundial de Computadoras); La INTRANET (Red Local
de Computadoras); El Radio y la Televisión; Los medios
gráficos como diarios, revistas y libros.
3
La Informática
Es el conjunto de técnicas que permiten procesar datos dando
resultados. Un proceso que se es recomendable realizar
mediante ordenadores.
Los Ordenadores también conocidos como Computadoras son
las herramientas que han propiciado, en gran medida el
“BUM” INFORMATIVO e INFORMÁTICO que se está
viviendo.
Con estos aparatos se captura, procesa y emite información
con sentido, generalmente económico.
La pregunta que surge:
¿Por qué no analizar la información? Si los mismos aparatos
tienen incorporadas las herramientas.
4
Estadística: Viene De Estado
Tiene dos acepciones:
-Sucesión numérica de datos sobre un tema con los que se
pretende caracterizar a una población.
-Y, Ciencia cuyo propósito es la recopilación,
agrupamiento y tratamiento de datos numéricos sobre
fenómenos naturales o sociales, y el método que se usa.
Se puede agregar:
Con el objeto de facilitar al estudioso, el análisis, la síntesis
y las recomendaciones que han sido el propósito de esa
recopilación de datos.
Esto es, dar a la INFORMÁTICA un sentido analítico.
La Recopilación y el 5

Almacenamiento de Datos
Cuando se investiga una población de individuos en una o más
características, la lógica nos dice que al menos deben
estudiarse algunos individuos que Representen al grupo. A
estos individuos que llamaremos Muestras, se les toman una o
varias medidas conocidas como Datos, importantes para los
fines de la investigación. Al origen de una o más variables se le
conoce como Observación.
La modernidad nos permite que las observaciones sean
capturadas, almacenadas y tratadas en un Ordenador. En este
curso se agregará:
Y analizarlas con las herramientas estadísticas de uso
general que el mismo ordenador opera.
El Propósito de la Investigación. 6

En toda investigación, sea que se trate de recopilar información simple o


muy complicada y costosa, el Proyecto debe establecerse de manera clara,
precisa y concisa:
En o los propósitos que se persiguen con la investigación.
También llamados Objetivos del Proyecto. Estos son puntos en el horizonte
del estudio a los que se llegará después de que la información se haya
ordenado, procesado y analizado, esto es, Informatizado.
La claridad, precisión y concisión de los Propósitos de la Investigación
propician recomendaciones cuyos resultados son previsibles con
probabilidad conocida.
Con seguridad, estos propósitos aunque novedosos posiblemente no serán
únicos, por tanto;
“No hay nada nuevo bajo el sol” simplemente una forma diferente de
estudiarlos.
Análisis de la Experiencia Humana 7

“No hay Nada Nuevo Bajo El Sol”


Frase del acervo popular que nos dice qué, por muy novedoso
que suene “nuestro proyecto” alguien, en algún lugar, ya lo
llevó a cabo o al menos hizo algo parecido.
Esto no debe quitarnos el ánimo, la ciencia avanza en un ciclo
interminable de pruebas de acierto y error. Es posible que
algunas circunstancias de “nuestro ensayo” provoquen
diferencias o hagan evidentes errores cometidos en
investigaciones similares.
Por esto, es indispensable enmarcar con precisión los
Propósitos de la Investigación. Proceso que se conoce como
Marco Teórico que incluye la Revisión Bibliográfica.
Y el método que se usará 8

Frase en la definición de la Ciencia Estadística de


implicaciones trascendentales.
De poco sirve la experiencia humana, al menos en la
investigación científica, sí las recomendaciones de una
experiencia no tienen bases creíbles, y mejor sí son ciertas.
Esta credibilidad es otorgada al proyecto sí los métodos de:
Aplicación de Estímulos; Manipulación de los Sujetos de la
Experiencia; Obtención de Observaciones; Tratamiento
Informático de los Datos; Método Estadístico de Análisis
Y cualquier otra manipulación directa o indirecta de los
sujetos experimentados o explorados y sus observaciones
deberá estar exhaustivamente descritos y correctamente
aplicados.
Análisis de Resultados 9

Una vez que los datos se han recopilado se entra al proceso de


Analizar los Resultados.
Cuando el proyecto ha considerado valorar los resultados
mediante Técnicas Estadísticas de Análisis, sea mediante
Técnicas de Exploración o mediante Experimentos
Planificados, debe hacerse con base en el método que se ha
determinado usar antes de que se iniciara la recopilación de la
información o el tratamiento de las unidades experimentales.
Las Técnicas de Análisis Estadísticos ofrecen resultados
objetivos y con probabilidades totalmente determinadas para
que el investigador haga recomendaciones que le den la
seguridad que él necesita, conociendo exactamente el riesgo
que correrá el usuario de los resultados del proyecto.
Conclusión y Recomendación 10

Para que el proyecto sea útil, el Análisis de los Resultados debe derivar en
Conclusiones y Recomendaciones.
En todo el proyecto de investigación se han considerado directa o
indirectamente dos posiciones bien definidas:
La del Investigador cuyos fines usualmente son prácticos y más de las
veces económicos;
Y las de los usuarios de los productos resultantes de la investigación.
Las Técnicas Estadísticas consideran estas posiciones mediante las
probabilidades:
De confianza que tiene el investigador de recomendar las conclusiones
del proyecto;
De riesgo que corre el “comprador” de los productos resultantes de la
investigación.
También conocidos respectivamente como error del fabricante y error del
consumidor .
Puntualización 11

El estudiante se habrá percatado que desde la diapositiva 6 se


esquematizan los fundamentos de un proyecto de investigación en el
ámbito del método científico:
1. Introducción, que sirve para delinear el proyecto;
2. Las Propósitos del Proyecto, en el que se establecen los objetivos que
se persiguen con el proyecto;
3. La Demarcación del Proyecto, una recopilación de lo que se ha hecho
y se está haciendo sobre el proyecto.
4. Determinación de los métodos de operación, inspección del material
experimental y del método analítico de los resultados.
5. Análisis de los resultados usando el método definido en el apartado
anterior;
6. Conclusiones y Recomendaciones, síntesis y prospectiva del proyecto.
En todo caso, esta normativa prevalecerá para todos los problemas que se
traten en el curso.
Dos Preguntas Esenciales 12

Puesto que se van a utilizar Técnicas Estadísticas en el análisis


de proyectos, se estará hablando de conjuntos de individuos a
los que se les toman datos numéricos. O sea, que en esencia se
tratarán conjuntos de observaciones de números.
A la estadística interesan los conjuntos de datos, y más
específicamente sus Distribuciones, respondiendo en todo
momento a las preguntas:
¿De que tipo es la distribución de los datos?
Y, ¿Con qué distribución estadística aproximo al conjunto
de datos en cuestión?
Las dos interrogantes se deberán responder antes de dar
inicio al proyecto.
13

Los Tipos de Distribuciones


La característica que define al tipo de dato, o considerada en su conjunto
es La Variable, está, caracterizará a la distribución que el conjunto de
datos determina.
Si la distancia entre un dato con el teórico precedente es tan pequeña que
resulta tan insignificante que puede graficarse con una línea, entonces La
Distribución de Datos será de tipo Continuo. Formalizando, son Variables
que pertenecen al menos al conjunto de los números racionales o de
razones y más específicamente al conjunto de los números reales.
Si la distancia entre un dato con el teórico precedente establece un espacio
al menos de una unidad, entonces La Distribución de Datos será de tipo
Discreto. Formalizando, son Variables que pertenecen al conjunto de los
números Naturales.
Si un datos característico a una cualidad puede tomar dos valores, dígase 1
si el individuo posee la cualidad y 0 si no la posee, entonces La Distribución
de Datos será de tipo Cualitativo.
14

Las Distribuciones de tipo Continuo

Debe puntualizarse:
EL TIPO DE DISTRIBUCIÓN DE LOS DATOS ES INDISPENSABLE
PARA APROXIMARSE A POBLACIÓN QUE LOS ORIGINA USANDO
TÉCNICAS ESTADÍSTICAS.
Poblaciones a las que se les toman datos métricos —kilos, metros, litros,
libras, onzas...— para ser caracterizadas deberán ser aproximadas
mediante distribuciones de tipo Continuo.
Para los fines de este curso interesa en especial la denominada:
DISTRIBUCIÓN NORMAL
Y más específicamente:
LA DISTRIBUCIÓN NORMAL ESTÁNDAR
Que ha dado origen a poderosas herramientas de análisis y proyección.
15

Las Distribuciones de tipo Discreto

Hay variables que se utilizan para valorar datos que por su


naturaleza varían como mínimo de unidad en unidad, por
ejemplo: la cantidad de huevos que pone una gallina en un
año; el número de Gansos Canadienses que llegan a una
laguna del centro de México a pasar el invierno austral; la
cantidad de semillas que afloran de 1.000 semillas sembradas.
Estos valores provenientes de conteos son de tratamiento
estadístico incómodo, la mayoría de las veces se aproximan
mediante distribuciones continuas haciendo salvedades de
continuidad.
En todo caso, este tipo de distribuciones establece
condicionante que deben tomarse en cuenta para su
tratamiento estadístico.
16

Las Distribuciones de tipo Cualitativo

Estas distribuciones de datos reflejan pocos sucesos, la que


más interesa al curso es la resultante de dos posibles
resultados:
Que el individuo estudiado cumpla una cualidad, entonces se
el valor del dato será un uno (1);
Que el individuo estudiado no cumpla esa cualidad, entonces
el valor del dato será un cero (0).
De esta manera la distribución de datos —para fines prácticos
individuos que poseen o no la cualidad— podrá representarse
con mediante dos columnas.
En este curso interesa en especial la Distribución Binomial.
17

Las Distribuciones Relativas


Los tres tipos de distribuciones de datos pueden llevarse a
valores relativos, esto es, transformarlas a números puros que
permitan concluir, independientemente de las unidades en que
se mide la variable.
Las unidades relativas más utilizadas son los porcentajes, por
esto, no es extraño escuchar que tal o cual individuo pertenece
a X porcentaje de la población.
Esta facilidad matemática permite comparar distribuciones
de números puros como son las distribuciones estadísticas con
las distribuciones relativas de los datos que se estudian en los
proyectos de investigación.
Otra distribución de importancia es el orden estadístico, esto
es, la asociación de un valor de la variable con la posición
ordenada ascendentemente que ocupa.
18

Las Distribuciones de Probabilidad

Puesto que se pueden comparar distribuciones de números


puros, una parte muy importante de la Teoría Estadística se
ha enfocado a estudiar las distribuciones de de datos para
poder diseñar modelos estadísticos que emulen correctamente
los resultados.
Las distribuciones estadísticas tienen cualidades simples pero
determinantes:
El área que cubre la distribución es exactamente la
unidad;
Si se toma una sección de esa área, los tamaños de las
secciones está perfectamente determinado;
Esas secciones de área representan probabilidades.
19

Problema 1.1
Mediante un ejemplo se ilustrará el concepto de distribuciones de datos.
Una inversor ha decidido colocar su dinero en un proyecto agrícola
consistente en la reproducción de una especie de gallina con muchas
posibilidades en la producción de carne. El inversor confía en su socio, un
zootecnista dedicado a la crianza de aves pues, sabe poco de estas, pero si
conoce de análisis de la producción y sobre todo, del flujo de dinero
encargándose del análisis de los datos.
Ha considerado tres variables:
•El número de huevos que una gallina pone en una año, dato de tipo
discreto;
•El peso de los huevos, dato de tipo continuo;
•El número de machos y hembras que nacieron de los huevos, dato de
tipo cualitativo.
Por facilidad de análisis se iniciará con la variable de tipo continuo.
20

La Hoja Electrónica
Un motor del avance de la especie humana ha sido la
consecución de instrumentos que hagan la vida del hombre
más cómoda y que son universalmente aceptados, excepto por
individuos reactivos al cambio, como aquél ingeniero que
prefieren la regla de cálculo a la computadora. Al que sus
compañeros de generación ven como un “bicho raro”.
El criterio del profesor es abordar el veloz autobús de la
modernidad utilizando las herramientas modernas de uso
general para el tratamiento informático de datos. Con los
riesgos que esto implica para el estudiante poco dedicado que
supone, por simple pachorra mental, que la herramienta lleva
implícita la base teórica que soportará las conclusiones y
recomendaciones de los proyectos.
21

Entrando a la Hoja Electrónica


A partir de este punto el estudiante podrá acceder al análisis de los datos
que han sido recopilados durante un año de 280 gallinas adultas sujetas a
la explotación de huevos para reproducción.
El objetivo del ejemplo es mostrar al estudiante en que consisten las
distribuciones de datos y las diferencias entre estas.
El proyecto trata de una muestra trivariada, esto es, una observación que
consiste en la recopilación de los tres datos en una gallina, a saber:
X, El peso medio de los huevos;
Y, El número de huevos viables ovopositados en una año por la
gallina;
Z, El número de machos que resultaron de la incubación de esos
huevos.
22

EL Intervalo de Clases.
Se iniciará el trabajo con la variable continua, el peso promedio de los
huevos. Al ser un promedio, el resultado de una división, la variable se
transforma en una variable continua o muy aproximadamente continua.
La técnica que se ha desarrollado para observar las distribuciones de
datos consiste en establecer un determinado número de clases, entre 5 y 15
considerando intervalos igualmente distanciados que incluyan a todos los
individuos de la población. Después, de acuerdo a su valor, cada individuo
se asignará a la clase correspondiente llevando un conteo que se
acomodará en una tabla especialmente diseñada para el caso.
Una regla empírica nos dice que un indicador del tamaño de las clases se
puede obtenerse dividiendo la Desviación Estándar entre 2 y 4. Después
dividir el Rango por este número y eligiendo el número de clases,
usualmente entre 7 y 21.
Se irán utilizando formulas y estadísticos que serán definidos en el
momento oportuno, por el momento, se mostrarán las instrucciones de la
HE y la fórmula.
23

El Número de Clases
La Desviación Estándar es un estadístico que ofrece una idea de la
variación de la población. Se identifica con una s y se obtiene en la HE
mediante:
s = DESVEST(B12 : B291)  14,3017
Una idea del intervalo de clases o tamaño de clases se obtiene dividiendo
por 2 y por 4.
s 14,3017 s 14,3017
IC    7,15; IC    3,58
2 2 4 4
Dividiendo el Rango = Máximo - Mínimo entre ambos Intervalos de Clase
se obtendrán los números de clase extremos.
r MAX($B$12 : $B$291)  MIN($B$12 : $B$291) 76,2
NC     11
IC 7,15 7,15
r 76,2
NC    21
IC 3,58

Se puede elegir un IC de manera que se puedan conseguir de 13 a 15


clases. Por ejemplo IC = 6 gramos, un número entero.
24

Los Límites de las Clases


Para tener una perspectiva de las frecuencias de los pesos de los huevos, se
acostumbra acomodar a los datos por su magnitud en un determinado
número de clases. Usualmente se elige el valor mínimo para que sea el
límite superior de la primera clase. Esto es:
LS1  Mínimo  13,5
Que acomodará en la columna 3 (Columna D de la HE) titulada como
Límite Superior. Después calculará el Límite Inferior de la clase 1 restando
el intervalo de Clase:
LI1  LS1  IC  13,5  6  7,5
Después se calcula el promedio de la primera clase:
LI1  LS1 7,5  13,5
x1    10,5
2 2
A cada uno de los límites se les suma el intervalo de clase hasta que el
máximo caiga en la última clase.
25

Rango de las Clases


El Rango de las Clases es una lista
de límites de clases que determinará LÍMITES DE CLASES
Inferior Medio Superior
cuáles individuos, de acuerdo a los
7,5 10,5 13,5
valores que presentaros, pertenecen 13,5 16,5 19,5
a qué clase. 19,5 22,5 25,5
25,5 28,5 31,5
El proceso siguiente es efectuar el
31,5 34,5 37,5
conteo. Inspeccionar a cada dato y 37,5 40,5 43,5
asignarlo a la clase correspondiente. 43,5 46,5 49,5
(se le dejará a la computadora). 49,5 52,5 55,5
55,5 58,5 61,5
Al llegar al final de los datos, cada 61,5 64,5 67,5
valor habrá sido asignado a una 67,5 70,5 73,5
clase y el número de individuos en 73,5 76,5 79,5
una clase específica determinará la 79,5 82,5 85,5
85,5 88,5 91,5
Frecuencia de la Clase. Y en
91,5 94,5 97,5
conjunto, se habrá encontrado la
distribución de frecuencias.
26

Cuadro o Tabla de Frecuencias


La HE ubica a cada gallina LÍMITES DE CLASES Frecuencias
de la muestra en la clase Inferior Medio Superior Observadas
7,5 10,5 13,5 0
correspondiente al peso
13,5 16,5 19,5 3
promedio de sus huevos se 19,5 22,5 25,5 3
obtiene la tabla de 25,5 28,5 31,5 15
frecuencias en donde, bajo 31,5 34,5 37,5 23
37,5 40,5 43,5 24
la columna Frecuencias se 43,5 46,5 49,5 41
refiere el número de 49,5 52,5 55,5 50
individuos de la clase. 55,5 58,5 61,5 42
61,5 64,5 67,5 36
Como era de esperarse la 67,5 70,5 73,5 19
suma de frecuencias es 73,5 76,5 79,5 15
79,5 82,5 85,5 7
igual al número de
85,5 88,5 91,5 2
individuos medidos: 91,5 94,5 97,5 0
Suma 280
15
n   f i  0  3  3  15  23  24  41  50  42  36  19  15  7  2  0  280
i 1
27

Afinando el Cuadro de Frecuencias

Habrá notado que las columnas del límite inferior y el punto


medio no se utilizaron. Sin embargo, debe considerar que
cada clase forma un subconjunto acotado (limitado) con un
punto central o punto medio o promedio que representa a
todos los individuos de esa clase.
Tratándose de una variable continua, los valores mínimos y
máximos son, apenas, un par de valores entre muchos posibles
y para poder ser graficados se debe considerar el mínimo
factible que sería cero y el máximo factible que sería un
número desconocido.
Por otra parte, la manera de representar a una variable
continua es mediante una línea sin interrupciones o por clases
sin separaciones como se verá en los gráficos siguientes.
28

Herramientas Gráficas
Hitograma y Polígono de Frecuencias de una
variable continua

60

Frecuencia de huevos 50

40

30

20

10

0
10,5 16,5 22,5 28,5 34,5 40,5 46,5 52,5 58,5 64,5 70,5 76,5 82,5 88,5 94,5

Peso del huevo en gramos

En estadística se acostumbra usar estas figuras. El Histograma es el


diagrama de barras, donde cada barra representa el peso relativo de la
distribución. Entre más alta la barra más individuos hay en la clase y más
peso relativo.
El polígono, aquí graficado como una línea suavizada representa el área
bajo una curva continua.
29

Frecuencias Relativas
Frecuencias Relativas
Nº Clase L. Inferior Pto. Medio L. Superior Absoluta Ascendente Descendente
0 7,5 10,5 13,4 0,0 0,0 100,0
1 13,5 16,5 19,4 1,1 1,1 98,9
2 19,5 22,5 25,4 1,1 2,1 97,9
3 25,5 28,5 31,4 5,4 7,5 92,5
4 31,5 34,5 37,4 8,2 15,7 84,3
5 37,5 40,5 43,4 8,6 24,3 75,7
6 43,5 46,5 49,4 14,6 38,9 61,1
7 49,5 52,5 55,4 17,9 56,8 43,2
8 55,5 58,5 61,4 15,0 71,8 28,2
9 61,5 64,5 67,4 12,9 84,6 15,4
10 67,5 70,5 73,4 6,8 91,4 8,6
11 73,5 76,5 79,4 5,4 96,8 3,2
12 79,5 82,5 85,4 2,5 99,3 0,7
13 85,5 88,5 91,4 0,7 100,0 0,0
14 91,5 94,5 97,4 0,0 100,0 0,0

Dividiendo cada frecuencia entre el total de individuos se obtiene la


proporción o porcentaje (si se multiplica por 100) de individuos en cada
clase. Si las frecuencias relativas se acumulan se obtienen las frecuencias
acumulativas, útiles en procesos deductivos y para elaborar el siguiente
gráfico.
30

Las Ojivas o Frecuencias Acumulativas


Ojivas: Distribuciones relativas acumulativas
Las Ojivas son especialmente
100 100
útiles para representar los
90 90 estadígrafos de orden. Éstos son
80
70
80
70
los que relacionan el número
índice u ordinal con los valores
Porcentajes

60 60

de la variable.
50 50
40 40
30 30
20 20 El estadígrafo de orden que
mejor se comprende es la
10 10
0 0
10,5 16,5 22,5 28,5 34,5 40,5 46,5 52,5 58,5 64,5 70,5 76,5 82,5 88,5
Medina. Valor que divide a los
Peso del huevo en gramos
datos en dos subconjuntos con
Ascendente Descendente
los mismos elementos.
n  1 280  1
Está ubicada en la posición media de los estadígrafos de orden:   140,5
2 2

Esto es, el valor que presenta la observación 140. Sin la ayuda de la HE, los
datos se debían ordenar a mano y ubicar la observación, a la HE se le
solicita.:
~
x = MEDIANA(B1 2 : B291)  53,2
31

Utilidad de la Ojivas
Si la cantidad de observaciones es par, la mediana es el promedio del valor
para el estadístico mediano x140 y el siguiente x141. En el ejemplo
x140 = K.ESIMO.MENOR($B$12 : $B$291;140)  53,1
Y
x141 = K.ESIMO.MENOR($B$12 : $B$291;141)  53,3
Por tanto:
~ x  x141 53,1  53,3
x  140   53,2
2 2
La Mediana en la ojiva se identifica por ser la línea que parte de los
valores de los márgenes en 50% y cae en el eje x sobre el valor 53,2. De la
misma manera se pueden obtener los cuartos o cuartiles y en general
cualquier percentil mediante la fórmula, ejemplificada para los cuartiles;

kp 
 n  1 P ; k 25 
 280  1 25  70,25; k 75 
( 280  1)75
 210,75
100 100 100
Solicitados a ~
x25 = CUARTIL($B$12 : $B$291;1)  43,75;
la HE: ~
x75 = CUARTIL($B$12 : $B$291;3)  63,025
32

Variables Estándar
Una alternativa para obtener valores relativos es estandarizar las
variables, esto es, dividir la diferencia entre un dato yi con respecto al
Promedio entre la Desviación Estándar.

xi  x
zi 
s
Esta variable z posee unas características muy importantes en estadística,
por el momento nos interesa saber que el promedio de las variables
estandarizadas es 0 y que la desviación estándar es 1.

n n

 zi 
 iz  z  2

z i 1
 0; s z  i 1
1
n n 1
33

La Normal Estándar
Lo trascendente de esta variable Z es que existe una Distribución de
Probabilidad ampliamente estudiada en el Teoría Estadística que posee
media 0 y varianza 1. Que como de mencionó en la diapositiva 18, todas
las probabilidades bajo el área bajo la curva están determinadas.
Entonces, si la distribución de datos estandarizada es similar a la
distribución de probabilidad estadística, con esta se puede aproximar sin
dificultad y efectuar estimaciones y proyecciones con probabilidades.
La Distribución Normal Estándar tiene forma de campana, tal que también
se le conoce como campana de Gaus [Carl Friedrich Gauss (30 Abril 1777
– 23 Febrero 1855)] . Es simétrica y se aproxima muy apropiadamente a
variables biológicas, sociológicas, provenientes de procesos de fabricación
y muchas otras de tipo continuo.
34

Los Parámetros: La Media


Los Parámetros son valores que caracterizan de manera
incompleta a las distribuciones de datos y por consiguiente a
las poblaciones que les dieron origen.
Por el momento interesa la media, o valor medio definido por:
c

fx i i
x i 1
c

f
i 1
i

Fórmula para usar los datos de la tabla de frecuencias, y:


n

x i
x i 1

Para datos sin agrupar.


35

Los Parámetros: La Varianza


Valor que es un promedio ajustado de las desviaciones
cuadráticas de las observaciones con respecto a la media,
definida por:
m

 f i  xi  x 
2

s2  i 1

 m 
  fi   1
 i 1 

Para datos agrupados en las tablas de frecuencias, y:


n   n  
2

 x i  x
2
   xi  
1  n 2  i 1  
s2  I 1
n 1
  xi  n 
n  1  i 1
 
 

Para datos individuales. Al momento se usarán las fórmulas


para la tabla de frecuencias.
36

El Cálculo de Media y Varianza.


LÍMITES DE CLASES Frecuencias
Inferior Medio Superior Observadas f * xi f(xi - xm)²
7,5 10,5 13,5 0 0,0 0,0
13,5 16,5 19,5 3 49,5 4.014,0
19,5 22,5 25,5 3 67,5 2.805,1
25,5 28,5 31,5 15 427,5 9.061,6
31,5 34,5 37,5 23 793,5 7.938,8
37,5 40,5 43,5 24 972,0 3.797,3
43,5 46,5 49,5 41 1906,5 1.774,4
49,5 52,5 55,5 50 2625,0 16,7
55,5 58,5 61,5 42 2457,0 1.234,5
61,5 64,5 67,5 36 2322,0 4.696,2
67,5 70,5 73,5 19 1339,5 5.766,6
73,5 76,5 79,5 15 1147,5 8.228,4
79,5 82,5 85,5 7 577,5 6.059,3
85,5 88,5 91,5 2 177,0 2.509,4
91,5 94,5 97,5 0 0,0 0,0
Estadísticos:
n = suma frecuencias 280 Suma de cuadrados 57.902,27
Suma total 14.862,0 Varianza 207,54
Promedio 53,08 Desviación Estándar 14,41
37

Propiedades de la Media
La propiedad más importante del valor promedio es:
La suma de las desviaciones de las observaciones con respecto al promedio
es cero;
n
D   d i   x1  x   ( x2  x )  ...  ( xn  x )  0
i 1

Esta propiedad divide a la distribución de los datos en dos secciones con la


misma probabilidad ,50% de valores inferiores al promedio y 50%
superiores al promedio (la Mediana lo hace con las unidades de la
muestra).
Otra implicación importante es que la suma de cuadrados de las
desviaciones de las observaciones con respecto a la media en mínima.
n
D   d i2   x1  x   ( x 2  x ) 2  ...  ( xn  x ) 2  SC 
2 2

i 1

La Media, junto con la Mediana y la Moda son los tres parámetros de


posición que se presentan al centro de las distribuciones.
38

Propiedades de la Varianza
El promedio ajustado de las desviaciones cuadráticas tiene la propiedad de
ser la suma cuadrática mínima en una distribución. Al requerir del cálculo
previo de la media, sus propiedades están sujetas a las propiedades de la
media, por esto a la primera se le llama Primer Momento y a la segunda
Segundo Momento Muestrales.
Por si sola la varianza no indica valores útiles, al sacársele la raíz
cuadrada se obtiene la Desviación Estándar que es un indicador de la
variación de la población. Se espera que en el intervalo de más y menos
una Desviación Estándar del promedio se ubiquen poco más o menos el
68% de los datos como se puede comprobar en la HE. Por tanto, cuando
en trabajos de investigación se observe la expresión:
 x  s
Debe entenderse, para el caso del ejemplo:
Pr obabilidad38,67  X  67,48  68%
39

Ajustando la Distribución Esperada


Como se apuntó, la importancia de las distribuciones de datos se centra en
que puedan ser emuladas o aproximadas por alguna Distribución
Estadística de Probabilidad.
En la HE se efectúa todo un proceso para crear el gráfico que compara las
distribuciones Observada y Teórica o Esperada.
Se observa que hay
Distribuciones del peso de huevo semejanza entre las
60
distribuciones de datos
como lo confirma la prueba
50
estadística utilizada de chi-
Frecuencias

40
cuadrada que indica un
30
84,66% de que las
20
frecuencias observadas y
10
esperadas se parezcan.
0
10,5 16,5 22,5 28,5 34,5 40,5 46,5 52,5 58,5 64,5 70,5 76,5 82,5 88,5 94,5 Estadísticamente suficiente
Peso en gramos para considerarlas iguales.
Esperada Observada
40

1.40 La Importancia de que las


distribuciones se consideren iguales.
Cuando las distribuciones de datos se considera que es similar
a una Distribución Estadística de Probabilidad la labor del
investigador se facilita enormemente pues puede utilizar todo
el acerbo de la Ciencia Estadística para Aproximarse a una
población real conociendo perfectamente las probabilidades
que respaldan las Conclusiones y Recomendaciones.
Cuando no es así, la Teoría Estadística proporciona
herramientas para obtener Conclusiones y Hacer
Recomendaciones con probabilidad conocida, sin embargo,
bajo una serie de restricciones que pueden reducir de manera
importante el ámbito de utilidad.
41

Conclusión para la Variable:


Peso promedio del Huevo
Debe tenerse presente que la variable es de tipo continuo y que
deberá simularse con una Distribución Estadística de tipo continuo.
-La Distribución del peso de los huevos es de forma acampanada,
similar a una distribución estadística que se conoce como La
Normal.
-Gráficamente, las distribuciones de frecuencias observadas y
las esperadas calculadas utilizando la distribución son muy
similares
-La prueba estadística de 2 indica una probabilidad similitud
de 84,66%
-Se puede utilizar la Distribución Normal Estándar o La Normal
para analizar los resultados del proyecto.
42

La Variable Cualitativa:
Sexo del Producto.

Se tratará la variable cualitativa que dio origen al proyecto:


La alta proporción de machos para una raza de gallinas
productora de carne. Se espera que al menos sea de 70% de
nacimientos de machos viables. Esto significa que el 30%
restante incluye nacimientos de hembras y productos no
viables.
Es evidente que únicamente hay dos resultados posibles: 1 si el
producto es un macho viable y 0 si el producto no es un macho
viable, por esto se utilizará la distribución Binomial para
aproximar los datos.
43

La Distribución Binomial

La Distribución de Probabilidad Binomial está definida por:


n
 n  x n x
F ( x)     p q
x 0  x 

Donde p es la proporción de que un suceso ocurra —que el


producto sea un macho— q = (1 – p) la proporción de que el
suceso no ocurra. Y rCn que indica las r combinaciones en que
pueden intercambiarse los sucesos en n muestras denominado
Coeficiente Binomial.
Para el caso se toman los sucesos de 10 huevos acomodados en
una charola de la incubadora. Así se presentarían los datos,
recordando que 1 (uno) significa que el producto es un pollito
que al menos llegará a las granjas de los avicultores.
44

Cuadro de Frecuencias y Estadísticos


El cuadro de frecuencias Evento Frecuencia Sumas
proporciona una idea de la x machos Observada Parciales
0 0 0
distribución y los estadísticos 1 0 0
necesarios para valorar la hipótesis: 2 0 0
3 0 0
Ho; X ~B(np; npq) 4 1 4
5 3 15
La variable X se distribuye 6 4 24
Binomial, con media np = 10  0.7 = 7 6 42
7 y varianza npq = 10  0,7  0,3 = 8 6 48
9 7 63
2,1. 10 1 10
Estadísticos
Por tanto, la distribución que Número de bandejas 28
aproxime a los datos será una Suma Total de pollitos machos 206
binomial con un muestra de tamaño Promedio de pollitos por bandeja 7,36
Tamaño de la muestra n 10
n = 10, y una proporción de pollitos
Proporción de pollitos machos viables 0,7357
machos viables de 0,7 o 70%. Proporción no viable 0,2643
45

Las Probabilidades Binomiales


Las operaciones para obtener las probabilidades binomiales
se detallan en la HE. Con estas, se elabora un cuadro que
permitirá determinar si la distribución de frecuencias del
evento que el producto sea un macho viable pueda
aproximarse mediante la Distribución de Probabilidades
Binomial.
Para esto se comparan las frecuencias esperadas que se
obtienen multiplicando la probabilidad para cada evento x
por el número de muestras de tamaño 10 —charolas de
incubación— observadas, con las frecuencias observadas
mediante la prueba de 2.
NOTA: Se recuerda al estudiante que el capítulo está
orientado a conocer las distribuciones de datos. Las pruebas
debe utilizarlas como herramientas.
46
El Cuadro con la Prueba de Bondad de Ajuste
Ensayos 10
Probabilida 0,7
Evento Probabilida Frecuencias Chi_Cuadrada
x machos del Evento Esperadas Observadas Diferencia Parcial
0 0,0000 0,0 0 0,0 0,0002
1 0,0001 0,0 0 0,0 0,0039
2 0,0014 0,0 0 0,0 0,0405
3 0,0090 0,3 0 -0,3 0,2520
4 0,0368 1,0 1 0,0 0,0008
5 0,1029 2,9 3 0,1 0,0049
6 0,2001 5,6 4 -1,6 0,4588
7 0,2668 7,5 6 -1,5 0,2897
8 0,2335 6,5 6 -0,5 0,0442
9 0,1211 3,4 7 3,6 3,8452
10 0,0282 0,8 1 0,2 0,0553
Sumas 1,0000 28,0 28 0,0 4,9954
Probabilidad de la Chi-Cuadrada 0,8915

La prueba estadística de 2 indicó una probabilidad de 0,8915 o 89,15% de


que los nacimientos de pollitos machos se distribuyan como una Binomial.
En términos estadísticos, no hay evidencia para rechazar la hipótesis Ho;
X~B(np = 7; npq = 2,1) con nivel de confianza del 5%. Notará que además
de la distribución se ha valorado la proporción. Esto es, el p = 0,7353
puede considerarse como 0,7.
47

1.47 Un gráfico siempre es de ayuda.

Frecuencias Binomiales p = 0,7 en el nacimiento


Elaborando un Histograma de pollitos machos para engorda
con las frecuencias 8
observadas en guinda y las 7

Frecuencia en 28 bandejas
esperadas en azul se aprecia 6

5
una tendencia similar. Como 4

en el caso de la distribución 3

2
Normal, los resultados del 1

proyecto pueden analizarse 0


0 1 2 3 4 5 6 7 8 9 10

utilizando la distribución de Número de machos viables / 10.

probabilidad Binomial. Una Esperadas Observadas

conclusión que facilitará


enormemente el análisis y la Es importante hacer notar al estudiante
conclusión de proyecto en lo que los gráficos de conteo deben
tocante al número de pollitos presentarse usando barras. Esto indicará
machos. al lector que se trata de una distribución
de cualidades.
48

La variable Discreta Número de


Huevos
Cuando se trabaja con variables cuya distribución
brinca al menos por unidades debe tenerse cuidado. Casi
siempre y sin mucho análisis, se trabajan como distribuciones
continuas y más específicamente como distribuciones
normales por la facilidad que esto implica.
El experimentador deberá tener, siempre en
consideración, que está trabajando con una variable discreta
que salta de unidad en unidad, pues las gallinas no ponen
medios huevos. Aun cuando los estadísticos indiquen
fracciones o sean elementos de los números racionales.
Para este ejemplo se iniciará solicitando a la HE el cómputo
de las Estadísticas Descriptivas.
49

Estadísticas Descriptivas

Huevos
Los estadísticos importantes
para determinar si la
Media 178,436
Error típico 3,581
distribución de los datos
Mediana 180 puede aproximarse mediante
Moda 180
Desviación estándar 59,922 una distribución normal son:
Varianza de la muestra 3.590,706 La Media, La Mediana, La
Curtosis 0,002
Coeficiente de asimetría -0,075 Moda, como parámetros de
Rango 324 tendencia central también
Mínimo 18
Máximo 342 llamados de
Suma
Cuenta
49.962
280
posicionamiento.

El Coeficiente de Asimetría o Sesgo (valores críticos


0,230(5%) 0,360(1%)); y el Coeficiente de Curtosis con
valores críticos de (-0,41 a +0,47 (5%) y -0,50 a +79 (1%).
50

Las Medidas de Posicionamiento

Se presume que una distribución de datos se parece a una distribución


normal cuando las medidas de posicionamiento están muy próximas:
Sí la Media, Mediana y Moda son iguales, al menos se presume que se tiene
un distribución perfectamente centrada;
Sí el orden ascendente de los estadísticos es Moda, Mediana y Media se
presume una cola a la derecha más larga:
Si el orden ascendente de los estadísticos Media, Median y Moda se
presume una cola izquierda más larga.
En general en una distribución asimétrica, la Media con respecto a la
Moda tiende a situarse al mismo lado que la cola más larga.
En el ejemplo con Media = 178,4 huevos / año, Mediana 180 huevos / año y
Moda = 180 huevos año se puede considerar una distribución centrada.
Siendo muye exigentes se puede presumir una distribución con sesgo
negativo.
51

El Coeficiente de Curtosis
El Coeficiente mide:
El alargamiento o estrechamiento de una distribución de
datos con respecto a una distribución normal de los mismos
datos.
Entre más se aproxime la distribución de los datos a
una normal más próximo a 3 será el coeficiente. O a 0 cuando
se corrige.
Según la tabla de para la valoración de la curtosis
mediante los valores ajustados y para un nivel de confianza
de 95% el coeficiente de curtosis debe mantenerse entre –0,41
y 0,47 para aceptar que la distribución se parece, por su
estrechez a una normal. En el ejemplo se Acepta que la
distribución es semejante a una normal.
52

El Coeficiente de Sesgo o Asimetría

El Coeficiente mide:
La simetría de una distribución de datos con respecto
a una normal.
Este coeficiente siempre se valora con respecto a un valor
cero en el que la distribución es, además de centrada
simétrica.
En el ejemplo el coeficiente de asimetría o sesgo es de –
0,0752 que para la valoración debe tomarse como valor
absoluto. El límite teórico de la distribución del estadístico
para n = 300 es de 0,23. Cómo 0,0752 es menor que 0,23, debe
aceptarse que la distribución de datos es simétrica con
respecto a la normal.
53

La Recomendación para las


Distribuciones Discretas.

Tomando en cuenta el origen biológico de la variable y =


número de huevos en una año de 365 días por gallina y los
estadísticos que se acaban de valorar puede concluirse que la
variable sigue una distribución normal.
No obstante, es conveniente que el investigador obtenga una
visión más directa mediante el gráfico de la distribución de
datos y los estadísticos de posicionamiento y los coeficientes
de sesgo y curtosis desde datos agrupados en una distribución
de frecuencias.
Este proceder es recomendable en análisis de resultados de
una distribución absolutamente discreta.
54

El Histograma.
Histograma de una variable discreta
El gráfico simple 70

muestra una 60

distribución muy 50

No de Gallinas
40

similar a una campana, 30

característica de 20

distribuciones de datos
10

que se parecen a una 12,5 37,5 62,5 87,5 112,5 137,5 162,5 187,5 212,5 237,5 262,5 287,5 312,5 337,5

Número de huevos (gallina por año)


distribución normal.
Es conveniente que las barras que representan el peso relativo
de cada subclase no se unan, indicando con esto, que se trata
de una distribución discreta.
Así mismo, no es conveniente unir las cúspides de las barras
con la línea del polígono de frecuencias.
55

Estadísticos con Datos Agrupados


4
LÍMITES DE CLASES Frecuencia 3
x x
f i xi f i ( xi  x ) 2 x x
fi  i  fi  i 
Inferior Medio Superior Observada  s   s 
0 12,5 25 3 37,5 83.363,10 -63,56 175,87
25 37,5 50 4 150,0 80.311,51 -52,05 122,42
50 62,5 75 5 312,5 68.090,28 -36,34 70,40
75 87,5 100 12 1.050,0 100.898,82 -42,32 64,41
100 112,5 125 30 3.375,0 133.452,41 -40,71 45,07
125 137,5 150 25 3.437,5 43.464,80 -8,29 5,74
150 162,5 175 48 7.800,0 13.380,99 -1,02 0,28
175 187,5 200 58 10.875,0 3.999,06 0,15 0,02
200 212,5 225 34 7.225,0 37.710,35 5,74 3,18
225 237,5 250 27 6.412,5 91.781,27 24,47 23,69
250 262,5 275 17 4.462,5 117.971,25 44,95 62,15
275 287,5 300 13 3.737,5 152.485,63 75,53 135,79
300 312,5 325 2 625,0 35.539,68 21,67 47,95
325 337,5 350 2 675,0 50.120,04 36,29 95,36

Número de observaciones 280 Sumas de cuadrados 1.012.569,20


Suma Total 50.175,0 Varianza 3.629,28
Promedio de huevos 179,20 Desviación Estándar 60,24
Mediana 180,8 C. Asimetría -0,128
Moda 182,4 C. Curtosis 0,089
56

Interpretación
Histograma de una variable discreta Se han señalado en el
70
histograma los estadísticos
60
Media = 179,2
Mediana = 180,8
de posición y dos líneas en
50
Moda = 182,4
la parte inferior del
No de Gallinas

40 mismo tamaño para hacer


30 Asimetria o evidente la asimetría
20
Sesgo a la
izquierda también llamada sesgo
10 señalada con una llave
0
12,5 37,5 62,5 87,5 112,5 137,5 162,5 187,5 212,5 237,5 262,5 287,5 312,5 337,5
invertida. Recodaremos
Número de huevos (gallina por año) que no es significante.

La asimetría toma de referencia a la normal indicando una


anormalidad de la distribución de los datos con respecto a la teórica.
Los coeficientes de forma indican que las diferencias se deben al azar
pudiendo, por tanto, utilizar a la distribución Normal Estándar en
proceso de análisis, interpretación y predicción.
57

La Prueba de Bondad de Ajuste.


LÍMITES DE CLASES Probabilidad a los límites Probabilidad Frecuencias Chi-Cuadradas
Inferior Superior Inferior Superior del intervalo Esperadas Observadas parciales
0 25 0,0000 0,0052 0,0052 1,5 3 0,7268
25 50 0,0052 0,0160 0,0108 3,0 4 0,0795
50 75 0,0160 0,0419 0,0259 7,2 5 0,4183
75 100 0,0419 0,0943 0,0525 14,7 12 0,3269
100 125 0,0943 0,1842 0,0898 25,2 30 0,7505
125 150 0,1842 0,3140 0,1298 36,3 25 3,2363
150 175 0,3140 0,4722 0,1583 44,3 48 0,2289
175 200 0,4722 0,6351 0,1628 45,6 58 3,1080
200 225 0,6351 0,7765 0,1414 39,6 34 0,6542
225 250 0,7765 0,8801 0,1036 29,0 27 0,0783
250 275 0,8801 0,9441 0,0641 17,9 17 0,0105
275 300 0,9441 0,9775 0,0334 9,4 13 1,0555
300 325 0,9775 0,9922 0,0147 4,1 2 0,6367
325 350 0,9922 1,0000 0,0078 2,2 2 0,0497
Sumas 1,0000 280,0 280 11,3602
Probabilidad de Chi_Cuadrada 0,5807

Si hubiera dudas se debe hacer la prueba de “Bondad de Ajuste” de las


frecuencias esperadas y observadas mediante la Chi-Cuadrada. Para
declarar que la distribución de datos no se asemeja a una normal la
probabilidad de 2 debe ser inferior a 0,05 0 5%. Para todos los efectos la
variable Y se opera como una variable continua con valores límites en el
conjunto de los reales.
58

Conclusión
Éste capítulo hace referencia a las distribuciones de los datos.
Se han utilizado formulas, algunas muy complejas que requiere la
teoría estadística para analizar resultados de pruebas y proyectos,
pero fácilmente computables o obtenibles mediante funciones o
algoritmos de la HE.
Se han abordado los tres tipos de datos: continuos, discretos y
cualitativos asociando la distribución de datos observadas con las
distribuciones estadísticas de mayor uso puntualizando criterios
para determinar si tal o cual distribución estadística puede
utilizarse para estudiar los resultados obtenidos a partir de
conjuntos de datos de una población objetivo.
Se ha concluido con respecto a las implicaciones estadísticas de las
tres variables ejemplificadas.
59

Recomendación

Se recomienda al estudiante que entienda la notación


matemática en las fórmulas para que pueda aplicarla en la
HE sin reparar en la complejidad de la misma. Esto con el
objeto de considerar a las fórmulas de cálculo de estadísticos
como herramientas.
También se ha recomendado al estudiante que ponga atención
en el significado de cada estadístico para que pueda
interpretar y concluir desde los análisis de los resultados.
El estudiante habrá notado que la HE posee una gran
cantidad de funciones y rutinas estadísticas y matemáticas que
le facilitan el análisis de resultados de conjuntos de datos
provenientes de exploraciones o de técnicas de
experimentación: Utilícelas.
60

Recordatorio

Se recuerda al estudiante que la charla es una


manera menos formal de enseñar la teoría estadística
y su aplicación a resultados de proyectos de
exploración o de experimentación de poblaciones.
Puede consultar la parte formal del tema
proporcionado por el profesor en el archivo de
“Word” que lleva explicaciones exhaustivas del tema,
complemento del “PowerPoint” y Excel.
Si aun quiere practicar y profundizar sobre temas
menos rigurosos, puede adquirir el libro electrónico
del curso de Métodos Estadísticos con Excel.
Distribuciones de Datos
Módulo Métodos Estadísticos

 
Apuntes de Estadística Aplicada con
                  
EXCEL.

Manuel Pontigo Alvarado.


ITCR. 2005

También podría gustarte