+
PROBABILIDAD Y
ESTADISTICA
Índice
UNIDAD 1 ESTADISTICA DESCRIPTIVA
Introducción 3
1 introducción, notación sumatoria 4
1.1 Datos no agrupados 4
1.1.2 medidas de tendencia central 5
1.1.3 Medidas de posición 6
1.1.4 4 Medidas de dispersión 7
1.1.5 medidas de forma 8
1.2 datos agrupados 9
1.2.1 tablas de fecuencia 12
1.2.2 medida de tendencia central y de oposición 15
1.2.3 medida de dispercion 18
1.2.4 medidas de asimetría 20
1.3 representaciones graficas 21
1.3.1 diagrama de dispercion 22
1.3.2 diagramas de tallos y hojas 23
1.3.3 histogramas 24
1.3.4 ojivas 25
1.3.5 peligro defrecuencia 26
1.3.6 diagrama de caja y ejes 27
Conclusión 30
Bibliografía 31
Introducción
La teoría de Probabilidades comienza a partir de una disputa entre jugadores en
1654. Los dos matemáticos que participaron de tales discusiones fueron Blaise
Pascal y Pierre de Fermat, y su intercambio de correspondencia sentó las bases
de la teoría de Probabilidades. Un matemático holandés, Christian Huygens tomó
contacto con esa correspondencia y escribió el primer libro sobre Probabilidades
en 1657, el cual trataba fundamentalmente sobre problemas relacionados con los
juegos de azar. Durante el siglo XVIII la teoría se desarrolló y se enriqueció con
los aportes de Jacob Bernoulli y Abraham de Moivre. En 1812 Pierre de Laplace
introdujo una serie de nuevas ideas y técnicas matemáticas en su libro Theorie
Analytique des Probabilités y fundamentalmente sacó a la teoría del marco
exclusivo de los juegos de azar y aplicó las ideas a muchos problemas científicos
y prácticos. Algunas de las importantes aplicaciones desarrolladas en el siglo XIX
fueron: teoría de errores, matemática actuarial y mecánica estadística.
En los siguientes temas a estudiar veremos la función y aplicación de las medidas
centrales, medidas de dispersión, medidas de posición, medidos de formas, datos
agrupados, tabla de frecuencia, medidas de dispersión etc.
1.1-Definición y Clasificación de la Estadística
La estadística es la ciencia que trata de la recolección, organización, presentación,
análisis e interpretación de datos numéricos con el fin de realizar una forma de
decisión más efectiva.
La estadística para su mejor estudio se ha dividido en dos ramas las cuales son:
estadística descriptiva y estadística inferencial.
Estadística descriptiva: Consiste en la presentación de datos en forma de tablas y
gráficas. Esta comprende cualquier actividad para resumir o describir los mismos
factores pertinentes adicionales, esto se refiere a no intentar nada que vaya más
allá de los datos.
estadística inferencial: Se deriva de las observaciones hechas solo a una parte de
un conjunto numeroso de elementos; implicando así que su análisis requiera de
generalizaciones que van más allá de los datos, como consecuencia la
característica más importante del crecimiento de la estadística ha sido un cambio
en el énfasis de los métodos que sirven para generalizarlas. En otras palabras la
estadística inferencial investiga y analiza una población partiendo de una muestra
tomada.
1.1.1 Datos no agrupados
Datos no agrupados es el conjunto de observaciones que se presentan en su
forma original tal y como fueron recolectados, para obtener información
directamente de ellos.
Ejemplos: 5,7,2,15,2,6,12,5,5,20,1
Número de personas que ayudaron a una causa TRATAMIENTO PARA DATOS
NO AGRUPADOS. ¿A qué se refiere esto? Cuando la muestra que se ha tomado
de la población o proceso que se desea analizar, es decir, tenemos menos de 20
elementos en la muestra, entonces estos datos son analizados sin necesidad de
formar clases con ellos y a esto es a lo que se le llama tratamiento de datos no
agrupados.
1.1.2 Medidas de tendencia central
Al describir grupos de diferentes observaciones, con frecuencia es conveniente
resumir la información con un solo número. Este número que, para tal fin, suele
situarse hacia el centro de la distribución de datos se denomina medida o
parámetro de tendencia central o de centralización. Cuando se hace referencia
únicamente a la posición de estos parámetros dentro de la distribución,
independientemente de que esté más o menos centrada, se habla de estas
medidas como medidas de posición. En este caso se incluyen también los cantiles
entre estas medidas.
Entre las medidas de tendencia central tenemos:
Media aritmética: En matemáticas y estadística, la media aritmética (también
llamada promedio o simplemente media) de un conjunto finito de números es el
valor característico de una serie de datos cuantitativos, objeto de estudio que
parte del principio de la esperanza matemática o valor esperado, se obtiene a
partir de la suma de todos sus valores dividida entre el número de sumandos
Media ponderada: a media ponderada es una medida de tendencia central, que es
apropiada cuando en un conjunto de datos cada uno de ellos tiene una
importancia relativa (o peso) respecto de los demás datos. Se obtiene
multiplicando cada uno de los datos por su ponderación (peso) para luego
sumarlos, obteniendo así una suma ponderada; después se divide esta entre la
suma de los pesos, dando como resultado la media ponderada.
Media geométrica: En matemáticas y estadística, la media geométrica de una
cantidad arbitraria de números (por decir n números) es la raíz n-ésima del
producto de todos los números, es recomendada para datos de progresión
geométrica, para promediar razones, interés compuesto y números índices.
Media armónica: La media armónica (designada usualmente mediante H) de una
cantidad finita de números es igual al recíproco, o inverso, de la media aritmética
de los recíprocos de dichos valores y es recomendada para promediar
velocidades.
Mediana: En el ámbito de la estadística, la mediana (del latín mediānus 'del
medio’1) representa el valor de la variable de posición central en un conjunto de
datos ordenados.
Moda: En estadística, la moda es el valor con mayor frecuencia en una
distribución de datos.
Se debe tener en cuenta que existen variables cualitativas y variables
cuantitativas, por lo que las medidas de posición o medidas de tendencia se usan
de acuerdo al tipo de variable que se está observando, en este caso se observan
variables cuantitativas.
1.1.3Medidas de posición
Las medidas de posición dividen un conjunto de datos en grupos con el mismo
número de individuos. Para calcular las medidas de posición es necesario que los
datos estén ordenados de menor a mayor.
Las medidas de posición son:
Cuartiles x. años _ 18 7 10 187 10 20 18 18 19 18 19 20 18 18 19 Los cuartiles
son los tres valores de la variable que dividen a un conjunto de datos ordenados
en cuatro partes iguales. Q1, Q2 y Q3 determinan los valores correspondientes al
25%, al 50% y al 75% de los datos. Q2 coincide con la mediana.
Las medidas de posición dividen un conjunto de datos en grupos con el mismo
número de individuos.
Para calcular las medidas de posición es necesario que los datos estén ordenados
de menor a mayor.
Las medidas de posición son:
Cuartiles
Los cuartiles son los tres valores de la variable que dividen a un conjunto de datos
ordenados en cuatro partes iguales.
Q1, Q2 y Q3 determinan los valores correspondientes al 25%, al 50% y al 75% de
los datos. Q2 coincide con la mediana.
1.1.4
Las medidas de dispersión, también llamadas medidas de variabilidad, muestran
la variabilidad de una distribución, indicando por medio de un número, si las
diferentes puntuaciones de una variable están muy alejadas de la media.
Cuanto mayor sea ese valor, mayor será la variabilidad, cuanto menor sea, más
homogénea será a la media. Así se sabe si todos los casos son parecidos o varían
mucho entre ellos. Para calcular la variabilidad que una distribución tiene respecto
de su media, se calcula la media de las desviaciones de las puntuaciones
respecto a la media aritmética. Pero la suma de las desviaciones es siempre cero,
así que se adoptan dos clases de estrategias para salvar este problema. Una es
tomando las desviaciones en valor absoluto (Desviación media) y otra es tomando
las desviaciones al cuadrado (Varianza).
1.1.5 Medida de forma
Es una medida de forma de una distribución que permite identificar y describir la
manera como los datos tiende a reunirse de acuerdo con la frecuencia con que se
hallen dentro de la distribución. Permite identificar las características de la
distribución de datos sin necesidad de generar el gráfico.
La asimetría presenta las siguientes formas:
Asimetría Negativa o a la Izquierda.- Se da cuando en una distribución la minoría
de los datos está en la parte izquierda de la media. Este tipo de distribución
presenta un alargamiento o sesgo hacia la izquierda, es decir, la distribución de
los datos tiene a la izquierda una cola más larga que a la derecha. También se
dice que una distribución es simétrica a la izquierda o tiene sesgo negativo cuando
el valor de la media aritmética es menor que la mediana y éste valor de la
mediana a su vez es menor que la moda, en símbolos
Nota: Sesgo es el grado de asimetría de una distribución, es decir, cuánto se
aparta de la simetría.
Simétrica.- Se da cuando en una distribución se distribuyen aproximadamente la
misma cantidad de los datos a ambos lados de la media aritmética. No tiene
alargamiento o sesgo. Se representa por una curva normal en forma de campana
llamada campana de Gauss (matemático Alemán 1777-1855) o también conocida
como de Laplace (1749-1827).También se dice que una distribución es simétrica
cuando su media aritmética, su mediana y su moda son iguales, en símbolos
Md=Mo
Asimetría Positiva o a la Derecha.- Se da cuando en una distribución la minoría de
los datos está en la parte derecha de la media aritmética. Este tipo de distribución
presenta un alargamiento o sesgo hacia la derecha, es decir, la distribución de los
datos tiene a la derecha una cola más larga que a la izquierda.
También se dice que una distribución es simétrica a la derecha o tiene sesgo
positivo cuando el valor de la media aritmética es mayor que la mediana y éste a
valor de la mediana a su vez es mayor que la moda, en símbolos
1.2 Datos agrupados
Datos agrupados y no agrupados
Los datos no agrupados son el conjunto de observaciones que se presentan en
su forma original tal y como fueron recolectados, para obtener información
directamente de ellos.
Cuando en la muestra que se ha tomado de la población o proceso que se desea
analizar se tienen menos de 30 datos, estos son analizados sin necesidad de
formar clases con ellos y a esto es a lo que se le llama tratamiento de datos no
agrupados.
Los datos agrupados son aquellos que se encuentran ordenados y clasificados.
Cuando la muestra consta de 30 o más datos, lo aconsejable es agrupar los datos
en clases y a partir de estas determinar las características de las muestras y por
consiguiente las de la población de donde fue tomada. Antes de pasar a definir
cuál es la manera de determinar las características de interés, cuando se han
agrupado en clases los datos de la muestra, es necesario que sepamos cómo se
agrupan los datos, esto se determinara de acuerdo al tipo de muestra que se esté
realizando y de acuerdo al tipo de datos obtenidos.
Una clase o también denominada intervalo de clase, son divisiones o categorías
en las cuales se agrupa un conjunto de datos ordenados con características
comunes. En otras palabras, son fraccionamientos del rango o recorrido de la
serie de valores para reunir los datos que presentan valores comprendidos entre
dos límites. Un número de clases pequeño, puede ocultar la naturaleza natural de
los valores y un número muy alto puede provocar demasiados detalles como para
observar alguna información de gran utilidad en la investigación.
Algo que responde a la identificación de la dispersión de los datos de una muestra
es el rango, el cual se define como la diferencia entre el dato mayor menos el dato
menor de un conjunto de datos. Permite obtener una idea de la dispersión
estadística de los datos.
Tablas de frecuencias con datos agrupados
Cuando los valores de la variable son muchos, conviene agrupar los datos en
intervalos o clases para así realizar un mejor análisis e interpretación de ellos.
• Para construir una tabla de frecuencias con datos agrupados, conociendo los
intervalos, se debe determinar la frecuencia absoluta (fi) correspondiente a cada
intervalo, contando la cantidad de datos cuyo valor está entre los extremos del
intervalo. Luego se calculan las frecuencias relativas y acumuladas, si es
pertinente.
• Si no se conocen los intervalos, se pueden determinar de la siguiente manera:
(recuerda que los intervalos de clase se emplean si las variables toman un número
grande de valores o la variable es continua).
- Se busca el valor máximo de la variable y el valor mínimo. Con estos datos se
determina el rango.
- Se divide el rango en la cantidad de intervalos que se desea tener, (por lo
general se determinan 5 intervalos de lo contrario es ideal que sea un número
impar por ejemplo 5, 7, 9) obteniéndose así la amplitud o tamaño de cada
intervalo.
- Comenzando por el mínimo valor de la variable, que será el extremo inferior del
primer intervalo, se suma a este valor la amplitud para obtener el extremo superior
y así sucesivamente.
1.2.1 Tablas de Frecuencia
Las Tablas de frecuencias son herramientas de Estadística donde se colocan los
datos en columnas representando los distintos valores recogidos en la muestra y
las frecuencias (las veces) en que ocurren.
Los datos son los valores de la muestra recogida en el estudio estadístico
Frecuencia absoluta
La frecuencia absoluta (ni) es el número de veces que aparece un determinado
valor en un estudio estadístico. Número de veces que se repite el í-esimo valor de
la variable. La suma de las frecuencias absolutas es igual al número total de
datos, que se representa por n
Frecuencia absoluta acumulada
La Frecuencia absoluta acumulada (Ni) es la suma de las frecuencias absolutas
de todos los valores inferiores o iguales al valor considerado.
N1 = n1
N2 = n1 + n2 = N1 + n2
N3 = n1 + n2 + n3 = N2 + n3
Nk = n.
Frecuencia relativa
La frecuencia relativa (fi) es la proporción de veces que se repite un determinado
dato.
La frecuencia relativa es el cociente entre la frecuencia absoluta de un
determinado valor y el número total de datos.
fi = ni/n
La suma de las frecuencias relativas es igual a 1.
Frecuencia relativa acumulada
La frecuencia relativa acumulada (Fi) es el número de observaciones menores o
iguales al í-esimo valor de la variable pero en forma relativa.
F1 = fl
F2 = f1+ f2 = F1 + f2
F3 = f1+ f2 + f3 = F2 + f3
Fk = 1
Tabla de frecuencia de datos no agrupados
Los datos no agrupados son las de observaciones realizadas en un estudio
estadístico que se presentan en su forma original tal y como fueron recolectados,
para obtener información directamente de ellos.
La Tabla de frecuencia de datos no agrupados indica las frecuencias con que
aparecen los datos estadísticos sin que se haya hecho ninguna modificación al
tamaño de las unidades originales. En estas distribuciones cada dato mantiene su
propia identidad después que la distribución de frecuencia se ha elaborado. En
estas distribuciones los valores de cada variable han sido solamente reagrupados,
siguiendo un orden lógico con sus respectivas frecuencias.
La tabla de frecuencias de datos no agrupados se emplea si las variables toman
un número pequeños de valores o la variable es discreta.
Tabla de frecuencia de datos agrupados
La Tabla de frecuencia de datos agrupados aquella distribución en la que los datos
estadísticos se encuentran ordenados en clases y con la frecuencia de cada clase;
es decir, los datos originales de varios valores adyacentes del conjunto se
combinan para formar un intervalo de clase.
La tabla de frecuencias agrupadas se emplea generalmente si las variables toman
un número grande de valores o la variable es continua.
En este caso se agrupan los valores en intervalos que tengan la misma amplitud
denominados clases. A cada clase se le asigna su frecuencia correspondiente.
Las clases deben ser excluyentes y exhaustivas, es decir que cada elemento de la
muestra debe pertenecer a una sola clase y a su vez, todo elemento debe
pertenecer a alguna clase.
Cada clase está delimitada por el límite inferior de la clase y el límite superior de la
clase.
Los intervalos se forman teniendo presente que el límite inferior de una clase
pertenece al intervalo, pero el límite superior no pertenece intervalo, se cuenta en
el siguiente intervalo. No existe una regla fija de cuantos son los intervalos que se
deben hacer; hay diferentes criterios, la literatura especializada recomienda
considerar entre 5 y 20 intervalos. El número de intervalos se representa por la
letra "K".
El Recorrido es el límite dentro del cual están comprendidos todos los valores de
la serie de datos. Es la diferencia entre el valor máximo de una variable y el valor
mínimo que ésta toma en una investigación cualquiera.
R = Xmax. - Xmin.
La Amplitud de la clase es la diferencia entre el límite superior e inferior de la clase
y se representarán por "Ci"
Ci = R/K
Se considerará la misma amplitud para todos los intervalos.
La Marcas de clases (Xi) representa a la variable a través de un valor. Se calcula
como el punto medio de cada clase, o bien el semis suma de la clase. La tabla de
frecuencias puede representarse gráficamente en un histograma. Normalmente en
el eje vertical se coloca las frecuencias y en el horizontal los intervalos de valores.
1.2.2 Medida de tendencia central y de posición
Al describir grupos de diferentes observaciones, con frecuencia es conveniente
resumir la información con un solo número. Este número que, para tal fin, suele
situarse hacia el centro de la distribución de datos se denomina medida o
parámetro de tendencia central o de centralización. Cuando se hace referencia
únicamente a la posición de estos parámetros dentro de la distribución,
independientemente de que esté más o menos centrada, se habla de estas
medidas como medidas de posición.1 En este caso se incluyen también los
cuantíales entre estas medidas.
Entre las medidas de tendencia central tenemos:
• Media aritmética
• Media ponderada
• Media geométrica
• Media armónica
• Media
• Mediana
• Moda
Media
Utilice la media para describir un conjunto entero de observaciones con un solo
valor que representa el centro de los datos. Muchos análisis estadísticos utilizan la
media como un punto de referencia estándar. La media es la suma de todas las
observaciones dividida entre el número de observaciones.
Por ejemplo, el tiempo de espera (en minutos) de cinco clientes de un banco es: 3,
2, 4, 1 y 2. El tiempo medio de espera es:
En promedio, un cliente espera 2.4 minutos para ser atendido en el banco.
Mediana
Utilice la mediana para describir un conjunto entero de observaciones con un solo
valor que representa el centro de los datos. La mitad de las observaciones está
por encima de la mediana y la otra mitad está por debajo de ésta. Se determina al
jerarquizar los datos y hallar el número de observación [N + 1] / 2. Si hay un
número par de observaciones, la mediana se extrapola como el valor que está
justo en el medio entre el valor de las observaciones N / 2 y [N / 2] + 1.
Para estos datos ordenados, la mediana es 13. Es decir, el 50% de los valores es
menor que o igual a 13 y el 50% de los valores es mayor que o igual a 13.
Moda
La moda es el valor que ocurre con más frecuencia en un conjunto de
observaciones. Minitab también muestra cuántos puntos de los datos son iguales
a la moda. La moda se puede utilizar con la media y la mediana para proporcionar
una caracterización general de la distribución de los datos. Mientras que la media
y la mediana requieren un cálculo, la moda se obtiene simplemente contando el
número de veces que cada valor ocurre en un conjunto de datos.
El identificar la moda puede ayudar a comprender la distribución. Una
distribución con más de una moda puede indicar que usted en realidad tomó la
muestra de una población mixta. Por ejemplo, usted puede haber recogido datos
de tiempo de espera de clientes que desean cobrar cheques y de clientes que
desean solicitar una hipoteca, todos juntos. Para entender mejor sus datos, estos
dos casos se deberían recopilar por separado. Si tiene más de dos modas, la
distribución es multimodal
L.
Un modal
Solo hay una moda, 8, que ocurre con más frecuencia.
Bimodal
Hay dos modas, 4 y 16. Los datos parecen representar 2 poblaciones diferentes.
Media recortada
La media recortada es la media de los datos sin el 5% superior y el 5% inferior de
los valores. Utilice la media recortada para eliminar el impacto de los valores muy
grandes o muy pequeños sobre la media. Cuando los datos contienen valores
atípicos, la media recortada puede ser una mejor medida de la tendencia central
que la media.
La línea azul representa la media original, la cual es influenciada notablemente por
los valores extremos que se encuentran más a la derecha. La línea roja
representa la media recortada, que se desplaza hacia la izquierda porque Minitab
excluye los valores extremos en el 5% más alto de los datos.
1.2.3 Medida de dispersión
Medidas de dispersión. Parámetros estadísticos que indican como se alejan los
datos respecto de la media aritmética. Sirven como indicador de la variabilidad de
los datos. Las medidas de dispersión más utilizadas son el rango, la desviación
estándar y la varianza.
Rango
Indica la dispersión entre los valores extremos de una variable. Se calcula como la
diferencia entre el mayor y el menor valor de la variable. Se denota como R.
Para datos ordenados se calcula como:
R = x(n) - x(1)
Dónde: x(n): Es el mayor valor de la variable. X(n): Es el menor valor de la variable.
Desviación media
Es la media a ritmética de los valores absolutos de las diferencias de cada
dato respecto a la media.
Donde:
Xi: valores de la variable.
N: número total de datos
Desviación estándar
La desviación estándar mide el grado de dispersión de los datos con respecto a la
media, se denota como s para una muestra o como σ para la población. Se define
como la raíz cuadrada de la varianza según la expresión:
Obsérvese que el denominador es n - 1, a diferencia de la desviación media
donde se divide entre n; también existe la fórmula de desviación típica donde el
denominador es n pero se prefiere n-1.
Mientras menor sea la desviación estándar, los datos son más homogéneos, es
decir existe menor dispersión, el incremento de los valores de la desviación
estándar indica una mayor variabilidad de los datos.
Varianza
Es otro parámetro utilizado para medir la dispersión de los valores de una variable
respecto a la media. Corresponde a la media aritmética de los cuadrados de las
desviaciones respecto a la media. Su expresión matemática es:
Coeficiente de Variación
Permite determinar la razón existente entre la desviación estándar (s) y la media.
Se denota como CV. El coeficiente de variación permite decidir con mayor claridad
sobre la dispersión de los datos.
También puede ser expresado en por ciento.
1.2.4 Medida de asimetría
Esta medida nos permite identificar si los datos se distribuyen de forma uniforme
alrededor del punto central (Media aritmética). La asimetría presenta tres estados
diferentes cada uno de los cuales define de forma concisa como están distribuidos
los datos respecto al eje de asimetría. Se dice que la asimetría es positiva cuando
la mayoría de los datos se encuentran por encima del valor de la media aritmética,
la curva es Simétrica cuando se distribuyen aproximadamente la misma cantidad
de valores en ambos lados de la media y se conoce como asimetría
negativa cuando la mayor cantidad de datos se aglomeran en los valores menores
que la media.
El Coeficiente de asimetría, se representa mediante la ecuación matemática,
Donde (g1) representa el coeficiente de asimetría de Fisher, (Xi) cada uno de los
valores, ( ) la media de la muestra y (ni) la frecuencia de cada valor. Los
resultados de esta ecuación se interpretan:
(g1 = 0): Se acepta que la distribución es Simétrica, es decir, existe
aproximadamente la misma cantidad de valores a los dos lados de la media. Este
valor es difícil de conseguir por lo que se tiende a tomar los valores que son
cercanos ya sean positivos o negativos (± 0.5).
(G1 > 0): La curva es asimétricamente positiva por lo que los valores se tienden a
reunir más en la parte izquierda que en la derecha de la media.
(G1 < 0): La curva es asimétricamente negativa por lo que los valores se tienden a
reunir más en la parte derecha de la media.
Desde luego entre mayor sea el número (Positivo o Negativo), mayor será la
distancia que separa la aglomeración de los valores con respecto a la media.
1 .3 Representaciones graficas
Se utilizan rectángulos separados, que tienen como base a cada uno de los datos
y como altura la frecuencia de ese dato. Ejemplo: En la siguiente tabla se muestra
el total de vacunas aplicadas durante el verano de l991 en un estado de la
República Mexicana.
El diagrama de barras o gráfica de barras suele elaborarse con algunas variantes;
por ejemplo, se pueden utilizar líneas en vez de rectángulos o barras (o líneas)
horizontales en vez de verticales.
Si se tienen datos cuantitativos se grafica en el eje de las x los valores centrales
(marcas de clase), cuyas alturas son proporcionales a sus frecuencias. Así en la
distribución de frecuencias de las alturas de 35 alumnos se tiene:
1.3.1Diagrama de dispersión
Un diagrama de dispersión o gráfica de dispersión o gráfico de dispersión es un
tipo de diagrama matemático que utiliza las coordenadas cartesianas para mostrar
los valores de dos variables para un conjunto de datos. Los datos se muestran
como un conjunto de puntos, cada uno con el valor de una variable que determina
la posición en el eje horizontal (x) y el valor de la otra variable determinado por la
posición en el eje vertical (y).
El diagrama de dispersión permite analizar si existe algún tipo de relación entre
dos variables. Por ejemplo, puede ocurrir que dos variables estén relacionadas de
manera que al aumentar el valor de una, se incremente el de la otra. En este caso
hablaríamos de la existencia de una correlación positiva. También podría ocurrir
que al producirse una en un sentido, la otra derive en el sentido contrario; por
ejemplo, al aumentar el valor de la variable x, se reduzca el de la variable y.
Entonces, se estaría ante una correlación negativa. Si los valores de ambas
variable se revelan independientes entre sí, se afirmaría que no existe correlación.
El diagrama de dispersión es una herramienta gráfica que ayuda a identificar la
posible relación entre dos variables. Representa la relación entre dos variables de
forma gráfica, lo que hace más fácil visualizar e interpretar los datos.
1.3.2 Diagrama de tallo y hojas
El diagrama de tallo y hojas (Stem-and-Leaf Diagram) es un semigráfico que
permite presentar la distribución de una variable cuantitativa. Consiste en separar
cada dato en el último dígito (que se denomina hoja) y las cifras delanteras
restantes (que forman el tallo).
Es especialmente útil para conjuntos de datos de tamaño medio (entre 20 y 50
elementos) y que sus datos no se agrupan alrededor de un único tallo. Con él
podemos hacernos la idea de qué distribución tienen los datos, la asimetría, etc.
El nombre de tallo y hojas hace referencia a la ramificación de una planta, siendo
los dígitos delanteros marcan el tallo donde se encuentra el número y el dígito final
la hoja.
Este diagrama se utilizaba más en los años 80 y 90, cuando los ordenadores no
dibujaban gráficos aunque sí que escribían dígitos.
1.3.3 Histogramas
Un histograma es una gráfica que puede utilizar para evaluar la forma y dispersión
de datos de muestra continuos. Puede crear un histograma antes o durante un
análisis para ayudar a confirmar supuestos y orientar análisis posteriores.
Un histograma es una representación gráfica de una variable en forma de barras,
donde la superficie de cada barra es proporcional a la frecuencia de los valores
representados. Sirven para obtener una "primera vista" general, o panorama, de la
distribución de la población, o de la muestra, respecto a una característica,
cuantitativa y continua (como la longitud o el peso). De esta manera ofrece una
visión de grupo permitiendo observar una preferencia, o tendencia, por parte de la
muestra o población por ubicarse hacia una determinada región de valores dentro
del espectro de valores posibles (sean infinitos o no) que pueda adquirir la
característica.
Así pues, podemos evidenciar comportamientos, observar el grado de
homogeneidad, acuerdo o concisión entre los valores de todas las partes que
componen la población o la muestra, o, en contraposición, poder observar el grado
de variabilidad, y por ende, la dispersión de todos los valores que toman las
partes, también es posible no evidenciar ninguna tendencia y obtener que cada
miembro de la población toma por su lado y adquiere un valor de la característica
aleatoriamente sin mostrar ninguna preferencia o tendencia, entre otras cosas.
Se utilizan para relacionar variables cuantitativas continuas. Para variables
cuantitativas discretas las barras se dibujan separadas y el gráfico se llama
diagrama de frecuencias, porque la variable representada en el eje horizontal ya
no representa un espectro continuo de valores, sino valores cuantitativos
específicos, igual que ocurre en un diagrama de barras, usado para representar
una característica cualitativa o categórica.
1.3.4 Ojivas
Una distribución de frecuencia acumulativa nos permite ver cuantas observaciones
se hallan por arriba o por debajo de ciertos valores, en lugar de limitarnos a anotar
los números de elementos dentro de los intervalos. Por ejemplo, si queremos
saber cuántos galones contienen menos de 17.0 ppm, podemos servirnos de una
tabla que incluya frecuencias acumulativas “menores que” en nuestra muestra
como se observa en la tabla.
Se llama ojiva a la gráfica de una distribución de frecuencia acumulativa
En ocasiones la información que se utiliza se presenta a partir de frecuencias
“mayores que”. La ojiva apropiada para tal información tendrá una pendiente hacia
abajo y hacia la derecha.
También es posible construir una ojiva de una distribución de frecuencia relativa,
de la misma manera que una absoluta.
1.3.5 polígono de frecuencia
Es el nombre que recibe una clase de gráfico que se crea a partir de un
histograma de frecuencia. Estos histogramas emplean columnas verticales para
reflejar frecuencias: el polígono de frecuencia es realizado uniendo los puntos de
mayor altura de estas columnas.
Este se caracteriza porque utiliza siempre lo que son columnas de tipo vertical y
porque nunca debe haber espacios entre lo que son unas y otras.
Se conoce como polígonos de frecuencia para datos agrupados a aquellos que se
desarrollan mediante la marca de clase que tiene coincidencia con el punto medio
de las distintas columnas del histograma. En el momento de la representación de
todas las frecuencias que forman parte de una tabla de datos agrupados, se
genera el histograma de frecuencias acumuladas que posibilita la diagramación
del polígono correspondiente.
Los polígonos de frecuencia se suelen usar cuando se pretende retratar varias
distribuciones distintas o la clasificación cruzada de una variable cuantitativa
continua con una cualitativa o cuantitativa discreta en el mismo dibujo.
El punto de más altura de un polígono de frecuencia equivale a la mayor
frecuencia, mientras que el área que se sitúa debajo de la curva incluye todos los
datos que existen. Cabe recordar que la frecuencia es la repetición mayor o menor
de un evento, o el número de veces que un acontecimiento periódico se reitera en
una unidad temporal.
Características de los polígonos de frecuencia:
No muestran frecuencias acumuladas
Se prefieren para los datos cuantitativos
El punto con mayor altura representa la mayor frecuencia
Se suelen utilizar para representar tablas del tipo B
El área bajo la curva representa el 100% de los datos
1.3.6 diagrama de ceja y ejes
Los diagramas de Caja-Bigotes (boxplots o box and whiskers) son una
presentación visual que describe varias características importantes, al mismo
tiempo, tales como la dispersión y simetría.
Para su realización se representan los tres cuartiles y los valores mínimo y
máximo de los datos, sobre un rectángulo, alineado horizontal o verticalmente.
Una gráfica de este tipo consiste en una caja rectangular, donde los lados más
largos muestran el recorrido intercuartílico. Este rectángulo está dividido por un
segmento vertical que indica donde se posiciona la mediana y por lo tanto su
relación con los cuartiles primero y tercero (recordemos que el segundo cuartil
coincide con la mediana).
Esta caja se ubica a escala sobre un segmento que tiene como extremos los
valores mínimos y máximo de la variable. Las líneas que sobresalen de la caja se
llaman bigotes. Estos bigotes tienen un límite de prolongación, de modo que
cualquier dato o caso que no se encuentre dentro de este rango es marcado e
identificado individualmente.
Ejemplo distribución de edades
Utilizamos la ya usada distribución de frecuencias (en tallos y hojas), que
representan la edad de un colectivo de 20 personas.
36 25 37 24 39 20 36 45 31 31
39 24 29 23 41 40 33 24 34 40
1.3.7 diagrama de sectores
Un diagrama de sectores es un gráfico que consiste en un círculo dividido en
sectores de amplitud proporcional a la frecuencia de cada valor. Se utiliza con
datos cualitativos y cuantitativos.
Un diagrama de sectores se puede utilizar para todo tipo de variables, pero se usa
frecuentemente para las variables cualitativas.
Los datos se representan en un círculo, de modo que el ángulo de cada sector es
proporcional a la frecuencia absoluta correspondiente.
Se representan los datos en un círculo, de modo que la frecuencia de cada valor
viene dada por un trozo de área del círculo. Así, el círculo queda dividido en
sectores cuya amplitud es proporcional a las frecuencias de los valores
Así, el círculo queda dividido en sectores cuya amplitud es proporcional a las
frecuencias de los valores.
Conclusión
· Como conclusión La estadística es el conjunto de diversos métodos matemáticos
que tienen como objetivo obtener, presentar y analizar datos (ya sean números o
cualidades), nos permite realizar estudios reales, con poblaciones exactas; lo cual
nos ayuda a mejorar nuestros proyectos, los datos estadísticos juegan un papel
muy importante, pues nos van a determinar en primera medida gastos y nos
garantizara la eficiencia.
· Este trabajo evidencia todos y cada uno de los temas vistos lo aquí presentado
permitió desarrollar el sentido de Llevar un buen registro de datos estadísticos nos
permite conocer de mejor manera el problema, cuando nosotros conocemos la
realidad de nuestras áreas afectadas; es más fácil dar soluciones.
·
Bibliografía
❖ Mendenhall, William; Introducción a la probabilidad y estadística; Ed.
Cengage Learning; México.
❖ Spiegel, Murray R; Teoría y problemas de probabilidad y estadística; Ed.
McGraw-Hill, Serie Schaum; México.
❖ Gutierrez Eduardo; Probabilidad y estadística. Aplicaciones a la ingeniería y
ciencias; Ed. Patria; México.
❖ Walpole, Ronald; Probabilidad y estadística para ingenieros y ciencias; Ed.
Pearson-Prentice Hall; México.
❖ Ross, Sheldon; Introducción a la Estadística; Ed. Reverté; México.
❖ Miller, John; Estadística matemática con aplicaciones; Ed. Pearson; México.
31