Está en la página 1de 50

ANALISIS Y VALIDACION

DE DATOS ESTADISTICOS
Estadística ???
• Ciencia, Técnica, Arte… Reunir, Organizar, presentar, analizar e interpretar datos con el fin de
obtener determinados resultados que dan pauta a ciertas conclusiones para posteriormente
determinar decisiones.

2
Población

Muestra

3
La unidad de análisis es el La variable es
elemento del cual se la característica, La categoría es cada una
predica una propiedad y propiedad o de las posibles
característica atributo que se predica variaciones de una
de la unidad de variable
análisis

• Cuando se investiga una población de individuos en una o más


características, la lógica nos dice que al menos deben estudiarse algunos
individuos que Representen al grupo. A estos individuos que llamaremos
Muestras, se les toman una o varias medidas conocidas como Datos,
importantes para los fines de la investigación. Al origen de una o más
variables se le conoce como Observación.
Análisis de Resultados
• Cuando el proyecto ha considerado valorar los resultados mediante Técnicas
Estadísticas de Análisis, sea mediante Técnicas de Exploración o mediante
Experimentos Planificados, debe hacerse con base en el método que se ha
determinado usar antes de que se iniciara la recopilación de la información o el
tratamiento de las unidades experimentales.
• Las Técnicas de Análisis Estadísticos ofrecen resultados objetivos y con
probabilidades totalmente determinadas para que el investigador haga
recomendaciones que le den la seguridad que él necesita, conociendo
exactamente el riesgo que correrá el usuario de los resultados del proyecto.
• Estadística es la ciencia y técnica que tiene que ver con la
recolección, procesamiento, análisis e interpretación de datos.

• Puede ser:
• Descriptiva
• Inferencial
7

La Desviación Estándar es un estadístico que ofrece una idea de la


El Número de Clases variación de la población. Se identifica con una s y se obtiene en la HE
mediante:
s = DESVEST(B12 : B291)  14,3017
Una idea del intervalo de clases o tamaño de clases se obtiene dividiendo
por 2 y por 4.
s 14,3017 s 14,3017
IC    7,15; IC    3,58
2 2 4 4
Dividiendo el Rango = Máximo - Mínimo entre ambos Intervalos de Clase
se obtendrán los números de clase extremos.
r MAX($B$12 : $B$291)  MIN($B$12 : $B$291) 76,2
NC     11
IC 7,15 7,15
r 76,2
NC    21
IC 3,58

Se puede elegir un IC de manera que se puedan conseguir de 13 a 15


clases. Por ejemplo IC = 6 gramos, un número entero.
8

Los Límites de las Clases


Para tener una perspectiva de las frecuencias de los pesos de los huevos, se
acostumbra acomodar a los datos por su magnitud en un determinado
número de clases. Usualmente se elige el valor mínimo para que sea el
límite superior de la primera clase. Esto es:
LS1  Mínimo  13,5
Que acomodará en la columna 3 (Columna D de la HE) titulada como
Límite Superior. Después calculará el Límite Inferior de la clase 1 restando
el intervalo de Clase:
LI1  LS1  IC  13,5  6  7,5
Después se calcula el promedio de la primera clase:
LI1  LS1 7,5  13,5
x1    10,5
2 2
A cada uno de los límites se les suma el intervalo de clase hasta que el
máximo caiga en la última clase.
9

El Rango de las Clases es una lista de límites Rango de las Clases


de clases que determinará cuáles individuos,
de acuerdo a los valores que presentaros, LÍMITES DE CLASES
Inferior Medio Superior
pertenecen a qué clase.
7,5 10,5 13,5
El proceso siguiente es efectuar el conteo. 13,5 16,5 19,5
Inspeccionar a cada dato y asignarlo a la 19,5 22,5 25,5
clase correspondiente. (se le dejará a la 25,5 28,5 31,5
31,5 34,5 37,5
computadora). 37,5 40,5 43,5
Al llegar al final de los datos, cada valor 43,5 46,5 49,5
habrá sido asignado a una clase y el número 49,5 52,5 55,5
55,5 58,5 61,5
de individuos en una clase específica 61,5 64,5 67,5
determinará la Frecuencia de la Clase. Y en 67,5 70,5 73,5
conjunto, se habrá encontrado la distribución 73,5 76,5 79,5
de frecuencias. 79,5 82,5 85,5
85,5 88,5 91,5
91,5 94,5 97,5
10

Cuadro o Tabla de Frecuencias


LÍMITES DE CLASES Frecuencias
La HE ubica a cada gallina de la Inferior Medio Superior Observadas
muestra en la clase correspondiente 7,5 10,5 13,5 0
al peso promedio de sus huevos se 13,5 16,5 19,5 3
19,5 22,5 25,5 3
obtiene la tabla de frecuencias en 25,5 28,5 31,5 15
donde, bajo la columna 31,5 34,5 37,5 23
Frecuencias se refiere el número de 37,5 40,5 43,5 24
individuos de la clase. 43,5 46,5 49,5 41
49,5 52,5 55,5 50
Como era de esperarse la suma de 55,5 58,5 61,5 42
frecuencias es igual al número de 61,5 64,5 67,5 36
67,5 70,5 73,5 19
individuos medidos: 73,5 76,5 79,5 15
79,5 82,5 85,5 7
85,5 88,5 91,5 2
91,5 94,5 97,5 0
Suma 280
15
n   f i  0  3  3  15  23  24  41  50  42  36  19  15  7  2  0  280
i 1
11

Hitograma y Polígono de Frecuencias de una


variable continua

60

50
Frecuencia de huevos

Herramientas Gráficas
40

30

20

10

0
10,5 16,5 22,5 28,5 34,5 40,5 46,5 52,5 58,5 64,5 70,5 76,5 82,5 88,5 94,5

Peso del huevo en gramos

En estadística se acostumbra usar estas figuras. El Histograma es el diagrama de barras, donde


cada barra representa el peso relativo de la distribución. Entre más alta la barra más individuos
hay en la clase y más peso relativo.
El polígono, aquí graficado como una línea suavizada representa el área bajo una curva continua.
12

Frecuencias Relativas
Frecuencias Relativas
Nº Clase L. Inferior Pto. Medio L. Superior Absoluta Ascendente Descendente
0 7,5 10,5 13,4 0,0 0,0 100,0
1 13,5 16,5 19,4 1,1 1,1 98,9
2 19,5 22,5 25,4 1,1 2,1 97,9
3 25,5 28,5 31,4 5,4 7,5 92,5
4 31,5 34,5 37,4 8,2 15,7 84,3
5 37,5 40,5 43,4 8,6 24,3 75,7
6 43,5 46,5 49,4 14,6 38,9 61,1
7 49,5 52,5 55,4 17,9 56,8 43,2
8 55,5 58,5 61,4 15,0 71,8 28,2
9 61,5 64,5 67,4 12,9 84,6 15,4
10 67,5 70,5 73,4 6,8 91,4 8,6
11 73,5 76,5 79,4 5,4 96,8 3,2
12 79,5 82,5 85,4 2,5 99,3 0,7
13 85,5 88,5 91,4 0,7 100,0 0,0
14 91,5 94,5 97,4 0,0 100,0 0,0

Dividiendo cada frecuencia entre el total de individuos se obtiene la proporción o porcentaje (si se
multiplica por 100) de individuos en cada clase. Si las frecuencias relativas se acumulan se obtienen
las frecuencias acumulativas, útiles en procesos deductivos y para elaborar el siguiente gráfico.
13

Las Ojivas o Frecuencias Acumulativas


Ojivas: Distribuciones relativas acumulativas
Las Ojivas son especialmente
100 100
útiles para representar los
90 90 estadígrafos de orden. Éstos son
80
70
80
70
los que relacionan el número
índice u ordinal con los valores de
Porcentajes

60 60

la variable.
50 50
40 40

30 30
20 20 El estadígrafo de orden que mejor
10
0
10
0
se comprende es la Medina. Valor
10,5 16,5 22,5 28,5 34,5 40,5 46,5 52,5 58,5 64,5 70,5 76,5 82,5 88,5
que divide a los datos en dos
Peso del huevo en gramos
subconjuntos con los mismos
Ascendente Descendente
elementos.
n  1 280  1
Está ubicada en la posición media de los estadígrafos de orden:   140,5
2 2

Esto es, el valor que presenta la observación 140. Sin la ayuda de la HE, los datos
se debían ordenar a mano y ubicar la observación, a la HE se le solicita.:

~
x = MEDIANA(B12 : B291)  53,2
14

El Cálculo de Media y Varianza.


LÍMITES DE CLASES Frecuencias
Inferior Medio Superior Observadas f * xi f(xi - xm)²
7,5 10,5 13,5 0 0,0 0,0
13,5 16,5 19,5 3 49,5 4.014,0
19,5 22,5 25,5 3 67,5 2.805,1
25,5 28,5 31,5 15 427,5 9.061,6
31,5 34,5 37,5 23 793,5 7.938,8
37,5 40,5 43,5 24 972,0 3.797,3
43,5 46,5 49,5 41 1906,5 1.774,4
49,5 52,5 55,5 50 2625,0 16,7
55,5 58,5 61,5 42 2457,0 1.234,5
61,5 64,5 67,5 36 2322,0 4.696,2
67,5 70,5 73,5 19 1339,5 5.766,6
73,5 76,5 79,5 15 1147,5 8.228,4
79,5 82,5 85,5 7 577,5 6.059,3
85,5 88,5 91,5 2 177,0 2.509,4
91,5 94,5 97,5 0 0,0 0,0
Estadísticos:
n = suma frecuencias 280 Suma de cuadrados 57.902,27
Suma total 14.862,0 Varianza 207,54
Promedio 53,08 Desviación Estándar 14,41
15

Ajustando la Distribución Esperada


Como se apuntó, la importancia de las distribuciones de datos se centra en
que puedan ser emuladas o aproximadas por alguna Distribución
Estadística de Probabilidad.
En la HE se efectúa todo un proceso para crear el gráfico que compara las
distribuciones Observada y Teórica o Esperada.
Se observa que hay
Distribuciones del peso de huevo semejanza entre las
60
distribuciones de datos
como lo confirma la prueba
50
estadística utilizada de chi-
Frecuencias

40
cuadrada que indica un
30
84,66% de que las
frecuencias observadas y
20

10
esperadas se parezcan.
0
10,5 16,5 22,5 28,5 34,5 40,5 46,5 52,5 58,5 64,5 70,5 76,5 82,5 88,5 94,5 Estadísticamente suficiente
Peso en gramos para considerarlas iguales.
Esperada Observada
16

Cuadro de Frecuencias y Estadísticos


El cuadro de frecuencias proporciona una Evento Frecuencia Sumas
idea de la distribución y los estadísticos x machos Observada Parciales
0 0 0
necesarios para valorar la hipótesis: 1 0 0
Ho; X ~B(np; npq) 2 0 0
3 0 0
La variable X se distribuye Binomial, con 4 1 4
5 3 15
media np = 10  0.7 = 7 y varianza npq =
6 4 24
10  0,7  0,3 = 2,1. 7 6 42
8 6 48
Por tanto, la distribución que aproxime a los 9 7 63
datos será una binomial con un muestra de 10 1 10
tamaño n = 10, y una proporción de pollitos Estadísticos
Número de bandejas 28
machos viables de 0,7 o 70%.
Suma Total de pollitos machos 206
Promedio de pollitos por bandeja 7,36
Tamaño de la muestra n 10
Proporción de pollitos machos viables 0,7357
Proporción no viable 0,2643
17

El Histograma.
Histograma de una variable discreta

El gráfico simple muestra una 70

distribución muy similar a una 60

50

No de Gallinas
campana, característica de 40

distribuciones de datos que se 30

parecen a una distribución 20

10

normal. 0
12,5 37,5 62,5 87,5 112,5 137,5 162,5 187,5 212,5 237,5 262,5 287,5 312,5 337,5

Número de huevos (gallina por año)

Es conveniente que las barras que representan el peso relativo de cada subclase no
se unan, indicando con esto, que se trata de una distribución discreta.
Así mismo, no es conveniente unir las cúspides de las barras con la línea del
polígono de frecuencias.
18

Estadísticos con Datos Agrupados


4
LÍMITES DE CLASES Frecuencia x x
f i xi
3
f i ( xi  x ) 2 x x
fi  i  fi  i 
Inferior Medio Superior Observada  s   s 
0 12,5 25 3 37,5 83.363,10 -63,56 175,87
25 37,5 50 4 150,0 80.311,51 -52,05 122,42
50 62,5 75 5 312,5 68.090,28 -36,34 70,40
75 87,5 100 12 1.050,0 100.898,82 -42,32 64,41
100 112,5 125 30 3.375,0 133.452,41 -40,71 45,07
125 137,5 150 25 3.437,5 43.464,80 -8,29 5,74
150 162,5 175 48 7.800,0 13.380,99 -1,02 0,28
175 187,5 200 58 10.875,0 3.999,06 0,15 0,02
200 212,5 225 34 7.225,0 37.710,35 5,74 3,18
225 237,5 250 27 6.412,5 91.781,27 24,47 23,69
250 262,5 275 17 4.462,5 117.971,25 44,95 62,15
275 287,5 300 13 3.737,5 152.485,63 75,53 135,79
300 312,5 325 2 625,0 35.539,68 21,67 47,95
325 337,5 350 2 675,0 50.120,04 36,29 95,36

Número de observaciones 280 Sumas de cuadrados 1.012.569,20


Suma Total 50.175,0 Varianza 3.629,28
Promedio de huevos 179,20 Desviación Estándar 60,24
Mediana 180,8 C. Asimetría -0,128
Moda 182,4 C. Curtosis 0,089
19

Interpretación
Histograma de una variable discreta
70
Media = 179,2
Se han señalado en el histograma los
estadísticos de posición y dos líneas
60 Mediana = 180,8
Moda = 182,4
50
en la parte inferior del mismo
No de Gallinas

40

30
tamaño para hacer evidente la
Asimetria o

20
Sesgo a la
izquierda
asimetría también llamada sesgo
10
señalada con una llave invertida.
0
Recodaremos que no es significante.
12,5 37,5 62,5 87,5 112,5 137,5 162,5 187,5 212,5 237,5 262,5 287,5 312,5 337,5

Número de huevos (gallina por año)

La asimetría toma de referencia a la normal indicando una anormalidad de la distribución de


los datos con respecto a la teórica. Los coeficientes de forma indican que las diferencias se
deben al azar pudiendo, por tanto, utilizar a la distribución Normal Estándar en proceso de
análisis, interpretación y predicción.
Definición de estadística
Estadística es la ciencia y técnica que tiene que
ver con la recolección, procesamiento, análisis e
interpretación de datos.

Puede ser:
• Descriptiva
• Inferencial
Estadística descriptiva
Incluye la tabulación, representación y descripción
de conjuntos de datos.
A partir de ellos se puede organizar, simplificar y
resumir información básica.
Los datos pueden ser de variables cuantitativas o
categóricas.
Estadística inferencial

Proporciona métodos para estimar


las características de un grupo
(población) basándose en los datos
Muestra
de un conjunto pequeño (muestra).
Población
Estadística en Medicina
El resultado de un análisis estadístico no es un objetivo en sí
mismo, sino una herramienta para:
• comprobar o rechazar una hipótesis de trabajo,
• representar de una forma eficiente y resumida un colectivo de
observaciones,
• para validar un modelo de un proceso fisiológico
Presentación de datos
Presentación de datos cuantitativos
• Indicar un valor central y uno de variabilidad o
dispersión.
• Cuando es razonable suponer que los datos pueden seguir
una distribución normal, se estimará la media y la
desviación estándar.
• Ejemplo: La media de la PAS fue de 139.2 ± 14.9 mmHg
Distribución normal: distribución
aproximada de valores
Distribución normal: curva simétrica
30

25

20

15

10

0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
Asimetría a la izquierda
30

25

20

15

10

0
1 2 3 4 5 6 7 8 9 10 11 12 13
Asimetría a la derecha
30

25

20

15

10

0
1 2 3 4 5 6 7 8 9 10 11 12 13
Medidas de Variabilidad
50
45
40
35
30
25
20
15
10
5
0
1 3 5 7 9 11 13 15 17 19 21 23
Coeficiente de variación
El CV es igual al cociente entre la desviación típica y la media

Si encontramos que el coeficiente de variación es próximo o mayor


que 0.5 y no puede haber datos negativos, la distribución no es
normal
Ej.: triglicéridos en pacientes diabéticos

Por tanto el coeficiente de variación es 0.49.


Mediana

Es un valor del conjunto de datos que mide el


elemento central: La mitad de los elementos se
encuentran por arriba y la otra mitad por debajo
de él.
Distribución Sesgada a la Derecha
30
Moda
25
Mediana
20
Media
15

10

0
1 2 3 4 5 6 7 8 9 10 11 12 13
Distribución Sesgada a la Izquierda

30

25
Moda
Mediana
20
Media
15

10

0
1 2 3 4 5 6 7 8 9 10 11 12 13
Distribución Simétrica

90
80 Moda
70 Mediana
60
Media
50
40
30

20

10
0
1 2 3 4 5 6 7 8 9 10 11 12 13
Moda

Es el valor que se repite más dentro


de un conjunto de datos.
Media, mediana y moda

• La media, la mediana y la moda son idénticas en una


distribución simétrica
• La mediana puede ser la idónea en distribuciones sesgadas,
ya que no se afecta tanto por valores extremos.
• Sin embargo no se cuenta con un criterio único para aplicar
alguna de las tres medidas
Presentación de datos cualitativos

Los datos cualitativos (nominales u ordinales) se cuantifican


como recuentos del número de casos observados para cada
categoría, y suelen expresarse habitualmente como porcentajes
u otro tipo de cocientes.
Ej. La proporción de mujeres con síndrome X es del 82 % (55 de
67)
Gráficos

Son imágenes que, combinando la utilización de sombreado,


colores, puntos, líneas, símbolos, números, texto y un sistema
de referencia (coordenadas), permiten presentar información
cuantitativa.
Gráficas
• Sirven para:
• Organizar los datos
• Observar patrones
• Observar agrupamientos
• Observar relaciones
• Comparar distribuciones
• Visualizar rápidamente la distribución de los datos
• Visualizar, obtener y comparar medidas estadísticas
Gráficas

La calidad de un gráfico estadístico consiste en comunicar ideas complejas


con precisión, claridad y eficiencia, de tal manera que:
• Induzca a pensar en el contenido más que en la apariencia
• No distorsione la información proporcionada por los datos
• Presente mucha información (números) en poco espacio
• Favorezca la comparación de diferentes grupos de datos o de relaciones
entre los mismos (por ejemplo una secuencia temporal)
Diagrama de tallo y hojas

1* 34456
2* 001235
3* 04999
4* 344457777789
5* 23434
6* 244667777
Diagrama de barras
Grafica de barras

40
35
30
Frecuencia 25
20
15
10
5
0
Mes

(variable discreta o categoría)


Histograma
Histograma

40

Frecuencia de la clase
35
30
25
20
15
10
5
0
Clases

(variable continua agrupada en clases o intervalos)


Diagrama de Pastel
Partes del todo

17%
29%
Opcion 1
Opcion 2
Opcion 3
22% Opcion 4
Opcion 5
13%
19%
Diagrama de puntos
Media de los resultados del cuestionario de calidad de vida

Hombres = rojo

Mujeres = amarillo
Diagrama de Caja y Bigotes

Min Max

Q1 mediana Q3

Escala
Intervalos de confianza
Recomendaciones para un gráfico
• Si es estético, fomenta la lectura y comprensión.
• Sencillez y claridad, el uso del color debe ser moderado y bien elegido.
• Usar líneas finas, eliminar las superfluas
• Usar grid si es necesario
• Balance entre el espacio en blanco y datos
• Idealmente no hay que acudir al texto .
• Balance entre texto, tablas e imágenes,
• Combinar texto y tablas insertas

También podría gustarte