Está en la página 1de 62

Unidad l

La estadística es una disciplina científica que se ocupa de obtención, orden y


análisis de un conjunto de datos con el fin de obtener explicaciones y predicciones
sobre fenómenos observados.
Es caracterizada por su transversalidad. Su metodología es aplicable al estudio
de diversas disciplinas tales como: biología, física, economía, sociología, etc.
TIPOS DE ESTADÍSTICA
Estadística descriptiva Estadística inferencial

Métodos de recolección, Métodos utilizados para


organización, resumen y hacer predicciones,
presentación de un conjunto generalizaciones y
de datos. Descubre las obtener conclusiones a
características de ellos partir de los datos
utilizando indicadores, analizados teniendo en
gráficos y tablas. cuenta el grado de
incertidumbre existente.

Estadística paramétrica Estadística no paramétrica

Tiene una distribución o se especifican En ella no es posible asumir ningún tipo de


parámetros que deberían cumplirse. Ej, un distribución subyacente en los datos ni
análisis paramétrico se puede trabajar tampoco un parámetro específico. Un
bajo el supuesto de que la población ejemplo de este tipo de análisis es la prueba
distribuye como una normal y luego sacar binomial.
conclusiones bajo el supuesto que esta
condición cumple.
Tipos de Variables

(Cualidades)

(Cualidades)
(Relación de orden)

(Números enteros)
Valores obtenidos
de un experimento

(Cantidades)
(Números reales)

Conceptos Básicos
Población: Conjunto sobre el cual nos interesa hacer el estudio (habitualmente
es grande).
Muestra: Subconjunto representativo de la población sobre el cual se hace el
estudio. Habitualmente se hace sobre una selección al azar de la población. La
más representativa es la MUESTRA ALEATORIA, donde se considera que cada
individuo tuvo igual oportunidad de participar. Las conclusiones obtenidas de una
muestra aleatoria se denominan confiables.
Pasos para construir una tabla de frecuencias:
1) Tener los datos.
2) Identificar el menor y el mayor de ellos.
3) Calcular la amplitud a=máx-min
4) Una vez que está la amplitud, se procederá a completar la siguiente tabla

X= Variable f = Frecuencia Absoluta (cuantas veces aparece) h= Frecuencia relativa o porcentual


F=Frecuencia Absoluta Acumulada H= Frecuencia Relativa Acumulada

¿ ó

f: Contando las veces que aparece mi variable(x) en los datos recogidos o


también conocida como “nube de puntos”
h: Se calcula dividiendo f en el total de datos (si fuese porcentual se multiplica
por 100)
F: Se calcula sumando la F anterior a la f de la fila en cuestión.
Medidas de tendencia central
∑𝑛
1 𝑥𝑖 𝑓𝑖
Media o promedio 𝑛

Moda: Es el valor que más se repite


Mediana: Es un valor que divide mi distribución en 2 partes iguales. Si el número
de elementos es par, se calcula el promedio entre los dos elementos centrales.
¿Cómo graficar los resultados?
 Una manera de mostrar los resultados están los gráficos de barras, líneas,
histogramas, circulares, entre otros.
 Cada uno de estos gráficos se hace de acuerdo con las características de
las variables y lo que estemos graficando.
 Por ejemplo, el histograma se hace para variables continuas y es una
variación del gráfico de barras.
 El gráfico circular o gráfico de torta se hace para la frecuencia porcentual.

Las notas de un curso de 30 estudiantes de Estadística son:


7,6,5,6,3,1,2,4,3,2,6,4,5,7,4,2,3,1,6,2,4,5,6,7,6,4,4,5,6,5.
Vamos a generar una tabla de frecuencias y luego calcular las medidas de
tendencia central para entender un poco más lo que estuvimos estudiando.
X Notas f h F H
1
2
3
4
5
6
7
¿ é
• Son tablas que se emplean si las variables toman un número grande de
valores o son variables continuas
• Siempre se agrupan en intervalos que tengan la misma amplitud.
• Cada intervalo se denomina clase y cada clase tiene una marca de clase
• Cada clase tiene una frecuencia correspondiente

• Cada intervalo pose un límite inferior y uno superior que podemos definir
como un intervalo que va a comenzar con [ y va a terminar con), esto
significa que el límite inferior si se considera y el límite superior no.
• Esto es distinto para el ultimo intervalo.
• Ej: [3.5 , 4.5) => Esto significa que el 3.5 pertenece al intervalo y el 4.5 no

¿ ó ú
• Cada vez que trabajemos con datos agrupados consideraremos entre 6 y
15 intervalos, más de esto es poco aconsejable.
• Para calcular la amplitud debemos identificar el máximo y mínimo de la
distribución, restarlos y por último dividir por el número de intervalos que
queremos generar.
• Intentaremos que el número de intervalos sea un valor que divida
exactamente al número de variables, si no se puede, buscamos el que de
más exacto.

¿ ó
• Para calcular la marca de clase solo debemos calcular el promedio entre el
límite superior y el inferior de cada una de las clases o intervalos.
𝐿𝑖 +𝐿𝑠
• 𝑥𝑖 = , la marca de clase la utilizaremos luego para calcular moda,
2
promedio y mediana.
Ejemplo:

• Lo primero es determinar R = Rango de variables. El


ejercicio dice que las notas van de 0 a 10, por tanto, R=10
• El número de intervalos me lo da el enunciado k=5
• Con estos datos podemos determinar que la amplitud es
A=R/K=10/5=2.
• Una vez que tenemos esto podemos formar la tabla de
frecuencias.

Comenzamos completando los


intervalos.
Posteriormente completamos la
marca de clase, tomando en
cuenta que se obtiene del
promedio del límite superior e
inferior de cada intervalo.
El resto es historia conocida.
Medidas de tendencia central para datos agrupados
∑ 𝑥𝑖 ∙𝑓𝑖
• Media aritmética o promedio: 𝑥̅ = 𝑁
𝑁
−𝐹𝑖−1
• Mediana: 𝑚𝑒 = 𝐿𝑖𝑛𝑓 + ( 2
)∙𝑎
𝑓𝑖

𝑓𝑖 −𝑓𝑖−1
• Moda: 𝑚𝑜 = 𝐿𝑖𝑛𝑓 + ((𝑓 −𝑓 ) ∙𝑎
𝑖 𝑖−1 )+(𝑓𝑖 −𝑓𝑖+1 )
¿ é ó
En palabras sencillas las medidas de dispersión son números que nos
indicarán si una variable cambia mucho o poco. También podemos decir que
son variables que nos indicarán que tan dispersas están nuestras variables, o
que tanto cambian en la distribución.
Las medidas de dispersión son:

a) Varianza
b) Desviación típica
c) Coeficiente de variación.
¿Cómo se calculan?
ó
La desviación media es la media de los valores absolutos de la diferencia de
cada valor de la distribución con la media aritmética.

Ejemplo: Determinar la varianza, desviación típica y coeficiente de variación


de los siguientes datos que representan la cantidad de glucosa en miligramos
encontrada en muestras de sangre de algunos pacientes: 14.2, 12.1, 15.6,
18.1, 14.3.
R.:
i. s2=4.853
ii. S=2.2029
iii. CV=????
Ejemplo 2
Hallar la desviación media de la siguiente tabla referida a las edades
de los 100 empleados de una cierta empresa
ó
¿Qué es?

El percentil es una medida estadística de posición, que


divide la distribución ordenada de los datos en cien
partes iguales.

Son medidas no centrales que aportan información con


respecto a los valores que se presentan por debajo de el.

Por ejemplo el percentil 30 (P30) representa a todos los


valores que están desde la posición 1 a la 30.

¿Cómo calculamos el percentil?


❖ Lo primero es calcular la posición con la formula
𝑘𝑁
❖ 𝑃 = 100

❖ Luego de esto buscamos en la frecuencia absoluta acumulada donde


queda el valor que buscamos, esa será nuestra clase del centil.
❖ Y por último aplicamos la formula
Ejemplo
Calcular el percentil 35 y 60 de la distribución de la tabla:
Prueba Formativa
I. Selección múltiple.
1. Cuál de las siguientes alternativas NO corresponde a una variable
cualitativa.
a) Posición en una carrera
b) Color de ojos
c) Estado Civil
d) Número de hijos
e) N.A.

2. Cuál de las siguientes alternativas NO es una característica de la


estadística
a) Disciplina científica
b) Permite predecir hechos
c) Se encarga de obtener, ordenar y analizar datos
d) Su metodología es aplicable en muchas disciplinas
e) Solo permite trabajar con números

3. Cuál de los siguientes conceptos se considera una medida de


tendencia central
a) Varianza
b) Depresión intermedia
c) Promedio
d) Desviación típica
e) N.A.

4. Seleccione el concepto más adecuado para la Mediana


a) Es un valor que divide mi distribución en dos partes iguales
b) Es el valor que más se repite
c) Es el resultado de sumar todas las frecuencias y dividir por
N
d) Es una formula muy compleja para ser tratada
e) N.A.

5. Cuál de los siguientes ejemplos corresponde a una variable


cuantitativa
a) Posición en una carrera
b) Numero de goles marcados
c) Cantidad de hijos
d) Solo b y c
e) N.A.
II. Términos pareados

1. En la tabla, una las definiciones de la izquierda con la derecha


según corresponda.

Nº Concepto Nº Definición
1 Histograma Promedio entre el límite inferior y superior de una clase.
2 Frecuencia Es el conjunto sobre el cual nos interesa hacer el estudio
Absoluta (habitualmente es grande).
3 Población Indica la cantidad de veces que aparece mi variable en la
distribución.
4 Muestra Gráfico generado para variables continuas.
5 Rango Es la diferencia entre el máximo y el mínimo valor de una
distribución.
6 Marca de Es un subconjunto representativo de la población sobre
clase el cual se hace el estudio.

III. Ejercicios de desarrollo

1. Para el siguiente ejercicio desarrolle la tabla de frecuencias y calcule las


medidas de tendencia central.

La tabla siguiente nos muestra el resultado de una encuesta entre los alumnos de
primer curso, analizando el número de suspensos en la primera evaluación:

0 2 2 4 0 3 3 2 5 2 3 2 4 3 4
3 1 4 1 1 0 4 1 1 4 2 4 2 0 3
3 2 3 2 3 3 1 2 4 2 3 1 3 1 4
2. Para el siguiente ejercicio desarrolle la tabla de frecuencias y calcule las
medidas de tendencia central (pista, use tabla con datos agrupados)

3. Para ambas distribuciones anteriores se le pide calcular las medidas de


dispersión y generar el gráfico correspondiente.
Unidad ll
¿Qué son las probabilidades?
La probabilidad es una disciplina matemática que interfiere en diversas áreas
del conocimiento.
Nos permite calcular las oportunidades que hay de que un cierto suceso
ocurra o no lo haga, y a partir de esto, predecir, con mayor o menor exactitud,
lo que puede suceder.
Por ejemplo: la probabilidad mide la posibilidad de que salga "cara" cuando
lanzamos una moneda, o la posibilidad de que salga 5 cuando lanzamos un
dado.

Conceptos básicos
Sucesos: Llamamos sucesos a los posibles resultados de una acción que
depende del azar. De ellos se distinguen tres tipos:
Suceso Posible Suceso imposible Suceso seguro

Es un resultado que Es un resultado que Es un resultado que


se puede dar. no se puede dar. siempre va a dar.

El espacio muestral es el conjunto de todos los posibles resultados de un


experimento aleatorio y se suele representar como E (o bien como omega, Ω,
del alfabeto griego).
PROBABILIDADES DE LOS SUCESOS
¿ ó
- Para calcular probabilidades se utiliza la siguiente fórmula:
Probabilidad = Casos favorables / Casos posibles
Por ejemplo: Probabilidad de obtener cara al lanzar una moneda
Calcular la probabilidad de que salga "un número entre 1 y 4 " al lanzar un
dado

Cálculo de probabilidades
Para un suceso A, la probabilidad de que suceda su complementario (o
equivalentemente, de que no suceda A) es igual a uno menos la probabilidad
de A

Si un fenómeno determinado tiene dos posibles resultados A y B mutuamente


excluyentes (es decir, que no pueden darse de forma simultánea, como ocurre
en el lanzamiento de una moneda al aire), la probabilidad de que una de esas
dos posibilidades ocurra se calcula como la suma de las dos probabilidades
individuales:

Si un fenómeno determinado tiene dos posibles resultados A y B, la


probabilidad de que una de esas dos posibilidades ocurra viene dada, en
general, por la expresión:
Por ejemplo, se sabe que en una determinada Unidad de Cuidados Intensivos
(UCI) el 6,9% de los pacientes que ingresan lo hacen con una infección
adquirida en el exterior, mientras que el 13,7% adquieren una infección
durante su estancia en el hospital. Se conoce además que el 1,5% de los
enfermos ingresados en dicha unidad presentan una infección de ambos tipos.
A veces, la probabilidad de que un determinado suceso tenga lugar depende
de que otro suceso se haya producido o no con anterioridad.
Esto es, en ocasiones el hecho de que se produzca un determinado fenómeno
puede hacer más o menos probable la aparición de otro.
Este tipo de probabilidades se denominan probabilidades condicionadas, y
se denotará por P(A/B) a la probabilidad condicionada del suceso A
suponiendo que el suceso B haya ocurrido ya.
A veces, la probabilidad de que un determinado suceso tenga lugar depende
de que otro suceso se haya producido o no con anterioridad.
Esto es, en ocasiones el hecho de que se produzca un determinado fenómeno
puede hacer más o menos probable la aparición de otro.
Este tipo de probabilidades se denominan probabilidades condicionadas, y
se denotará por P(A/B) a la probabilidad condicionada del suceso A
suponiendo que el suceso B haya ocurrido ya.
La ley multiplicativa de probabilidades indica que la probabilidad de que dos
sucesos A y B ocurran simultáneamente es igual a:

La ley multiplicativa anterior se utiliza también con el fin de determinar una


probabilidad condicional P(A/B) a partir de los valores de P(AyB) y P(B)
Ejemplo:
Consideremos, como ejemplo, un servicio de urología en el que el 38,2% de los
pacientes a los que se les practica una biopsia prostática presentan una
hiperplasia benigna (HB), el 18,2% prostatitis (PR) y en un 43,6% el diagnóstico
es de cáncer (C). La probabilidad de que en un paciente que se somete a una
biopsia de próstata no se confirme el diagnóstico de cáncer prostático será igual a
¿Qué es una distribución normal?
• La distribución normal es un modelo teórico capaz de
aproximar satisfactoriamente el valor de una variable
aleatoria a una situación ideal.
• Adaptación de una variable aleatoria que depende de la media y la
desviación típica.
• La distribución normal es la base de otras distribuciones como
la distribución t de Student, distribución ji-cuadrada, distribución F de Fisher
y otras distribuciones.
Fórmula para la distribución normal:
• Dada una variable aleatoria X, decimos que la frecuencia de sus
observaciones puede aproximarse satisfactoriamente a una distribución
normal tal que:
• 𝑥 = 𝑁(𝜇, 𝜎) donde observamos que:
• X= Variable aleatoria
• 𝜇= Media o valor central
• 𝜎= Desviación típica
• Con estos valores representaremos la frecuencia de una variable aleatoria
en una distribución normal.

Gráfica y propiedades
• Es una distribución simétrica. El valor de la
media, la mediana y la moda coinciden.
Matemáticamente,
• Distribución unimodal. Los valores que son más
frecuentes o que tienen más probabilidad de
aparecer están alrededor de la media.
Más propiedades
La curva normal es asintótica al eje de abscisas. El área total bajo la curva es,
por tanto, igual a 1.
Es simétrica con respecto a su media. Según esto, para este tipo de variables
existe una probabilidad de un 50% de observar un dato mayor que la media, y
un 50% de observar un dato menor.
La distancia entre la línea trazada en la media y el punto de inflexión de la
curva es igual a una desviación típica. Cuanto mayor sea la desviación, más
aplanada será la curva de la densidad.
El área bajo la curva comprendido entre los valores situados aproximadamente
a dos desviaciones estándar de la media es igual a 0.95.
La forma de la campana de Gauss depende de los parámetros media y
desviación.

¿Cómo normalizar Variables aleatorias?


• A partir de cualquier variable X, que siga una distribución
normal, se puede obtener una distribución estándar realizando
la siguiente transformación:
𝑥−𝜇
• 𝑧= 𝜎

• Debido a que para una tabla N (0,1) existen tablas publicadas a


partir de las cuales se puede determinar la probabilidad de
obtener un dato menor o igual a z, y que permitirán responder
ciertas preguntas de probabilidad respecto al comportamiento
de las variables.
¡¡Como utilizar la tabla de distribución normal y no morir en el
intento!!

La tabla nos da las probabilidades de P(z ≤ k), siendo z la variable tipificada.


Estas probabilidades nos dan la función de distribución Φ(k).
Φ(k) = P(z ≤ k)
Búsqueda en la tabla de valor de k
Unidades y décimas en la columna de
la izquierda.
Centésimas en la fila de arriba.
P(Z ≤ a)
P(Z ≤ 1.47) = 0.9292

P(Z > a) = 1 - P(Z ≤ a)


P(Z > 1.47) = 1 − P(Z ≤ 1.47) = 1 − 0.9292 =
0.0708

P(Z ≤ −a) = 1 − P(Z ≤ a)


P(Z ≤ −1.47) = 1 − P(Z ≤ 1.47) = 1 − 0.9292
= 0.0708

P(Z > −a) = P(Z ≤ a)


p(Z > −1.47) = p(Z ≤ 1.47) = 0.9292
P(a < Z ≤ b ) = P(Z ≤ b) − P(Z ≤ a)
P( 0.45 <Z ≤ 1.47) = P(Z ≤ 1.47) − P(Z ≤ 0.45) =
= 0.9292 − 0.6736 = 0.2556

P(−b < Z ≤ −a ) = P(a < Z ≤ b )


P(−1.47 <Z ≤ − 0.45) = P( 0.45
<Z ≤ 1.47) =
= P(Z ≤ 1.47) − P(Z ≤ 0.45) =
0.9292 − 0.6736 = 0.2556

• P(−a < Z ≤ b ) = P(Z ≤ b) − [ 1 − P(Z ≤ a)]


• P(-1.47 < Z ≤ 0.45) = P(Z ≤ 0.45) − [ 1 − P(Z ≤ 1.47)]=
• = 0.6736 − (1 − 0.9292) = 0.6028

• p=K
• Nos encontramos con el caso inverso a los anteriores,
conocemos el valor de la probabilidad y se trata de hallar el
valor de la abscisa. Ahora tenemos que buscar en la tabla el
valor que más se aproxime a K.
• p = 0.75
• Z ≤ 0.68
• Para calcular la variable X nos vamos a la fórmula de la
tipificación.
• (X - μ)/σ = 0.68
• X = μ + 0.68 σ
ANOVA: Análisis de varianza para comparar múltiples medias.
¿Qué es ANOVA?
Técnica utilizada para estudiar el efecto de uno o más factores sobre una variable
continua
Test utilizado para comparar las medias de dos o más grupos.

¿ ó
Primero se parte de una hipótesis nula, en la cual, se asume que
la media es igual para todas las distribuciones.
En contraposición, la hipótesis alternativa dice que al menos dos
de estas medias difieren de manera significativa.
Permite comprar múltiples medias, pero lo hace a través del
estudio de la varianza.
Consiste en calcular la media de cada uno de los grupos
Luego se comparan las varianzas de cada una de estas medias frente a la
varianza promedio de los grupos.
Para que se cumpla la hipótesis nula, la varianza ponderada entre grupos debe
ser la misma que la varianza promedio entre los grupos.
Mientras las medias de los grupos se alejen, la varianza entre medias se
incrementará y dejara de ser igual a la varianza promedio entre grupos.
ANOVA DE UNA VÍA PARA DATOS INDEPENDIENTES
El ANOVA de una vía, ANOVA con un factor o modelo factorial de un solo factor
es el tipo de análisis que se emplea cuando los datos no están pareados y se
quiere estudiar si existen diferencias significativas entre las medias de una
variable aleatoria continua en los diferentes niveles de otra variable cualitativa o
factor. Es una extensión de los t-test independientes para más de dos grupos.
• Las hipótesis contrastadas en un ANOVA de un factor son:
• H0: No hay diferencias entre las medias de los diferentes
grupos: μ1=μ2...=μk=μμ1=μ2...=μk=μ
• H1: Al menos un par de medias son significativamente distintas la
una de la otra.

¿Cómo calcular?
Para poder calcular las diferentes varianzas en primer lugar se tienen que obtener
las Sumas de Cuadrados.
Suma de Cuadrados Total o Total Sum of Squares (TSS)
Suma de cuadrados del factor o Sum of Squares due to Treatment (SST)
Suma de cuadrados residual/error o Sum of Squares of Errors (SSE)
Suma de Cuadrados Total o Total Sum of Squares (TSS)

✓ Mide la variabilidad total de los datos.

✓ Se define como la suma de los cuadrados de las diferencias de cada


observación respecto a la media general de todas las observaciones.

✓ Los grados de libertad de la suma de cuadrados totales es igual al


número total de observaciones menos uno (N-1).

Suma de cuadrados del factor o Sum of Squares due to Treatment (SST)

✓ Mide la variabilidad en los datos asociada al efecto del factor sobre la


media (la diferencia de las medias entre los diferentes niveles o grupos).

✓ Se obtiene como la suma de los cuadrados de las desviaciones de la


media de cada proveedor respecto de la media general, ponderando
cada diferencia al cuadrado por el número de observaciones de cada
grupo.

✓ Los grados de libertad correspondientes son igual al número niveles del


factor menos uno (k-1).

Suma de cuadrados residual/error o Sum of Squares of Errors (SSE)

✓ Mide la variabilidad dentro de cada nivel, es decir, la variabilidad que no


es debida a variable cualitativa o factor.

✓ Se calcula como la suma de los cuadrados de las desviaciones de cada


observación respecto a la media del nivel al que pertenece. Los grados
de libertad asignados a la suma de cuadrados residual equivale la
diferencia entre los grados de libertad totales y los grados de libertad del
factor, o lo que es lo mismo (N-k).

✓ En estadística se emplea el termino error o residual ya que se considera


que esta es la variabilidad que muestran los datos debido a los errores
de medida.

✓ Desde el punto de vista biológico tiene más sentido llamarlo Suma de


cuadrados dentro de grupos ya que se sabe que la variabilidad
observada no solo se debe a errores de medida, si no a los muchos
factores que no se controlan y que afectan a los procesos biológicos.

TSS=SSE+SST
¿Cómo calcular 2.0?
• Una vez descompuesta la suma de cuadrados se puede obtener la
descomposición de la varianza dividiendo la Suma de Cuadrados entre los
respectivos grados de libertad. De forma estricta, al cociente entre la Suma
de Cuadrados y sus correspondientes grados de libertad se le
denomina Cuadrados Medios o Mean Sum of Squares y pueden ser
empleado como estimador de la varianza:

¿Cómo calcular 3.0?

• Una vez descompuesta la estimación de la varianza, se obtiene el


estadístico Fratio dividiendo la intervarianza entre la intravarianza:

𝐶𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑚𝑒𝑑𝑖𝑜𝑠 𝑑𝑒𝑙 𝑓𝑎𝑐𝑡𝑜𝑟 𝑆̂𝑡2 𝐼𝑛𝑡𝑒𝑟𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎


𝐹𝑟𝑎𝑡𝑖𝑜 = = 2= ~𝐹𝑘−1,𝑁−𝑘
𝐶𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑚𝑒𝑑𝑖𝑜𝑠 𝑑𝑒𝑙 𝑒𝑟𝑟𝑜𝑟 𝑆̂𝐸 𝐼𝑛𝑡𝑟𝑎𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎

• Dado que por definición el estadístico Fratio sigue una distribución F Fisher-
Snedecor con k - 1 y N - k grados de libertad, se puede conocer la
probabilidad de obtener valores iguales o más extremos que los
observados.
Métodos de estimación
¿Qué es la regresión lineal?
• Es un método que estudia la relación lineal entre dos variables
• Consiste en generar una ecuación o modelo que permitirá predecir el valor
de una a partir de otra.
• El modelo puede variar según que variable se considere dependiente de la
otra
• Se utiliza cuando una de las variables se controla y en base a esa variable
se mide la otra
• Antes de generar un modelo de regresión lineal debemos saber si las
variables están correlacionadas
Modelo de regresión lineal simple
▪ El modelo de regresión lineal simple tiene la siguiente expresión:
▪ 𝑦 = 𝑚𝑥 + 𝑏, lo cual representa una recta. Exacto!!! Lineal = Recta
▪ Donde b es la ordenada en el origen, es el valor que toma y cuando x vale
cero….es el valor donde la recta choca con el eje y
▪ Y m es la pendiente de la recta, puede ser mayor o menos que cero,
jamas!!! Cero
▪ M nos indica como cambia y al incrementar x
¿Cómo calcular m y b?
• Para realizar el cálculo se utiliza el método de los mínimos cuadrados, el
método consiste en minimizar la suma de los cuadrados de los errores
• Como no nos queremos aburrir con ecuaciones extrañas y aburridas que
poco aportan al sentido de esta clase pasamos directamente a la
aplicación.
• Luego de un arduo trabajo y muchas deducciones
de fórmulas, logramos generar lo siguiente para m y
b
• b = 𝑦̅ − 𝑚𝑥̅
𝑆𝑥𝑦
• m= 𝑆𝑥2

• Donde 𝑥̅ 𝑒 𝑦̅ denotan las medias muestrales de x e y, 𝑆𝑥2 es la varianza


muestral de x y 𝑆𝑥𝑦 es la covarianza muestral entre x e y

A continuación, seguiremos calculando, estas son las formulas de cada uno de los
parámetros:
∑𝑛
𝑖=1 𝑥𝑖 ∑𝑛
𝑖=1 𝑦𝑖
▪ 𝑥̅ = , 𝑦̅ =
𝑛 𝑛

∑𝑛
𝑖=1(𝑥𝑖 −𝑥̅ )
2
▪ 𝑆𝑥2 = 𝑛

∑𝑛 ̅)2
𝑖=1(𝑦𝑖 −𝑦
▪ 𝑆𝑦2 = 𝑛

∑𝑛
𝑖=1(𝑥−𝑥̅ )(𝑦−𝑦
̅)
▪ 𝑆𝑥𝑦 = 𝑛
Coeficiente de correlación lineal
Sirve para calcular la dependencia que hay entre las variables x e y, y su
cuadrado (r2) se denomina coeficiente de determinación.
Su fórmula es:
𝑆𝑥𝑦
▪ 𝑟=𝑆
𝑥 𝑆𝑦

Propiedades
a) No tiene dimensión, y siempre toma valores en [-1,1].
b) Si las variables son independientes, entonces r=0, pero el inverso no tiene
por qué ser cierto.
c) Si existe una relación lineal exacta entre X e Y, entonces r valdría 1
(relación directa) ó -1 (relación inversa).
d) Si r>0, esto indica una relación directa entre las variables (es decir, que si
aumentamos X, también aumenta Y).
e) Si r<0, la correlación entre las variables es inversa (si aumentamos una, la
otra disminuye).
Ejemplo
▪ Una compañía desea hacer predicciones del valor anual de sus ventas
totales en cierto país a partir de la relación de éstas y la renta nacional.
Para investigar la relación cuenta con los siguientes datos:
▪ X representa la renta nacional en millones de euros e Y representa las
ventas de la compañía en miles de euros en el periodo que va desde 1990
hasta 2000. Calcular:
▪ La recta de regresión de y sobre x
▪ El coeficiente de correlación lineal, e interprete
▪ Si en 2001 la renta nacional del país fue de 325 millones de euros, ¿Cuál
fue la predicción para las ventas de ese año?
EJERCICIOS CIERRE DE UNIDAD
Probabilidades

1. Se lanzan 2 dados. Hallar la probabilidad de que la suma de los dos sea:


a. 3
b. Impar
c. Menos que 5
d. 7

2. Diez fichas numeradas del 1 al 10 se mezclan en una caja y se sacan dos


fichas simultáneamente y al azar.
a. Enunciar el espacio muestreal de este experimento
b. ¿Cuál es la probabilidad de que su suma sea 10?
c. ¿Cuál es la probabilidad de que el numero mayor de los 2
seleccionados sea 8?

3. Se tiene que P(A) = 0,35; P(A U B) = 0,45; P(A ∩ B) = 0,18. Utilice los
teoremas de probabilidad para calcular e interpretar el valor correspondiente a
las operaciones que se señalan a continuación:
a. P(B)
b. P(𝐴̅)
c. 𝑃(𝐵̅)
d. 𝑃(𝐴̅ ∪ 𝐵̅)

4. La siguiente tabla relaciona el sexo y la emoción luego de ver una película,


complete la tabla y calcule las probabilidades indicadas.

Si se selecciona una persona al azar, calcular la probabilidad que:


a. No sea mujer o sienta miedo
b. Se sienta triste o con miedo
c. Sea mujer y se sienta alegre
d. No sienta sorpresa
e. Sea hombre o se sienta alegre
f. Alegría y tristeza, ¿Son eventos independientes?
Distribución Normal

1. En una distribución normal de media 4 y desviación típica 2, calcular el valor

de a para que:
2. En una ciudad se estima que la temperatura máxima en el mes de junio sigue
una distribución normal, con media 23º y desviación típica 5º.

a. Calcular el número de días en que la temperatura alcanzará máximas


entre 2º1 y 27º

3. Tras un test de cultura general se observa que las puntuaciones obtenidas


siguen una distribución N(65,18)

Se desea clasificar a los examinados en tres grupos (de baja cultura general,
de cultura general aceptable y de alta cultura general) de modo que en el
primero cabe un 20% de la población, un 65% en el segundo y un 15% en el
tercero.
¿Cuáles han de ser los puntajes que marcan el paso de un grupo al otro?
La materia prima que se usa en la elaboración de una fibra sintética se almacena
en un local que no tiene control de humedad. Las mediciones de la humedad
relativa en el local y del contenido de humedad de una muestra de la materia
prima (ambos en porcentajes) durante 12 días, dieron los siguientes resultados:

Humedad, X Contenido de Humedad Y

42 12

35 8

50 14

43 9

48 11

62 16

31 7

36 9

44 12

39 10

55 13

48 11

a) Calcule el modelo de regresión lineal.


b) Determine e interprete el coeficiente de relación.
c) ¿Cuál es la humedad esperada para un contenido de humedad de 15?
Problemas resueltos. Tema 14 Análisis de
Varianza

1.- Los miembros de un equipo ciclista se dividen al azar en tres grupos que
entrenan con métodos diferentes. El primer grupo realiza largos recorridos a
ritmo pausado, el segundo grupo realiza series cortas de alta intensidad y el
tercero trabaja en el gimnasio con pesas y se ejercita en el pedaleo de alta
frecuencia. Después de un mes de entrenamiento se realiza un test de
rendimiento consistente en un recorrido cronometrado de 9 Km. Los tiempos
empleados fueron los siguientes:

Método Método II Método III


I
15 14 13
16 13 12
14 15 11
15 16 14
17 14 11

A un nivel de confianza del 95% ¿Puede considerarse que los tres métodos
producen resultados equivalentes? O por el contrario ¿Hay algún método
superior a los demás?

Solución:

Comenzamos calculando los totales y los cuadrados de los totales


divididos por el número de observaciones:

Metd. I Metd. II Metd. III Total Sum2/


n
Suma 77 72 61 210 2940
Sum2/n 1185,8 1036,8 744,2 2966,8

A continuación calculamos los cuadrados de las observaciones y su total:

Metd. I Metd. II Metd. III


225 196 169
256 169 144
196 225 121
225 256 196
289 196 121
1191 1042 751 2984

A partir de estas cantidades básicas calculamos las Sumas de Cuadrados:

SC(total) = 2984 - 2940 = 44


SC(intra) = 2984 – 2966,8 = 17,2
SC(entre) = 2966,8 – 2940 = 26,8

Los cuadrados medios serán:

CM(entre) = 26,8/2 =
13,4 CM(intra) = 17,2/12
= 1,43
2 Problemas de Análisis de Datos. José María Salinas

Por consiguiente el estadístico de contraste vale:

F = 13,4/ 1,43 = 9,37

El valor de la F teórica con 2 y 12 grados de libertad, a un nivel de confianza del


95% es 3,89. Por consiguiente se rechaza la hipótesis nula y se concluye que los
tres métodos de entrenamiento producen diferencias significativas.

2.- Una lista de palabras sin sentido se presenta en la pantalla del ordenador
con cuatro procedimientos diferentes, asignados al azar a un grupo de sujetos.
Posteriormente se les realiza una prueba de recuerdo de dichas palabras,
obteniéndose los siguientes resultados:

Procdmt. Procdmt. Procdmt. III Procdmt.


I II IV
5 9 8 1
7 11 6 3
6 8 9 4
3 7 5 5
9 7 7 1
7 4 4
4 4
2

¿Qué conclusiones pueden sacarse acerca de las cuatro formas de


presentación, con un nivel de significación del 5%?

Solución:

Comenzamos calculando los totales y los cuadrados de los totales


divididos por el número de observaciones:

Proc. I Proc. II Proc. III Proc. IV Total Sum2/


n
Suma 43 42 43 18 146 819,8
Sum2/n 231,1 352,8 264,1 54 902

A continuación calculamos los cuadrados de las observaciones y su total:

Procdmt. Procdmt. Procdmt. Procdmt.


I II III IV
25 81 64 1
49 121 36 9
36 64 81 16
9 49 25 25
81 49 49 1
49 16 16
16 16
4
269 364 287 68 988
Tema 14 Análisis de Varianza. 3

A partir de estas cantidades básicas calculamos las Sumas de Cuadrados:

SC(total) = 988 – 819,8 = 168,2


SC(intra) = 988 – 902 = 86
SC(entre) = 902 – 819,8 = 82,2

Los cuadrados medios serán:

CM(entre) = 82,2/3 = 27,4


CM(intra) = 86/22 = 3,9

Por consiguiente el estadístico de contraste vale:

F = 27,4/ 3,9 = 7,03

El valor de la F teórica con 3 y 22 grados de libertad, a un nivel de confianza del


95% es 3,05. Por consiguiente se rechaza la hipótesis nula y se concluye que los
cuatro procedimientos de presentación producen diferencias significativas.
Unidad lll
Prueba U de Mann-Whitney y Willcoxon

¿ é é é
• Prueba que no requiere que la distribución sea caracterizada por ciertos
parámetros
• En un método no paramétrico, se presupone que la distribución de la que
proviene la muestra no está especificada y, con frecuencia, se desea hacer
inferencias sobre el centro de la distribución.
• Los métodos no paramétricos son útiles cuando no se cumple el supuesto de
normalidad y el tamaño de la muestra es pequeño.
Limitaciones de las pruebas no paramétricas
• Las pruebas no paramétricas tienen las siguientes limitaciones:
• Las pruebas no paramétricas por lo general son menos potentes que la prueba
paramétrica correspondiente cuando se cumple el supuesto de normalidad. Por
lo tanto, es menos probable que usted rechace la hipótesis nula cuando sea
falsa si los datos provienen de la distribución normal.
• Las pruebas no paramétricas suelen requerir que se modifiquen las hipótesis.
Por ejemplo, la mayoría de las pruebas no paramétricas acerca del centro de la
población son pruebas sobre la mediana y no sobre la media. La prueba no
responde a la misma pregunta que el procedimiento paramétrico
correspondiente si la población no es simétrica.
Relación entre pruebas paramétricas y no paramétricas
¿Para qué sirve?
• La prueba U de Mann-Whitney se utiliza para comparar dos medias
muestrales que provienen de la misma población, así como para probar si
dos medias muestrales son iguales o no.
• Las pruebas de dependencia que comparan las puntuaciones medias de
una variable independiente y una dependiente suponen que las diferencias
en la puntuación media de la variable dependiente están causadas por la
variable independiente.
¿Cómo funciona?
• La prueba U de Mann-Whitney realiza una comparación estadística de la
media y determina si existe una diferencia en la variable dependiente para
dos grupos independientes.
• De esta forma, puede mostrar si la distribución de la variable dependiente
es la misma para los dos grupos y, por tanto, de la misma población.
• La prueba U de Mann-Whitney funciona a partir de clasificar todos los
valores dependientes en orden ascendente, donde el valor más bajo recibe
una puntuación de uno, y posteriormente utiliza la suma de los rangos de
cada grupo en el cálculo de la estadística de la prueba.

Características de los datos para ser analizados


• La variable dependiente debe medirse a nivel ordinal o continuo
• La variable independiente debe consistir en 2 grupos
• Debe haber independencia de las observaciones de cada grupo
• Las variables se distribuyen de forma anormal
¿ ó
Establecer el intervalo de confianza
Determinar si la diferencia es estadísticamente
significativa
Si el valor de U <= a se rechaza la hipótesis nula
Si el valor de U > a La diferencia entre las
medias NO es significativa

Fórmulas
𝑛1 (𝑛1+1)
• 𝑛1 𝑛2 + − 𝑅1
2
𝑛2 (𝑛2+1)
• 𝑛1 𝑛2 + − 𝑅2
2
Ejemplo
• Queremos saber si un nuevo fármaco es eficaz para prevenir los
ataques de pánico. Un total de 12 pacientes se dividen al azar en
dos grupos de 6 y se asignan para recibir el nuevo fármaco o el
placebo. Luego, los pacientes registran cuántos ataques de pánico
han tenido en el transcurso de un mes.
¿Qué es?
Test H, Alternativa no paramétrica al test de ANOVA
Extensión del test de Mann-Whitney para mas de 2 grupos
Emplea rangos para contrastar hipótesis
Como en todos los test’s tendremos 2 hipótesis
• H0: No hay diferencias significativas
• H1: Existen diferencias significativas

¿Cómo aplicar?
• El test de Kruskal-Wallis es el test adecuado cuando los datos tienen un orden
natural, es decir, cuando para darles sentido tienen que estar ordenados o bien
cuando no se satisfacen las condiciones para poder aplicar un ANOVA.
• Supóngase que se dispone de k grupos cada uno con n observaciones. Si se
ordenan todas las observaciones de menor a mayor y se le asigna a cada una
de ellas su rango, cuando se obtenga la suma de rangos para cada uno de los
grupos (Ri)(Ri) es de esperar que, si se cumple la hipótesis nula, todos los
grupos tengan un valor similar. Partiendo de esta idea se calcula el estadístico
H como:
Condiciones:
• No es necesario que las muestras que se comparan provengan de una
distribución normal.
• Homocedasticidad: dado que la hipótesis nula asume que todos los grupos
pertenecen a una misma población y que por lo tanto tienen las mismas
medianas, es requisito necesario que todos los grupos tengan la misma
varianza. Se puede comprobar con representaciones gráficas o con los test
de Levenne o Barttlet.
• Misma distribución para todos los grupos: la distribución de los grupos no tiene
que ser normal, pero ha de ser igual en todos (por ejemplo, que todos muestren
asimetría hacia la derecha).
• Si estos requerimientos se cumplen, el estadístico H del test de Kruskal-
Wallis se compara con:
• Si el tamaño de grupos k es igual a 3 y el número de observaciones en cada
uno no es mayor que 5, se recurre a tablas tabuladas con valores teóricos de H.
• En el resto de casos se asume que el estadístico HH sigue una
distribución χ2 con k-1 grados de libertad (siendo k el número de grupos a
comparar).
Paso a Paso
• Paso 1: Ordena los datos de todos los grupos o muestras en orden ascendente
en un conjunto combinado.
• Paso 2: Asigna rangos a los puntos de datos ordenados. Asigna a los valores
empatados el rango medio.
• Paso 3: Suma los diferentes rangos de cada grupo/muestra.
• Paso 4: Calcula el estadístico H
• Donde:
• n = suma de los tamaños de las muestras para todas las muestras.
• c = número de muestras.
• Tj = suma de rangos en la muestra.
• nj = tamaño de la muestra.
• Paso 5: Encuentra el valor crítico de chi-cuadrado, con c-1 grados de libertad.
Para 3 – 1 grados de libertad y un nivel de alfa de 0,05, el valor crítico de chi
cuadrado es 5,9915.
• Paso 6: Compara el valor H del Paso 4 con el valor crítico de chi-cuadrado del
Paso 5.
• Si el valor crítico de chi-cuadrado es menor que el estadístico H, rechaza
la hipótesis nula de que las medianas son iguales.
• Si el valor de chi-cuadrado no es menor que el estadístico H, no hay
suficiente evidencia para sugerir que las medianas son desiguales.
Prueba de Friedman: Alternativa para ANOVA

¿Qué es?
Otra alternativa a ANOVA
Datos pareados
Extensión de la prueba de Wilcoxon
Puede considerarse como una comparación de medianas de varios grupos
El test de Friedman es el test adecuado cuando los datos tienen un orden natural,
(cuando para darles sentido tienen que estar ordenados) y además son pareados.
El concepto es similar a la suma de rangos de Wilcoxon para dos grupos pero esta
vez asignando los rangos dentro de cada fila (ya que hay más de dos medidas para
cada individuo) y después haciendo la suma de rangos para cada columna.
¿Qué hace?
El test de Friedman genera un estadístico conocido como Fr o Q que se distribuye:
• Si el número total de individuos (NN) es mayor de 10, la distribución de Fr se
aproxima a una distribución χ2 con k−1 grados de libertad (siendo k el número
de grupos a comparar).
• Si el número de individuos es menor de 10, se recurre a tablas con los valores
de significancia para un test de Friedman.
Fórmula
12
• 𝐹 = 𝑛𝑘(𝑘+1) ∑ 𝑅𝑗2 − 3𝑛(𝑘+1)
EJEMPLO KW
• Los efectos de dos drogas con respecto
al tiempo de reacción a cierto estímulo
fueron estudiados en tres grupos de
animales experimentales. El grupo III
sirvió como control (C), mientras que a
los grupos I y II les fueron aplicadas las
drogas A y B respectivamente, con
anterioridad a la aplicación del estímulo.
Puede afirmarse que los tres grupos
difieren en cuanto al tiempo de reacción.
Ejemplo F
• Un hospital desea evaluar la gravedad de 4
enfermedades distintas. Para ello se
eligen al azar 5 médicos que asignan a las
enfermedades valores en una escala de 1
a 5.
¿Qué es?
• El coeficiente de correlación de Spearman es una prueba no paramétrica
cuando se desea medir la relación entre dos variables y no se cumple el
supuesto de normalidad en la distribución de tales valores.
• Mide la fuerza y dirección de la asociación entre dos variables no clasificadas.
• Es una alternativa al análisis de regresión lineal.
• Se utiliza cuando las variables no siguen una distribución normal

¿Cómo se calcula?
• Lo primero es tener en cuenta la super complicada formula que vemos a
continuación

6 ∑𝑖 𝑑𝑖2
𝜌 =1−
𝑛(𝑛2 − 1)
• De la formula anterior se desprenden las siguientes variables:
• n = Numero de puntos de datos de las dos variables
• 𝑑𝑖 = Diferencia de rango del elemento n
• i = Índice del elemento
¿Cómo se interpreta?

El coeficiente de Spearman, al 1 las variables estan perfectamente asociadas


‫ۓ‬
igual que el coeficiente de ۖ de forma directa
correlación, puede tomar valores 0 no existe asociación entre las variables
entre -1 y 1, comando en cuenta ‫۔‬−1 significa que estan perfectamente asociadas
ۖ
lo siguiente: ‫ە‬ de forma inversa

Mientras mas cercano a 0 Si el valor es negativo, las Si el valor es positivo la


menor es la relación entre las variables se relacionan relación es directa, es decir,
variables inversamente, es decir, mientras una crece la otra
mientras una crece la otra también crece.
decrece.
Ejemplo:
• En un estudio de la relación entre la edad y los resultados del
electroencefalograma /EEG), se recopilaron datos en 20 personas con edades
entre 20 y 60 años. La siguiente tabla muestra las edades y un valor de
rendimiento del EEG particular para cada una de esas 20 personas. Los
investigadores pretenden saber si existe relación entre la edad y los resultados
del EEG.
Análisis de varianza de una clasificación por rangos de Kruskal-Wallis
(H)
Esta prueba es útil para determinar si las muestras independientes son de poblaciones
diferentes. Los valores de las muestras difieren un poco y la cuestión radica en que las
diferencias entre las muestras signifiquen diferencias genuinas de poblaciones o simples
variaciones aleatorias que se pueden semejar a las que se esperan entre distintas muestras
aleatorias de la misma población.
Se busca examinar la hipótesis de nulidad qué supone que las muestras proceden de la
misma población o de poblaciones idénticas con respecto a los promedios.
La prueba supone que la variable en estudio tiene como base una distribución continua y
requiere por lo menos de una medida ordinal de la variable.
Método
N=
Número de casos Valores de las
en la muestra muestras
2
Grupo ΣRj Rj /nj
s
n1 = ΣR1 = R12/n1 =
n2 = ΣR2 = R22/n2 =
n3 = ΣR3 = R32/n3 =
2
Σ(Rj /nj)=
H=

Los pasos usados en el análisis de varianza son los siguientes:


1. Se ordenan todas las observaciones de los k grupos en una sola serie,
asignandorangos de 1 a N.
2. Se determina el valor de R (la suma de los rangos) para cada uno de los k grupos
derangos.
3. Se usa la fórmula:
𝑘 𝑅2
12 𝑗
𝐻= ∑ − 3(𝑁 + 1)
𝑁(𝑁 + 1) 𝑗=1 𝑛𝑗

donde k = Número de muestras


nj = número de casos en la muestra de orden j
N = el número de casos de todas las muestras combinadas
Rj = suma de rangos en la muestra de orden j
= indica sumar las k muestras
∑𝑘
𝑗=1
4. El método para determinar la significación del valor observado de H depende
deltamaño de k y del tamaño de los grupos:
a) Si k = 3 y sí n1, n2, n3 ≤ 5, la tabla 1 puede usarse para determinar la
probabilidad asociada conforme a H0 de una H tan grande como la
observada.
b) En los otros casos, la significación de un valor tan grande como el valor
observado de H puede determinarse por medio de la tabla 2, con gl = k –
1
5. Si la probabilidad asociada con el valor observado de H es igual o menor que
elnivel de significación, α, previamente fijado, se rechaza H0 y si acepta H1.
6. Sí una gran proporción de las observaciones están ligadas, se calcula el valor H
conla fórmula:
12 𝑅𝑗2 − 3(𝑁 + 1)
∑𝑘

𝐻 = 𝑁(𝑁 + 1) 𝑛𝑗
𝑗=1

∑𝑇
1− 3
𝑁 −𝑁
donde: T = t3 – t (t es el Número de observaciones ligadas en un grupo de puntajes
ligado
N = Número de observaciones en las k muestras juntas, esto es, N= Σnj
ΣT = Indica sumar en todos los grupos de ligas

1. Las hipótesis plantean que:


H0: H = 0 No hay diferencias significativas ente los elementos de análisis
H1: H ≠ 0 Hay diferencias significativas ente los elementos de análisis

2. Especificar el nivel de significación (α) con que se probará la hipótesis.


En psicología, al igual que en otras ciencias sociales, los más comunes pero no los
únicos son:
α= 0.05 o α= 0.01
3. Regla de decisión
Cuando … …entonces
HO ≤ HP H0 debe ser rechazada y aceptar H1
HO > HP H0 no puede ser rechazada
Tabla 1
Tabla de valores de Kruskal-Wallis
Tabla 2
ANEXOS

También podría gustarte