Está en la página 1de 40

CAPÍTULO 1: Las variables y su nivel de medición:

Unidad de análisis: es lo que se va a analizar

Variable: es una característica de las unidades de análisis ( es una característica de lo que se analizó )

Categorías: son los valores (las OPCIONES) que puede asumir una variable

Las categorías deben cumplir 2 propiedades:

1. Deben ser exhaustivas: a cada individuo le debe corresponder una categoría


2. Deben ser mutuamente excluyentes: una categoría debe EXCLUIR a la otra

Ejemplos de todo esto:

Ejemplo1: En una muestra de 3000 casos se observan que el 50% de las personas tiene un coef.
Intelectual NORMAL

Suponiendo que la tabla es la siguiente:

Coeficiente intelectual f (Cantidad de casos)


Deficiencia mental profunda 10
Deficiencia mental media 30
Deficiencia mental superficial 70
Limítrofe (bordeline o fronterizo) 200
Poco inteligente 400
Normal 1500
Inteligente 500
Brillante 205
Superdotado 85
n (total) 3000

Unidad de análisis: (que se analizó??? A las personas OBVIO!)

LAS PERSONAS

Variable: (que característica de las personas se analizó??? Su coef. Intelectual!)

Coeficiente Intelectual

Categorías: (que opciones/valores posee el coef. Intelectual??)

Superdotado, Brillante, Inteligente, Normal, Poco inteligente, etc.!


¿Son exhaustivas? SI, a cualquier individuo le va a corresponder una categoría

¿Son mutuamente excluyentes? SI, soy normal, soy superdotado o soy limítrofe, etc, soy UNA cosa o
LA OTRA, no puedo ser las 2 mismo al mismo tiempo, entonces se excluyen entre sí.

Ejemplo2: En una muestra de 500 casos analizamos la situación conyugal de las personas

Situación conyugal f (Cantidad de casos)


Soltero 250
Saliendo con alguien 100
Casado 150
n (total) 500

Unidad de análisis: (que se analizó??? A las personas OBVIO!)

LAS PERSONAS

Variable: (que característica de las personas se analizó??? Su Situación conyugal!)

Situación conyugal

Categorías: (que opciones/valores posee la variable Situación Conyugal??)

Soltero, Saliendo con alguien, Casado

¿Son exhaustivas? NO, porque NO a cualquier individuo le va a corresponder una categoría, por
ejemplo si una persona está VIUDA, no tiene una opción que le corresponda!!

¿Son mutuamente excluyentes? NO, Puedo estar soltero y también saliendo con alguien al mismo
tiempo!!! Entonces NO se excluyen entre sí ambas! Porque puedo ser una opción y la otra al mismo
tiempo!.... algunas personas hacen la broma y dicen que también se puede estar casado y saliendo con
alguien al mismo tiempo!! Jajaj que gente la de hoy en día eh!... jjajaj..

• Niveles de medición:
Antes que nada comento que los niveles de medición van de forma
gradual y cada nivel siguiente posee las cualidades de los anteriores
1. Nominal Hace referencia a NOMBRAR, nominar! Acá sólo puede distinguirse una
categoría de otra y NADA MÁS. Puedo decir que un celular es distinto de un vaso o que
una mujer es distinta de un hombre y no puedo saber la distancia que hay entre una cosa
y la otra, son sólo distintas y nada más, no puedo hacer cálculos matemáticos entre
ellos/as, son sólo palabras!
Ej:
Sexo f (Cantidad de casos)
Masculino 49
Femenino 51

2. Ordinal Hace referencia a ÓRDEN, acá aparte de poder distinguir las categorías,
puedo establecer un ÓRDEN y TAMPOCO puedo hacer cálculos matemáticos, no puedo
saber la distancia que hay entre una categoría y la otra, son sólo PALABRAS, en donde
acá si puedo establecer un ÓRDEN!
Ej:
Nivel de educación f (Cantidad de casos)
Primario (A) 50
Secundario (B) 75
Terciario (C) 20
Universidad (D) 100

Si puedo establecer un órden, y puedo decir que A < C y que D > A por ejemplo

En cambio en el ejemplo anterior sobre el sexo, no puedo saber cual va primero y cual va
segundo.

Y NO PUEDO HACER CÁLCULOS MATEMÁTICOS YA QUE SON PALABRAS, NO PUEDO


SABER LA DISTANCIA ENTRE UNO Y OTRO, NO PUEDO DECIR SECUNDARIO ES EL DOBLE QUE
PRIMARIO O ES 3 VECES MAS GRANDE, NO!!! PORQUE SON PALABRAS.. HAY Q TENER EN
CUENTA SOLAMENTE LAS CATEGORÍAS Y VEMOS QUE NO SE PUEDEN HACER TALES
CÁLCULOS ENTRE ELLAS

3. Intervalar Hay un INTERVALO constante entre categoría y categoría. Acá si puedo


hacer cálculos matemáticos entre las categorías.
Posee las siguientes características:
• No posee 0 absoluto (por lo tanto su 0 es arbitrario)
• PUEDE tener signos negativos (-)
• El 0 NO indica ausencia de lo que estoy analizando/midiendo

Ej1 Coeficiente intelectual (con categorías en NÚMEROS)

Puntaje de en el coeficiente intelectual: f (Cantidad de casos)


29 o inferior 10
30-49 30
50-69 70
79-79 200
80-89 400
90-109 1500
110-119 500
120-129 205
130 o superior 85

Acá obviamente si puedo establecer un órden, puedo establecer cálculos matemáticos (puedo
saber la distancia entre una categoría y la otra!! Son NÚMEROS!!!!

También su 0 no es absoluto, NO INDICA AUSENCIA DE.. ya que nadie puede tener 0


INTELIGENCIA! Y en este caso no tiene signos negativos, pero si los tuviera y aparte se pudieran
hacer cálculos matemáticos entre las categorías, entonces sería INTERVALAR

Ej2: Temperatura

Temperatura
-15 a -10
-9 a -4
-3 a 2
3a8
9 a 14
15 a 20

Puedo establecer un órden, puedo hacer cálculos matemáticos (son NÚMEROS) el 0 NO INDICA
AUSENCIA DE ya que 0 temperatura no indica AUSENCIA DE CALOR, calor hay constantemente! Los
cuerpos emanan calor constantemente, el sol también emana rayos con calor constantemente
justamente en los polos de la tierra (los lugares más fríos) hay menos calor porque llegan menos rayos
de sol, pero calor hay siempre! la tierra posee calor siempre… bue me voy por las ramas.. jaja ese 0 es
arbitrario y es para poder medir la temperatura pero como vemos no indica la ausencia de
temperatura, y de igual modo, esta variable posee SIGNOS NEGATIVOS (-15, - 10, -9, etc) por lo
tanto si posee signos negativos y también se pueden hacer cálculos matemáticos, entonces es
INTERVALAR.

4. Proporcional Acá también se pueden hacer cálculos matemáticos y hay un intervalo


constante.
Posee las siguientes características:
• Posee 0 absoluto (no es arbitrario)
• NO PUEDE tener signos negativos
• El 0 SI indica ausencia de lo que estoy analizando/midiendo

Ej1: Cantidad de materias aprobadas

Cantidad de materias aprobadas


0
1
2
3
4
5

Acá si parte de un 0 absoluto, se pueden hacer cálculos matemáticos, puedo saber la


distancia entre una categoría y la otra, porque son NÚMEROS y no PALABRAS. No puede
tener signos negativos (no puedo tener -5 materias aprobadas) y lo que me confirma que es
PROPORCIONAL, es que parte del 0 absoluto y que el 0 indica ausencia de materias
aprobadas, el que tiene 0 materias aprobadas, tiene ausencia de materias aprobadas.

(Aprovecho y pongo un símbolo que me gusta!!!


Se hace muy aburrido sino leer esto??? jaj
Les va a ir bien a todos les deseo lo mejor!
Ya no se que escribir completando este espacio
Son las 3.47 am !
Bueno voy terminando, saludos, disfruten ☺
:D
Ej2: Cantidad de libros leídos

Cantidad de libros leídos


1
2
3
4
5

Aunque el 0 no esté explícito es PROPORCIONAL, el 0 indica ausencia de libros leídos!!! Y posee las
mismas características que la tabla anterior.

IMPORTANTÍSIMO RECORDAR: Si no se pueden hacer cálculos matemáticos entre las categ.


entonces es NOMINAL U ÓRDINAL (fácil diferenciar) y si se pueden hacer cálculos matem. entonces
es intervalar o proporcional (y con las características de cada 1 sabemos q nivel de medición tiene
rápidamente… si tiene signos negativos es intervalar, y si no los tiene todavía no sabemos que es.. y nos
preguntamos si su 0 indica ausencia de y eso nos confirma que nivel posee! ☺
.

CAPÍTULO 2: La organización de los datos


Frecuencia absoluta simple: es la cantidad (el número) de casos que presenta 1 categoría

Símbolo ( f )

Frecuencia relativa simple: es proporción que representa 1 categoría

Símbolo ( f’ ) (se calcula dividiendo la f de esa categoría sobre n (el total))

Frecuencia absoluta ACUMULADA: es justamente ACUMULAR las f anteriores!

Símbolo ( F ) (el símbolo es la mayúscula de f)

Frecuencia relativa ACUMULADA: es justamente ACUMULAR las f’ anteriores!

Símbolo ( F’ ) (el símbolo es la mayúscula de f’)

Ejemplos:

Nivel de educación f f’ F F’
Primario (A) 50 0,20 50 0,20
Secundario (B) 75 0,31 125 0,51
Terciario (C) 20 0,08 145 0,59
Universidad (D) 100 0,41 245 1,00
n (total) 245 1,00

A ver si entendimos algo!:


f Hay 75 casos de secundario y también 100 casos de universidad!
f’ La proporción de primario es de 0,20 (20%) y la de secundario es de 0,31 (31%)
F Hay 125 personas incluyendo el secundario y el primario
F Hay 145 personas incluyendo terciario, secundario y primario
F Hay 245 personas incluyendo universidad, terciario, secundario y primario (lógico que
coincide con el total ya que estamos incluyendo a TODAS las categorías!)
F’ Hay una proporción del 0,51 incluyendo secundario y primario
F’ Hay una proporción del 0,59 incluyendo terciario, secundario y primario
F’ Hay una proporción del 1,00 (100%) incluyendo universidad, terciario, secundario y primaro
(lógico que coincide con el 100% ya que incluimos TODOS los casos por lo tanto el 100%.
En el libro luego de la tabla 15 en el cap. 2 tienen algunos gráficos.
El primero se llama gráfico de BARRAS (son barras en el dibujito e.e) se usa para las variables
NOMINALES. El que le sigue tiene forma de torta… se llama gráfico de TORTA jaj, también
generalmente se usa para las NOMINALES y se usa la f’ (la proporción) para el gráfico de torta y f
(cantidad de casos) para el gráfico de barras

El que le sigue se llama Histograma (se usa para variables intervalares o proporcionales) en donde
obvio la variable tiene categorías cuantitativas (cantidad) las categorías son números..!

Luego en la hoja siguiente vemos que del Histograma se puede transformar en polígono de
frecuencias, que seguramente habrán visto en la tele o en películas cuando ven el progreso de una
empresa!! . Este polígono de frecuencias se obtiene pasando por la MARCA DE CLASE (MC) de cada
CLASE (lo explico en breve)

El gráfico que sigue es muy importante también, se llama OJIVA y para ese gráfico se utilizan las F o
F’, por eso el gráfico va siempre hacia arriba (siempre aumentando, va acumulando) y termina cuando
llega a la última clase (ya que ahí usando F o F’ ya se acumuló a todos los casos), en el ejemplo del libro
usa F’ (y va de 0 a 1,00, usa la proporción acumulada (frecuencia relativa acumulada))

*¿Qué son las CLASES? Para qué sirven?

Acá voy a hacer una introducción breve así se entiende la idea principal

Las clases como mencioné en el resumen de la Introducción (leelo no seas bldo/a jaja)
sirven para AGRUPAR categorías, así es más fácil la lectura de la tabla!! Por ejemplo:

Edad f f’ F F’
0-20 años 50 0,21 50 0,21
21-41 años 70 0,30 120 0,51
42-62 años 59 0,25 179 0,76
63- 83 años 40 0,17 219 0,93
84–104 años 13 0,06 232 0,99
n 232 0,99

Repasando: en la tabla vemos lo siguiente:

f Hay 70 casos de personas que tienen entre 21 y 41 años


f’ La proporción las personas recién nombradas es de 0,30
F Hay 179 personas que tienen 62 años o menos!
F Hay 219 personas que tienen 83 años o menos!
F’ Hay una proporción del 0,51 de personas que tienen 41 años o menos
F’ Hay una proporción del 0,76 de personas que tienen 62 años o menos
Conceptos de las clases:
Amplitud Que tan amplia es una clase! (todas tienen siempre la misma amplitud). En este caso
vemos que todas las clases tienen una amplitud de 20! El cálculo es (Límite superior – Límite Inferior,
ejemplo: 20-0 = 20 / 41-21 = 20 / 83-63 = 20)

El límite superior en la primer clase es 20 años, y el límite inferior es 0

Marca de clase (MC) es el valor que está en el MEDIO de cada clase, se obtiene promediando
los límites!! Ejemplo en la clase 0-20 años la MC es 10! Que promediando sería (20+0) / 2 = 20

Es igual que promediando las notas en el secundario o facultad! Si tenés un 8 y un 10, tenés promedio
9! (el valor está justo al medio de los límites) y lo obtenés sumando 10 + 8 y dividiéndolo por 2

Otro ejemplo: en la clase 42-62 años, su MC es 52 que se obtiene (42+62)/2

Así recordando dijimos (bueno dije) que el polígono de frecuencia se obtiene pasando por la MC de
cada clase! Y si ven el gráfico, las líneas pasan exactamente por el medio de cada clase!

IMPORTANTE!!!!!
En las variables NOMINALES las frecuencias acumuladas no se calculan!!
Practiquen a leer las tablas
En el parcial: antes de leer la consigna, fijensé el nivel de medición de la tabla! Así se ahorran
errores, a lo mejor te preguntan “cuál es la mediana de la tabla” y ese es un cálculo que vemos
en el capítulo 3 y se usa de variables ordinales en adelante!! Entonces si la tabla es de nivel
NOMINAL ahí la opción correcta sería “no se puede calcular la mediana” y se ahorran un posible
error que sería calcular la mediana y ver que opción era la correcta….
Piensen antes de responder ☺
Sepan leer la tabla, preguntan mucho por ejemplo: (vayan a la primer tabla de este resumen)
En la siguiente distribución:
a) En el terciario hay 145 casos
b) En el secundario hay un 51% de personas
c) En el primario hay un 20% de personas
d) En universidad hay 78% de personas (jaja inventan valores)

Vayan OPCIÓN POR OPCIÓN VIENDO!!!!!!!!!:

a) En el terciario no hay 145 casos!! Eso es acumulando con las 2 anteriores!!!!!!!!!


b) Tampoco! En el secundario no hay 51% casos eso es secundario+primario no secundario solo
c) Siii!! en el primario hay un 20% ya que está en la f’ q es la proporción de esa categoría SOLA!
d) Obvio que no, a donde aparece ese valor????? Siempre inventan jajaja
CAPÍTULO 3: La expresión resumida de la información:

Medidas de centralidad:
Son las que indican alrededor de qué valores se ubican las observaciones de una distribución de
frecuencias.

En variables NOMINALES:

La proporción es simplemente la f’ (frec. relativa.) (ya que la f’ indica la proporción) ☺


Así de simple, no se compliquen, es la proporción/porcentaje de algo! Y eso lo indica la f’!! Simple!!! :P
El modo/moda ( ) es la CATEGORÍA que tiene la MAYOR f (la mayor cantidad de casos)
Pueden ser modo cuando es una CATEGORÍA que está “de moda” como digo yo jaja
Bimodal cuando hay 2 (bi quiere decir 2) modas
Multimodal cuando hay 3 o más modas.

Ejemplo1(Cuando hay una MODA/MODO)


Situación conyugal f (Cantidad de casos)
Soltero 250
Saliendo con alguien 100
Casado 150
n (total) 500

Acá la es la categoría “Soltero”, “Estar soltero está de moda” y no el valor “250 está de moda”
Aclaro esto porque le pueden preguntar “”¿Cuál es la moda o el modo en la siguiente distribución?”

a) 100
b) Casado
c) 250
d) Soltero

Y la respuesta correcta es la D, soltero está de Moda y no el valor 250 que corresponde a soltero
Ejemplo2(Cuando la distribución es BIMODAL)

Enfermedad f (Cantidad de casos)


Esquizofrenia 120
Psicosis 40
Neurosis 120
n (total) 340
Acá está la moda es Esquizofrenia y Neurosis, los 2 juntos, es una distribución BIMODAL

Ejemplo3(Cuando la distribución es MULTIMODAL)

Nivel de educación f f’ F F’
Primario (A) 75 0,31 75 0,31
Secundario (B) 75 0,31 150 0,61
Terciario (C) 20 0,08 170 0,69
Universidad (D) 75 0,31 245 1,00
n (total) 245 1,00

Acá está de moda Primario, Secundario y Universidad!!! Ya son 3 categorías de modas, entonces es una
distribución MULTIMODAL

*OJO, acá no está de moda Universidad por tener 245 en F, porque ese 245 es la acumulación de
todas las categorías anteriores, tengan en cuenta que para la SÓLO se usa la “f”

En variables ORDINALES:

La mediana (Mdn) es la CATEGORÍA que deja por debajo a la mitad de observaciones y deja por
debajo y por arriba de ella la misma cantidad de casos.

Su cálculo es: 1/2*n o n/2 (cualquiera de las 2 formas es correcta, es igual)


IMPORTANTE: Para La Mdn hay que usar la F (frec. absoluta ACUMULADA)

Ejemplo1 y explicación de cómo obtener la mediana en una distribución: ☺


Coeficiente intelectual f (Cantidad de casos) F (Acumulación de f)
Deficiencia mental profunda 10 10
Deficiencia mental media 30 40
Deficiencia mental superficial 70 110
Limítrofe (bordeline o fronterizo) 200 310
Poco inteligente 400 710
Normal 1500 2210
Inteligente 500 2710
Brillante 205 2915
Superdotado 85 3000
n (total) 3000
Haciendo 1/2*n o n/2 sería 3000/2= 1500. Ahora utilizando F buscamos que categoría es la
primera que incluye a este valor, y vemos que recién el valor 2210 incluye a 1500 ya que el valor de la
categoría anterior es 710 y no llega a 1500 observaciones. Y en ese valor obtenido se encuentra la
Categoría “Normal”. Entonces leemos “La mitad de las observaciones o El 50% de las observaciones
poseen un Coeficiente Intelectual Normal o inferior a este.”

Ejemplo2:

Nivel de educación f f’ F F’
Primario (A) 75 0,31 75 0,31
Secundario (B) 75 0,31 150 0,61
Terciario (C) 20 0,08 170 0,69
Universidad (D) 75 0,31 245 1,00
n (total) 245 1,00

Acá calculamos 245/2 o 1/2*245 y nos da: 122,5

Ahora utilizando a F buscamos y vemos: Primario no lo incluye (75 no incluye a 122,5) y Secundario si lo
incluye (150 incluye a 122,5) entonces leemos: “La mitad de las observaciones o El 50% de las
observaciones poseen un Nivel de Educación Secundario o inferior a este.”

En variables métricas (Intervalares o Proporcionales):

Se utiliza como medida de centralidad la MEDIA (el PROMEDIO). No es tan difícil de entender esto y
no se hagan tanto engorro con esto, en variables con este nivel de medición se utiliza la MEDIA como
medida de centralidad, es un valor más exacto y claro que lo usamos en variables con nivel de medición
intervalar o proporcional ya que podemos hacer cálculos matemáticos más certeros.

Medidas no centrales:
Los Cuartiles: Cuando hablen de CUARtil, hablan de CUARTO (piensen en el número 4)
Primer (1) Cuartil 1/4*n (corresponde al 25% de las observaciones)
Tercer (3) Cuartil 3/4*n (corresponde al 75% de las observaciones)

Vimos que en la Mdn correspondía al 50% de las observaciones y el cálculo era 1/2*n
Acá el cálculo es distinto y el porcentaje correspondiente es distinto ☺ Ejemplos:
Nivel de educación f f’ F F’
Primario (A) 75 0,31 75 0,31
Secundario (B) 75 0,31 150 0,61
Terciario (C) 20 0,08 170 0,69
Universidad (D) 75 0,31 245 1,00
n (total) 245 1,00

Primer (1) Cuartil 1/4*n (corresponde al 25% de las observaciones)


Resolviendo (1/4*245) nos queda: 61
Y usando F vemos que ese valor está incluido en la primer categoría Primario ya que 75 incluye a 61
*Entonces leemos: “Un cuarto de las observaciones o El 25% de las observaciones poseen un Nivel de
Educación Primario o inferior a este.”

*Con el 3er cuartil cambia la forma de calcularlo, acá se hace 3/4*n y el valor
encontrado corresponde al 75% observaciones ya que 3/4 de algo es el 75% de algo
*En el caso de los QUINTILES es cálculo es 1/5*n - 2/5*n - 3/5*n - 4/5*n cada quintil
vale un 20% (1/5=20%) el 2do quintil (2/5=40%) y así sucesivamente.
*En el caso de los PERCENTILES, hay toda una forma de calcularlo, nunca toman
fórmulas pero por las dudas visualícenla así saben identificarla! y acá te pueden decir
que por ejemplo la categoría Primario tiene P(25) (percentil 25) y te preguntan: ¿QUÉ
QUIERE DECIR? Simplemente responden EL 25% de los casos tiene nivel de educación
PRIMARIO o MENOS, te lo da en porcentaje directamente. También, suponiendo:
LA categoría Terciario tiene P(69), ¿QUÉ QUIERE DECIR? .. Bueno, respectivamente:
“El 69% de los casos posee un nivel de educación TERCIARIO o MENOS”
Y así sucesivamente, te da directamente el porcentaje!
Por eso: P(25) = Q1 (primer cuartil)
P(50) = Mdn y Q2 (segundo cuartil, 2/4 de algo, la mitad)
P(75) = Q3 (tercer cuartil)
P(20) = Primer quintil (1/5 de algo, el 20%)

Deben saber que en estos casos, se usa un nivel ORDINAL o SUPERIOR y que
generalmente se usa para las ORDINALES en donde no podemos hacer buenos
cálculos matemáticos entre las categorías ya que no son variables métricas
como las intervalares o proporcionales, entonces muchas veces el cálculo no es
exacto, cuando hablamos del 3er cuartil por ejemplo, siempre responde al 75%
o SUPERIOR, y de igual modo leemos “el 75% o menos…….”
La forma de la distribución:
La distribución puede ser:

SIMÉTRICA Cuando = Mdn ( EJEMPLO: La media ( ) vale 5 y la Mediana (Mdn) vale 5 )


ASIMÉTRICA HACIA LA IZQUIERDA Cuando < Mdn ( EJEMPLO: =5 Mdn=7 )
ASIMÉTRICA HACIA LA DERECHA -- Cuando > Mdn ( EJEMPLO: =5 Mdn=1 )

Medidas de Dispersión:
RECORRIDO/RANGO Se obtiene haciendo: Valor máximo – Valor mínimo:
Ejemplo, si tenemos los siguientes valores: 3, 3, 5, 7, 8
Entonces el Recorrido acá sería 5 que se obtiene del cálculo 8(valor max) – 3(valor mín)

Amplitud INTERCUARTÍLICA Se obtiene haciendo: Q3 – Q1

Medidas de Dispersión basadas en la media:


Justamente como el título lo dice acá se usan medidas basadas en EL PROMEDIO:

Ellas son: s2 (Varianza) y s (Desviación Estandar)

LA varianza es: CUANTO SE DESVÍAN TODAS LAS CATEGORÍAS EN PROMEDIO EN BASE AL


PROMEDIO Y ESE VALOR ELEVADO AL CUADRADO, POR ESO SU SIGNO TAMBIÉN ESTÁ
ELEVADO AL CUADRADO (s2) !!
Esto es un problema porque el valor está justamente elevado al cuadrado, es como que me pregunten
mi edad y yo les diga, tengo 20 al cuadrado (tengo 400 años).. jajajaj re viejo era el loco!! :P
Bueno, para solucionar este problema y que sea más exacto el valor se usa la desviación estándar S
Vemos que el símbolo ya no está elevado al cuadrado! Y simplemente se obtiene sacándole la raíz a S2
Que es como sacarle la raíz a 400 años y me da como resultado 20 años! Y es exacto ese valor

Así que una solución de que el resultado esté al cuadrado es sacándole la raíz y se convierte en S

Otro problema que presenta es que no sabemos cuando el resultado representa mucha dispersión y
cuando representa poca dispersión ya que siempre es relativo porque depende del total de casos,
depende de la media, etc… entonces se usa CV (Coeficiente de Variación) que es una forma de medirle
el “PESO” a la desviación estándar en base a su media, el cálculo es : s/ * 100
Da como resultado un PORCENTAJE: si el resultado 10% o menos, decimos que tiene poca dispersión
Ejemplo: CV: 8% Entonces ahí decimos que hay POCA DISPERSIÓN
Y si da cerca de 100% entonces posee muchísima dispersión.
PUNTAJE Z:
Así como vimos que S es CUANTO SE DESVÍAN TODAS LAS CATEGORÍAS EN PROMEDIO EN
BASE A LA MEDIA. Bueno puntaje Z es la relación de UN SOLO INDIVIDUO en base al
PROMEDIO (media)

Z= 0 representa que ese individuo se desvía 0 del promedio, o sea NADA


Z= mayor que 0, representa que ese individuo está por ENCIMA de la media (signos +)
Z= menor que 0, representa que ese individuo está por DEBAJO de la media (signos -)

El cálculo para sacar el puntaje Z es el siguiente:

Suponiendo que el promedio de notas de un parcial de una muestra de 500 casos es de =7 con una
desviación estándar s=2,7

Supongamos una persona se sacó un 5 y quiere saber cuánto se desvía del promedio

Entonces hacemos ( 5 – 7 ) / 2,7 y nos queda Z= -0,74

Vemos que el puntaje Z es negativo, o sea que la persona se desvía por debajo de la media

Si otra persona se sacó un 3 por ejemplo, más bajo todavía del 5 que se sacó el compañero

Resolviendo da Z= -1,48 … el valor en Z es menor todavía! (Y ambos puntajes z dan NEGATIVO


(menor que 0) por que ambas notas están por DEBAJO del promedio que es 7)

Si otra persona se sacó por ejemplo un 8 entonces su puntaje Z= 0,37 da positivo, por encima del 0 y
esa persona está por encima del promedio que es en este caso de 7

Si otra persona se sacó por ejemplo un 10, su puntaje Z= 1,11 da positivo, por encima del 0 y está
persona está por encima del promedio y fijensé que ese puntaje es mayor que el anterior 0,37 y claro,
está persona se sacó un 10 y la otra un 8, su puntaje en Z es mayor. ( Y ambos puntajes z dan
POSITIVOS (mayor que 0) porque ambas notas están por ARRIBA del promedio que es 7)

Bueno di estos ejemplos para poder esclarecerles un poco el tema, espero que le sirvan de ayuda y
disculpen si hay errores! Saludos y mucha suerte para todos.

Dante
1

Capítulo 4: Relaciones entre variables


Si por ejemplo queremos saber si el "deporte" (variable1) influye en la salud (variable2) de las personas, podríamos tener una
hipótesis y afirmar que el hacer deporte mejora la salud de las personas. La hipótesis está formulada como una RELACIÓN
ENTRE DOS VARIABLES, queremos ver cuánto influye el hacer deporte en la salud de las personas, entonces el deporte
(variable1) podría ser un factor explicativo de la salud de las personas. En resumen: La variable o las variables que preceden a
la otra y parecen ser "causa/explicación" de la otra variable se denominan factor explicativo! también por ejemplo podríamos
pensar que la alimentación (variable3) puede ser también "causa" de una buena salud, entonces también la alimentación sería
otro factor explicativo.

Una tabla bivariada o tabla de contingencia o tabla de distribución conjunta es un arreglo con tantas filas (horizontales) como
categorías tenga una de las variables y tantas columnas (verticales) como categorías tenga la otra variable

Por ejemplo: TIPO DE HOGAR (v1) y la RELACIÓN CON LOS PARES (v2) podemos establecer la siguiente tabla BIVARIADA (bi =2,
variada = variables) con sus respectivas categorías

Relación con los pares


Tipo de hogar Sumisión Rebeldía Liderazgo
Monoparental materno
Monoparental paterno
Nuclear
Extendido

Podemos creer que el tipo de hogar influye en la relación con los pares, como rebelde, lider, o sumiso, acá tipo de hogar sería
un factor explicativo (y variable ANTECEDENTE) y relación con los pares la variable CONSECUENTE (consecuencia de..v1)

Ahora un concepto MUY IMPORTANTE es el de la DIMENSIÓN de la tabla: este concepto se indica como fxc (filas x columnas) y
se cuentan ÚNICAMENTE las CATEGORÍAS, acá tenemos 4 categorías en Tipo de hogar (FILAS, HORIZONTALES) y tenemos 3
categorías en Relación con los pares (COLUMNAS, VERTICALES) entonces la dimensión de esta tabla es : 4 x 3 (filas por
columnas). Tienen que recordar que si hay totales en la tabla, NO CUENTAN, solo se cuentan LAS CATEGORÍAS, y otra cosa,
nunca va a ser un resultado como decir 4x3= 12, no, porque 12 también podría obtenerse de 3x4 = 12 y no sabemos cuántas
filas y columnas hay, entonces siempre se cuenta FILAS x COLUMNAS, sin excepción y sin resolver. EJEMPLOS:

Ejemplo 1: Relación entre que docente da la clase y el rendimiento de los alumnos:

Rendimiento de los alumnos


Tipo de docente Alto Bajo TOTAL
Democrático 5 50 55
Autoritario 260 10 270
TOTAL 265 60 325

SIEMPRE IDENTIFIQUEN PRIMERO LAS 2 VARIABLES PARA NO CONTAR MAL


V1: Tipo de Docente (factor explicativo) V2: Rendimiento de los alumnos

Categorías en filas: 2 (DEMOCRÁTICO Y AUTORITARIO)


2

Categorías en columnas: 2 (Alto y Bajo)

Entonces la DIMENSIÓN de la tabla es: 2x2

(SIEMPRE CUENTEN CADA CATEGORÍA Y ASEGURENSÉ DE NO SUMAR LOS TOTALES POR EQUIVOCACIÓN)

Ejemplo 2: Relación entre cantidad de horas de estudio diario y promedio en la carrera

Cantidad de horas Promedio en la carrera


de estudio diario 0 - 2,50 2,51 - 5,00 5,01 - 7,50 7,51 - 10,00 TOTAL
0 - 2 hs
2 - 4 hs
4 - 6 hs
6 - 8 hs
8 - 10 hs
TOTAL

1° Distinguimos las 2 variables: Cantidad de horas de estudio diario (v1) y Promedio a lo largo de la carrera (v2)
2° Contamos cuantas categorías hay en cada variable
V1: 0 - 2 hs ; 2 - 4 hs ; 4 - 6 hs ; 6 - 8 hs ; 8 - 10 hs (5 CATEGORÍAS EN FILAS)
V2: 0 - 2,50 ; 2,51 - 5,00 ; 5,01 - 7,50 ; 7,51 - 10,00 (4 CATEGORÍAS)
Entonces la DIMENSIÓN de la tabla es: 5X4 (FILAS POR COLUMNAS)
3° Revisamos y contamos las categorías fijándonos bien en que NO sumemos los totales. SOLO CATEGORÍAS. Dimensión 5x4 !

------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Frecuencia MARGINAL (también importante) de fila o de columna:


Es simplemente EL TOTAL de la categoría correspondiente. Si recurrimos al ejemplo 1, nos pueden preguntar por ejemplo:
¿Cuál es la frecuencia marginal de Democrático? 55!
¿Cuál es la frecuencia marginal de Autoritario? 270!
¿Cuál es la frecuencia marginal de Alto? 265!
¿Cuál es la frecuencia marginal de Bajo? 60!

Es bastante sencillo! ahora bien, también pueden darle un caso en donde no estén explícitos los totales, y entonces
simplemente lo calculan ustedes, Ejemplo:

Relación con los pares


Tipo de hogar Sumisión Rebeldía Liderazgo
Monoparental materno 20 30 50
Monoparental paterno 10 40 15
Nuclear 5 10 25
Extendido 30 20 10

¿Cuál es la frecuencia marginal de Monoparental materno? Simplemente sumamos!: 20+30+50= 100! respuesta: 100!
¿Cuál es la frecuencia marginal de Rebeldía? 30+40+10+20= 100! respuesta: 100!
¿Cuál es la frecuencia marginal de Nuclear? 40! . Lo pueden ver? :)
Pregunta colgada jaj, cuál es la dimensión de la tabla???????? 4X3! queda claroooooooooo? espero que si :)
3

Frecuencia conjunta: son simplemente CUALQUIER casilla que haga referencia a una CONJUNCIÓN de 2 variables, así que
MARGINALES, son LOS TOTALES (justamente, estos NO conectan 2 variables, solo el TOTAL de una categoría).
A fin de ayudarlos, en la tabla anterior teñí de GRIS las frecuencias conjuntas. No es muy "importante" este concepto, es muy
sencillo, el primer 20 que aparece por ejemplo conecta a sumisión con monoparental materno, por eso es conjunta, el 10 del
último de la tabla es una conjunción de Liderazgo con Extendido, y así sucesivamente...!

------------------------------------------------------------------------------------------------------------------------------------------------------------------------

La RELACIÓN entre DOS variables puede ser:


SIMÉTRICA ASIMÉTRICA
Es cuando entre dos variables NO puedo saber que Es cuando entre dos variables SI puedo identificar a una
variable es la "causa" de la otra, por ejemplo, podemos variable como ANTECEDENTE y otra como
encontrar que hay una correlación alta entre comerse CONSECUENTE, por ejemplo, podemos encontrar que
las uñas y la ansiedad, y si NO sabemos si las personas se hay una correlación alta entre estudiar muchas horas y
comen las uñas y por eso son ansiosas o son ansiosas y tener buen promedio! y acá SI podemos identificar por
por eso se comen las uñas !!! . Simplemente NO ejemplo que la variable estudiar (ANTECEDENTE) es
podemos identificar a una variable como ANTECEDENTE "causa" de la variable promedio (CONSECUENTE).
y otra como CONSECUENTE. Acá no sabemos cual Acá si sabemos cual antecede a cual, entonces, es una
antecede a cual, entonces, es una relación SIMÉTRICA relación ASIMÉTRICA
No podemos identificar a una variable como previa a la Si podemos identificar a una variable como previa a la
otra otra

La DIRECCIÓN entre DOS variables puede ser:


DIRECTA INVERSA
Cuando los valores de una variable aumenta, la otra Cuando los valores de una variable aumenta, los valores
también aumenta! Ej: Relación entre estudiar y de la otra disminuyen! Ej: Relación entre salir al boliche y
promedio en la carrera: a MAYOR estudio, MAYOR promedio en la carrera: a MAYOR boliche, MENOR
promedio promedio
PARA PODER APRECIAR LA DIRECCIÓN DE LA RELACIÓN AMBAS VARIABLES TIENEN QUE TENER UN NIVEL DE
MEDICIÓN ORDINAL O SUPERIOR ! ES DECIR, EN EL CASO QUE UNA DE LAS VARIABLES SEA DE NIVEL NOMINAL, NO
SE PUEDE SABER LA DIRECCIÓN

La INTENSIDAD entre DOS variables:


No hay que enroscarse en este concepto, simplemente este término refiere a CUÁNTO una variable AFECTA a la otra!. "Que tan
intensa es la relación??" Mientras más una variable afecte a la otra más grande será la intensidad! La intensidad de las variables
las medimos con coeficientes, nosotros tenemos que aprender a INTERPRETAR un resultado de un coeficiente, no tendremos
que saber hacer el procedimiento.
En el capítulo 5 explicaré los coeficientes. (Incluido el que aparece en este capítulo, la Q de Kendall)

* Dos variables se consideran INDEPENDIENTES, justamente cuando los valores de una NO afectan a la otra, es decir, SON
INDEPENDIENTES ENTRE SI. Por ejemplo, si analizamos la cantidad de segundos que te cepillas los dientes en relación al
promedio que tenés en la facultad es sumamente probable que no encontremos relación! a MAYOR cepillarte o MENOR
cepillarte, es indistinto el promedio de la facultad! en cambio en el caso que vimos del boliche y el promedio; o la cant. de
horas de estudio y el promedio de la facultad, ahí vemos que a MAYOR o MENOR boliche/hs de estudio, SI INFLUYE en el
promedio de la facultad, es decir, estas NO son independientes.
Unidad 5: INTENSIDAD Y FORMA DE LA RELACION ENTRE VARIABLES.
Se analizara la relación entre dos o más variables de distinto tipo, y se verá cuan fuerte o débil es, y en algunos casos,
que dirección tiene la relación. Para cada tipo de variable, existen distintos tipos de coeficientes de relación que
analizar.

 Para VARIABLES NOMINALES DICOTOMICAS ( con dos categorias):

- Q de Kendall: Su fórmula es

AxD - CxB
AxD+CxB

Y nos permite conocer la intensidad de la relación


que hay entre las variables. El resultado siempre va
a estar entre -1 y +1. En este caso el signo no
importa, lo único que sí importa es el número que hayamos obtenido, porque mientras más cerca se
encuentre el resultado de 1 ( ya sea -1 o +1) más fuerte es la relación entre las dos variables. Si obtenemos +
0,30 la relación es débil, en cambio, si obtenemos -0,90 la relación es intensa.

 Para VARIABLES NOMINALES:


- C de Pearson.
- V de Cramer.

Antes de calcular estos dos coeficientes de relación, debemos calcular el puntaje “Ji cuadrado (x2) “

- Ji cuadrado: Se calcula para ver la diferencia entre las frecuencias esperadas, y las frecuencias observadas.
Nos servirá más adelante para calcular C de Pearson y V de Cramer. Su símbolo es X2. Su fórmula es :

(Frecuencias esperadas – frecuencias observadas)2


frecuencias esperadas

Nunca te piden calcular las frecuencias esperadas, siempre te las dan. Además no te piden calcular Ji Cuadrado, pero
es bueno saberlo para poder resolver C de Pearson y V de Cramer.

- C de Pearson: Es el coeficiente que nos permite conocer la intensidad de relación entre variables nominales
no dicotómicas, es decir, de más de dos variables. En este caso, nunca va a haber resultados negativos. Y el
resultado, siempre va a estar entre C, y C máxima.
Consta de dos pasos, primero calcular C propiamente dicha. La fórmula es

X2 .
X2 + n

En donde X2 es Ji cuadrado, y n es el número de casos totales, es decir, el total de totales.


Y el segundo paso es calcular CMAX . La fórmula del mismo es:

(fila o columna) – 1
fila o columna

La cantidad de filas o columnas totales menos 1, sobre la cantidad de filas o columnas totales. Siempre se
elegirá el número más grande, si hay más columnas que filas, se elegirán las columnas para operar. Si hay
más filas que columnas, será al revés. Y en caso de tener la misma cantidad de filas que de columnas, se
utilizara cualquiera de los dos.
Una vez calculado el CMAX , podremos saber cuál es la relación entre las variables, ya que si el resultado que
obtuvimos de C, está más cerca de 0 (cero), la relación entre las variables será débil. Pero si el resultado de
C, está más cerca de CMAX , la relación será más intensa.

- V de Cramer: Es otro coeficiente para calcular la relación entre variables nominales no dicotómicas. Es muy
parecido al C de Pearson, pues tampoco hay signos negativos, y además se calcula utilizando X 2 ( Ji
cuadrado). La fórmula es:

X2
n x ( MIN de Fila o Columna -1)

En donde X2 es Ji Cuadrado; n es el número total de casos, es decir, el total de totales; y lo que está entre paréntesis
es el Mínimo, es decir el número más chico, o de columna o de fila , menos 1. En este caso, a diferencia de C de
Cramer, aquí se elige el número que sea más chico para operar, o de columna o de filas. Si tenemos 3 filas y 2
columnas, utilizaremos el 2. . Y si tenemos 9 filas y 5 columnas, utilizaremos el 5.

Con este coeficiente la relación va de 0 (cero) a 1 (uno), siendo más débil si el resultado que obtuvimos de la
operación, está más cerca de cero, y tendremos una relación más intensa, si está más cerca de uno.

 Para VARIABLES ORDINALES:


- Correlación por rangos de Spearman ( RS de Spearman )

Aquí no es importante calcularla, ni saber cómo es el procedimiento, sino que lo importante es saber leer y
comprender el resultado.

Este coeficiente de correlación, va desde -1 a +1. Siendo una relación intensa (fuerte) mientras más cerca del uno se
encuentre, ya sea de -1 o de +1; y una relación débil mientras más cerca de 0 (cero) esté. Aquí el signo es muy
importante, ya que nos dirá la direccionalidad que tiene la relación.

La dirección de la relación puede ser:

- Directa: cuando aumenta una variable, la otra también aumenta; y si disminuye una variable, disminuye la
otra. Si el coeficiente tiene un signo positivo, es porque tiene una relación directa.

- Inversa: cuando aumenta una variable, la otra variable disminuye; y si disminuye una variable, la otra
aumenta. Si el coeficiente tiene signo negativo, es porque tiene una relación inversa.

Entonces, si por ejemplo, nos dicen que un coeficiente R S de Spearman vale -0,80 podemos decir que la relación
entre las variables es fuerte, ya que se encuentra próximo a 1; y que la relación además es inversa. Si fuera 0,67 , la
relación seria moderada, y además directa.

 Para VARIABLES PROPORCIONALES o INTERVALARES:


- Coeficiente de Correlación R de Pearson (R)

Al igual que con RS de Spearman, no es importante calcularlo, ni saber cómo es el procedimiento, sino que lo
importante es saber leer y comprender el resultado.

Nos sirve para analizar la intensidad de la relación lineal entre dos variables proporcionales o intervalares. Este
coeficiente de correlación, va desde -1 a +1. Siendo una relación intensa (fuerte) mientras más cerca del uno se
encuentre, ya sea de -1 o de +1; y una relación débil mientras más cerca de 0 (cero) esté. Aquí el signo es muy
importante, ya que nos dirá la direccionalidad que tiene la relación. Si el signo es positivo, la relación es directa. Si
el signo es negativo, la relación es inversa.

Cuando este coeficiente se eleva al cuadrado, se obtiene un numero que se llama coeficiente general de
determinación, que se indica como R2, y que mide la parte de la varianza, es decir, la variabilidad, que es compartida
por las dos variables. Asi por ejemplo, si nuestro R vale O,85 , nuestro R2 será de 0,72 , lo que quiere decir que las
variables tienen una varianza del 72%.

 DIAGRAMAS DE DISPERSION:

Son representaciones graficas de los valores, con los que a simple vista, se puede observar cuan fuerte o débil es
la relación entre variables y además que dirección tienen.

RELACION LINEAL, INTENSA, Y DIRECTA. RELACION LINEAL, INTENSA, E INVERSA.

RELACION DISPERSA Y DEBIL. RELACION NO LINEAL.


CARO SARTORI

Unidad 6: BASES PROBABILISTICAS PARA LA INFERENCIA.


A partir de este capítulo, comienza la estadística inferencial, nos ocuparemos de lo que no ha sido observado,
haremos inferencias para sacar conclusiones acerca de lo que no hemos visto. Partiremos de la información que
provee una muestra y con ello generalizaremos a un conjunto mayor.

 FORMAS PARA ASIGNAR PROBABILIDADES.

1. Asignación A PRIORI.
Se asigna la probabilidad a priori, es decir, antes de hacer el experimento. Primero se calcula la probabilidad, y
después se hace el experimento. Por ejemplo, si queremos saber la probabilidad de que salga Cara en una moneda,
haríamos ½. Porque cara es una de las dos posibilidades que tiene la moneda (o sale cara, o sale cruz). La “formula”
que utilizaremos es:

_ A v

En donde A es la opción que se busca, en este caso Cara. Y donde Ω (omega) es la cantidad de opciones posibles, en
este caso dos (o cara o cruz).
Si por ejemplo, queremos saber la probabilidad a priori de que salga “4” tirando un solo dado, seria 1/6, ya que “4”
es una de las “6” opciones que tiene el dado.
Si ahora quisiéramos saber la probabilidad a priori de que salga “4” tirando dos dados, esta vez seria, 3/36, ya que
“4” tiene tres “formas” en las que puede salir (en el dado A un uno, y en el B un tres; en el dado A un dos y en el B un
dos; y la última en el dado A un tres, y en el B un uno), y lo dividimos por “36” ya que son las opciones posibles de
combinaciones entre dos dados.

2. Asignación A POSTERIORI.
Se asigna la probabilidad a posteriori, es decir, después de hacer el experimento. Primero se hace el experimento, y
luego se calcula la probabilidad. Si quisiéramos saber la probabilidad de que salga Cara en una moneda, tendríamos
que experimentar con ella, tirándola y anotando lo que sale.
Mientras más veces se tire la moneda, mejor va a ser el cálculo a posteriori de la probabilidad; y así influye menos el
azar y el cálculo es más certero.

 ESPERANZA MATEMATICA: Es lo que se espera que suceda, la probabilidad que se espera.

 MODELOS ESPECIALES DE PROBABILIDAD.

1. Distribución binomial.
Es la que siempre tiene como resultados 2 opciones éxito o fracaso (cara-cruz; A-B; etc.). La categoría Éxito,
corresponde a la categoría que es investigador toma como de interés. O es una, o es la otra. La condición para que
este modelo sea válido es que cada repetición sea independiente de las anteriores, es decir, que cada realización del
experimento no incida sobre la siguiente.

2. Distribución normal.
Representa los fenómenos que no tienen una distribución
uniforme, es decir, que no es igualmente probable que resulte
cualquiera de los resultados.

CARO SARTORI
CARO SARTORI

Su representación gráfica es una Campana de Gauss, una curva unimodal, simétrica de forma acampanada. En la que
es más frecuente halla valores cercanos al promedio y en la que los valores extremos (ya sean mayores o menores)
son menos frecuentes de hallar.

2.1. Puntaje Z en distribución normal.

Lo importante de este tema, es saber hacer las lecturas correspondientes a los intervalos sombreados, en puntaje z y
recordar que puntaje z es una forma de transformar los datos a “otro lenguaje” para poder comparar cosas de
distinto tipo, y que va desde -4 a +4.

Vamos a definir la probabilidad de hallar valores de z iguales o mayores


que -1.

P ( z ≥ -1)
Donde P refiere a “probabilidad”. Y el signo ≥ a “mayor o igual que”

En esta figura, vamos a definir la probabilidad de hallar valores de z iguales


o menores a -1.

P ( z ≤ -1)
Donde P refiere a “probabilidad”. Y el signo ≤ a “menor o igual que”

En este caso, es un intervalo es que debemos definir, entre -1 y +1.

La probabilidad de hallar valores de z mayores a -1 y menores a +1.

P (-1 < z < +1)


Donde P refiere a “probabilidad”. Y el signo < a “menor que”

A tener en cuenta para memorizar:

En puntaje z, desde -1,96 a +1,96 representa el 0,95 del total, es decir, el


95% del total.

La probabilidad de hallar valores de z mayores a -1,96 y menores a +1,96


es del 95 %

CARO SARTORI
CARO SARTORI

P (-1,96 < z < +1,96) = 95%

En puntaje z, desde -2,58 a +2,58 representa el 0,99 del total, es decir, el


99% del total.

La probabilidad de hallar valores de z mayores a -2,58 y menores a +2,58 es


del 99 %

P (-2,58 < z < +2,58) = 99%

 GRADOS DE LIBERTAD. (“gl” )

No explica su utilidad, ni su definición. Solo plantea la formula.

La fórmula para conocer el grado de libertad de cierta distribución normal, es:

(cantidad de filas – 1) x (cantidad de columnas – 1)

Para tener en cuenta, las filas son horizontales, y las columnas verticales. Y a la hora de operar con ellas no se
cuentan las filas ni las columnas de los totales.

Si tenemos una tabla de 2 x 4, es decir, de 2 filas y 4 columnas, la misma tendrá 3 grados de libertad.

 LA DISTRIBUCION “JI CUADRADO” (X2).

La distribución X2 tiene muchas aplicaciones, una de las más frecuentes es la de analizar la existencia de una relación
entre dos variables nominales.
En distribución X2, los grados de libertad son a partir del 0 (0, 1, 2, 3, 4, 5, 6 … ) , nunca van a ser negativos, ni
fraccionarios. Si queremos saber cuál es la “probabilidad de hallar, una variable con distribución X 2 con 11 grados de
libertad, que supere a 3”, decimos:

P ( X2 11> 3)
Donde P refiere a la probabilidad, X2 refiere a Ji Cuadrado, y donde 11, son los grados de libertad que se buscan
hallar.

 LA DISTRIBUCION “T DE STUDENT” (T).

La distribución T se aplica en reemplazo de la distribución normal, cuando se trabaja con muestras pequeñas y que
se va volviendo más equivalente a ella a medida que las muestras son de mayor tamaño.
En distribución T, los grados de libertad son todos los números negativos, el cero, y los números naturales ( … -2, -1,
0, 1, 2, 3 … ), nunca van a ser fraccionarios. Si queremos saber cuál es la “probabilidad de hallar, una variable con
distribución T con -8 grados de libertad que supere a 2”, decimos:

P ( T -8 > 2)
CARO SARTORI
CARO SARTORI

Donde P refiere a la probabilidad, T refiere a T de Student, y donde -8, son los grados de libertad que se buscan
hallar.

 LA DISTRIBUCION “F DE FISHER” (F).

Es una distribución asimétrica, no negativa, y su forma depende de los valores de los grados de libertad del
numerador y del denominador. Porque en distribución F, los grados de libertad son solo fracciones positivas, nunca
negativas. (… ⅓, ⅔, ⅕, ⅖, ⅗, ⅙, ⅚, ⅛, ⅜, ⅝ … ). . Si queremos saber cuál es la “probabilidad de hallar,
una variable con distribución F con -⅞ grados de libertad, que supere a 5”, decimos:

P (F ⅞ > 5 )

Donde P refiere a la probabilidad, F refiere a distribución F, y ⅞ son los grados de libertad que se buscan hallar.

 OPERACIONES CON PROBABILIDADES FRECUENCIALES.

1. PROBABILIDADES MARGINALES.

Se utilizan las frecuencias marginales, es decir, las de los totales , para calcular alguna probabilidad de allí. Por
ejemplo, veamos cual será la probabilidad
de hallar una persona cualquiera, al azar,
que viva en Córdoba, sin tener en cuenta el
partido al que diga que vaya a votar.
Tomaremos la celda de totales de
Córdoba, y la dividiremos por el total de
casos, es decir, el total de totales.

Quedaría entonces:

P (Cba )= 650 / 1530


= 0,42.
La probabilidad de hallar una persona que viva en Córdoba, es del 42 %.
Si por ejemplo, quisiéramos saber la probabilidad de hallar una persona que vote a S, tendríamos que hacer 260/
1530, es decir, el total de S, dividido el total de totales.

2. PROBALBILIDADES CONJUNTAS O DE LA INTERSECCION DE EVENTOS.

Es importante tener en cuenta que en este tipo de probabilidades, se utilizara un símbolo “ ᴒ” (una U invertida), que
significa “ Y “. Además, aquí se utilizan las frecuencias conjuntas, es decir, la que corresponde a dos categorías,( que
pertenezca a una Mendoza y una Q por ejemplo).

Ahora, veamos cual sería la probabilidad


de hallar una persona elegida al azar,
que viva en Córdoba y que a la vez, vote
a S. Tomaremos la celda conjunta de
Córdoba y S, y la dividiremos por el total

CARO SARTORI
CARO SARTORI

de casos, es decir, por n.


Quedaría entonces:

P (Cba ᴒ S )= 100 / 1530


= 0,06.
La probabilidad de hallar una persona que viva en Córdoba y que vote a S, es del 6 %.
Si por ejemplo, quisiéramos saber la probabilidad de hallar una persona que viva en Rosario y vote a R, tendríamos
que hacer 150/ 1530, es decir, la casilla conjunta de Rosario y S, dividido el total de totales (n).

3. PROBABILIDAD DE LA UNION DE EVENTOS MUTUAMENTE EXCLUYENTES.

Este tipo de probabilidades sirven para analizar la ocurrencia de uno u otro evento, cuando estos no pueden ocurrir

simultáneamente. Es importante tener en aquí, se utilizara el símbolo “ ᴗ” (como una U), que significa “ O“.
Por ejemplo, analicemos la probabilidad de que alguna persona elegida al azar vote a R o vote a Q.

Tomaremos la celda total de Q


y la sumamos a la del total de R
y a eso lo dividiremos por el
total de casos, es decir, por n.

Quedaría entonces:

P (Q ᴗ R ) = (350 + 600) / 1530


= 0,62.
La probabilidad de hallar una persona que vote a Q o que vote a R, es del 62 %.
Si por ejemplo, quisiéramos saber la probabilidad de hallar una persona que viva en Rosario o que viva en Córdoba ,
tendríamos que hacer (650 + 380) / 1530, es decir, el total de Córdoba más el total de Rosario, dividido el total de
totales (n).

4. PROBABILIDAD DE LA UNION DE EVENTOS NO MUTUAMENTE EXCLUYENTES.

Este tipo de probabilidades sirve para analizar eventos que pueden ocurrir simultáneamente. Usaremos nuevamente

el símbolo ᴗ. Analicemos la probabilidad de que alguna persona elegida al azar viva en Rosario o vote a S.
Para esto, tomaremos la celda total
de Rosario y la sumamos a la del
total de S y a eso le restamos la
celda conjunta de Rosario y S, y
dividimos todo eso por el total de
casos, es decir, por n.
(Se le resta la celda conjunta, ya que si la sumamos estaríamos contando dos veces los mismos casos ).

Quedaría entonces:

CARO SARTORI
CARO SARTORI

P (Rosario ᴗ S ) = (380 + 260) - 60 / 1530


= 0,37.
La probabilidad de hallar una persona que viva en Rosario o que vote a S, es del 37 %.
Si por ejemplo, quisiéramos saber la probabilidad de hallar una persona que viva en Mendoza o que vote a R,
tendríamos que hacer (500 + 600) / 1530, es decir, el total de Mendoza más el total de R, menos el total de la celda
conjunta de Mendoza y R, dividido el total de totales (n).

5. PROBABILIDAD CONDICIONAL .

Este es el caso en el que necesitamos calcular una probabilidad bajo una condición, que restringe el conjunto de
resultados posibles. Para este tipo de probabilidades se empleara el símbolo “ / ” (una barra inclinada) que significa
“ condición”.
Analicemos la probabilidad de que alguna persona elegida al azar vote a Q y como condición viva en Mendoza. (vivir
en Mendoza es la condición, es decir, es una restricción sobre el conjunto total, ya que ahora no debemos tener en
cuenta a las 1530 personas del total, sino solo a los que cumplen la condición de vivir en Mendoza).

Para esto, tomaremos la celda


conjunta de Mendoza y Q y la
dividimos por el total de Mendoza.

Quedaría entonces:

P (Q / Mendoza ) = 50/ 500


= 0,1.
La probabilidad de hallar una persona que vote a Q y que como condición viva en Mendoza es del 10 %.
Si por ejemplo, quisiéramos saber la probabilidad de hallar una persona que viva en Córdoba y como condición vote
a R, tendríamos que hacer 300 /600 es decir, la celda conjunta de Córdoba y R, dividido el total de R.

6. RELACION ENTRE PROBABILIDADES CONDICIONALES Y CONJUNTAS .

Ahora tomaremos el punto 2, y el 5 ( probabilidades conjuntas y probabilidades condicionales respectivamente) y los


relacionaremos. Simplificando para una mejor comprensión, lo que se hará es tomar una probabilidad conjunta y
dividirla por una condicional para ver la relación que hay entre ellas.
Por ejemplo, comparemos la probabilidad de hallar una persona elegida al azar, que viva en Córdoba y que a la vez,
vote a S ( probabilidad conjunta) con la probabilidad de que alguna persona elegida al azar vote a Q y como
condición viva en Mendoza (probabilidad condicional).

Primero resolvemos las probabilidades por separado, y luego las dividimos.

a) Tomaremos la celda conjunta de Córdoba y S, y la dividiremos por el total de casos, es decir, por n.
Quedaría entonces:

P (Cba ᴒ S )= 100 / 1530


= 0,06.

CARO SARTORI
CARO SARTORI

b) Tomaremos la celda conjunta de Mendoza y Q y la dividimos por el total de Mendoza.


Quedaría entonces:
P (Q / Mendoza ) = 50/ 500
= 0,1.
c) Dividiremos la probabilidad conjunta por la probabilidad condicional.
Quedaría entonces:

P (Cba ᴒ S )
P (Q / Mendoza )

= 0,06
0,1

= 0,6
 OPERACIONES CON PROBABILIDADES A PRIORI.

Aquí no explica nada, solo da el siguiente ejemplo, como para repasar.

Supongamos que disponemos de una bolsa con 7 fichas: tres fichas color azul, y las cuatro restantes de color rojo.

- ¿Cuál es la probabilidad de obtener una ficha azul? Tendríamos que dividir 3 sobre 7, ya que tenemos 3
fichas azules sobre un total de 7 fichas.
- ¿Cuál es la probabilidad de obtener una ficha roja? Tendríamos que dividir 4 sobre 7, ya que tenemos 4
fichas rojas sobre un total de 7 fichas.
- Suponiendo que en el punto anterior obtuvimos una ficha azul y no la repusimos, ¿Cuál es la probabilidad de
obtener una ficha azul ahora? Tendríamos que dividir 2 sobre 6, ya que ahora hay solo dos fichas azules, de
un total de seis fichas.
- Suponiendo que hubiéramos obtenido en vez de una ficha azul, una roja; y ahora nos queden tres fichas
azules y tres rojas. ¿Cuál es la probabilidad de obtener una fija roja? Tendríamos que dividir 3 sobre 6, ya
que tenemos 3 fichas rojas, sobre un total de 6 fichas.
- Suponiendo que hasta ahora, de la cantidad que había inicialmente, ( 3 azules y 4 rojas), solo quedan 2
azules y 3 rojas. ¿Cuál sería la probabilidad de obtener una ficha roja ahora? Tendríamos que dividir 3 sobre
5.
- ¿Y cuál sería la probabilidad de obtener una ficha azul ahora? Tendríamos que dividir 2 sobre 5.

CARO SARTORI
CARO SARTORI

Unidad 7: TÉCNICAS DE MUESTREO.


Este capítulo es todo teoría. Todas definiciones, y conceptos:

 POBLACION: Conjunto de unidades de análisis que tiene una o varias características definidas, que son
objeto de un estudio particular. Mientras más características tiene, más pequeña será la población.
 ELEMENTOS DE LA POBLACION: Pueden ser personas (niños, adultos, jóvenes, estudiantes, ancianos,
trabajadores, desempleados, etc.), hospitales, escuelas, etc.
 UNIDADES DE ANALISIS: Son las cualidades que se pretenden observar/analizar de los elementos de la
población previamente elegida.
 POBLACION INFINITA: Cuando el número de elementos que integra la misma, es elevado.
 POBLACIONES HIPOTETICAS: El investigador crea una población determinada ya que no tiene posibilidad de
delimitar la población completa.
 RELEVAMIENTO EXHAUSTIVO: Consiste en observar una característica o variable, en cada uno de los
individuos de la población. También se lo conoce con el nombre de Censo.
 MUESTRA: Es un subconjunto de una población que comparte sus características en los aspectos de interés
para la investigación. Va ligado a su capacidad de actuar como “representante “de los elementos de la
población que no han sido seleccionados (representatividad).
 PARAMETRO: Es la característica poblacional que pretende conocerse.
 ESTIMADORES PUNTUALES: Son los valores calculados sobre los datos muestrales y que se utilizarán para
realizar aproximaciones a los valores poblacionales.
 CARACTERISTICAS DE LOS ESTIMADORES: Insesgabilidad y Consistencia.
1. Insesgado: Se dice que un estimador es insesgado, cuando el promedio de todos los valores obtenidos
en todas las muestras de un determinado tamaño es igual al valor de esa característica en la población.
El sesgo de un estimador, es la diferencia entre el promedio que alcanzaría sobre todas las muestras
posibles y el verdadero valor del parámetro poblacional. En el caso de un estimador insesgado, esta
diferencia es igual a cero (sin sesgo).
2. Consistencia: Ya que el aumento en el tamaño de la muestra, mejora la calidad de estimación. Esta
característica solo está presente en algunos estimadores.
 MUESTREOS PROBABILISTICOS: Las muestras obtenidas por estos procedimientos permiten generalizar los
resultados obtenidos en ellas a toda la población de referencia. El requisito para que una muestra sea
probabilística es que sus elementos hayan sido elegidos al azar. Dentro de los muestreos probabilísticos,
podemos nombrar:
1. Muestreo irrestricto aleatorio o aleatorio simple: Se necesita de una lista con todos los elementos de la
población (marco de la muestra). Se los sortea, y la probabilidad que tienen cada uno de ellos es la
misma.
2. Muestreo sistemático: Se selecciona un elemento aleatoriamente y comenzando por él se recorre el
marco de la muestra tomando los elementos siguientes a intervalos regulares. El primer paso consiste en
determinar el número de veces que puede incluirse la muestra en la población; para ello :
r = N/n
Donde r representa las veces que la población contiene a la muestra, N es el tamaño de la población, y n
es el tamaño de la muestra.
3. Muestreo estratificado: Se extraen muestras de subconjuntos de la población llamados estratos. Tales
estratos tiene que ser homogéneos en su interior con respecto a alguna característica conocida a priori
(criterio de estratificación). Hay dos tipos de muestreos estratificados

CARO SARTORI
CARO SARTORI

3.1. Muestreo estratificado con afijación igual o uniforme: (Se llama afijación a la modalidad utilizada
para distribuir la muestra sobre los estratos definidos.) El procedimiento es extraer la misma
cantidad de casos de cada estrato. La muestras tienen así el mismo tamaño, que resulta:
ni = n/k
Donde ni es el tamaño de las muestras extraídas de cada estrato, n es el tamaño de la muestra total,
y k representa el número de estratos en que fue dividida la población.
3.2. Muestreo estratificación con afijación proporcional: consiste en extraer de cada estrato una
muestra cuyo tamaño resulte proporcional al estrato del que proviene. Primero se calcula f que es la
proporción de población que integra la muestra:
f=n/N
Este cociente se llama fracción de muestreo. Donde n es el tamaño de la muestra total, y N
representa el tamaño de la población.
En segundo lugar, se aplica la fracción de muestreo a cada uno de los estratos para obtener la
cantidad de casos que deben extraerse de cada uno:
ni = f x Ni
Donde ni es la cantidad de casos que se extraerán del estrato i-esimo, f es la fracción de muestreo
que calculamos antes, y Ni es la cantidad de casos en el estrato i-esimo en la población.
4. Muestre por conglomerados: Se denomina conglomerado a una unidad de muestreo que está
constituida en su interior por varios elementos de la población. Para un diseño de conglomerado deben
definirse unidades primarias de muestreo que contengan en su interior a las unidades elementales.
 MUESTREOS NO PROBABILISTICOS: No se cumple el requisito de aleatoriedad en la selección de los
elementos que la componen. Los resultados no se pueden generalizar de manera probabilística más allá de
los casos observados. Dentro de los muestreos no probabilísticos, podemos nombrar:
1. Muestreo por cuotas: Se busca reproducir de la manera lo más ajustada posible las características de la
población en la muestra. Se llama cuotas, a las fracciones de la muestra con las distintas características.
2. Muestreo por juicio o intencional: Conocido también como selección experta, en el que el investigador
es quien decide que elementos son los más adecuados para realizar la investigación. La elección se basa
en la apreciación subjetiva del investigador sobre la representatividad de los elementos que muestrea.
3. Muestreo autoelegido: En este tipo de muestreo no se selecciona a los sujetos de estudio, sino que se
les solicita a las persona que participen voluntariamente.
4. Muestreo accidental o según disponibilidad: Consiste en entrevistar a los individuos que se encuentran
accidentalmente en determinado lugar.
5. Muestreo bola de nieve: Es adecuado cuando se debe estudiar a una población infrecuente, poco
representada en el total general, y no hay un marco disponible para el muestreo.

CARO SARTORI
CARO SARTORI

Unidad 8: DISTRIBUCIONES EN EL MUESTREO.


MEDIDAS PARAMETRICAS: Medidas que se refieren a la población, también llamadas parámetro.

 MEDIDAS ESTADISTICAS: Medidas calculadas sobre los datos de la muestra.


 MEDIDAS CUALITATIVAS: Medidas que refieren a proporciones.
EN LA POBLACION EN LA MUESTRA
CANTIDAD DE CASOS N n
MEDIA μ x rayita
PROPORCION P p sombrerito
VARIANZA o 2 s2
DESVIACION STANDARD o s
COEFICIENTE DE CORRELACION DE PEARSON ρ r
COEFICIENTE DE CORRELACION DE SPEARMAN ρs rs
PENDIENTE E LA RECTA DE REGRESION β1 b1
ORDENADA AL ORIGEN DE LA RECTA DE REGRESION β0 b0

 NOMENCLATURA DE SIMBOLOS:

 DISTRIBUCION DE LA MEDIA MUESTRAL.

1. ESTIMADOR INSESGADO: La media muestral es un estimador insesgado en la media poblacional porque su


esperanza es igual al parámetro que estima.
2. ESTIMADOR CONSISTENTE: Es un estimador consistente de la media poblacional porque su variaza
disminuye cuando se toman muestras de mayor tamaño
3. ERROR ESTANDAR DE LA MEDIA (EE): A mayor cantidad de casos, menor error ( mas certero). No es seguro
que la media muestral sea cercana a la poblacional, si sabemos que es menos probable que esté lejos
cuando la muestra es más grande.
4. TEOREMA CENTRAL DEL LIMITE: Una suma de n variables aleatorias tiende a tener una distribución normal a
medida que aumenta n, independientemente del modo en que este distribuida esa variable en la población.
Es decir, a mayor cantidad de casos, mejor distribución.

 DISTRIBUCION DE LA PROPORCION MUESTRAL (nominales).

1. ESTIMADOR INSESGADO: La proporción muestral es un estimador insesgado de l aproporcion poblacional


porque su esperanza es igual al parámetro que estima. Es decir, cuando la proporción muestral, coincide con
la proporción poblacional, podemos decir que esta insesgado.
2. DISPERSION DE LA PROPORCION MUESTRAL: A mayor semenjanza entre proporciones, mayor dispersión.
Mientras menor semejanza haya entre los valores de las proporciones muestral, menor será el grado de
dispersión de la misma.
3. ERROR ESTANDAR DE LA PROPORCION (EEE)

CARO SARTORI
CARO SARTORI

PARA TENER EN CUENTA PARA EL PARCIAL:

- Si aumenta el grado de confianza, aumenta el error de estimación.


- Si disminuye el grado de confianza, disminuye el error de estimación.
- Si aumentan los casos, disminuye el intervalo de confianza, por ende, disminuye el error de estimación.
- Si disminuyen los casos, aumenta el intervalo de confianza, por ende, aumenta el error de estimación.
- El diagrama de dispersión se utiliza para variables proporcionales.
- El tiempo cronológico ( días, horas, minutos, segundos, meses, años, etc) es siempre variable intervalar.
- Todo con lo que pueda sumar, restar, dividir, etc. es proporcional.

CARO SARTORI
CAPÍTULO 9: Estimación de parámetros:
• Estimación puntual:
Vemos 2 tipos de estimadores:
* la media muestral ( ) que estima a la media poblacional (µ)
* la proporción muestral ( ) que estima la proporción poblacional (P)

Son estimadores puntuales porque el valor va a ser único y no va a cambiar por más q cambie la confianza!
Ej1: Si de una muestra de 50 alumnos de un colegio secundario encontramos que su promedio es de 7,05,
entonces =7,05 y si ahora queremos saber cuál es el promedio de TODOS los alumnos de ese colegio
secundario (µ) entonces estimaremos (creeremos) que es similar/cercano a 7,05
(Acá estimamos a µ en base a )
Ej2: Si en ese colegio secundario, aleatoriamente seleccionamos a una muestra de 100 personas y
encontramos que la proporción de mujeres es =0,60, entonces estimamos que la proporción poblacional
(la proporción de TODOS los alumnos de ese colegio) sería cercana a P=0,60 (%60)
(Acá estimamos a P en base a )

MUY IMPORTANTE SABERLO: en puntaje Z y pruebas BILATERALES (que explico en el capítulo 10) la
confianza se representa de la siguente forma:
Confianza del %90 en puntaje z: 1,64
Confianza del %95 en puntaje z: 1,96
Confianza del %99 en puntaje z: 2,57

• Estimación por intervalo:


Acá ya no será un número puntal, si no que se establecerá un intervalo a cerca del cual tendremos
tendremos cierta certeza (CONFIANZA) que contenga al parámetro, lo veamos prácticamente con un
ejemplo así se entiende mejor. ☺

ESTIMACIÓN DE LA MEDIA
La fórmula para sacar los límites inferiores y superiores del intervalo de confianza del %95 en una
prueba BILATERAL es la siguiente:

Li = - 1,96 * Ls = + 1,96 * = 1,96 * .

Ej: Si de una muestra de 500 egresados de Psicología, encontramos que la nota promedio con que egresan
es =9 (eran re capos estos psicólogos ;) jaj) con una desviación estándar de la población =1,2. Ahora
con estos datos, ya podemos sacar el intervalo y hacer una estimación más completa.

Li = 9 – 1,96 * = 8,90

Ls = 9 + 1,96 * = 9,10
Por lo que este resultado se puede leer de la siguiente forma:

“Con una confianza del %95 (+-1,96) el intervalo 8.50 y 9,10 contiene al promedio con que egresan
TODOS los psicólogos de la facultad”, o sea que a partir de la media muestral estimamos a la media
poblacional y establecimos un límite inferior (8,90) y un límite superior (9,10)

De manera alternativa, en el mismo ejemplo anterior, podríamos expresarlo de la siguiente manera:

9 0,10 que acá está indicando es la media muestral (el estimador puntual) y 0,10 que con ese valor
establecemos los límites del intervalo, y representa al “ERROR DE ESTIMACIÓN”…

“Se llama error de estimación a la distancia que hay entre el estimador puntual y cualquiera de los
límites del intervalo” (la distancia que hay entre 9 y 9,10 (ls) o de 9 y 8,90(li) es de 0,10)

Otro concepto: PRECISIÓN: cuanto MENOR error de estimación, MAYOR precisión

Otro concepto: CALIDAD de los intervalos (a mayor precisión (los intervalos más pequeños) mayor
CALIDAD) …

*Si quisiéramos estar más seguros de que el intervalo contiene a µ podríamos usar una confianza del %99

Acá cambiaría la formula (sólo la parte del puntaje z) y sería la siguiente:

2,57 **** e Que reemplazando nos quedaría: 9 0,13

IMPORTANTE: Vemos que al aumentar la confianza aumentan los límites, por lo tanto aumenta el ERROR
DE ESTIMACIÓN y por lo tanto disminuye su PRECISIÓN, y disminuye la CALIDAD de las estimaciones
por intervalo

ESTIMACIÓN DE LA PROPORCIÓN
IMPORTANTE: EL RAZONAMIENTO ES EXACTAMENTE IGUAL A TODO LO DICHO
ANTERIORMENTE, SÓLO CAMBIA LA FORMA DE CALCULARLO, Y ES LA SIGUIENTE:

z*

Veamos un ejemplo y terminamos con el capítulo 9:

Si de una muestra de 900 casos, 450 personas dijeron que votaran a X candidato, la proporción de
personas que tienen intención de voto con ese candidato sería 450/900 que quedaría =0,50 y si usamos
una confianza del %95 el cálculo para determinar los límites seriá el siguiente:

0,50 1,96

Que resolviendo nos quedaría: 0,50 0,016 … entonces los límites resultan:
Li: 0,48,4 Ls: 0,516

En porcentajes (por 100) representarían: Li: %48,4 y Ls: %51,6

Por lo que leeríamos del siguiente modo:

Con una confianza del %95 la intención de voto de X candidato oscila entre el %48,4 y el %51,6

*Mientras la proporción más cercana sea al %50, tanto más será el error de estimación de la proporción.
CAPÍTULO 10: Las pruebas de hipótesis:

Las hipótesis nos van a servir para tomar una decisión en base a alguna teoría que tengamos, dado que en
determinadas situaciones no contamos con toda la información, por lo tanto, decidimos en base a estas.
*Vemos 2 tipos de hipótesis:
Hipótesis Nula ( ): SIEMPRE va a indicar que hay “ausencia de diferencias” o sea, hay “igualdad”
Hipótesis Alternativa ( ): Es a la que se suma evidencia cuando se rechaza .
Veamos un ejemplo así vamos entendiendo progresivamente estas 2 tipos de hipótesis y su función en la
practicidad.

Ej1: En una carrera universitaria, cambió el plan de estudios! Entonces por ejemplo, puede CREERSE que
este cambio influye y entonces el tiempo en que tardan en terminar la carrera los estudiantes ahora es
DISTINTO. Históricamente (antes del cambio de plan) los alumnos tardaban en recibirse un promedio de
µ=7,30 años. Ahora supongamos que con el nuevo plan, seleccionamos n=100 egresados y vemos que el promedio
en terminar de la carrera es de = 7,50 años, con una desviación estandar s=1,30 años.

Como anteriormente dice “DISTINTO”, se trata de una prueba BILATERAL porque tiene 2 lados… por 1 lado,
puede ser MAYOR (los alumnos tarden más en recibirse) o por otro lado puede ser MENOR (los alumnos
tarden menos). LAS HIPÓTESIS SE EXPRESARÍAN:

: µ = 7,30 : µ ≠ 7,30

La toma de la decisión: Deben saber:


Hay 2 zonas, que de acuerdo al resultado obtenido, aceptamos o rechazamos la
1. Zona de Aceptación: es la zona que está DENTRO de los intervalos, ya sean de z o de
2. Zona de Rechazo: es la zona que está FUERA de los intervalos, ya sean de z o de

Decidir en base a los límites de puntaje z:

A los datos de la muestra podemos pasarlos a puntaje z en base al promedio poblacional (µ=7,30) y decidir
en si ACEPTAMOS o RECHAZAMOS la de la siguiente manera:
*A se lo conoce como estadístico de prueba (T)

Reemplazando quedaría:

Acá el valor z observado es de 1,54, y si utilizamos una confianza


del %95 ( 1,96), ese resultado está DENTRO del intervalo, por
lo tanto SE ACEPTARÍA LA ya que está en la zona de
ACEPTACIÓN.

1,96 representan a valores críticos de z ( )


Como la decisión fue la de aceptar la diremos con una confianza de %95 que NO hay
diferencias entre el promedio actual que tienen los
alumnos con el nuevo plan y el promedio anterior que
tenían los alumnos con el viejo plan

Decidir en base a los límites de :


También podemos decidir, estableciendo los límites con los valores de .. y con el mismo criterio que antes. En el
mismo ejemplo, establecemos los intervalos (como vimos en el capítulo 9) y decidimos de acuerdo
Con una confianza del %95 ( 1,96), nos queda: = 7,30 0,25 que sumando y restando quedaría:
Li: 7,05 Ls: 7,55 (si usamos una confianza de %95 entonces estos límites representan al %95 y serían la zona de
ACEPTACIÓN de la …….. Ahora veamos el valor si está en la zona de rechazo o aceptación, vimos que
puntaje z estaba en la zona de aceptación, por lo tanto ahora debería también estar en la zona de aceptación:

Acá el valor x observado es de 7,50, y si utilizamos una confianza


del %95 ( 1,96), ese resultado está DENTRO del intervalo, por
lo tanto SE ACEPTARÍA LA ya que está en la zona de
ACEPTACIÓN.

7,05 y 7,55 representan los valores criticos de x ( )

NIVEL DE SIGNIFICACIÓN: es la zona de RECHAZO, es lo restante de la confianza y viceversa! Si la


confianza es del 95% (zona de aceptación), el nivel de significación es del 5% (zona de rechazo). Cuando un
resultado da en ESTA ZONA, representa a que tenemos (en este caso) el 5% de probabilidad de que la hipótesis
nula sea CIERTA, por lo que es poca, la RECHAZAMOS… y cuando el resultado da en la zona de aceptación,
representa a que tenemos (en este caso) al 95% de probabilidad de que la hipótesis nula sea CIERTA por eso la
aceptamos.

PRUEBAS UNILATERALES (o de una cola)


Lo que debemos saber es que acá lo que varía el calculo en puntaje Z, ahora sería de la siguiente manera:
Confianza del %90 en puntaje z: +1,28 o -1,28
Confianza del %95 en puntaje z: +1,64 o -1,64
Confianza del %99 en puntaje z: +2,33 o -2,33
Todo el procedimiento es exactamente igual a lo explicado en las pruebas bilaterales, lo que cambia es el puntaje z,
ahora veremos un ejemplo para saber cuando nos referimos a una prueba UNILATERAL.

*Si en el mismo ejemplo anterior, la creencia fuera que por el cambio en el plan de estudios, los alumnos tardarían un
tiempo MAYOR en terminar la carrera, ahí sería una prueba UNILATERAL porque tiene 1 LADO, en este caso, el
ser un tiempo MAYOR (>) en cambio en el ejemplo anterior, se creía que el resultado iba a ser DISTINTO, osea
puede ser mayor o menor. Y si usamos una confianza del 95%, acá en puntaje z habría q utilizar +1,64 y si se
hubiese creído que el resultado iba a ser MENOR, con el 95% de confianza se utilizaría -1,64

Si la prueba es unilateral derecha, las hipótesis se expresarían:


: µ = 7,30
: µ > 7,30
Si la prueba es unilateral izquierda, las hipótesis se expresarían:
: µ = 7,30
: µ < 7,30
Si la prueba es bilateral, las hipótesis se expresarían:
: µ = 7,30
: µ ≠ 7,30

IMP: ¿Cuándo un resultado es SIGNIFICATIVO?


Respuesta: Cuando conduce a rechazar a una con cierto nivel de significación
Traducción: jajaj cuando el valor obtenido está en la zona de RECHAZO de acuerdo a la confianza, Ejemplo:

Si en una prueba bilateral, con una confianza de %95 el valor nos da 2,09 entonces decimos que ese resultado es
SIGNIFICATIVO a un nivel de significación del 5%(confianza 95%) ya que los valores en z serían 1,96 y el valor
2,09 está luego de 1,96, está en la zona de rechazo, pero no es SIGNIFICATIVO a un nivel de significación del
1%(Confianza 99%) ya que para esa confianza, los valores en son 2,56 y el valor 2,09 está en la zona de
aceptación (entre -2,56 y +2,56)
**El nivel de significación se representa con el siguiente símbolo а**

IMPORTANTE!!!! CUANDO SE TRATA DE PROPORCIÓN EN VEZ DE MEDIA LA TOMA DE DESICIONES


ES EXACTAMENTE IGUAL, SÓLO CAMBIA LA FÓRMULA QUE ESTÁ EXPLICADO EN EL CAPÍTULO 9!

TIPOS DE ERROR EN LAS PRUEBAS DE HIPÓTESIS


Hay 2 tipos de errores, el primero es RECHAZAR cuando… y el segundo ACEPTAR cuando…
1. Error tipo I (ETI): RECHAZAR la cuando esta es VERDADERA
2. Error tipo II (ETII): ACEPTAR la cuando esta es FALSA

Piensen!!! como son ERRORES, si el primero es RECHAZAR, entonces será RECHAZAR cuando es VERDADERA
porque eso SI sería un error, pero no podría ser RECHAZARLA cuando es FALSA, por que eso NO sería un error!!!

CONCEPTOS:
β representa a la probabilidad de cometer ETII
1- β es la potencia de la prueba, es la probabilidad de RECHAZAR la cuando esta es falsa (o sea mientras
mayor sea este valor, mayor será la calidad de la prueba, mayor posibilidad de que sea cierta la
Es obvio y no está de más decirlo que a mayor es β, tanto menor será 1- β y viceversa

IMP: ¿Cuándo tengo más posibilidades de cometer cualquier ERROR (ya sea tipo I o tipo II)
Es fácil, a más cerca esté el valor obtenido ( / ) de los límites del intervalo, mayor posibilidad de ERROR.

VALOR P
Se llama valor p a la probabilidad de hallar un resultado igual o más extremo que el obtenido bajo la suposición de
que la es cierta.
Cuanto más pequeño sea el valor p, tanto más evidencia hay para rechazar la y cuanto más grande sea mayor
será la evidencia para aceptarla, El valor p nos permite saber si fue aceptada o rechazada la prueba y cuán
confiable es esa decisión. Cuando el valor p sea mayor que el nivel de significación а aceptamos la y cuando
sea menor, la rechazamos, Ej: si tenemos а = 0,05 (5%) y valor p = 0,07 (7%) ahí aceptaríamos la ( 7% mayor
que 5%) pero se rechazaría a un nivel de significación а = 0,10 (%10) (7% menor que %10)

Y supongamos que en 2 casos distintos, los respectivos valores p dan como resultado:
Caso 1 valor p = 0,50
Caso 2 valor p =0,17
*En ambos casos se aceptaría la bajo cualquier nivel de significación (ya sea 1%, 5% y 10%) osea, a cualquier
nivel de confianza (ya sea %99, %95, %90). Sólo que en el caso 1 habría mayor evidencia para aceptar la que
en el Caso 2, dado que el valor 0,50 es más alto que 0,17, por lo tanto mayor es la probabilidad de que la sea
cierta.

PRUEBA T
No voy a hacer mucho hincapié en esto, se los súper resumo, prueba t representa a

Listo, ya terminé el 10, espero que les sirva muchísimo y buena energía para todos, saludos!
CAPÍTULO 11: Comparación entre 2 grupos
En el capítulo 10 (Prueba de Hipótesis) justamente como lo dice el nombre, Se ponía a prueba la Hipótesis
Nula, vemos si se Acepta como cuando P mayor que 0,10 y T está dentro de los intervalos de confianza, es
decir, es Menor al +-1,64
En el capítulo anterior se comparaba un valor HISTÓRICO, con un valor ACTUAL de una MUESTRA
Es decir, uno histórico/poblacional (µ) y uno muestral ( )
La Ho avala la NO DIFERENCIA, LA IGUALDAD, es decir que el valor histórico y el actual de la
muestra/salida de INFOSTAT son prácticamente iguales, que las cosas NO CAMBIARON
La Hi avala LA DIFERENCIA, EL CAMBIO, es decir que el valor histórico y actual muestral si son lo
suficientemente distintos como para tratarlos como diferentes

Ahora en este capítulo, SE UTILIZA DEL MISMO MODO LA PRUEBA DE HIPÓTESIS!!


ES DECIR, TIENE LA MISMA MECÁNICA/SISTEMA QUE EL CAP. 10
ESTE CAPÍTULO SE DIVIDE EN 2 PARTES  MUESTRAS INDEPENDIENTES (2 GRUPOS)
MUESTRAS APAREADAS (1 SÓLO GRUPO)

MUESTRAS INDEPENDIENTES:
Acá lo que se busca es comparar las medias o proporciones de 2 grupos, y ver si son:
LO SIGNIFICATIVAMENTE DIFERENTES como para TRATARLOS COMO DISTINTOS Y RECHAZAR
LA Ho, o si por el CONTRARIO, SI SUS DIFERENCIAS NO SON SIGNIFICATIVAS, COMO PARA
TRATAR ESAS 2 POBLACIONES/GRUPOS COMO IGUALES Y ACEPTAR LA HIPÓTESIS NULA

Acá para expresar las hipótesis NO TENEMOS que utilizar NINGÚN NÚMERO
Serán de la siguiente manera, SIEMPRE:

SI SE TRATA DE UNA MEDIA (PROMEDIO) SE UTILIZARÁ  µ


SI SE TRATA DE UNA PROPORCIÓN (%) SE UTILIZARÁ  P

LA HIPÓTESIS NULA TIENE 1 ÚNICA FORMA DE EXPRESARSE


SI ES UN PROMEDIO: SI ES UNA PROPORCIÓN:
: µ1 - µ2 = 0 : P1 - P2 = 0

LA HIPÓTESIS ALTERNATIVA TIENE 3 FORMAS DE EXPRESARSE


: µ1 - µ2 ≠ 0  BILATERAL  : P1 - P2 ≠ 0
: µ1 - µ2 < 0  UNILATERAL IZQUIERDA  : P1 - P2 < 0
: µ1 - µ2 > 0  UNILATERAL DERECHA  : P1 - P2 > 0
MUESTRAS APAREADAS:
Acá en lugar de comparar 2 grupos independientesa nivel GRUPAL, tratamos con 1 solo grupo, el cual
comparamos las unidades de análisis (los sujetos) y así queremos ver si hay diferencias INDIVIDUALES
entre el antes y después
Es decir, acá es 1 solo grupo de individuos que se los compara en 2 instancias:

Pretest: MOMENTO INICIAL – ESTADO INICIAL


Postest: MOMENTO POSTERIOR – ESTADO FINAL

La Ho avala que entre esos 2 momentos NO HUBIERON CAMBIOS, que NO HAY DIFERENCIAS
SIGNIFICATIVAS ENTRE EL ESTADO INICIAL Y FINAL
La Hi avala que entre esas 2 instancias SI HUBIERON CAMBIOS, que SI HAY DIFERENCIAS
SIGNIFICATIVAS ENTRE EL ESTADO INICIAL Y FINAL
Recuerden: en Muestras Apareadas se quiere ver diferencias INDIVIDUALES, y en Muestras
Independientes se quiere ver diferencias GRUPALES

Acá las hipótesis se expresan:


LA HIPÓTESIS NULA TIENE 1 SÓLA FORMA DE EXPRESARSE
: =0

LA HIPÓTESIS ALTERNATIVA TIENE 3 FORMAS DE EXPRESARSE


: ≠0  BILATERAL
: <0  UNILATERAL IZQUIERDA
: >0  UNILATERAL DERECHA

es la media de las diferencias individuales, porqué acá se comparan diferencias individuales, y se compara las diferencias entre el
ANTES y el DESPUÉS
Y en Muestras Independientes, comparamos diferencias GRUPALES, las diferencias entre 2 GRUPOS.

Acá al igual que el cap. 10 habrá un Valor P y un valor T, ambos con sus diferentes idiomas, te dirán lo mismo, si se Acepta o Rechaza la
Hipótesis Nula  es decir, te dirá que NO HAY DIFERENCIAS SIGNIFICATIVAS (Aceptación de la Ho) o que SI LAS HAY (Rechazo de la Ho)

Detalles Importantes a estudiar:


T de Student, la que oscila de -6 a 6 (habrán visto en el cap. 6) es Simétrica y Unimodal como la distribución Normal (Campana de
Gauss), esta suele utilizarse en reemplazo de la normal cuando la muestra es pequeña (menor a 30), entonces el libro utiliza
directamente a T ya sean muestras pequeñas o grandes, aparte de que T es parecido a la normal de antemano, de igual modo, a más
grande es la muestra de T de Student y a mayor grado de libertad posea, cada vez más se asemejará a la Distribución Normal.

_______________________________________________________________________________________________________________
PROCEDIMIENTO PARA REALIZAR UNA PRUEBA DE HIPÓTESIS EN MUESTRAS INDEPENDIENTES!!!!!
1) Extraemos dos muestras: n1 y n2 (como decir n1 varones n2 mujeres)
(Recuerden que mientras mayor sea la muestra, será MEJOR, mejor la estimación y la conclusión!)
2) Calculamos las medias o proporciones de cada grupo (ESTIMADORES) y también las varianzas de
cada grupo (s2 del grupo 1 y s2 del grupo2)
(Si las dos varianzas se consideran “IGUALES” se utiliza las fórmulas del Caso 1, y si las varianzas de
los grupos se consideran “DISTINTAS” entonces se utilizan las fórmulas del Caso 2)
REVISEN EL LIBRO para ver el Caso 1 y Caso 2 (no es tan importante)
3) Se Calcula el estadístico de Prueba T y también P (ambos están asociados, te muestran si se
Acepta o Rechaza la Ho) y con el resultado P o de T, sabemos la conclusión de la investigación 
FINNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN

También podría gustarte