Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Variable: es una característica de las unidades de análisis ( es una característica de lo que se analizó )
Categorías: son los valores (las OPCIONES) que puede asumir una variable
Ejemplo1: En una muestra de 3000 casos se observan que el 50% de las personas tiene un coef.
Intelectual NORMAL
LAS PERSONAS
Coeficiente Intelectual
¿Son mutuamente excluyentes? SI, soy normal, soy superdotado o soy limítrofe, etc, soy UNA cosa o
LA OTRA, no puedo ser las 2 mismo al mismo tiempo, entonces se excluyen entre sí.
Ejemplo2: En una muestra de 500 casos analizamos la situación conyugal de las personas
LAS PERSONAS
Situación conyugal
¿Son exhaustivas? NO, porque NO a cualquier individuo le va a corresponder una categoría, por
ejemplo si una persona está VIUDA, no tiene una opción que le corresponda!!
¿Son mutuamente excluyentes? NO, Puedo estar soltero y también saliendo con alguien al mismo
tiempo!!! Entonces NO se excluyen entre sí ambas! Porque puedo ser una opción y la otra al mismo
tiempo!.... algunas personas hacen la broma y dicen que también se puede estar casado y saliendo con
alguien al mismo tiempo!! Jajaj que gente la de hoy en día eh!... jjajaj..
• Niveles de medición:
Antes que nada comento que los niveles de medición van de forma
gradual y cada nivel siguiente posee las cualidades de los anteriores
1. Nominal Hace referencia a NOMBRAR, nominar! Acá sólo puede distinguirse una
categoría de otra y NADA MÁS. Puedo decir que un celular es distinto de un vaso o que
una mujer es distinta de un hombre y no puedo saber la distancia que hay entre una cosa
y la otra, son sólo distintas y nada más, no puedo hacer cálculos matemáticos entre
ellos/as, son sólo palabras!
Ej:
Sexo f (Cantidad de casos)
Masculino 49
Femenino 51
2. Ordinal Hace referencia a ÓRDEN, acá aparte de poder distinguir las categorías,
puedo establecer un ÓRDEN y TAMPOCO puedo hacer cálculos matemáticos, no puedo
saber la distancia que hay entre una categoría y la otra, son sólo PALABRAS, en donde
acá si puedo establecer un ÓRDEN!
Ej:
Nivel de educación f (Cantidad de casos)
Primario (A) 50
Secundario (B) 75
Terciario (C) 20
Universidad (D) 100
Si puedo establecer un órden, y puedo decir que A < C y que D > A por ejemplo
En cambio en el ejemplo anterior sobre el sexo, no puedo saber cual va primero y cual va
segundo.
Acá obviamente si puedo establecer un órden, puedo establecer cálculos matemáticos (puedo
saber la distancia entre una categoría y la otra!! Son NÚMEROS!!!!
Ej2: Temperatura
Temperatura
-15 a -10
-9 a -4
-3 a 2
3a8
9 a 14
15 a 20
Puedo establecer un órden, puedo hacer cálculos matemáticos (son NÚMEROS) el 0 NO INDICA
AUSENCIA DE ya que 0 temperatura no indica AUSENCIA DE CALOR, calor hay constantemente! Los
cuerpos emanan calor constantemente, el sol también emana rayos con calor constantemente
justamente en los polos de la tierra (los lugares más fríos) hay menos calor porque llegan menos rayos
de sol, pero calor hay siempre! la tierra posee calor siempre… bue me voy por las ramas.. jaja ese 0 es
arbitrario y es para poder medir la temperatura pero como vemos no indica la ausencia de
temperatura, y de igual modo, esta variable posee SIGNOS NEGATIVOS (-15, - 10, -9, etc) por lo
tanto si posee signos negativos y también se pueden hacer cálculos matemáticos, entonces es
INTERVALAR.
Aunque el 0 no esté explícito es PROPORCIONAL, el 0 indica ausencia de libros leídos!!! Y posee las
mismas características que la tabla anterior.
Símbolo ( f )
Ejemplos:
Nivel de educación f f’ F F’
Primario (A) 50 0,20 50 0,20
Secundario (B) 75 0,31 125 0,51
Terciario (C) 20 0,08 145 0,59
Universidad (D) 100 0,41 245 1,00
n (total) 245 1,00
El que le sigue se llama Histograma (se usa para variables intervalares o proporcionales) en donde
obvio la variable tiene categorías cuantitativas (cantidad) las categorías son números..!
Luego en la hoja siguiente vemos que del Histograma se puede transformar en polígono de
frecuencias, que seguramente habrán visto en la tele o en películas cuando ven el progreso de una
empresa!! . Este polígono de frecuencias se obtiene pasando por la MARCA DE CLASE (MC) de cada
CLASE (lo explico en breve)
El gráfico que sigue es muy importante también, se llama OJIVA y para ese gráfico se utilizan las F o
F’, por eso el gráfico va siempre hacia arriba (siempre aumentando, va acumulando) y termina cuando
llega a la última clase (ya que ahí usando F o F’ ya se acumuló a todos los casos), en el ejemplo del libro
usa F’ (y va de 0 a 1,00, usa la proporción acumulada (frecuencia relativa acumulada))
Acá voy a hacer una introducción breve así se entiende la idea principal
Las clases como mencioné en el resumen de la Introducción (leelo no seas bldo/a jaja)
sirven para AGRUPAR categorías, así es más fácil la lectura de la tabla!! Por ejemplo:
Edad f f’ F F’
0-20 años 50 0,21 50 0,21
21-41 años 70 0,30 120 0,51
42-62 años 59 0,25 179 0,76
63- 83 años 40 0,17 219 0,93
84–104 años 13 0,06 232 0,99
n 232 0,99
Marca de clase (MC) es el valor que está en el MEDIO de cada clase, se obtiene promediando
los límites!! Ejemplo en la clase 0-20 años la MC es 10! Que promediando sería (20+0) / 2 = 20
Es igual que promediando las notas en el secundario o facultad! Si tenés un 8 y un 10, tenés promedio
9! (el valor está justo al medio de los límites) y lo obtenés sumando 10 + 8 y dividiéndolo por 2
Así recordando dijimos (bueno dije) que el polígono de frecuencia se obtiene pasando por la MC de
cada clase! Y si ven el gráfico, las líneas pasan exactamente por el medio de cada clase!
IMPORTANTE!!!!!
En las variables NOMINALES las frecuencias acumuladas no se calculan!!
Practiquen a leer las tablas
En el parcial: antes de leer la consigna, fijensé el nivel de medición de la tabla! Así se ahorran
errores, a lo mejor te preguntan “cuál es la mediana de la tabla” y ese es un cálculo que vemos
en el capítulo 3 y se usa de variables ordinales en adelante!! Entonces si la tabla es de nivel
NOMINAL ahí la opción correcta sería “no se puede calcular la mediana” y se ahorran un posible
error que sería calcular la mediana y ver que opción era la correcta….
Piensen antes de responder ☺
Sepan leer la tabla, preguntan mucho por ejemplo: (vayan a la primer tabla de este resumen)
En la siguiente distribución:
a) En el terciario hay 145 casos
b) En el secundario hay un 51% de personas
c) En el primario hay un 20% de personas
d) En universidad hay 78% de personas (jaja inventan valores)
Medidas de centralidad:
Son las que indican alrededor de qué valores se ubican las observaciones de una distribución de
frecuencias.
En variables NOMINALES:
Acá la es la categoría “Soltero”, “Estar soltero está de moda” y no el valor “250 está de moda”
Aclaro esto porque le pueden preguntar “”¿Cuál es la moda o el modo en la siguiente distribución?”
a) 100
b) Casado
c) 250
d) Soltero
Y la respuesta correcta es la D, soltero está de Moda y no el valor 250 que corresponde a soltero
Ejemplo2(Cuando la distribución es BIMODAL)
Nivel de educación f f’ F F’
Primario (A) 75 0,31 75 0,31
Secundario (B) 75 0,31 150 0,61
Terciario (C) 20 0,08 170 0,69
Universidad (D) 75 0,31 245 1,00
n (total) 245 1,00
Acá está de moda Primario, Secundario y Universidad!!! Ya son 3 categorías de modas, entonces es una
distribución MULTIMODAL
*OJO, acá no está de moda Universidad por tener 245 en F, porque ese 245 es la acumulación de
todas las categorías anteriores, tengan en cuenta que para la SÓLO se usa la “f”
En variables ORDINALES:
La mediana (Mdn) es la CATEGORÍA que deja por debajo a la mitad de observaciones y deja por
debajo y por arriba de ella la misma cantidad de casos.
Ejemplo2:
Nivel de educación f f’ F F’
Primario (A) 75 0,31 75 0,31
Secundario (B) 75 0,31 150 0,61
Terciario (C) 20 0,08 170 0,69
Universidad (D) 75 0,31 245 1,00
n (total) 245 1,00
Ahora utilizando a F buscamos y vemos: Primario no lo incluye (75 no incluye a 122,5) y Secundario si lo
incluye (150 incluye a 122,5) entonces leemos: “La mitad de las observaciones o El 50% de las
observaciones poseen un Nivel de Educación Secundario o inferior a este.”
Se utiliza como medida de centralidad la MEDIA (el PROMEDIO). No es tan difícil de entender esto y
no se hagan tanto engorro con esto, en variables con este nivel de medición se utiliza la MEDIA como
medida de centralidad, es un valor más exacto y claro que lo usamos en variables con nivel de medición
intervalar o proporcional ya que podemos hacer cálculos matemáticos más certeros.
Medidas no centrales:
Los Cuartiles: Cuando hablen de CUARtil, hablan de CUARTO (piensen en el número 4)
Primer (1) Cuartil 1/4*n (corresponde al 25% de las observaciones)
Tercer (3) Cuartil 3/4*n (corresponde al 75% de las observaciones)
Vimos que en la Mdn correspondía al 50% de las observaciones y el cálculo era 1/2*n
Acá el cálculo es distinto y el porcentaje correspondiente es distinto ☺ Ejemplos:
Nivel de educación f f’ F F’
Primario (A) 75 0,31 75 0,31
Secundario (B) 75 0,31 150 0,61
Terciario (C) 20 0,08 170 0,69
Universidad (D) 75 0,31 245 1,00
n (total) 245 1,00
*Con el 3er cuartil cambia la forma de calcularlo, acá se hace 3/4*n y el valor
encontrado corresponde al 75% observaciones ya que 3/4 de algo es el 75% de algo
*En el caso de los QUINTILES es cálculo es 1/5*n - 2/5*n - 3/5*n - 4/5*n cada quintil
vale un 20% (1/5=20%) el 2do quintil (2/5=40%) y así sucesivamente.
*En el caso de los PERCENTILES, hay toda una forma de calcularlo, nunca toman
fórmulas pero por las dudas visualícenla así saben identificarla! y acá te pueden decir
que por ejemplo la categoría Primario tiene P(25) (percentil 25) y te preguntan: ¿QUÉ
QUIERE DECIR? Simplemente responden EL 25% de los casos tiene nivel de educación
PRIMARIO o MENOS, te lo da en porcentaje directamente. También, suponiendo:
LA categoría Terciario tiene P(69), ¿QUÉ QUIERE DECIR? .. Bueno, respectivamente:
“El 69% de los casos posee un nivel de educación TERCIARIO o MENOS”
Y así sucesivamente, te da directamente el porcentaje!
Por eso: P(25) = Q1 (primer cuartil)
P(50) = Mdn y Q2 (segundo cuartil, 2/4 de algo, la mitad)
P(75) = Q3 (tercer cuartil)
P(20) = Primer quintil (1/5 de algo, el 20%)
Deben saber que en estos casos, se usa un nivel ORDINAL o SUPERIOR y que
generalmente se usa para las ORDINALES en donde no podemos hacer buenos
cálculos matemáticos entre las categorías ya que no son variables métricas
como las intervalares o proporcionales, entonces muchas veces el cálculo no es
exacto, cuando hablamos del 3er cuartil por ejemplo, siempre responde al 75%
o SUPERIOR, y de igual modo leemos “el 75% o menos…….”
La forma de la distribución:
La distribución puede ser:
Medidas de Dispersión:
RECORRIDO/RANGO Se obtiene haciendo: Valor máximo – Valor mínimo:
Ejemplo, si tenemos los siguientes valores: 3, 3, 5, 7, 8
Entonces el Recorrido acá sería 5 que se obtiene del cálculo 8(valor max) – 3(valor mín)
Así que una solución de que el resultado esté al cuadrado es sacándole la raíz y se convierte en S
Otro problema que presenta es que no sabemos cuando el resultado representa mucha dispersión y
cuando representa poca dispersión ya que siempre es relativo porque depende del total de casos,
depende de la media, etc… entonces se usa CV (Coeficiente de Variación) que es una forma de medirle
el “PESO” a la desviación estándar en base a su media, el cálculo es : s/ * 100
Da como resultado un PORCENTAJE: si el resultado 10% o menos, decimos que tiene poca dispersión
Ejemplo: CV: 8% Entonces ahí decimos que hay POCA DISPERSIÓN
Y si da cerca de 100% entonces posee muchísima dispersión.
PUNTAJE Z:
Así como vimos que S es CUANTO SE DESVÍAN TODAS LAS CATEGORÍAS EN PROMEDIO EN
BASE A LA MEDIA. Bueno puntaje Z es la relación de UN SOLO INDIVIDUO en base al
PROMEDIO (media)
Suponiendo que el promedio de notas de un parcial de una muestra de 500 casos es de =7 con una
desviación estándar s=2,7
Supongamos una persona se sacó un 5 y quiere saber cuánto se desvía del promedio
Vemos que el puntaje Z es negativo, o sea que la persona se desvía por debajo de la media
Si otra persona se sacó un 3 por ejemplo, más bajo todavía del 5 que se sacó el compañero
Si otra persona se sacó por ejemplo un 8 entonces su puntaje Z= 0,37 da positivo, por encima del 0 y
esa persona está por encima del promedio que es en este caso de 7
Si otra persona se sacó por ejemplo un 10, su puntaje Z= 1,11 da positivo, por encima del 0 y está
persona está por encima del promedio y fijensé que ese puntaje es mayor que el anterior 0,37 y claro,
está persona se sacó un 10 y la otra un 8, su puntaje en Z es mayor. ( Y ambos puntajes z dan
POSITIVOS (mayor que 0) porque ambas notas están por ARRIBA del promedio que es 7)
Bueno di estos ejemplos para poder esclarecerles un poco el tema, espero que le sirvan de ayuda y
disculpen si hay errores! Saludos y mucha suerte para todos.
Dante
1
Una tabla bivariada o tabla de contingencia o tabla de distribución conjunta es un arreglo con tantas filas (horizontales) como
categorías tenga una de las variables y tantas columnas (verticales) como categorías tenga la otra variable
Por ejemplo: TIPO DE HOGAR (v1) y la RELACIÓN CON LOS PARES (v2) podemos establecer la siguiente tabla BIVARIADA (bi =2,
variada = variables) con sus respectivas categorías
Podemos creer que el tipo de hogar influye en la relación con los pares, como rebelde, lider, o sumiso, acá tipo de hogar sería
un factor explicativo (y variable ANTECEDENTE) y relación con los pares la variable CONSECUENTE (consecuencia de..v1)
Ahora un concepto MUY IMPORTANTE es el de la DIMENSIÓN de la tabla: este concepto se indica como fxc (filas x columnas) y
se cuentan ÚNICAMENTE las CATEGORÍAS, acá tenemos 4 categorías en Tipo de hogar (FILAS, HORIZONTALES) y tenemos 3
categorías en Relación con los pares (COLUMNAS, VERTICALES) entonces la dimensión de esta tabla es : 4 x 3 (filas por
columnas). Tienen que recordar que si hay totales en la tabla, NO CUENTAN, solo se cuentan LAS CATEGORÍAS, y otra cosa,
nunca va a ser un resultado como decir 4x3= 12, no, porque 12 también podría obtenerse de 3x4 = 12 y no sabemos cuántas
filas y columnas hay, entonces siempre se cuenta FILAS x COLUMNAS, sin excepción y sin resolver. EJEMPLOS:
(SIEMPRE CUENTEN CADA CATEGORÍA Y ASEGURENSÉ DE NO SUMAR LOS TOTALES POR EQUIVOCACIÓN)
1° Distinguimos las 2 variables: Cantidad de horas de estudio diario (v1) y Promedio a lo largo de la carrera (v2)
2° Contamos cuantas categorías hay en cada variable
V1: 0 - 2 hs ; 2 - 4 hs ; 4 - 6 hs ; 6 - 8 hs ; 8 - 10 hs (5 CATEGORÍAS EN FILAS)
V2: 0 - 2,50 ; 2,51 - 5,00 ; 5,01 - 7,50 ; 7,51 - 10,00 (4 CATEGORÍAS)
Entonces la DIMENSIÓN de la tabla es: 5X4 (FILAS POR COLUMNAS)
3° Revisamos y contamos las categorías fijándonos bien en que NO sumemos los totales. SOLO CATEGORÍAS. Dimensión 5x4 !
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Es bastante sencillo! ahora bien, también pueden darle un caso en donde no estén explícitos los totales, y entonces
simplemente lo calculan ustedes, Ejemplo:
¿Cuál es la frecuencia marginal de Monoparental materno? Simplemente sumamos!: 20+30+50= 100! respuesta: 100!
¿Cuál es la frecuencia marginal de Rebeldía? 30+40+10+20= 100! respuesta: 100!
¿Cuál es la frecuencia marginal de Nuclear? 40! . Lo pueden ver? :)
Pregunta colgada jaj, cuál es la dimensión de la tabla???????? 4X3! queda claroooooooooo? espero que si :)
3
Frecuencia conjunta: son simplemente CUALQUIER casilla que haga referencia a una CONJUNCIÓN de 2 variables, así que
MARGINALES, son LOS TOTALES (justamente, estos NO conectan 2 variables, solo el TOTAL de una categoría).
A fin de ayudarlos, en la tabla anterior teñí de GRIS las frecuencias conjuntas. No es muy "importante" este concepto, es muy
sencillo, el primer 20 que aparece por ejemplo conecta a sumisión con monoparental materno, por eso es conjunta, el 10 del
último de la tabla es una conjunción de Liderazgo con Extendido, y así sucesivamente...!
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
* Dos variables se consideran INDEPENDIENTES, justamente cuando los valores de una NO afectan a la otra, es decir, SON
INDEPENDIENTES ENTRE SI. Por ejemplo, si analizamos la cantidad de segundos que te cepillas los dientes en relación al
promedio que tenés en la facultad es sumamente probable que no encontremos relación! a MAYOR cepillarte o MENOR
cepillarte, es indistinto el promedio de la facultad! en cambio en el caso que vimos del boliche y el promedio; o la cant. de
horas de estudio y el promedio de la facultad, ahí vemos que a MAYOR o MENOR boliche/hs de estudio, SI INFLUYE en el
promedio de la facultad, es decir, estas NO son independientes.
Unidad 5: INTENSIDAD Y FORMA DE LA RELACION ENTRE VARIABLES.
Se analizara la relación entre dos o más variables de distinto tipo, y se verá cuan fuerte o débil es, y en algunos casos,
que dirección tiene la relación. Para cada tipo de variable, existen distintos tipos de coeficientes de relación que
analizar.
- Q de Kendall: Su fórmula es
AxD - CxB
AxD+CxB
Antes de calcular estos dos coeficientes de relación, debemos calcular el puntaje “Ji cuadrado (x2) “
- Ji cuadrado: Se calcula para ver la diferencia entre las frecuencias esperadas, y las frecuencias observadas.
Nos servirá más adelante para calcular C de Pearson y V de Cramer. Su símbolo es X2. Su fórmula es :
Nunca te piden calcular las frecuencias esperadas, siempre te las dan. Además no te piden calcular Ji Cuadrado, pero
es bueno saberlo para poder resolver C de Pearson y V de Cramer.
- C de Pearson: Es el coeficiente que nos permite conocer la intensidad de relación entre variables nominales
no dicotómicas, es decir, de más de dos variables. En este caso, nunca va a haber resultados negativos. Y el
resultado, siempre va a estar entre C, y C máxima.
Consta de dos pasos, primero calcular C propiamente dicha. La fórmula es
X2 .
X2 + n
(fila o columna) – 1
fila o columna
La cantidad de filas o columnas totales menos 1, sobre la cantidad de filas o columnas totales. Siempre se
elegirá el número más grande, si hay más columnas que filas, se elegirán las columnas para operar. Si hay
más filas que columnas, será al revés. Y en caso de tener la misma cantidad de filas que de columnas, se
utilizara cualquiera de los dos.
Una vez calculado el CMAX , podremos saber cuál es la relación entre las variables, ya que si el resultado que
obtuvimos de C, está más cerca de 0 (cero), la relación entre las variables será débil. Pero si el resultado de
C, está más cerca de CMAX , la relación será más intensa.
- V de Cramer: Es otro coeficiente para calcular la relación entre variables nominales no dicotómicas. Es muy
parecido al C de Pearson, pues tampoco hay signos negativos, y además se calcula utilizando X 2 ( Ji
cuadrado). La fórmula es:
X2
n x ( MIN de Fila o Columna -1)
En donde X2 es Ji Cuadrado; n es el número total de casos, es decir, el total de totales; y lo que está entre paréntesis
es el Mínimo, es decir el número más chico, o de columna o de fila , menos 1. En este caso, a diferencia de C de
Cramer, aquí se elige el número que sea más chico para operar, o de columna o de filas. Si tenemos 3 filas y 2
columnas, utilizaremos el 2. . Y si tenemos 9 filas y 5 columnas, utilizaremos el 5.
Con este coeficiente la relación va de 0 (cero) a 1 (uno), siendo más débil si el resultado que obtuvimos de la
operación, está más cerca de cero, y tendremos una relación más intensa, si está más cerca de uno.
Aquí no es importante calcularla, ni saber cómo es el procedimiento, sino que lo importante es saber leer y
comprender el resultado.
Este coeficiente de correlación, va desde -1 a +1. Siendo una relación intensa (fuerte) mientras más cerca del uno se
encuentre, ya sea de -1 o de +1; y una relación débil mientras más cerca de 0 (cero) esté. Aquí el signo es muy
importante, ya que nos dirá la direccionalidad que tiene la relación.
- Directa: cuando aumenta una variable, la otra también aumenta; y si disminuye una variable, disminuye la
otra. Si el coeficiente tiene un signo positivo, es porque tiene una relación directa.
- Inversa: cuando aumenta una variable, la otra variable disminuye; y si disminuye una variable, la otra
aumenta. Si el coeficiente tiene signo negativo, es porque tiene una relación inversa.
Entonces, si por ejemplo, nos dicen que un coeficiente R S de Spearman vale -0,80 podemos decir que la relación
entre las variables es fuerte, ya que se encuentra próximo a 1; y que la relación además es inversa. Si fuera 0,67 , la
relación seria moderada, y además directa.
Al igual que con RS de Spearman, no es importante calcularlo, ni saber cómo es el procedimiento, sino que lo
importante es saber leer y comprender el resultado.
Nos sirve para analizar la intensidad de la relación lineal entre dos variables proporcionales o intervalares. Este
coeficiente de correlación, va desde -1 a +1. Siendo una relación intensa (fuerte) mientras más cerca del uno se
encuentre, ya sea de -1 o de +1; y una relación débil mientras más cerca de 0 (cero) esté. Aquí el signo es muy
importante, ya que nos dirá la direccionalidad que tiene la relación. Si el signo es positivo, la relación es directa. Si
el signo es negativo, la relación es inversa.
Cuando este coeficiente se eleva al cuadrado, se obtiene un numero que se llama coeficiente general de
determinación, que se indica como R2, y que mide la parte de la varianza, es decir, la variabilidad, que es compartida
por las dos variables. Asi por ejemplo, si nuestro R vale O,85 , nuestro R2 será de 0,72 , lo que quiere decir que las
variables tienen una varianza del 72%.
DIAGRAMAS DE DISPERSION:
Son representaciones graficas de los valores, con los que a simple vista, se puede observar cuan fuerte o débil es
la relación entre variables y además que dirección tienen.
1. Asignación A PRIORI.
Se asigna la probabilidad a priori, es decir, antes de hacer el experimento. Primero se calcula la probabilidad, y
después se hace el experimento. Por ejemplo, si queremos saber la probabilidad de que salga Cara en una moneda,
haríamos ½. Porque cara es una de las dos posibilidades que tiene la moneda (o sale cara, o sale cruz). La “formula”
que utilizaremos es:
_ A v
Ω
En donde A es la opción que se busca, en este caso Cara. Y donde Ω (omega) es la cantidad de opciones posibles, en
este caso dos (o cara o cruz).
Si por ejemplo, queremos saber la probabilidad a priori de que salga “4” tirando un solo dado, seria 1/6, ya que “4”
es una de las “6” opciones que tiene el dado.
Si ahora quisiéramos saber la probabilidad a priori de que salga “4” tirando dos dados, esta vez seria, 3/36, ya que
“4” tiene tres “formas” en las que puede salir (en el dado A un uno, y en el B un tres; en el dado A un dos y en el B un
dos; y la última en el dado A un tres, y en el B un uno), y lo dividimos por “36” ya que son las opciones posibles de
combinaciones entre dos dados.
2. Asignación A POSTERIORI.
Se asigna la probabilidad a posteriori, es decir, después de hacer el experimento. Primero se hace el experimento, y
luego se calcula la probabilidad. Si quisiéramos saber la probabilidad de que salga Cara en una moneda, tendríamos
que experimentar con ella, tirándola y anotando lo que sale.
Mientras más veces se tire la moneda, mejor va a ser el cálculo a posteriori de la probabilidad; y así influye menos el
azar y el cálculo es más certero.
1. Distribución binomial.
Es la que siempre tiene como resultados 2 opciones éxito o fracaso (cara-cruz; A-B; etc.). La categoría Éxito,
corresponde a la categoría que es investigador toma como de interés. O es una, o es la otra. La condición para que
este modelo sea válido es que cada repetición sea independiente de las anteriores, es decir, que cada realización del
experimento no incida sobre la siguiente.
2. Distribución normal.
Representa los fenómenos que no tienen una distribución
uniforme, es decir, que no es igualmente probable que resulte
cualquiera de los resultados.
CARO SARTORI
CARO SARTORI
Su representación gráfica es una Campana de Gauss, una curva unimodal, simétrica de forma acampanada. En la que
es más frecuente halla valores cercanos al promedio y en la que los valores extremos (ya sean mayores o menores)
son menos frecuentes de hallar.
Lo importante de este tema, es saber hacer las lecturas correspondientes a los intervalos sombreados, en puntaje z y
recordar que puntaje z es una forma de transformar los datos a “otro lenguaje” para poder comparar cosas de
distinto tipo, y que va desde -4 a +4.
P ( z ≥ -1)
Donde P refiere a “probabilidad”. Y el signo ≥ a “mayor o igual que”
P ( z ≤ -1)
Donde P refiere a “probabilidad”. Y el signo ≤ a “menor o igual que”
CARO SARTORI
CARO SARTORI
Para tener en cuenta, las filas son horizontales, y las columnas verticales. Y a la hora de operar con ellas no se
cuentan las filas ni las columnas de los totales.
Si tenemos una tabla de 2 x 4, es decir, de 2 filas y 4 columnas, la misma tendrá 3 grados de libertad.
La distribución X2 tiene muchas aplicaciones, una de las más frecuentes es la de analizar la existencia de una relación
entre dos variables nominales.
En distribución X2, los grados de libertad son a partir del 0 (0, 1, 2, 3, 4, 5, 6 … ) , nunca van a ser negativos, ni
fraccionarios. Si queremos saber cuál es la “probabilidad de hallar, una variable con distribución X 2 con 11 grados de
libertad, que supere a 3”, decimos:
P ( X2 11> 3)
Donde P refiere a la probabilidad, X2 refiere a Ji Cuadrado, y donde 11, son los grados de libertad que se buscan
hallar.
La distribución T se aplica en reemplazo de la distribución normal, cuando se trabaja con muestras pequeñas y que
se va volviendo más equivalente a ella a medida que las muestras son de mayor tamaño.
En distribución T, los grados de libertad son todos los números negativos, el cero, y los números naturales ( … -2, -1,
0, 1, 2, 3 … ), nunca van a ser fraccionarios. Si queremos saber cuál es la “probabilidad de hallar, una variable con
distribución T con -8 grados de libertad que supere a 2”, decimos:
P ( T -8 > 2)
CARO SARTORI
CARO SARTORI
Donde P refiere a la probabilidad, T refiere a T de Student, y donde -8, son los grados de libertad que se buscan
hallar.
Es una distribución asimétrica, no negativa, y su forma depende de los valores de los grados de libertad del
numerador y del denominador. Porque en distribución F, los grados de libertad son solo fracciones positivas, nunca
negativas. (… ⅓, ⅔, ⅕, ⅖, ⅗, ⅙, ⅚, ⅛, ⅜, ⅝ … ). . Si queremos saber cuál es la “probabilidad de hallar,
una variable con distribución F con -⅞ grados de libertad, que supere a 5”, decimos:
P (F ⅞ > 5 )
Donde P refiere a la probabilidad, F refiere a distribución F, y ⅞ son los grados de libertad que se buscan hallar.
1. PROBABILIDADES MARGINALES.
Se utilizan las frecuencias marginales, es decir, las de los totales , para calcular alguna probabilidad de allí. Por
ejemplo, veamos cual será la probabilidad
de hallar una persona cualquiera, al azar,
que viva en Córdoba, sin tener en cuenta el
partido al que diga que vaya a votar.
Tomaremos la celda de totales de
Córdoba, y la dividiremos por el total de
casos, es decir, el total de totales.
Quedaría entonces:
Es importante tener en cuenta que en este tipo de probabilidades, se utilizara un símbolo “ ᴒ” (una U invertida), que
significa “ Y “. Además, aquí se utilizan las frecuencias conjuntas, es decir, la que corresponde a dos categorías,( que
pertenezca a una Mendoza y una Q por ejemplo).
CARO SARTORI
CARO SARTORI
Este tipo de probabilidades sirven para analizar la ocurrencia de uno u otro evento, cuando estos no pueden ocurrir
simultáneamente. Es importante tener en aquí, se utilizara el símbolo “ ᴗ” (como una U), que significa “ O“.
Por ejemplo, analicemos la probabilidad de que alguna persona elegida al azar vote a R o vote a Q.
Quedaría entonces:
Este tipo de probabilidades sirve para analizar eventos que pueden ocurrir simultáneamente. Usaremos nuevamente
el símbolo ᴗ. Analicemos la probabilidad de que alguna persona elegida al azar viva en Rosario o vote a S.
Para esto, tomaremos la celda total
de Rosario y la sumamos a la del
total de S y a eso le restamos la
celda conjunta de Rosario y S, y
dividimos todo eso por el total de
casos, es decir, por n.
(Se le resta la celda conjunta, ya que si la sumamos estaríamos contando dos veces los mismos casos ).
Quedaría entonces:
CARO SARTORI
CARO SARTORI
5. PROBABILIDAD CONDICIONAL .
Este es el caso en el que necesitamos calcular una probabilidad bajo una condición, que restringe el conjunto de
resultados posibles. Para este tipo de probabilidades se empleara el símbolo “ / ” (una barra inclinada) que significa
“ condición”.
Analicemos la probabilidad de que alguna persona elegida al azar vote a Q y como condición viva en Mendoza. (vivir
en Mendoza es la condición, es decir, es una restricción sobre el conjunto total, ya que ahora no debemos tener en
cuenta a las 1530 personas del total, sino solo a los que cumplen la condición de vivir en Mendoza).
Quedaría entonces:
a) Tomaremos la celda conjunta de Córdoba y S, y la dividiremos por el total de casos, es decir, por n.
Quedaría entonces:
CARO SARTORI
CARO SARTORI
P (Cba ᴒ S )
P (Q / Mendoza )
= 0,06
0,1
= 0,6
OPERACIONES CON PROBABILIDADES A PRIORI.
Supongamos que disponemos de una bolsa con 7 fichas: tres fichas color azul, y las cuatro restantes de color rojo.
- ¿Cuál es la probabilidad de obtener una ficha azul? Tendríamos que dividir 3 sobre 7, ya que tenemos 3
fichas azules sobre un total de 7 fichas.
- ¿Cuál es la probabilidad de obtener una ficha roja? Tendríamos que dividir 4 sobre 7, ya que tenemos 4
fichas rojas sobre un total de 7 fichas.
- Suponiendo que en el punto anterior obtuvimos una ficha azul y no la repusimos, ¿Cuál es la probabilidad de
obtener una ficha azul ahora? Tendríamos que dividir 2 sobre 6, ya que ahora hay solo dos fichas azules, de
un total de seis fichas.
- Suponiendo que hubiéramos obtenido en vez de una ficha azul, una roja; y ahora nos queden tres fichas
azules y tres rojas. ¿Cuál es la probabilidad de obtener una fija roja? Tendríamos que dividir 3 sobre 6, ya
que tenemos 3 fichas rojas, sobre un total de 6 fichas.
- Suponiendo que hasta ahora, de la cantidad que había inicialmente, ( 3 azules y 4 rojas), solo quedan 2
azules y 3 rojas. ¿Cuál sería la probabilidad de obtener una ficha roja ahora? Tendríamos que dividir 3 sobre
5.
- ¿Y cuál sería la probabilidad de obtener una ficha azul ahora? Tendríamos que dividir 2 sobre 5.
CARO SARTORI
CARO SARTORI
POBLACION: Conjunto de unidades de análisis que tiene una o varias características definidas, que son
objeto de un estudio particular. Mientras más características tiene, más pequeña será la población.
ELEMENTOS DE LA POBLACION: Pueden ser personas (niños, adultos, jóvenes, estudiantes, ancianos,
trabajadores, desempleados, etc.), hospitales, escuelas, etc.
UNIDADES DE ANALISIS: Son las cualidades que se pretenden observar/analizar de los elementos de la
población previamente elegida.
POBLACION INFINITA: Cuando el número de elementos que integra la misma, es elevado.
POBLACIONES HIPOTETICAS: El investigador crea una población determinada ya que no tiene posibilidad de
delimitar la población completa.
RELEVAMIENTO EXHAUSTIVO: Consiste en observar una característica o variable, en cada uno de los
individuos de la población. También se lo conoce con el nombre de Censo.
MUESTRA: Es un subconjunto de una población que comparte sus características en los aspectos de interés
para la investigación. Va ligado a su capacidad de actuar como “representante “de los elementos de la
población que no han sido seleccionados (representatividad).
PARAMETRO: Es la característica poblacional que pretende conocerse.
ESTIMADORES PUNTUALES: Son los valores calculados sobre los datos muestrales y que se utilizarán para
realizar aproximaciones a los valores poblacionales.
CARACTERISTICAS DE LOS ESTIMADORES: Insesgabilidad y Consistencia.
1. Insesgado: Se dice que un estimador es insesgado, cuando el promedio de todos los valores obtenidos
en todas las muestras de un determinado tamaño es igual al valor de esa característica en la población.
El sesgo de un estimador, es la diferencia entre el promedio que alcanzaría sobre todas las muestras
posibles y el verdadero valor del parámetro poblacional. En el caso de un estimador insesgado, esta
diferencia es igual a cero (sin sesgo).
2. Consistencia: Ya que el aumento en el tamaño de la muestra, mejora la calidad de estimación. Esta
característica solo está presente en algunos estimadores.
MUESTREOS PROBABILISTICOS: Las muestras obtenidas por estos procedimientos permiten generalizar los
resultados obtenidos en ellas a toda la población de referencia. El requisito para que una muestra sea
probabilística es que sus elementos hayan sido elegidos al azar. Dentro de los muestreos probabilísticos,
podemos nombrar:
1. Muestreo irrestricto aleatorio o aleatorio simple: Se necesita de una lista con todos los elementos de la
población (marco de la muestra). Se los sortea, y la probabilidad que tienen cada uno de ellos es la
misma.
2. Muestreo sistemático: Se selecciona un elemento aleatoriamente y comenzando por él se recorre el
marco de la muestra tomando los elementos siguientes a intervalos regulares. El primer paso consiste en
determinar el número de veces que puede incluirse la muestra en la población; para ello :
r = N/n
Donde r representa las veces que la población contiene a la muestra, N es el tamaño de la población, y n
es el tamaño de la muestra.
3. Muestreo estratificado: Se extraen muestras de subconjuntos de la población llamados estratos. Tales
estratos tiene que ser homogéneos en su interior con respecto a alguna característica conocida a priori
(criterio de estratificación). Hay dos tipos de muestreos estratificados
CARO SARTORI
CARO SARTORI
3.1. Muestreo estratificado con afijación igual o uniforme: (Se llama afijación a la modalidad utilizada
para distribuir la muestra sobre los estratos definidos.) El procedimiento es extraer la misma
cantidad de casos de cada estrato. La muestras tienen así el mismo tamaño, que resulta:
ni = n/k
Donde ni es el tamaño de las muestras extraídas de cada estrato, n es el tamaño de la muestra total,
y k representa el número de estratos en que fue dividida la población.
3.2. Muestreo estratificación con afijación proporcional: consiste en extraer de cada estrato una
muestra cuyo tamaño resulte proporcional al estrato del que proviene. Primero se calcula f que es la
proporción de población que integra la muestra:
f=n/N
Este cociente se llama fracción de muestreo. Donde n es el tamaño de la muestra total, y N
representa el tamaño de la población.
En segundo lugar, se aplica la fracción de muestreo a cada uno de los estratos para obtener la
cantidad de casos que deben extraerse de cada uno:
ni = f x Ni
Donde ni es la cantidad de casos que se extraerán del estrato i-esimo, f es la fracción de muestreo
que calculamos antes, y Ni es la cantidad de casos en el estrato i-esimo en la población.
4. Muestre por conglomerados: Se denomina conglomerado a una unidad de muestreo que está
constituida en su interior por varios elementos de la población. Para un diseño de conglomerado deben
definirse unidades primarias de muestreo que contengan en su interior a las unidades elementales.
MUESTREOS NO PROBABILISTICOS: No se cumple el requisito de aleatoriedad en la selección de los
elementos que la componen. Los resultados no se pueden generalizar de manera probabilística más allá de
los casos observados. Dentro de los muestreos no probabilísticos, podemos nombrar:
1. Muestreo por cuotas: Se busca reproducir de la manera lo más ajustada posible las características de la
población en la muestra. Se llama cuotas, a las fracciones de la muestra con las distintas características.
2. Muestreo por juicio o intencional: Conocido también como selección experta, en el que el investigador
es quien decide que elementos son los más adecuados para realizar la investigación. La elección se basa
en la apreciación subjetiva del investigador sobre la representatividad de los elementos que muestrea.
3. Muestreo autoelegido: En este tipo de muestreo no se selecciona a los sujetos de estudio, sino que se
les solicita a las persona que participen voluntariamente.
4. Muestreo accidental o según disponibilidad: Consiste en entrevistar a los individuos que se encuentran
accidentalmente en determinado lugar.
5. Muestreo bola de nieve: Es adecuado cuando se debe estudiar a una población infrecuente, poco
representada en el total general, y no hay un marco disponible para el muestreo.
CARO SARTORI
CARO SARTORI
NOMENCLATURA DE SIMBOLOS:
CARO SARTORI
CARO SARTORI
CARO SARTORI
CAPÍTULO 9: Estimación de parámetros:
• Estimación puntual:
Vemos 2 tipos de estimadores:
* la media muestral ( ) que estima a la media poblacional (µ)
* la proporción muestral ( ) que estima la proporción poblacional (P)
Son estimadores puntuales porque el valor va a ser único y no va a cambiar por más q cambie la confianza!
Ej1: Si de una muestra de 50 alumnos de un colegio secundario encontramos que su promedio es de 7,05,
entonces =7,05 y si ahora queremos saber cuál es el promedio de TODOS los alumnos de ese colegio
secundario (µ) entonces estimaremos (creeremos) que es similar/cercano a 7,05
(Acá estimamos a µ en base a )
Ej2: Si en ese colegio secundario, aleatoriamente seleccionamos a una muestra de 100 personas y
encontramos que la proporción de mujeres es =0,60, entonces estimamos que la proporción poblacional
(la proporción de TODOS los alumnos de ese colegio) sería cercana a P=0,60 (%60)
(Acá estimamos a P en base a )
MUY IMPORTANTE SABERLO: en puntaje Z y pruebas BILATERALES (que explico en el capítulo 10) la
confianza se representa de la siguente forma:
Confianza del %90 en puntaje z: 1,64
Confianza del %95 en puntaje z: 1,96
Confianza del %99 en puntaje z: 2,57
ESTIMACIÓN DE LA MEDIA
La fórmula para sacar los límites inferiores y superiores del intervalo de confianza del %95 en una
prueba BILATERAL es la siguiente:
Ej: Si de una muestra de 500 egresados de Psicología, encontramos que la nota promedio con que egresan
es =9 (eran re capos estos psicólogos ;) jaj) con una desviación estándar de la población =1,2. Ahora
con estos datos, ya podemos sacar el intervalo y hacer una estimación más completa.
Li = 9 – 1,96 * = 8,90
Ls = 9 + 1,96 * = 9,10
Por lo que este resultado se puede leer de la siguiente forma:
“Con una confianza del %95 (+-1,96) el intervalo 8.50 y 9,10 contiene al promedio con que egresan
TODOS los psicólogos de la facultad”, o sea que a partir de la media muestral estimamos a la media
poblacional y establecimos un límite inferior (8,90) y un límite superior (9,10)
9 0,10 que acá está indicando es la media muestral (el estimador puntual) y 0,10 que con ese valor
establecemos los límites del intervalo, y representa al “ERROR DE ESTIMACIÓN”…
“Se llama error de estimación a la distancia que hay entre el estimador puntual y cualquiera de los
límites del intervalo” (la distancia que hay entre 9 y 9,10 (ls) o de 9 y 8,90(li) es de 0,10)
Otro concepto: CALIDAD de los intervalos (a mayor precisión (los intervalos más pequeños) mayor
CALIDAD) …
*Si quisiéramos estar más seguros de que el intervalo contiene a µ podríamos usar una confianza del %99
IMPORTANTE: Vemos que al aumentar la confianza aumentan los límites, por lo tanto aumenta el ERROR
DE ESTIMACIÓN y por lo tanto disminuye su PRECISIÓN, y disminuye la CALIDAD de las estimaciones
por intervalo
ESTIMACIÓN DE LA PROPORCIÓN
IMPORTANTE: EL RAZONAMIENTO ES EXACTAMENTE IGUAL A TODO LO DICHO
ANTERIORMENTE, SÓLO CAMBIA LA FORMA DE CALCULARLO, Y ES LA SIGUIENTE:
z*
Si de una muestra de 900 casos, 450 personas dijeron que votaran a X candidato, la proporción de
personas que tienen intención de voto con ese candidato sería 450/900 que quedaría =0,50 y si usamos
una confianza del %95 el cálculo para determinar los límites seriá el siguiente:
0,50 1,96
Que resolviendo nos quedaría: 0,50 0,016 … entonces los límites resultan:
Li: 0,48,4 Ls: 0,516
Con una confianza del %95 la intención de voto de X candidato oscila entre el %48,4 y el %51,6
*Mientras la proporción más cercana sea al %50, tanto más será el error de estimación de la proporción.
CAPÍTULO 10: Las pruebas de hipótesis:
Las hipótesis nos van a servir para tomar una decisión en base a alguna teoría que tengamos, dado que en
determinadas situaciones no contamos con toda la información, por lo tanto, decidimos en base a estas.
*Vemos 2 tipos de hipótesis:
Hipótesis Nula ( ): SIEMPRE va a indicar que hay “ausencia de diferencias” o sea, hay “igualdad”
Hipótesis Alternativa ( ): Es a la que se suma evidencia cuando se rechaza .
Veamos un ejemplo así vamos entendiendo progresivamente estas 2 tipos de hipótesis y su función en la
practicidad.
Ej1: En una carrera universitaria, cambió el plan de estudios! Entonces por ejemplo, puede CREERSE que
este cambio influye y entonces el tiempo en que tardan en terminar la carrera los estudiantes ahora es
DISTINTO. Históricamente (antes del cambio de plan) los alumnos tardaban en recibirse un promedio de
µ=7,30 años. Ahora supongamos que con el nuevo plan, seleccionamos n=100 egresados y vemos que el promedio
en terminar de la carrera es de = 7,50 años, con una desviación estandar s=1,30 años.
Como anteriormente dice “DISTINTO”, se trata de una prueba BILATERAL porque tiene 2 lados… por 1 lado,
puede ser MAYOR (los alumnos tarden más en recibirse) o por otro lado puede ser MENOR (los alumnos
tarden menos). LAS HIPÓTESIS SE EXPRESARÍAN:
: µ = 7,30 : µ ≠ 7,30
A los datos de la muestra podemos pasarlos a puntaje z en base al promedio poblacional (µ=7,30) y decidir
en si ACEPTAMOS o RECHAZAMOS la de la siguiente manera:
*A se lo conoce como estadístico de prueba (T)
Reemplazando quedaría:
*Si en el mismo ejemplo anterior, la creencia fuera que por el cambio en el plan de estudios, los alumnos tardarían un
tiempo MAYOR en terminar la carrera, ahí sería una prueba UNILATERAL porque tiene 1 LADO, en este caso, el
ser un tiempo MAYOR (>) en cambio en el ejemplo anterior, se creía que el resultado iba a ser DISTINTO, osea
puede ser mayor o menor. Y si usamos una confianza del 95%, acá en puntaje z habría q utilizar +1,64 y si se
hubiese creído que el resultado iba a ser MENOR, con el 95% de confianza se utilizaría -1,64
Si en una prueba bilateral, con una confianza de %95 el valor nos da 2,09 entonces decimos que ese resultado es
SIGNIFICATIVO a un nivel de significación del 5%(confianza 95%) ya que los valores en z serían 1,96 y el valor
2,09 está luego de 1,96, está en la zona de rechazo, pero no es SIGNIFICATIVO a un nivel de significación del
1%(Confianza 99%) ya que para esa confianza, los valores en son 2,56 y el valor 2,09 está en la zona de
aceptación (entre -2,56 y +2,56)
**El nivel de significación se representa con el siguiente símbolo а**
Piensen!!! como son ERRORES, si el primero es RECHAZAR, entonces será RECHAZAR cuando es VERDADERA
porque eso SI sería un error, pero no podría ser RECHAZARLA cuando es FALSA, por que eso NO sería un error!!!
CONCEPTOS:
β representa a la probabilidad de cometer ETII
1- β es la potencia de la prueba, es la probabilidad de RECHAZAR la cuando esta es falsa (o sea mientras
mayor sea este valor, mayor será la calidad de la prueba, mayor posibilidad de que sea cierta la
Es obvio y no está de más decirlo que a mayor es β, tanto menor será 1- β y viceversa
IMP: ¿Cuándo tengo más posibilidades de cometer cualquier ERROR (ya sea tipo I o tipo II)
Es fácil, a más cerca esté el valor obtenido ( / ) de los límites del intervalo, mayor posibilidad de ERROR.
VALOR P
Se llama valor p a la probabilidad de hallar un resultado igual o más extremo que el obtenido bajo la suposición de
que la es cierta.
Cuanto más pequeño sea el valor p, tanto más evidencia hay para rechazar la y cuanto más grande sea mayor
será la evidencia para aceptarla, El valor p nos permite saber si fue aceptada o rechazada la prueba y cuán
confiable es esa decisión. Cuando el valor p sea mayor que el nivel de significación а aceptamos la y cuando
sea menor, la rechazamos, Ej: si tenemos а = 0,05 (5%) y valor p = 0,07 (7%) ahí aceptaríamos la ( 7% mayor
que 5%) pero se rechazaría a un nivel de significación а = 0,10 (%10) (7% menor que %10)
Y supongamos que en 2 casos distintos, los respectivos valores p dan como resultado:
Caso 1 valor p = 0,50
Caso 2 valor p =0,17
*En ambos casos se aceptaría la bajo cualquier nivel de significación (ya sea 1%, 5% y 10%) osea, a cualquier
nivel de confianza (ya sea %99, %95, %90). Sólo que en el caso 1 habría mayor evidencia para aceptar la que
en el Caso 2, dado que el valor 0,50 es más alto que 0,17, por lo tanto mayor es la probabilidad de que la sea
cierta.
PRUEBA T
No voy a hacer mucho hincapié en esto, se los súper resumo, prueba t representa a
Listo, ya terminé el 10, espero que les sirva muchísimo y buena energía para todos, saludos!
CAPÍTULO 11: Comparación entre 2 grupos
En el capítulo 10 (Prueba de Hipótesis) justamente como lo dice el nombre, Se ponía a prueba la Hipótesis
Nula, vemos si se Acepta como cuando P mayor que 0,10 y T está dentro de los intervalos de confianza, es
decir, es Menor al +-1,64
En el capítulo anterior se comparaba un valor HISTÓRICO, con un valor ACTUAL de una MUESTRA
Es decir, uno histórico/poblacional (µ) y uno muestral ( )
La Ho avala la NO DIFERENCIA, LA IGUALDAD, es decir que el valor histórico y el actual de la
muestra/salida de INFOSTAT son prácticamente iguales, que las cosas NO CAMBIARON
La Hi avala LA DIFERENCIA, EL CAMBIO, es decir que el valor histórico y actual muestral si son lo
suficientemente distintos como para tratarlos como diferentes
MUESTRAS INDEPENDIENTES:
Acá lo que se busca es comparar las medias o proporciones de 2 grupos, y ver si son:
LO SIGNIFICATIVAMENTE DIFERENTES como para TRATARLOS COMO DISTINTOS Y RECHAZAR
LA Ho, o si por el CONTRARIO, SI SUS DIFERENCIAS NO SON SIGNIFICATIVAS, COMO PARA
TRATAR ESAS 2 POBLACIONES/GRUPOS COMO IGUALES Y ACEPTAR LA HIPÓTESIS NULA
Acá para expresar las hipótesis NO TENEMOS que utilizar NINGÚN NÚMERO
Serán de la siguiente manera, SIEMPRE:
La Ho avala que entre esos 2 momentos NO HUBIERON CAMBIOS, que NO HAY DIFERENCIAS
SIGNIFICATIVAS ENTRE EL ESTADO INICIAL Y FINAL
La Hi avala que entre esas 2 instancias SI HUBIERON CAMBIOS, que SI HAY DIFERENCIAS
SIGNIFICATIVAS ENTRE EL ESTADO INICIAL Y FINAL
Recuerden: en Muestras Apareadas se quiere ver diferencias INDIVIDUALES, y en Muestras
Independientes se quiere ver diferencias GRUPALES
es la media de las diferencias individuales, porqué acá se comparan diferencias individuales, y se compara las diferencias entre el
ANTES y el DESPUÉS
Y en Muestras Independientes, comparamos diferencias GRUPALES, las diferencias entre 2 GRUPOS.
Acá al igual que el cap. 10 habrá un Valor P y un valor T, ambos con sus diferentes idiomas, te dirán lo mismo, si se Acepta o Rechaza la
Hipótesis Nula es decir, te dirá que NO HAY DIFERENCIAS SIGNIFICATIVAS (Aceptación de la Ho) o que SI LAS HAY (Rechazo de la Ho)
_______________________________________________________________________________________________________________
PROCEDIMIENTO PARA REALIZAR UNA PRUEBA DE HIPÓTESIS EN MUESTRAS INDEPENDIENTES!!!!!
1) Extraemos dos muestras: n1 y n2 (como decir n1 varones n2 mujeres)
(Recuerden que mientras mayor sea la muestra, será MEJOR, mejor la estimación y la conclusión!)
2) Calculamos las medias o proporciones de cada grupo (ESTIMADORES) y también las varianzas de
cada grupo (s2 del grupo 1 y s2 del grupo2)
(Si las dos varianzas se consideran “IGUALES” se utiliza las fórmulas del Caso 1, y si las varianzas de
los grupos se consideran “DISTINTAS” entonces se utilizan las fórmulas del Caso 2)
REVISEN EL LIBRO para ver el Caso 1 y Caso 2 (no es tan importante)
3) Se Calcula el estadístico de Prueba T y también P (ambos están asociados, te muestran si se
Acepta o Rechaza la Ho) y con el resultado P o de T, sabemos la conclusión de la investigación
FINNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN