Los Datos Estadísticos

Contenido
Unidad 1..........................................................................................................................................................................1
Los datos estadísticos:.................................................................................................................................................1
Definición de un concepto:.........................................................................................................................................1
La selección de la información pertinente:..................................................................................................................1
Por relevamientos: producen datos de stock, instantáneo, tienen principio y fin........................................................1
Por registros continuos: datos de flujo, continuamente son ingresados datos a la matriz............................................2
orden de la información..............................................................................................................................................2
Matriz de datos:......................................................................................................................................................2
Unidades de análisis:...............................................................................................................................................2
Variables:.................................................................................................................................................................2
 Categorías............................................................................................................................................................3
 Las categorías deber cumplir con requisitos....................................................................................................3
Los símbolos numéricos:.................................................................................................................................................3
La medición.............................................................................................................................................................3
Nivel de medición....................................................................................................................................................3
Nivel de medición....................................................................................................................................................3
Unidad 2..........................................................................................................................................................................4
Cambio de óptica desde lo particular a la regularidad colectiva.................................................................................4
Tablas de distribución de frecuencias (tablas de valores), contienen los recuentos de c categoría............................4
La presentación grafica de los resultados....................................................................................................................5
Unidad 3..........................................................................................................................................................................7
Expresión resumida de la información........................................................................................................................7
medidas de posición: indicaran en torno a que valores se distribuyen las observaciones..........................................7
variables nominales:....................................................................................................................................................7
variables ordinales......................................................................................................................................................7
variables métricas.......................................................................................................................................................9
medidas de forma: nos indican por medio de simetría y curtosis la forma de la distribución....................................9
la forma de la distribución...........................................................................................................................................9
asimetría: En una distribución se indica ella señalando hacia donde se sitúan los valores extremos.........................9
Cálculo de asimetrías...................................................................................................................................................9
evaluación cuantitativa de asimetrías.......................................................................................................................10
Curtosis..................................................................................................................................................................... 10
medidas de dispersión: o variabilidad que nos muestran si los datos están alejados de las medidas centrales o
alrededor de ellas......................................................................................................................................................10
medidas de dispersión basadas en la media.............................................................................................................11
Box plot y la dispersión.............................................................................................................................................11
medidas de dispersión cuando no hay distancias......................................................................................................12
El individuo en relación a su grupo............................................................................................................................12
Puntaje z:................................................................................................................................................................... 13
Puntaje z para variables cualitativas..........................................................................................................................13
Unidad N°4.................................................................................................................................................................... 13
Relación entre variables............................................................................................................................................13
tablas bivariadas, o de contribucion conjunta...........................................................................................................14
tipos de frecuencia y su lectura:................................................................................................................................14
clasificaciones de las relaciones................................................................................................................................14
una clasificación respecto al tiempo.........................................................................................................................14
la dirección de la relación..........................................................................................................................................14
La intensidad de la relación.......................................................................................................................................15
evaluando la distribución conjunta...........................................................................................................................15
Coeficiente q de Kendall mide la intensidad de relación para variables dicotómicas................................................16
concepto de independencia estadística....................................................................................................................16
Unidad N°5.................................................................................................................................................................... 17
Relación entre variables............................................................................................................................................17
Variables nominales..................................................................................................................................................18
Coeficiente de asociación para variables nominales,................................................................................................20
Variables de nivel ordinal:.........................................................................................................................................21
Unidad N° 6................................................................................................................................................................... 23
Obtención de la muestra:..........................................................................................................................................23
Muestra:.................................................................................................................................................................... 24
Muestreo probabilístico............................................................................................................................................24
Muestreo aleatorio simple........................................................................................................................................25
Muestreo sistemático................................................................................................................................................25
Muestreo estratificado..............................................................................................................................................26
Afijación proporcional...............................................................................................................................................26
Unidad N°7.................................................................................................................................................................... 27
Formas de asignar probabilidades.............................................................................................................................27
Asignación a priori.....................................................................................................................................................27
Asignaciones a posteriori..........................................................................................................................................28
Relación entre asignación a priori y a posteriori.......................................................................................................28
Operando con probabilidades...................................................................................................................................28
Probabilidades marginales........................................................................................................................................28
Probabilidades conjuntas:.........................................................................................................................................28
Unidad N° 8................................................................................................................................................................... 29
Probabilidad de los modelos.....................................................................................................................................29
Concepto de modelización........................................................................................................................................30
Distribución uniforme...............................................................................................................................................30
Distribución binomial................................................................................................................................................30
Esperanza y varianza.................................................................................................................................................31
Distribución normal...................................................................................................................................................32
Unidad n° 9.................................................................................................................................................................... 43
Unidad 10...................................................................................................................................................................... 44
Unidad 1
Los datos estadísticos:
Para que pueda ser analizada e interpretada primero se debe presentar la información de manera amigable, por eso el
primer paso es ordenar los datos recogidos, segundo paso si se podrá utilizar las técnicas de análisis.
La ciencia es generadora de “conocimiento validado” el cual debe de ser comunicado de manera transparente hacia la
comunidad científica, ello genera la necesidad de usar un lenguaje que dependa en menor grado de las
interpretaciones sesgadas de cada investigador; un modo de hacerlo es tratando de definir los elementos acerca de
los que se habla.
Definición de un concepto:
Si se puede definir un concepto, se puede indicar también los mecanismos que se necesita usar para evaluarlo. Al
diseñar un instrumento (que refleje ese concepto) se lo puede aplicar en diferentes unidades de análisis, de este modo
se evalúa ese concepto en diferentes unidades de análisis, ello nos dará un resultado que si se expresa de forma
cuantitativa permite hacer comparaciones de este concepto o aspecto que represente este concepto entre diferentes
unidades de análisis.
¿Pueden compararse unidades de análisis? No porque una unidad de análisis es tan amplia que tiene muchos aspectos
que la hacen única, pero si pueden compararse son las variables o características que esas unidades de análisis todas
ellas comparten en algún sentido, pero q no son iguales en todas.
La selección de la información pertinente:
Cuando se sabe a quienes serán las unidades de análisis que se observará, se debe de elegir solo algunas
características/atributos que se observaran en detalle de estas UdeA. Esta se denomina recorte, porque discrimina los
atributos importantes de los no importantes, A ello se le llama la información pertinente para la investigación.
 RECORTES: significa que solo se observaran algunas características/atributos de las UdeA, solo las de
interés, para la investigación.
o Ejemplo si nos interesa la opinión política de las personas, las personas como entidades tienen
muchas características que podríamos observar, pero a los fines nada importa su estatura o región
en la que viven.
Trabajo de campo
Por vía de dos mecanismos, se toman los datos de las unidades de análisis.
Por relevamientos: producen datos de stock, instantáneo, tienen principio y fin.
recogen un conjunto de características/atributos de las UdeA. en un tiempo determinado, (día y mes), el mecanismo
tiene un principio y un fin, hacen un corte transversal (como si tomasen una foto) de las características/atributos de
las UdeA y luego eso es evaluado.
 A modo de ejemplo de un relevamiento tenemos los censos
o se hace en un día, cada 10 años donde se rejunta un paquete de datos como son sexo, edad, estudios,
hogar. A todas las personas que viven en un determinado país.
 Otro ejemplo de relevamiento son las encuestas
 Otro ejemplo de relevamiento son las observaciones ellas pueden ser
o Directas: observa el evento en el cual está inmerso y
o Estructuradas: hace lo mismo, pero sobre un escenario previamente elaborado.
Por registros continuos: datos de flujo, continuamente son ingresados datos a la matriz
Captan la información a medida que se van informando, son estables y continuos es decir tienen un inicio del registro,
pero no un final porque siempre se esta reportando observaciones nuevas
 Ejemplo de ellos son los registros civiles
o van registrando todos los nacimientos que van ocurriendo a lo largo del año, en cualquier momento
que quiera ver la matriz de datos puedo saber que cantidad de nacimiento han ocurrido hasta ese año,
por ejemplo.
Culminado el trabajo de campo (hacer relevamiento/registros sobre una cantidad de UdeA) se cambia la óptica desde
el caso particular a la regularidad colectiva, una mirada puesta en el grupo (todas las unidades de análisis).
orden de la información
Antes de adentrarnos a las técnicas de análisis habíamos dicho que debíamos ordenar la información, cuando se busca
ordenar la información en bruto se usa a la matriz de datos, ella contendrá toda la información que luego será insumo
de los análisis posteriores, veamos cómo se construye
Matriz de datos:
Es un arreglo rectangular de filas x columnas, en las filas se ubican los casos, es decir las distintas UdeA observadas,
en cada columna estarán las variables es decir las características/atributos observados a las distintas UdeA.
Dentro del cuerpo de la matriz cada celda es una categoría es decir un valor/respuesta que informo cada UdeA sobre la
variable observada.
Unidades de análisis:
Serán los entes individuales que serán observados para la investigación, ellos pueden ser entes individuales como son
las personas, o pueden ser entes plurales (hogares, países)
Variables:
Son las características/atributos que serán observadas en cada UdeA. los aspectos sobre los cuales se dirige la
atención, ellas deben ser variables (cambiantes) sino serian constantes y no sirve para el análisis.
 Categorías: el cuerpo de la matriz de datos tiene valores, ellos pueden ser representado con letras o números
indistintamente, las categorías son los posibles valores/respuestas de una Variable (son las alternativas de las
variables).
 Las categorías deber cumplir con requisitos
o Que cada categoría (valor/respuesta) excluya a la demás exclusión mutua.
 Ejemplo: Si tengo 20 años, no puedo tener 40 al mismo tiempo, solo 1 categoría puede
corresponderle a una UdeA.
o Todas las posibilidades de valores/respuestas deben de estar contemplados en una variable
Exhaustividad.
 Ejemplo: si no me representa el género mujer/hombre debería existir una categoría que me
represente una alternativa género no binario por ejemplo.
Los símbolos numéricos:
¿De qué depende que algunas categorías se expresen en formato letra o formato número?
La medición
Desde el punto de vista clásico la teoría demanda que los n# de las categorías tengan alguna propiedad para
considerarla mediciones de este modo la medición en psicología sería muy difícil realizar, por ello usamos la
definición de Stevens, medir es asignar n# a objetos, según cierta norma, estos números no representan
cantidades sino RELACIONES. Esta definición está basada en la teoría representacional de la medición.
Esto nos lleva comprender porqué tendremos diferentes tipos de variables, estas diferencias vendrán dada por
las reglas que ligan los números con lo que se observa.
Nivel de medición
Esta determinado por el significado que tengan los números que se asignan a las categorías. Hay grados
diferentes de libertad para asignar números a las categorías, estas diferencias distinguen los niveles de
medición de las variables.
Nivel de medición
según la arbitrariedad que hay en la relación que liga los números a las categorías hablamos de diferentes
niveles de medición.
 Nivel nominal: el más básico de los niveles de medición tiene una amplia libertad para elegir los
códigos numéricos. Tiene una restricción que no es válido usar más de una vez el mismo número
entonces a este nivel puede asignarse de manera arbitraria uno y solo un número. Esta manera de
asignar números solo implica que estos números solo van ayudar a distinguir una categoría de otra.
Debido a esto no pueden hacerse ningún tipo de cálculo aritmético con ellas, solo nos permiten saber
si una unidad de análisis comparte o no la misma categoría, es decir si tienen la misma cualidad o
diferente.
 Los números tienen la cualidad de distinguir dos categorias
 Nivel ordinal son variables cuyas categorías indican alguna cualidad de las unidades de análisis que
crece en una dirección, podemos hacer juicios de orden es decir saber si una categoría es menor o
mayor que otra. Los números acá designan categorías y son expresión de jerarquía entre las
categorías. Entre dos categorías de nivel ordinal solo pueden establecerse relaciones de orden y no
pueden hacerse cálculos aritméticos con ello
 Los números tienen la cualidad de expresar jerarquía entre dos categorias
Ahora vienen los niveles de mediciones diferentes. En las escalas inérvalas se conservará la distancia entre las
categorías y en las proporcionales la proporcionalidad de las categorías, podremos decir si aquí que 4 será el
doble de 2.
 Intervalar: los valores de las categorías es decir los números permiten decir a que distancia esta una
categoría de otra porque los valores se expresan en sentido cuantitativo, aunque el cero no indica
ausencia de lo que se este midiendo, es mas bien un punto de origen de la escala.
 Proporcional: es la ausencia de lo que se mide, se trata de un cero absoluto, estamos también en
presencia de una escala proporcional, aunque el cero no sea un valor observable. El cero absoluto
implica que no puede modificarse la posición del cero porque en esta escala es absoluto.
Ya identificadas las variables y reconocido su nivel de medición, es necesario darle a la matriz de datos un
formato que permita hacer lecturas de los resultados, ya que es engorroso observar una tabla con muchos
casos y variables. Lo que hacemos es lo que ya hicimos en la parte de la regularidad en conjunto el más
elemental de los resúmenes consiste en contar (para una variable) cuantas apariciones tiene cada categoría.
Unidad 2
Cambio de óptica desde lo particular a la regularidad colectiva
Culminado el trabajo de campo (hacer relevamiento/registros sobre una cantidad de UdeA) se cambia la óptica desde
el caso particular a la regularidad colectiva, una mirada puesta en el grupo (todas las unidades de análisis), en vez de
analizar cada unidad de análisis se analizará cada característica observada de la unidad de análisis.
Tablas de distribución de frecuencias (tablas de valores), contienen los recuentos de c categoría.

Dentro encontramos distintos tipos de recuentos, tenemos
1. frecuencia absoluta simple f, son la cantidad de casos (recuento de valores/respuestas de una categoría de la
variable) o en otras palabras el número de casos que asumen ese valor/respuesta de la variable.
Si lo que se buscara seria comparar matrices de datos diferentes con totales de casos diferentes, pero que
analizan la misma variable en otras unidades de análisis, se calculan las frecuencias relativas., se trata así de
calcular la contribución de esa categoría al total de casos.
a. frecuencia relativa es la proporción de casos que asumen ese valor/respuesta de la variable.
También resultara de interés mostrar cuantos tienen valores iguales o menores a un determinado valor, esto se
llama
2. frecuencias acumuladas, su cálculo consiste en contar las frecuencias de la categoría que interesa y sumarla
a las frecuencias de la categoría anteriores a ella. Estas frecuencias se pueden volver relativas al dividirlas por
el total de casos y dan lugar a las frecuencias relativas acumuladas.
La presentación grafica de los resultados

En la misma dirección de ofrecer una presentación de los datos recogido que sea accesible para la interpretación,
veremos las 5 representaciones que más se usan para describir la información cuantitativa. Nuevamente se debe
informar que se pierde parte de la información que se muestra en os del impacto visual y facilidad de lectura de los
gráficos.
Para datos no agrupados
Grafico Niveles de medición Tipos de recuento que usa
Barras para de presentar datos cualitativos o Frecuencia absoluta simple f
datos cuantitativos de tipo discreto. Se Altura de la barra = f
representan sobre unos ejes de
coordenadas, en el eje de abscisas se
colocan los valores de la variable, y
sobre el eje de ordenadas las frecuencias
absolutas o relativas o acumuladas.
Los datos se representan mediante barras
de una altura proporcional a la frecuencia
Tortas Nominal, cuando son pocas categorías y Frecuencia relativa f’

muy bien marcadas las diferencias. se Angulo = f’
puede utilizar para todo tipo de variables,
pero se usa frecuentemente para las
variables cualitativas. Estas gráficas son
muy frecuentes en periódicos, revistas y
publicaciones especializadas. Los datos
se representan en un círculo, de modo
que el ángulo de cada sector es
proporcional a la frecuencia absoluta
correspondiente.
Para datos agrupados
Histogramas Histograma es una representación grafica En el eje de las absisas se
de una variable en forma de barras. Es construyen unos rectángulos
utilizada por variables continuas, o que tienen por base la amplitud
variables discretas con un gran numero del intervalo y por altura la
de datos y que s ehan agrupado en clases. frecuencia absoluta de cada
intervalo, la superficie de c/ es
proporcional a la frecuencia de
valores.
Polígonos de frecuencias Para construirlo se toma la marca de Frecuencia relativa o

clase que coincide con el punto medio de
cada rectángulo Frecuencia acumulada.
Ojiba de galton Para niveles superiores a los ordinales, Utilizan la F acumulada, tiene
Luego esta el grafico de escalones, el la particularidad, que a través
cual si la variable resulta ser una variable del grafico puedo obtener
continua se trata de la ojiva de Galton, F que no han sido calculadas
las frecuencias se van acumulando con numero.
gradualmente a medida que aumenta el
valor de la variable
Unidad 3
Expresión resumida de la información.
son medidas que resumen de manera sintética el comportamiento de los datos, se pierde de vista los individuos de
una matriz de datos y las distribuciones de frecuencias de las tablas, describir al conjunto de datos se logra por
medio de 3 medidas:
medidas de posición: indicaran en torno a que valores se distribuyen las observaciones

variables nominales:
 las proporciones: resumen la tabla de distribución de frecuencias indicando la proporción de casos que se
encuentra en una determinada categoría, el modo de calcularla es representar la categoría que tiene la
frecuencia relativa de la categoría que es imprescindible para la investigación. Al elegir una categoría para
resaltarla, la proporción restante aglomera a todas las demás categorías, ellas serán ahora llamadas las otras
posibilidades, esta proporción restante se obtiene de restar 1 a la proporción resaltada. es muy utilizada en
variables dicotómicas, porque al presentar la proporción de una categoría inmediatamente se sabe por
resto, el complemento, que es la proporción de la otra categoría.
 tasas: es la frecuencia relativa de un fenómeno en referencia a una población total, tiene en cuenta el
periodo de tiempo, es común este término cuando se trata de hechos de poca incidencia es decir de
frecuencias chicas, no se expresa porcentualmente sino por 1000,10.000. Por ejemplo, la tasa de
desocupación en argentina se define como la proporción de personas desocupadas respecto del total de
personas activas. se usan para resumir procesos que suceden a lo largo del tiempo, esos procesos se captan
mediante registros continuos, como registros de defunciones, registros de casamiento, registro de
nacimientos, otro ejemplo, la tasa bruta* de mortalidad se calcula dividiendo la cantidad de defunciones
ocurridas en un periodo de tiempo por el talta de la población que vivía en ese tiempo, se dice que es un
cálculo bruto por que el mismo no hace distinción por características de la población como edad o sexo.
 razones: es el cociente entre conjunto que no tienen elementos en común, por ejemplo el índice de
masculinidad o la razón de masculinidad es el cociente de la cantidad de hombres por c/ 100 mujeres, y se
obtiene haciendo el cociente de varones entre mujeres multiplicado por 100, lo que distingue a la razón de
proporciones y tasas es que el numerado no está incluido en el denominador.
 modo: se puede indicar en todos los niveles de medición, es la categoría que tiene la mayor frecuencia, o el
valor mas frecuentemente observado, no requiere calculo. puede usarse la frecuencia absoluta simple o la
relativa para determinar cual es el modo de la distribución, debe rescatarse que para hallar se identifica la
frecuencia mas alta y se enuncia a la categoría no a la frecuencia como modo. puede suceder que 2 o más
categorías compartan tener la mayor frecuencia, en este caso son bimodales o multimodal.
variables ordinales
cuantiles, cuando las categorías puede hacerse uso de la propiedad de orden entre categorías, se pueden usar los
cuantiles, se utiliza para ordinales o superiores pero no está presente en variables con categorías que no este
presente esta cualidad de orden, los cuantiles usan las frecuencias acumuladas relativas, (en las nominales no
existen estas)
concepto: Estas medidas se definen como el valor de la variable que deja por debajo una determinada proporción de
observaciones, cuando a los cuantiles se lo expresa en porcentaje se los llama percentiles.
 mediana, (utiliza el concepto de los cuantiles): es el valor que deja por debajo de si y por encima de si, la
mitad de las observaciones, se trata de la mitad de los casos totales y no de las categorías. por ello necesita
que los datos estén ordenados. La mediana coincide con el cuantil 0.50 si la variable es continua la mediana
deja exactamente la misma cantidad de casos por debajo y por encima de si, si la variables es discreta deja
por debajo la mitad o más de casos y por encima la mitad o más.
Ahora veremos puntos de cortes que dejan por debajo de si 1/4 de los casos y 3/4 de las observaciones. estos
puntos de corte se llaman 1er cuartil y 3er cuartil, la media sería el 2do cuartil ½ de las observaciones
 primer cuantil es la categoría que deja por debajo de si el 1/4 de las observaciones y 3/4 por encima.
 tercer cuantil es la categoría que deja por debajo de si el 3/4 de las observaciones y por encima un 1/4
 percentiles, estos son cortes en la distribución que por su generalidad se conocen como percentiles, son
valores porcentuales que dejan por debajo o acumulan distintos porcentajes de casos. por ejemplo, el 1°
cuartil por 100 sería el percentil 25%, a diferencia de los cuantiles puedo calcular cualquier corte.
 quintiles: representan valores que acumulan quintos es decir 20% de la distribución, los cuales corresponden
a los cuantiles 0,20 - 0,40 - 0,60 - 0,80
 deciles: los cortes que generan 10 grupos con la misma cantidad de casos, cuantiles 0,10 - 0,20 - 0,30 - 0,40-
0,50 - 0,60 - 0,70 - 0,80 - 0,90
En esencia entonces los cuantiles, quintiles, deciles y percentiles son todos cuantiles particulares.
 la mediana es el cuantil 0,50 y ella define 2 grupos con la mita de los casos c/uno
 los cuantiles definen 4 grupo con 25% de casos en c/uno.
 los quintiles definen a 5 grupos con 20% de casos en c/uno.
 los deciles definen a 10 grupos con 10% de casos en c/uno.
 los percentiles cortan el campo de variación de la variables en 100 grupos cada uno de los cuales tiene al 1%
del total de casos.
todas ellas tienen en cuenta el orden de las categorías y se calculan en base de la frecuencia acumulada ya sea
absoluta o relativa.
todas las medidas que mencionamos dentro de los cuantiles, pueden obtenerse de forma aproximada a traves del
grafico de frecuencias acumuladas (ojiva de Galton) frecuencias que no han sido calculadas.
Los quintiles de esta distribución son (p20=7000, p40=12000, p60=16000, p80=21000) y representan valores de
ingresos salariales que contienen un quinto de personas asalariadas cada uno, si yo me encuentro en este primer
quintil de los ingresos salariales quiere decir que pertenece al 20% de los que tienen menos ingresos.
Una medida de distribución de salarios se obtiene dividiendo 2 percentiles extremos, por ejemplo el percentil 90
sobre el percentil 10, ese cociente indica cuantas veces mas grande es el salario del gurpo mas alto comparado con
el mas bajo. Y se enuncia como el grupo de personas asalariadas de ingresos mas altos los tiene 6.25 veces
superiores a los grupos de menos ingresos este coeficiente se usa para medir el grado de desigualdad de la
distribución
variables métricas
en este nivel de medición debemos rescata las propiedades de los números como son en las escalas intervalares la
conservación de las distancias entre las categorías, y la proporcionalidad de los valores absolutos y el carácter
absoluto del cero, en este nivel los números representan las categorías pueden tratarse como tale sy se puede
operar con ellos.
 media o promedio, es un valor de la variable obtenido de la sumatoria de todas las observaciones

multiplicadas por sus frecuencias absolutas simples, divididas por el número total de casos
medidas de forma: nos indican por medio de simetría y curtosis la forma de la distribución
la forma de la distribución
la media tiene una cualidad* en la que a veces opera como un punto de equilibrio de un conjunto de datos, porque
ella considera a las frecuencias de cada observación, a veces esta cualidad* puede ser una dificultad.
la presencia de valores extremos en el cálculo de la media, aunque este tenga una frecuencia valor muy chico tiene
el efecto sobre el cálculo de tirar de la media hacia valores más grandes, lo mismo pero a la inversa si tenemos un
valore extremo muy chico, ello sucede con la media porque ella tiene en cuenta a todos los valores de la
distribución. Entonces en estos casos la media no es una buena medida de centralidad.
asimetría: En una distribución se indica ella señalando hacia donde se sitúan los valores extremos.
 si los valores extremos son mayores que la mayoría de los datos la simetría es derecha
 si los valores extremos son menores que la mayoría de los datos la simetría es izquierda.
gráficamente se puede ver en un histograma.

Cálculo de asimetrías
la asimetría puede evaluarse a partir de medidas de centralidad, se compara la posición relativa de la media y la
mediana ella indicara hacia donde sucede
χ =Medianadistribucion simetrica
χ > Mediana distribucion asimetrica derecha
χ < Mediana distribucion asimetrica izquierda

Esto se puede ver a través de la ojiva de Galton, recordemos que la media y mediana se calculan para niveles
superiores al nominal, donde se pueden usar las frecuencias acumuladas, de estos gráficos interesa la zona en que
crecen más rápido, porque allí es donde está la mayor concentración de casos. cuando la distribución es simétrica la
parte del crecimiento rápido es decir donde la curva tiende a ser más vertical está ubicada en el centro
 Es asimétrica derecha, la ojiva crece rápido al inicio, es decir en valores mas chicos de la variable
 Es asimétrica izquierda, la ojiva crece rápido en valores más grandes de la variable.
evaluación cuantitativa de asimetrías

hay coeficientes de asimetrías que nos permiten comparar entre distribuciones distintas cuando una es más
simétrica que otra, este coeficiente mide dos aspectos de asimetrías, hacia qué lado sucede y cuan acentuada es.
 positivo, asimetrías derechas

 negativo, asimetrías izquierdas.
en cuanto a su valor absoluto se debe saber que cuando este vale cero, hay simetría, en la práctica es improbable
que el creciente sea cero, pero se considera un rango entre -0,5 y 0,5, si este coeficiente es mayor a cero es
asimétrica derecha
g 1=0 distribucion simetrica

g 1>0 distribucion asimetrica derecha
g 1<0 distribucion asimetrica izquierda
Por ejemplo, si g1 es 1,2 y g1’ 2,3 podemos decir que g1 1,2 es más asimétrico que g1’
Curtosis
Además de la asimetría otro indicador de la distribución es saber cuan puntiaguda es la curva, distingue entre
distribuciones con forma estrecha y elevada de otras que son amplias y elevadas. la curtosis se mide con un
coeficiente especifico que tiene valores, que van de más a menos infinito pasando por el cero, en la práctica no hay
forma que el coeficiente sea cero, por lo que se toma un intervalo entre
0,5 y -0,5
medidas de dispersión: o variabilidad que nos muestran si los datos están alejados de las medidas
centrales o alrededor de ellas.
Este tiene importancia para poder evaluar la calidad de las medidas de centralidad, sobre todo de la media, una
distribución muy dispersa, la media será un promedio de valores muy diferentes entre sí y no será tan fiel a los datos
como si estos valores fueran similares.
 poca dispersión: si los datos están cercanos entre si, es una distribución homogénea
 mucha dispersión: si los datos están alejados entre si, es una distribución heterogénea.
Veremos de qué modo puede medirse esa dispersión como transfórmala en una medida de resumen que indique
brevemente si los datos están dispersos o concertados.
 recorrido: considera la distancia que hay entre los valores extremos, el menor y el mayor, es una medida
insuficiente como medida de dispersión ya que no tiene en cuenta los valores intermedios ejemplo si hay un
caso que tiene un valor excepcionalmente alto el recorrido dará un valor alto indicando gran dispersión, lo
que nos puede hacer pensar que todos los datos están dispersos, y quizás eso no es así.
 Amplitud inter quartilica: para afinar el cálculo del recorrido se toma la distancia que hay entre el cuartil
1ero y 3ero, si bien tampoco considera a todas las observaciones es mejor que el recorrido porque deja de
lado los valores extremos aquellos que pertenecen al 25% más bajo y el 25% más alto de la distribución.
gráficamente esto es la altura de la caja del Box plot.
medidas de dispersión basadas en la media

Estás se basan en la media, porque es la única que contempla todas las observaciones, es una manera de ver si el
conjunto de datos está concentrado o disperso, consiste en observar la distancia de la media a la que se encuentra
cada observación. luego esas distancias individuales se promedian y se puede tener una idea global de que tan lejos
están los casos del promedio.
Media: el valor de la variable que anula la suma de los desvíos en torno al suyo.
 desvíos: es la diferencia entre la media y cada una de las observaciones, nos indica cuanto se aleja cada
observación de la media, estos desvíos en su sumatoria general nos dará cero siempre porque es una
cualidad de la media*
 Media es un punto de equilibrio entre las observaciones las que se distancia por encima de la media
están siempre compensadas por las que lo hacen por debajo.
 Entonces el desvió no podrá ser por sí solo un indicador de dispersión ya que siempre dará cero, con
datos homogéneos o heterogéneos, por ello para eliminar los signos utilizamos la varianza
 varianza: eleva al cuadrado c/ desvió, de esta forma la sumatoria de todos los desvíos no dará cero.
El valor de la varianza, una medida de dispersión de un conjunto de datos, cuanto mayor sea su valor absoluto, más
dispersos son los datos es decir más heterogéneos, pero ¿con respecto a que se la compara? ¿Cómo sabremos si es
muy grande o muy chica? Además, estamos teniendo un valor en unidades elevadas al cuadrado que no tiene ningún
agregado.
1. Desviación estándar: es la raíz cuadrad de la varianza, para sacar el problema de las unidades al cuadrado
2. Coeficiente de variación: expresa de forma relativa la dispersión, midiendo el peso de la desviación
estándar comparado con la media, será una medida relativa de la dispersión, ella indica la importancia
relativa de la desviación estándar respecto de la media
conocer la dispersión de una distribución de frecuencias es muy necesaria para poder decidir si la media es una
medida es adecuada para resumir datos , y esto no sucede si hay mucha dispersión, se considera que si el coeficiente
de variación es menor al 10% la distribución tiene poca dispersión y entonces podemos confiar en la media como
medida de centralidad y tratarla como representativa de los datos que resume, si el cv supera este valor , la media
no alcanza para resumir los datos y es necesario acompañarla de la mediana, cuartiles, máximo y mínimo.
Box plot y la dispersión

Este grafico ayuda a explotar los datos para hacerse una idea inicial de la distribución.
 cuando la caja es larga, la distribución de datos es dispersa en la parte central

o los cuartiles están muy lejanos es decir hay mucha amplitud intercuartílica
 cuando la caja es corta se trata de una concentración de datos en la parte central de la distribución,
 la longitud de los bigotes señala mayor o menor concentración de los datos en las zonas extremas.
Haciendo uso de la amplitud intercuartílica, se trata de identificar mediciones extremas, por ser muy grandes o muy
chicas, turkey sugiere
 medidas lejanas las observaciones que estén a una amplitud intercuartílica y media por debajo del 1er cuartil
o por encima del 3er cuartil.
 medidas muy lejanas aquellas que estén más de tres veces la amplitud intercuartílica, por debajo del 1er
cuartil o por encima del 3er cuartil.
 con este criterio, se determina zona en las que pueden hallarse las observaciones que componen el 50% que
queda fuera de la caja y según en cuál de ellas se encuentren, se las identifica como cercanas, lejanas o muy
lejanas. esto también se ve en el box plot.
medidas de dispersión cuando no hay distancias

Desde el recorrido hasta el coeficiente de variación, solo tienen sentido si la variable es métrica, si son nominales u
ordinales la variabilidad se mide de otra forma. También cambia el significado de variabilidad
 un variable será más dispersa cuanto más equitativamente se distribuya el total de observaciones entre las
distintas categorías, habrá más dispersión cuanto más parecidas sean las frecuencias entre si, esta forma de
considerar la dispersión equivale a la idea de incertidumbre.
ejemplo: entre las distribuciones siguientes, si tuviéramos que adivinar cual es el rendimiento de una persona
elegida al azar:
En la 1° tabla de distribución no se puede preferir una categoría sobre otra porque todas son igualmente posibles, la
incertidumbre es completa.
En la 2° tabla tendremos justa razón en creer que hay más chances de que la persona al azar tenga rendimiento
bueno, ya que es bastante más probable que sea de esta categoría que de otra.
matemáticamente se expresa de la siguiente forma: este coeficiente expresa una magnitud de la dispersión cuanto
más pequeña sea menos dispersa será la distribución de la variable analizada.
cuando la variable analizada tiene solo 2 categorías, la proporción de casos en una de ellas es el complemento de la
otra ρ=0,2 entonces la proporción de la otra será (1− ρ)
la máxima concentración se da cuando todos los caos están en una sola categoría, allí la dispersión vale cero porque
se trata de una constante: a todos los individuos les corresponde el mismo valore de las variables
¿ y a la proporción restante 1− ρ=0

la mínima dispersión sucede cuando la distribución entre las dos categorías es equitativa, cuando la mitad de los
casos estén en cada una ρ=0,50 y a la proporción restante 1− ρ=0,50 la medida de esta variabilidad también se
llama varianza, pero su cálculo es muy diferente a la de las variables métricas, alcanza su mínimo en cero cuando
todos los casos están en una sola categoría y máximo en 0,25 cuando se distribuyen mitad en cada una.
El individuo en relación a su grupo

Las medidas que acabamos de ver permiten decidir si un valor en particular está cerca o lejos del promedio, hay en
casos que resulta difícil hacer juicio de distancia sobre valores absolutos,
 por ejemplo: ¿Si en una prueba de memoria el puntaje máximo es de 100, y obtuve 80, podría considerar
que tengo un puntaje alto?
No sabemos, para asegurarlo es necesario conocer la posición relativa que este puntaje ocupa respecto del
conjunto total de datos.
 Si la media grupal obtiene 60 puntos, obtener 80 es un puntaje alto
 Si la media grupal obtiene 85 puntos, obtener 80 está por debajo del promedio,
La operación que haremos: para saber su lugar relativo se (restará) el valor particular a la media del grupo de datos
y se divide en la desviación estándar:
 este número (z) no tiene unidades
 es diferente para cada valor en particular que se quiera evaluar
 mide la distancia a la que se encuentra una observación particular de la media, expresada como fracción de
la desviación estándar.
Puntaje z: Se trata de una medida estandarizada del alejamiento de una observación particular del promedio del
conjunto de observaciones. La variable que resulta de esta operación se llama desvió estándar ya que se trata de un
desvió expresado, como cantidad de desviaciones estándar.
Los desvíos indican a cuantas unidades de la variable en este ejemplo número de síntomas se ubica cada caso del
promedio, los desvíos estándar indican a cuantas desviaciones estándar se encuentra cada caso del promedio, el
primer diagnóstico estas 1,29 desviaciones estándar por debajo del promedio, el segundo y el tercero está a 0,65
desviaciones estándar por debajo del promedio, etc. los que se ubican por encima del promedio tienen z positivo.
Puntaje z para variables cualitativas
Para variable nominales se procede de la misma manera solo cambia el cálculo de desviación estándar:
"Sí un país a se encuentra que el 12,5% de la muestra consultada crece que da lo mismo un gobierno autoritario que
uno democrático", ¿es mucho o es poco? para saberlo necesitamos conocer el porcentaje general de esta respuesta
en el conjunto de países que se observaron: a este valor es para los países que participan del estudio 27,6% ahora se
sabe que en el país a la proporción de quienes creen que da lo mismo el tipo de gobierno es más baja que en el
conjunto de países de la región, ¿cuánto más baja? se requiere indicar su posición relativa y eso se hace en términos
de puntaje z, la varianza de esta variables se calcula como:
ρ+ ( 1− ρ )=0,1998
Desviación estándar será: √ 0,1998=0,447
0,125−0,276
Entonces el puntaje z será = - 0,34
0,447
Este puntaje indica que ese país esta levemente por debajo del conjunto, en los próximos capítulos avanzaremos en
el análisis de los puntajes z.
Cuando se trata de variables de nivel ordinal, también es posible ubicar de manera relativa cada valor de la variable,
aunque no puedan medirse distancias, pueden calcularse cuantiles e indicar a cual corresponde cada valor. antes
vimos el modo de señalar gráficamente la ubicación de los cuantiles, allí buscamos de identificar el valor de la
variable que corresponde, por ejemplo, al cuantil 0,90 o a cualquier otro. podemos hacer también el recorrido
inverso: dado un valor de la variable, ¿a qué cuantil corresponde?
Unidad N°4
Relación entre variables
Buscar relaciones entre variables es comenzar a transitar el camino de la explicacion de los fenomenos que
observamos, ¿porque un tratamiento es exitoso en algunas personas diagnosticadas con depresion y con otra no?,
 formulamos hipotesis sobre la posible respuesta: quizas la edad influya

 razonando asi introducimos otra variable , la edad que aportaria a explicar la razon de los diferentes
resultados del tratamiento, la hipotesis esta formulada como una relacion entre dos varibles: se trata de
indagar por el efecto que la edad primera variable tendria sobre le resultado del tratamiento segunda
variable.
Las hipotesis son respuestas tentativas a las pregunta formulada como problema de la investigacion, consisten en el
planteamiento de una relacion entre al menos dos variables, las hipotesis son consecuencias deductivas de la teoria,
cuya verigficacion no es suficiente para validar la teoria pero si para aprotar evidencia a favor. cualquier modelo
explicativo hipotetico participa un numero de variables mayor a dos sin embargo de las hipotesis pueden deducirse
relaciones mas simples iniclamente solo de dos variables.
una relacion entre dos variables equivale a afirmar que por alguna razon los cambios de una de ellas van
acompañados de cambios en la otra variable, pero ello puese suceder de formas diferentes
Estas relaciones se pueden observar a traves de graficas si las variables son metricas o a traves de tablas si son
variables nomianles o con pocas categorias.
tablas bivariadas, o de contribucion conjunta

Es un arreglo con tantas filas como categorias tenga esa variable y tantas columnas como categorias tenga la
segunda variable, a cada fila y columna se le agraga una columna adicional, se llaman frecuencias marginales porque
corresponden al total de cada categoria.
 diemnsion de tabla, se indica como filas por columnas donde indica la cantidad de categorias que hay en las
filas por el numero de categorias que hay en las columnas.
tipos de frecuencia y su lectura:
 frecuencias marginales por fila: son las frecuencias absolutas de las categorías de la variable ubicada en las
filas
 frecuencias marginales por columna son las frecuencias absolutas de las categorías de la variable ubicada en
las columnas.
 frecuencias conjuntas: indican la cantidad de casos que corresponden simultáneamente a una determinada
categoría de las variables fila con una categoría de las variables columnas.
 frecuencias relativas, al igual que en las tablas un variadas se podía ver el peso relativo de una categoría
dividiéndola sobre el total de casos o frecuencias relativas respecto a una de las variables, usando al total
como la frecuencia marginal de cada categoría.
clasificaciones de las relaciones

estamos en la etapa previa, en el planteo de las hipótesis, puede suceder que no se sostiene la relación, o puede
suceder que hay observaciones que avalan esta asociación.
una clasificación respecto al tiempo

relaciones en las que es posible anticipar el orden, sea lógico o cronológico, en que se relacionan las variables
 relación simétrica: cuando no puede identificarse a una de las variables como previa a la otra porque su
variación es conjunta.
 relación asimétrica: cuando una de las variables procede a la otra y puedo identificar a una como
antecedente y otra como consecuente. aquí ya no es lo mismo plantear la relación en un sentido o en otro
una de las variables es anterior se llama antecedente y la posterior es la consecuente,
si se observa que una variable cambia a continuación de otra, en sentido temporal, esto no quiere decir que cambia
a causa de la otra, que la relación sea asimétrica no implica que una variable sea ni la causa ni un factor explicativo
de la otra.
la dirección de la relación
En una relación tienen un nivel de mediación superior al nominal, resulta posible hacer juicios de orden entre sus
categorías. es posible indicar si los valores van creciendo o decreciendo, es decir se puede plantear la dirección de la
relación. Se trata de otro criterio para clasificar relaciones entre variables, si a cambios crecientes de una variable le
siguen cambios ascendentes de la otra es una relación directa, si por el contrario un crecimiento de una de las
variables va acompañada de una disminución en los valores de la otra, la denominamos inversa.
 variable directa cuando a valores de una aumentan también los hacen los valores de la otra variable
 variable inversa cuando los incrementos de una de las variables van acompañados de disminuciones de la
otra variable.
La intensidad de la relación
hay además otra característica que hace falta medir de las relaciones entre variables, que es su intensidad, esta
medida de a la relación es lo que esta implícito cuando se dice: "x tiene mucha influencia en y" la idea de mucha o
poca influencia es la de intensidad de la relación, cuando hay muchos factores explicativos para un fenómeno es
importante saber cuáles factores inciden más o menos en el fenómeno, y a eso responde indicando la intensidad de
cada relación. La intensidad o grado de la relación puede también aplicarse a relaciones simétricas, en ese caso la
intensidad mide cuan a menudo los cambios de una de las variables se ven acompañados de cambios en la otra, y es
un resultado descriptivo no explicativo.
 intensidad de una relación será:

 si la relación es asimétrica: una medida de la fuerza con que los cambios de una variable afectan los
cambios en la otra
 si se trata de una relación simétrica: la evaluación de esta intensidad puede lograrse primera mente
por aproximación y luego por medio de un coeficiente especifico.
evaluando la distribución conjunta

 De la tabla podemos ver que en la medida que cierta combinación de categorías de una y otra variable
concentren la mayor parte de los casos, entonces estaremos en presencia de relaciones mayor intensidad.
Por ejemplo, en la relación entre las variables “idea de emigrar” vs “opinión sobre la evolución del país”.
El análisis que se haga de la tabla depende del modo en que se formule la hipótesis sobre esta relación,
 si se plantea a la opinión sobre la evolución del país como uno de los posibles elementos que influiría en la
decisión de emigrar, entonces estamos indicando que “la opinión.” es una variable antecedente de la
decisión de migrar., entonces a la hora de calcular las frecuencias relativas en dirección de la opinión, es
decir dejando fija la variable antecedente
 ahora las lecturas son por filas, es decir calculando las frecuencias relativas con las frecuencias marginales de
la categoría ubicada en la fila es decir con las las categorías finales totales de la opinión.
que hay cierta relación entre la opinión acerca de la evolución del país variable antecedente y la idea de emigrar
variable consecuente, no es equivalente a que la opinión sea la causa de las intenciones de emigrar.
vemos que la opinión sobre la evolución del país es uno de los muchos factores que pueden incidir en la intención de
emigrar, estas frecuencias relativas fueron calculadas en sobre el cociente de una frecuencias marginales totales de
una de las variables, la antecedente y no sobre el n-total de casos como se suele hacer en las tablas univariadas,
estas fijan una categoría para una de las variables: al hablar de las personas que creen que su país está mejorando,
estamos resintiendo el conjunto completo ya que no es el juicio sobre el total de personas encuestadas sino solo
sobre las 5040 que cumplen con ese requisito.
esto equivale a decir que las frecuencias relativas cambian cuando se establece una condición como la mencionada.
con este paso de las frecuencias relativas simples conjuntas al paso de las frecuencias relativas por fila emos
avanzado en la detección de la relación entre dos variables, aun no podemos cuantificar su intensidad, y para ello
usamos el q de Kendall.
Coeficiente q de Kendall mide la intensidad de relación para variables dicotómicas

tiene en cuenta este cálculo el modo en que las frecuencias se distribuyen entre las cuatro celdas de la tabla, a
simple vista viendo la tabla conjunta vemos que la mayoría de los casos en las celdas de una de las diagonales de la
tabla se considera como señar de la asociación existente entre ambas variables.
 el coeficiente da un numero entre +/-1

 el signo no significa nada, para esta altura
 cuanto más cerca en valor absoluto a 1 este coeficiente más intenso la relación entre variables,
 valores cercanos a cero una relación inexistente.
terminamos así la introducción a la relación entre variables con una referencia al problema de la causalidad, el hecho
de haber encontrado que en una relación asimétrica existe una asociación intensa entre las variables no nos lleva
inmediatamente a suponer que el antecedente sea la causa del consecuente.
concepto de independencia estadística

la independencia entre 2 variables equivale a que no haya asociación entre ellas,
 ¿en qué condiciones 2 variables son independientes? es decir no hay asociación entre ellas.
Consideremos ahora la distribución de la actividad económica por sexo:
Quizás es mas claro si formulamos la pregunta en términos de la diferencia entre grupos
 ¿se distribuyen del mismo modo mujeres y varones entre las condiciones de ocupación, desocupación e
inactividad?
Para este caso la relación es asimétrica donde la variable sexo es antecedente y condición laboral consecuente, por
esa razón las frecuencias relativas se calcularán por columnas, donde se encuentra la variable antecedente:
Suposición de independencia: Si la distribución de categorías laborales es tuvieran ninguna relación con el hecho
sexo, se esperaría que haya igual proporción de personas en condición de (ocupación/desocupación/inactividad)
entre (varones/mujeres).
 Si en el total de personas hay 48% de hombres ocupados habría esperar misma cantidad mujeres ocupadas
 Esto se traduce que el 48% de (13202 varones) serán 11077 varones que deberían estar ocupados
 Análogamente el 48% de (25506 mujeres) es decir 12321 mujeres deberían estar en la categoría ocupado.
Podemos presentar una nueva tabla con frecuencias que se esperaría encontrar si las 2 variables fueran
independientes es decir si el hecho de ser varón/mujer no tuviera efecto sobre la actividad laboral.
Observemos algunos detalles de esta table, se trata de un reordenamiento de las frecuencias conjuntas bajo la
hipótesis de independencia de las dos variables y estas tablas se pueden calcular multiplicando la frecuencia
marginal de su fila por la de su columna y dividiendo por el total general, en símbolos las frecuencias esperadas son:
Si las dos variables fueran estadísticamente independientes las frecuencias conjuntas que se esperaría encontrar
serian como las que calculamos con este procedimiento ¿y que sería en ese caso de las frecuencias relativas?
Unidad N°5
hemos tratado la relación entre dos variables en escala nominales, y nos limitamos para medir la intensidad de la
relación al caso de variables dicotómicas, no más de 2 categorías por variable. para su cálculo de intensidad usamos
el coeficiente de Kendall, vamos a poner a prueba la hipotética relación entre 2 variables de nivel nominal con más
de dos categorías, cada una y variables de nivel superior.
Relación entre variables

Vimos la relación entre 2 variables (en escalas nominales), y en cuanto a la medida de la intensidad utilizamos Q de
Kendall (Para los casos de variables dicotómicas 2x2).
Ahora veremos cómo interpretar relaciones entre variables de niveles ordinales y métrica, o de más de 2 categorías.
Variables nominales
Habíamos adentrado en el concepto de independencia estadística, vimos como calcular la frecuencia esperada, es
decir de las celdas que se esperarían encontrar si las variables fueran independientes (se multiplican las f marginales
que corresponden a c/celda sobre el Ntotal de casos),
Mecanismo:
1. paso: se pasa de frecuencias absoluta simple a frecuencias Relativas,
a. Se debe usar como Ntotal, el de la variable que nos interesa conocer, es decir se deja fija la tabla en el
sentido de esa variable
Ahora surge la pregunta, ¿cuáles serían las frecuencias de las celdas de una de las variables si esta fuera
independiente de la segunda variable? Usamos el concepto de independencia estadística para calcular las
frecuencias esperadas.
Para el ejemplo, ¿se distribuye del mismo modo mujeres y varones entre las condiciones de ocupación, desocupación
e inactividad?, la relación es asimétrica, donde la variable sexo es antecedente y la variable condición laboral es
consecuente por ello las frecuencias relativas se calculan en base a ella*.
Las frecuencias fueron calculadas, haciendo el cociente de la frecuencia marginal de la variable consecuente
(desocupado, inactivo) sobre los totales de las variables antecedente (varón, mujer), se construye asi una nueva tabla
con las frecuencias que se esperaría encontrar si la actividad laboral fuera independiente del sexo, es decir si el hecho
de ser varón/mujer no incidiera sobre la actividad laboral.
entonces obtenidas las frecuencias esperadas, si no hubiera relación entre ambas variables, ahora hay que
comparar las frecuencias esperadas (si fuesen independiente) con las frecuencias realmente encontradas. Es
decir las frecuencias observadas.
Si hallamos que las frecuencias observadas son similares a las que se esperan bajo la hipótesis de
independencia, diremos que las variables están cerca de ser independientes, ósea hay poca relación entre ellas.
Pero como se mide esa distancia?
Para medir la distancia entre los dos conjuntos de frecuencias es la de restar las correspondientes de cada celda, pero
hay problemas parecidos a los que sucedían cuando calculamos la dispersión restando los valores de la media, la
sumatoria da cero.
la expresión dice que se restan cada una de las frecuencias esperadas de cada observación correspondiente, elevar esa
diferencia al cuadrado y dividir el resultado por cada una de las frecuencias esperadas.
Esta operación se llama puntaje chicuadrado, es una medida de la distancia a la que se encuentran las frecuencias
observadas de las que se esperaría encosntrar si las varibales fueran independientes.
 Chi cuadrado no puede ser negativo porque es una suma de cuadrados
 Chi cuadrado puede ser 0 solo si las sumatoria de cuadrados en ella todos los términos son cero. Es decir cada
f observada es igual a la esperada.
 Chi cuadrado puede ser un valor muy grande desventaja, este valor depende de el numero de casos que se
evaluan y de la dimensión de la tabla, desventaja.
¿Pero qué tan grande debe ser la diferencia medida con el chi cuadrado para ser consideradas lejanas las frecuencias
entre sí?
El puntaje chi cuadrado no mide de manera directa la asociación entre dos variables, por ello para comparar la
intensidad de la asociación el puntaje chi cuadrado solo es válido si las tablas tienen la misma dimensión y numero de
casos.
Coeficiente de asociación para variables nominales,
Para medir entonces esto debe eliminarse del puntaje chicharrado el efecto de la cantidad de casos y la dimensión de la
tabla. Y para ello se calculan 3 coeficientes que nos permitirán evaluar el grado o intensidad de la relación entre dos
variables.
1. Coeficiente Pearson yule: valido para medir la asociación entre dos variables dicotómicas, o binarias
a. Vale cero si la variable es independientes, e indica mayor asociación cuando es cercano a uno.
2. Coeficiente de contingencia C de Pearson, otra forma de medir la asociación entre dos variables cuando
alguna de ellas o las dos tienen mas de dos categorías

a. No puede ser menor que cero, solo toma ese valor cuando las variables son independientes es decir
chicuadrado=0 tampoco puede ser mayor a 1
b. Su valor máximo dependerá de la dimensión de la tabla
i. En el caso de una tabla cuadrada misma cant de filas y columnas, el valor máximo del
coeficiente será:
ii. Pero si la tabla no es cuadrada el valor máximo será , en la que min fxc es el mas chico de los
números de los dos numero f o c, De estos dos modos se obtiene un coeficinete que indica el
grado de la asociciacion entre dos variables que es apto para tablas de cualquier dimensión,
no solo para las de 2x2 por lo que mejora lo que mide el q de kendall
c. Coeficiente v de Cramer:ultimo coeficiente que calculamos para variables nominales esta basado en el
puntaje chi cuadrado, y tiene un valor máximo de uno.
Variables de nivel ordinal:

si el problema es el de describir la relación entre variables ordinales, si bien los coeficientes anteriores sirven, a un
nivel mayor d medición permite utilizar coeficientes mas elaborados.
Cuando se trata de variables de este nivel no se usan tablas de doble entrada para representar los datos, solo se
calculan los coeficientes que indique la intensidad de la relación, ese coeficiente se llama correlación por rangos de
speraman para calcular hay que transformar los valores de las variables en rangos de mayor a menor. Una vez
construidos los rangos, se observa para cada caso la diferencia entre el rango de unas variables y de la otra, d, estas
diferencias indican la distancia que hay entre los dos ordenamientos si fueran ambos iguales, tendríamos una
asociación perfecta entre las dos variables, por el contrario si el orden estuviese exactamente invertido si el rango max
de una variable coincidideria con el rango mínimo de la otras y asi en las demás, la relaicon también seria perfecta
pero a la inversa.
La inensidad de la relación se mide entonces con lo que llamamos coef de spearman la expresión es.
 Puede ser negativo o positivo y tiene un rango de variación que va de mas 1 a menos 1
 Valores próximos a 1 o menos 1 se inteprestan como una asociación intensa
 Valores próximos a cero asociación débil
 Con este coeficiente podemos saber si hay una relación directa o inversa,
 Signo negativo indica relación inversa , es decir el crecimiento de una variable va acompañado del
decrecimiento de la otra
 Signo positivo indica relación directa. Es decir que el crecimiento de una variable va acompañado del
crecimiento de la otra
Este coeficiente es adecuado no solo cuando las variables son ordinales isno cuando son cuantitativas, y existen casos
atípicos, que afectarían el calculo de otro coeficiente que se vera a continuación, se dice que este coeficiente es
robusto para indicar que se ve poco afectado cuando no se cumplen supueto sobre las variables cuya relación se
analiza, para que la interpretación delc oediciente de spearman sea correcta es necesario de las vairbales guarden entre
si una relación directa o inversa en todos sy conjunto de valores es decir que la relación sea monótona creciente o
decreciente.
Coeficientes para nivele proporcional o intervalar
Podemos hacer un arreglo de las variables contruyendo intervalos y tratar los datos como las categorías de dos
variables nominales, pero perderíamos información que valiosa que provee una variable cuantitativa, entoces para
mantener las variables con sus verdaderos valores es decir sin agrupar y tener al mismo tiempo una representación
abreviada de los datos existe un recurso muy valioso, una representación grafica de los valores que se denomina
diagrama de dispersión
Cada concordancia, es decir cada par ordenado, es la concordancia de dos categorías que puede corresponder a un
caso o a varios. Lo que eran filas y columnas en todas las tablas mostradas hasta aquí son ahora ejes coordenados
porque ya no se trata con categorías separadas de cada variable sino con valores cuantitativos de las variables que
ahora son intervalares o proporcionales, estos ejes se llaman ordenadas el vertical y abcisas el horizontal. La manera
en que los puentos se distribuyen en el diagrmaa de dispersión nos da una primera aproximación a la relación entre las
dos variables.
Si se intenta construir una tabla de doble entrada para las dos variables originales, el problema es aun mayor que con
las ordinales, dado que habría un gran numero de filas y columnas, y resultaría casi imposible de leer, esta no es una
tabla adecuada para representar estos datos y además seria ilegible, por eso se recurre a un recurso muy valioso, una
representación grafica de los valores que se denominan diagrama de dispersión, que se muestra en la figura que
muestra los ejes cartesianos para indicar los valores de las dos variables que estamos intentando analizar y representar
con un punto cada concordancia de dos categorías, que puede corresponder a un caso o varios, cada punto es un par
ordenado por ejemplo los años de escolarización vs la edad que se caso por primera vex,
Lo que eran filas y columnas en todas las tablas moestradas se convierten en ejes de coordenadas, ya no se trata con
categorías separadas de cada variables sino con valores cuantitativos de las variables que ahora son intervalares o
proporcionales, a estos ejes se les llama ordenadas al vertical y abscisas al horizontal.
La menera en que los puentos se distribuyen en el diagrama de dispersión no da una primera aproximación a la
relación entre las dos variables, hay una cierta tendencia creciente en la que se vería que globalmente las personas con
mas años de escolarización tendreian a casarse mas tardiamente.
Esta observación es equivalente a ver la concentración de casos en las celdas de la diagonal de una tabla bivarida.
En los esquemas evidencia el achatamiento de la nube de puntos, según la relación sea mas fuerte o débil, o según sea
inversa o directa.
La intensidad de la relación esta vinculada al achatamiento de la elipse que rodea la nube de puntos, y este grado de
alineación que los puntos tengan.
Aquellas en las que la tendencia es creciente o decreciente, pero siempre siguiendo un camino parcido a una línea
recta, son las que llamamos relaciones lineales, existen también tendencias no lineales pero no son de interés para este
curso,
En las relaciones lineales los puntos en lugar de ser aproximados por una línea recta lo son con una curva de parabola,
pero eso aquí no intereza.
Para analizar la intensidad de la relación lineal entre dos variables calculamos un coeficiente, tendrá una interpretación
similar a la del coeficiente de correlación por rangos de spearman, se llama coeficiente de correlación R de Pearson, e
suno de los de mayor utilización cuando las variables que se analizan tienen un nivel de mediin que autoriza su
calculo, va a medir que tan bien se puede aproximar el conjunto de putnos con una función lineal, y va a depender de
lo que antes llamamos achatamiento de la elipse,
Sera grande y próximo a +/-1 si las variables están muy relacionadas linealmente, es decir si la nube de puntos se
enlonga hacia una línea,
Sera pequeño y próximo a 0 si las variables gusrdan poca relación lineal, es decir la nube de putnos tiene una forma
redondiada,
Sera positivo y elevado próximo a 1 si valores pequeños de una variable estas acompañados de valores pequeños de la
otra.
Sera negativo y elevado próximo a -1 si los valores grandes de una de las variables acompañan a los pequeños de la
otra y viceversa.
Las unidades en que s emiden las variables que se relacionan pueden ser muy diferentes entre si, esto impide que se
comparen directameten los valores grandes con los grandes y lo spequeños con los pequeños, vamos a usar un recurso
que ya fue presentado, puntuación z, indicaba a cuantas desviaciones estándar se encuentra cada observación de la
media.
-son puntajes que permiten decidir si se trata de un valor grande muy superior a la media o pequeño muy inferior a la
media o intermedio semejante a la media sin tener unidades, por lo que este puntaje permite la comparación de
elementos que pueden tener cualquier unidad de medida.
Si dos variables están correlacionadaspositivamente altos con altos o bajos con bajos, entonces sus putnajes z se
corresponderán positivos con positivos y negativos con negativos,
Si para cada sujeto multiplicamos los puntajes z de las dos variables que se relacionan obtendremos siempre un
resultado positivo , o dos negativos
Si luego sumamos esos productos para todos los sujetos obtenderemos un numero alto positivo, a la inversa si
--- falta
Unidad N° 6
Obtención de la muestra:
La estadística inferencial provee los procedimientos llamados muestreos para estudiar un subconjunto de elementos y
generalizar sus conclusiones. El muestreo es un conjunto de procedimientos, mediante el cual se selecciona de una
población una muestra, con el objetivo de llegar al conocimiento de ciertas características de la población a través
de la observación y generalización las características de la muestra.
En la inferencia estadística hay 2 sub procesos
 La selección de la muestra, que consiste en operaciones mediante las cuales se incluye elementos de la
población en la muestra, esta etapa implica decidir cuales y cuantos casos seleccionar, es decir la calidad del
proceso de selección y la cantidad de casos a seleccionar por otro, Un punto importante: la calidad de la
muestra, es un requisito base, si la muestra esta correctamente elegida, la inferencia será válida. El tamaño
de la muestra incide, veremos que si la muestra es más grande se detectan mejor las diferencias y se reduce el
error de estimación. Pero esto es cierto siempre que se cumpla la primera condición, Si la muestra no es la
adecuada el aumento en el numero de casos no mejora la estimación, puede empeorarla
1. La estimación, donde a partir de lo observado en la muestra ofrecemos una aprox a los valores poblacionales.
En este primer tramo vernos el primer parte: de qué modo seleccionar individuos para que lo que se observe de ellos
se pueda extrapolar a otros individuos no observados.
Población:
conjunto de UdeA que son objetos de una investigación, a ella, se referirán los resultados obtenidos en la investigación
por muestreo. Este conjunto de UdeA puede o no estar definidos en tiempo y espacio. El tamaño que tiene una
población influye en el diseño de la muestra, porque dependiendo de su tamaño la población puede ser tratada como:
 Población finita: si el numero de elementos es limitado por tanto puedo tener acceso a todos los elementos
que lo componen
 Población infinita: cuando el numero de elementos que integra la misma es elevado y no podemos tener
acceso a todo y cada uno de los elementos que lo componen.
 Población hipotética: no se especifica con precisión el tiempo, no solo se incluyen los elementos que
componen a la población hoy y años anteriores sino también incluye a los que la integraran en el futuro. La
población es innumerable.
Relevamiento exhaustivo: para analizar los atributos de las UdeA, pueden creerse que seria lo mejor, ello consistiría
en observar dichos atributos o variables en cada elemento de la población para recolectar la información, ello se lo
conoce como censo.
Pero la mayoría de las poblaciones de interés social tienen dimensiones considerable mente grandes, o son
inaccesibles, o son hipotéticas.
 Cuando se busca generalizar los resultados de un experimento, la población de referencia suele ser
hipotética, por lo que no se puede hacer un relevamiento completo, solo se podría observar algunos casos
los presentes pero no los futuros.
Muestra:
subconjunto de una población que comparte algunas características con los aspectos de interés para la investigación, el
concepto se liga con la capacidad de actuar como representante de los elementos de la población que no han sido
observados directamente.
Cuando se planifica la extracción de una muestra no se conoce a priori como debe ser la muestra que represente a la
población, pero si se conocen aspectos de la población entonces corresponde que la muestra reproduzca esas
características, ejemplo si sabemos que en la población de docentes de una universidad hay 60% de mujeres,
entonces debe respetar ese porcentaje la muestra.
La posibilidad de extrapolar los resultados muestrales a la población
Está vinculado con la posibilidad de asignar probabilidades a cada una de las muestras que podrían seleccionarse de
una población, solo será valido usar resultados muestrales como estimadores poblacionales cuando sea posible
conocer a priori cual es la probabilidad que tiene cada individuo de la población de ser incluido en la muestra este
requisito es el que cumplen los muestreos probabilísticos
para que sea posible asignar probabilidades a c una de los individuos de formar parte de la muestra el método por el
cual se seleccionan los individuos tiene que excluir la elección voluntaria, implica que el proceso de elección debe
quedar estrictamente librado al azar sin dejar margen para que se filtre la intencionalidad sino deja de ser un muestreo
probabilístico.
Muestreo probabilístico
Cuando se pretende que los resultados obtenidos en una muestra puedan ser generalizados a la población se usa este
muestreo, son diseños que requieren cuidado y son mas costoso, veremos 2 modelos puros y luego sus variantes.
Muestreo aleatorio simple
Técnica que asigna igual probabilidad de pertenecer a la muestra a todos los individuos de la población, requiere
contar con un marco de la muestra que es una lista que contiene a todos los elementos de la población, dicho marco
debe ser exhaustivo y no debe tener duplicaciones.
Depurar el listado puede llevar mucho tiempo, eso depende del tamaño de la población y el tipo de marco muestral de
que se trate.
Su realización consiste en numerar los elementos del listado y elegir por un sofwere aleatoriamente una cantidad n de
elementos (tamaño de la muestra), la exigencia de contar con el listado de los elementos de la población es una
limitación para este tipo de muestreo por lo que como se vera mas adelante se lo utiliza en combinación con otros
procedimientos.
Puede ocurrir que los elementos elegidos en la muestra se encuentren muy dispersos geograficamnte, de manera que
sea muy costoso ubicar a cada uno de ellos.
Una ventaja es que no hay que conocer a priori características de la población, es más fácil acotar el erro de muestreo
ya que las distribuciones de probabilidad subyacentes son bien conocidas para este tipo de muestreo.
Muestreo sistemático
Se selecciona aleatoriamente un elemento, a partir de el se recorre el marco de la muestra tomando los elementos
siguientes a intervalos regulares.
El primer paso consiste en determinar el numero de veces que se incluye la muestra en la población.
Ese valor resulta de dividir el tamaño de la población en el tamaño de la muestra denominado R
Luego se genera un numero aleatoria entre 1 y R, este constituye el primer elemento de la muestra que se llamara “A”,
luego se selecciona el elemento que se encuentra R unidades mas adelante en la lista, (el elemento que ocupa el lugar
A+R) y asi sucesivamente hasta recorrer la lista completa,
Esta técnica pide que se tenga el marco de la muestra pero se puede adaptar cuando no se lo tiene. Su uso se justifica
por dos razones, si la lista no presenta ningua tendencia especial, el muestreo sistematico facilita la extracción de la
muestra, simplifica la operación ya que la elección de todos los números aleatoriamente puede ser lenta por la
aparición de elementos repetidos que se deben descartar. La segunda razón es que puede ocurrir que el lsitado este
ordenado según un criterio de ser asi existe el riesgo que una muestra irrestricta aleatoria concentre los elementos
elegidos en alguan zaona de la lista, y asi sobrerepresente a lso individuos que tienen alguan caracterisitca en común,
en este caso el muestreo sistematico asegura que el marco de la muestra sea recorrido completamente a intervalos
iguales.
Cuando la población tiene un comportamiento ciclico (alguan característica se repite cada cierta cantidad fija de casos)
el muestreo sistematico no es el adecuado.
Hay casos en que el muestreo sistematico se utiliza para prescindir del marco de la muestra, caso ejemplo son las boca
de urna, en las que se pregunta por quien voto a personas que salen del lugar de votación, allí no hay un listado al que
recurrir es a la gente que esta físicamente presente que se encuesta, el recurso consiste en elegir una perona cada R
buscando asi que la muestra incluya a personas que llegaron temprano y que llegaron tarde.
Muestreo estratificado
Extraer muestras de subconjuntos de la población llamados estratos, tales estratos deben ser homogéneos en su interior
con respecto a alguna característica conocida a priori, dicha características se denomina criterio de estratificación.
Supongamos se va estimar el consumo de alcohol en personas jóvenes, es posible que esa variable este influida por el
nivel socioeconómico, entonces se lo puede usar a este como criterio para estratificar a la población, dividiéndola en
subconjuntos en los que el nivel socioeconómico sea homogéneo, la cantidad de estados dependería del grado de
precisión con que puede medirse el nivel socioeconómico, para tal caso estratificamos en 3, nivel alto, nivel medio,
nivel bajo y ahora seleccionamos jóvenes de cada uno de los tres estratos. Como vemos la división de la población en
estratos demanda cierta información acerca de ella, en este caso el nivel socioeconómico, cuanto mas precisión se
pretenda lograr con la estratificación mayor será la información necesaria a priori.
Este procedimiento de muestreo se utiliza cuando se busca aumentar la precisión de la estimación sobre la población
total o bien para mejorar la precisión sobre los estratos individuales.
Se llama afijación a la forma de distribuir l amuestra sobre los estratos que se definieron, es decir, una vez decidido el
tamaño de la muestra completa, la afijación indica cuantos casos seleccionar para la muestra de cada estrato, según
cuanta información se tenga a priori se podrán hacer diferentes afijaciones, hay tres posibles: igual o uniforme,
proporcional y optima. Solo veremos las dos primeras.
Afijación igual: se aplica cuando no hay ninguna información sobre los estratos y no hay razón para ponderar alguno
de ellos, se extrae la misma cantidad de casos de cada estrato, las muestras tienen todas el mismo tamaño.
Para el ejemplo anterior , si se trata de una muestra de 600 personas jóvenes, con este tipo de afijación y como son 3
estratos, vamos a extraer 200 casos de cada estrato.
Afijación proporcional
Consiste en extraer de cada estrato una muestra cuyo tamaño resulte proporcionalmenete al estrato del que proviene,
primero calculamos f que es la proporción de población que integra la muestra:
Este coeficiente se llama fracción de muestreo, una vez que lo conocemos, la aplicación a cada uno de los estratos
para obtener la cantidad de casos que deben extraerse de cada uno. Para usar este tipo de afijación con el ejemplo del
consumo de bebidas alcohólicas, necesitaríamos conocer la cantidad de personas jóvenes que hay en cada estrato, es
decir cuantos jóvenes de nivel alto, nivel bajo y nivel medio hay en la población, este dato es desconocido.
muestreo por conglomerados
es una unidad de muestreo que contiene varios elementos de la poblacion. deben definirse unidades primarias de
muesreoque contengan en su interior a las unidades elementales.
un ejemplo es el caso en que hay que extraer una muestra de hogares en una ciudad. esto resulta imposible contar con
un listado de las unidades primarias (los hogares)
un muestreo por conglomerados permite serolver este problema tomand como unidad de seleccion a los radios
censales also que se puede acceder por medio de las direcciones proviciales de estadistica, numerando estas unidades
sobre un plano de la cuidad se selecciona aleatoriament eun numero de ellas, una vez identificadas las unidades
primeraias que consittuiran la muestra, se relevan todos los hogares que reciden en cada una de ellas.
Unidad N°7
Hacer inferencias requiere de la probabilidad, porque se trabajar con situaciones que no se conocen y son difíciles de
prever, haremos una distinción entre 2 tipos de preguntas:
 Aquellas que se pueden responder con certeza, o que tenemos algún background de información que nos
permita articular una respuesta certera.
 Aquellas que no podemos responder con certeza, que solo podemos ofrecer respuestas parciales,
aproximadas, de hechos que dependen de muchos factores a los que no logramos conocer en su totalidad
por lo que el resultado es siempre variable, en estas situaciones cuando no tenemos toda la información que
hace falta para predecir el resultado recurrimos a la probabilidad.
La probabilidad trata con la incertidumbre (con esa idea de que hay cierta certeza que algo ocurrirá y cierta certeza
en que no ocurrirá), se asignan probabilidades a hechos cuya ocurrencia no se tiene certeza, con la probabilidad se
cuantifica a la expectativa sobre el fenómeno.
 Cuando decimos que algo tiene mucha probabilidad de suceder, hay seguridad en que ocurrirá, esto es
conocido como azar epistemológico, que considera azaroso a los eventos cuya ocurrencia no puede
anticiparse con certeza.
 La cuantificación de la probabilidad implica que esta se expresa con un número, que está entre 0 y 1
o Si un evento tiene probabilidad 0 = es imposible que suceda, evento imposible
o Si un evento tienen probabilidad 1 = es posible que suceda. Evento seguro.
Formas de asignar probabilidades
Asignación a priori
Partir de esta idea de que la probabilidad es intuitiva, ligada a procesos cuya ocurrencia no nos es conocida con
certeza, aquí se hace una asignación de probabilidad a los resultados de un experimento previamente a su
realización, con la asignación a priori no es necesario hacer el experimento realmente, es suficiente con que
tengamos razones para suponer esta asignación a priori de resultados.
Ejemplo: ¿cuál es la probabilidad de obtener un n# mayor a 4 si se tira un dado?,
Hay solo dos números mayores que 4 en un dado que son 5 y 6, el evento este* tiene solo 2 casos posibles.
Además, este tiene 6 resultados posibles, por lo que

la probabilidad será :2/6
Obtención de este cociente:
¿ A formas que puede suceder

ρ( A)
¿ ϕ numero de resultados
El omega es el conjunto de resultados posibles y se
llama espacio muestral.
Para nuestro ejemplo:
¿A2
ρ(A) =2/6
¿ ϕ 6 de resultados
#A: es 2 porque son las formas en que puede obtenerse un # mayor a 4,
¿ ϕ es 6 que es el número total de resultados posibles al tirar un dado.

Con este razonamiento la probabilidad de encontrar un numero para es 3/6 porque hay 3 números pares. 2,4,6 en un
dado.
Asignaciones a posteriori
Son situaciones en las que de antemano no podemos asignar probabilidades a los diferentes resultados, porque no
tenemos suficiente razones para suponer la forma en que se distribuyen las probabilidades, este tipo de
probabilidades se pueden hacer con posterioridad de haber hecho un experimento, ya que hay un vinculo entre la
frecuencia y la probabilidad, si conozco la distribución de frecuencias de un experimento, puedo tener razones para
usarlas y asignar probabilidades con estos resultados del experimento.
Relación entre asignación a priori y a posteriori.

Si se cumple la asignación a priori, entonces las repeticiones de un experimento de muchas experimentaciones a la
larga se irán acercando a la probabilidad asignada a priori, es decir que esta probabilidad a posteriori converge a la
probabilidad a priori,
Operando con probabilidades

Cualquiera sea el modo que se hayan asignado probabilidades a un evento se debe cumplir que:
 Para que un numero sea considerado una probabilidad ósea PA

o Debe ser un numero entre cero y uno ósea: 0 < PA < 1
o El espacio muestral es decir el conjunto completo de resultados posibles debe ser uno P ( Ω ) = 1
o La probabilidad de unión de dos eventos que se excluyan mutuamente es la suma de las
probabilidades de cada uno de ellos,
Con probabilidades frecuenciales.

Vamos a ver como operar y analizar una tabla de distribución conjunta que contiene 2 variables empíricas, es decir
que son producto de un experimento (asignación de probabilidades a posteriori), calcularemos algunas
probabilidades a partir de sus f’ relativas.
Probabilidades marginales: cuando considero una categoría de una sola variable, no se tiene en cuenta la otra,
para el cálculo se tendrá en cuenta a las frecuencias marginales.
¿Cuál será la probabilidad de encontrar en el total una persona que viva en Córdoba? Sin importar la otra variable
650 f marginal cat cordoba

ρ=
1530 n total de casos
Esta probabilidad se enuncia como ρ( cordoba)
Probabilidades conjuntas: para hallar la probabilidad de la ocurrencia en simultaneo, es decir una categoría
conjunta
La simultaneidad aritmética se lee como (∩) por lo que se considera que ambas sucedan en simultaneo.
f conjunto cat rosario∩ R

ρ(rosario ∩ R)=
1530 ntotal de casos
¿Que sucede si aplicamos esta operación a 2 eventos que corresponden a 2 categorías de una misma variable?, cual
es la probabilidad de encontrar alguien que viva en cordoba y tambien en mendoza, es claro que no hay intersección
entre estos conjuntos, sin embargo de ellos solo puede suceder uno de ellos. Estos eventos son mutuamente
excluyentes
Probabilidades de la unión de 2 eventos mutuamente excluyentes: acá se analiza la ocurrencia de uno de los dos
eventos ya que no pueden suceder en simulataneo, es una categoría o la otram se trata de una disyunción es decir,
la unión de los dos eventos, eso en la ley de conjuntos se lee como la unión de dos conjuntos y su símbolo es el de
unión una U, categoria medoza o categoria cordoba equivale a decir mendoza u cordoba.
Entonce la probabilida de encontrar alguien que viva en cordoba o en rosario se calcularía asi
f marginal cat cordoba+ f marginal cat rosario

ρ( cordobaU rosario)=
En estos casos debe quedar claro que la probabilidad en conjunto, de la union de ellos es la suma de las
probabilidades de los eventos, y como sabemos son mutuamente excluyentes ella debe ser cero
ρ ( cordoba U rosario )= ρ cordoba+ ρrosario=0

Probabilidad de la unión de eventos NO mutuamente excluyente: la unión de eventos, aquellos que no se excluyen,
para el ejemplo que venimos trabajando, seria responder ¿Cuál es la probabilidad de hallar por azar alguien que viva
en cordoba o que piense votar al partido T? otra vez es una disyuntiva porl lo que admitimos cualquiera d ellos dos
eventos, o que viva en cordoba sin importar a quien vota, o que piense en votar a T sin importar donde viva, aca se
pude ver que uno de los términos incluye a la categoria conjunta la cual se debe eliminar sino estarimos contando 2
veces a esa gente
f marginal cat cordoba+ f marginal cat T −f conjunta cordoba /T

ρ( cordobaU T )=
Probabilidad condicional: aca se calcula una probabilidad bajo una condicion, que restringe al conjunto de
posibilidades, se aplica cuando se cuenta con información adicional antes de calcular una probabilidad, por ejemplo
si se sabe que la persona elegida al azar vive en cordoba, ¿Cuál es la probabilidad que piense en votal al partido S?
El dato vive en cordoba es una restricción sobre el conjunto total, ya no debemos tener en cuenta a las 1530
personas del total, suno solo a quienres cumplen con la condicion de vivir en cordoba, entocne ahora el nuevo total
es de solo 650 personas quienes viven en cordoba, de este grupo 100 piensan votar a s
s
f conjunta
ρ( S
= ) cordoba
cordoba ntotal condicional cordoba
Unidad N° 8
Probabilidad de los modelos
Un modelo es una representación simplificada de un proceso observado, la idea de que los modelos son erróneos pero
útiles, sintetiza la idea de que la selección deliberada de algunos componentes para describir explicar y predecir.
Por definición un modelo es teórico y articula conceptos con nexos deductivos, analogías etc, pero deben tenerse
razones para suponer que el modelo se sostiene, es una aproximación a lo que sucede en la realidad. Tratamos de
modelar lo que observamos a fin de simplificarlo, la complejidad de los fenomneso sociales no se menoscaba porque
se usen modelos salvo si se comete el error de confundir el modelo con la realidad.
Los modelos de probabilidad son un tipo particular de modelos y constituyen asignaciones a priori de probabilidades a
eventos, en base al cumplimiento de ciertos supuestos que condensan la simplificación del proceso real. Disponer de
un modelo de probabilidad permite calcular probabilidades de manera sencilla bajo ciertos supuestos que deben
explicitarse
La idea de simplificar esta utilizada acá en el sentido de elegir algunos aspectos de la realidad para construir un
modelo que luego se usa para asignar probabilidades a los diferentes resultados posibles.
Concepto de modelización
Hay una cantidad de modelos que permiten asignar probabilidades a priori a diferentes fenómenos observables, un
modelo de probabilidad es una anticipación acerca de lo que se espera que suceda.
tenemos los siguientes modelos:

Distribución uniforme
supone chances iguales para todos los resultados, vale para un dado si este está equilibrado o para cualquier fenómeno
aleatorio en el que se pueda suponer resultados igualmente probables,
Distribución binomial
se usa para modelar la repetición de un proceso aleatorio que puede dar solo dos resultados, a los que llama éxito y
fracaso, la elección de cual es éxito es arbitraria, será sobre la categoría que el investigador tenga interés, la variable
que se considera es el número de veces que se obtiene éxitos.
la condición para que este modelo sea válido, que cada realización del experimento no incida sobre la siguiente.
Ejemplo: Una tabla muestra los resultados experimentales de (lanzar 4 veces una moneda equilibrada)
Análisis: De estos 16 experimentos hay 16 resultados igualmente probable, es decir que su probabilidad ser 1/16 eso
nos da una probabilidad de 0,0625 a cada uno.
1
ρ ( x )= =0,0625 para c /caso
16 total de casos
Calculamos las probabilidades de cada valor
sumando los que corresponden a las formas en
que puede lograrse, a modo de ejemplo por
ejemplo 3 veces cara, pueden ser consecuencia
de cualquiera de las secuencias marcadas en
amarillo, vemos hay 4 eventos a su favor y su
probabilidad será:
4 veces
ρ ( 3 veces x ) = =0,25
16 total de casos
Esto lo llevamos a una nueva tabla
Como se
esperaba lo más
probable fue
obtener 2 caras
(probabilidad
más alta en valor
absoluto) porque se espera que la moneda este equilibrada y caída cara la mitad de las
veces, ahora sabemos también cuan probable es que caiga una cantidad de veces diferente de veces cara, es 0,25
Para construir la tabla y responder a la pregunta, con el modelo binomial que se escribe formalmente como
βiomial( χ , η , ρ)
 N: número de repeticiones,
 P: probabilidad de éxito de cada repetición
 X: número de exitosa cuya probabilidad se calcula.
cuando se trata de variables discretas como este ejemplo mencionado, el modelo admite el cálculo de la probabilidad
de dos formas:
 exacta: da un valor particular de la variable, es decir un numero finito de éxitos P( X =x)
 acumuladas: un conjunto de valores menores o iguales a un valor dado. P( X < x)
si se requiere la probabilidad de los valores mayores a uno dado P( X > x) se complementa es decir se resta de 1 la
probabilidad acumulada.
Cuando se trata de variables continuas, las probabilidades exactas son cero por lo que solo pueden calcularse las
acumuladas P( X < x)y su completo a uno P(X > x)
Ejemplo 2: que probabilidad tiene alguien que rinda el examen de aprobarlo al azar? El examen consiste de 20
preguntas multiple opción, con 5 opciones de respuesta, de las cuales una sola es correcta, para aprobar con el 60% al
menos hay que responder bien 12 preguntas.
Este es un problema de distribución binomial, hay 20 repeticiones (una por c/pregunta) de un experimento que tiene
0,20 (1/5) de probabilidad de éxito. Para aprobar se necesitan 12 exitos.
La forma en que se obtengan estos 12 exitos puede ser aleatoria, de muchas combinaciones posibles. En este caso la
probalidad de aprobar se escribe asi βiomial( X >12 ,η=20 , ρ=0,20)
N y P son los parámetros de la distribución establecen las características particulares del caso al que se aplica el
modelo binomial, X es la variable aleatoria que puede asumir cualquier calor discreto entre cero y 20.
Esperanza y varianza
Otro modelo de probabilidades, la esperanza es el cociente entre η∗ρ
La esperanza representa el número esperado de casos favorables a obtener en η repeticiones.
Ejemplo: usando la tirada de las monedas, η será la cantd de repeticiones que lleva 1 act experimental, para nuestro
caso la moneda se larga 4 veces, y ρ la será la probabilidad a priori que dijimos estaría igualmente equilibrada ½
entonces
Esperanza=η∗ρ
Esperanza=4 veces∗0,50 equilibrada
Esperanza=2 veces cara
La esperanza quiere decir que de las 4 tiradas de moneda equilibrada 0,50, esperaríamos encontrar 2 veces caras.
Efectivamente esto es lo que sucede luego de un gran numero de repeticiones del experimento.
Ejemplo 2: En el examen la esperanza indica que el número medio de aciertos que se espera lograr por puro azar es
de 4.
Esperanza=η∗ρ
Esperanza=20 repe∗0,20
Esperanza=4
La varianza de la distribución binomial es η∗ρ∗(1− p) que es una medida de variabilidad del proceso.
El grafico de esta distribución se construye calculando las probabilidades de diferentes valores de x, que pueden ir
desde 0 hasta el numero total de repeticiones del experimento.
El siguiente grafico corresponde a 20 repeticiones con diferentes valores de p se observa la forma en que aparece
representada la diferencia entre las varianzas de las distribuciones, la max es en p=0,50
Distribución normal
La mayoría de los fenómenos no tienen como vimos una distribución uniforme (no es igualmente probable que resulte
cualquiera de los resultados). Generalmente se halla con mayor frecuencia valores cercanos al promedio y la
probabilidad de encontrar personas muy por encima o muy por debajo de ese promedio es menor: los valores
extremos son menos probables que los centrales.
Para este tipo de fenómenos, se usa el modelo de distribución normal, y su representación grafica es una campana de
gauss, una curva unimodal, simétrica (de forma acampanada).
Un elemento a tener en cuanta, a diferencia de los gráficos anteriores ahora se trata de una curva con trazado continuo
se usan variables continuas.
No es posible indicar la frecuencia de un valor único de una variable continua, lo mismo vale para las probabilidades,
no se clauclan probabilidades exactas, las que si se calculan son las probabilidades acumuladas estas están
represntafas gráficamente en el área bajo la curva pero en lugar de suamr las frecuencias de valores discretos se relaiza
una operación que se llama integración.
Dado que la curva que describe la distribución normas es unimodal y simétrica, el modo , la media y la median
coinciden, el coeficiente de asimetría es cero y la distribución es mesocúrtica.
El calculo de als probabilidades: el área bajo la curva
Ese calculo es muy complejo, por eso se usan distintos sofware, el problema es que este modelo se adpta a una
diversidad de situaciones, ¡con que método calculamos probabilidades para fenómenos tan disimiles?
Calcular la probabilidades para una variables abstracta sin unidades, adapatable a una diversidad de fenómenos,
Se trata de la variable z, que ya sfue definida y que mide el numero de desviaciones estándar contadas desde la media
a las que se encuentra un caso individual.
Una variables permite comprar variables que miden cualidades muy diferentes, sabemos ya que la cantidad de
desviaciones estándar z es una mediad de lo cerca o lejos que un caso se encuentra del promedio, si la variables en
estudio es adecuadamente modelada con la distribución normal, entonces podremos concoer la probablidad de hallar
casos por ejempl a mas de dos desviaciones estándar de la media y eso tendrá una inmediata traducción a valores de la
variable.
Recordemos que la variable z esta definida para un valro particula de x como, y tien media igual a cero y desviación
estándar igual a uno,
Su x tiene una distribución normal con una media y una desviación estanda entonces z tiene ditrubucin que se se llama
normal estándar y su eje esta centrado en el cero.
Cualquier sofware calcula las probabilidades o áreas bajo la curva normal,

Al igual que con cualquier otra distribución el valore de P(Z><) se lograra restando de 1, que es el área completa bajo
la curva, por ejemplo , el área acumulada por debjao de z=0 es la mitada de la campana P(Z<0)=0,50 por lo que
P(Z>z) =0,50-
para el ares po debajo de z =2 redondeando a cuatro decimales. Y su representación será
Queda delimitado por debajo de z = 2 un área de 0,9772 P(z<2)=0.9772
Si solicitamos las probabilidades acumuladas por debajo de los diferentes valores de z, empezando con los negativos
pasando por el cero y siguiendo por los positivos se obtiene lo siguiente
En el modelo matemático z tiene como campo de variación todos los valores es decir de mas a menos infinito pero
como vemos en la realidad los valores son menos 4 y mas 4 son muy extremos en el sentido que las probabildiades
acumuladas son casi cero y casi uno respectivamente
.las probabildiades aucmuladas es decir las áreas a la izquierda, van crecienco desde casi cero en el valor mas pequeño
que pusimo z: -4, y llegan hasta casi uno den el máximo valor z=4.
La notación para estos resultasdos es la siguiente siempre usando hasta 4 decimales, por ejmplo
P(z<-2)=0.0227 o también P(z<1)=0.8413 y las representación grradica de las probabilidades son.
Acontinuacion vemos la representación grafica de la relación entre probabilidaes por encima y por debajo de z=1
sabiendo que P(z<1) + P(z>1)=1
también se pueden identificar

probabilidades entre valores de z, por ejemplo
¿Cuál es el area entre -1y 1 (es decir cual es la probabilidad de encontrar a z entre esos valores)? Esto se escribe asi
P(-1<z<1),para calcularlo solo usamos la información sobre la probabilidad acumulada, el área por denajo de -1 vale
0,1587, y el área por debajo de 1 es 0,8413 si restamos esas dos áreas tendremos lo que queda entremedio 0,8413 –
0.6835 graficamnte
Cuantiles
Del mismo modo que con las distribuciones de frecuencia los valores de la variable que acumulan una determinada
probabilidad son los cuantiles. El valor z=-1 es el cuantil 0.1587 de la variables
Y z=2 es el cuantil 0.9772 que suelen leerse como percentiles 15,87 y 97,72
Para determinar ahora los valores de z que acu,ulan cierta probabilidad se necesita la operación inversa a la que se
realizo hasta que , hay que hallar cual es el valor de la variable z que deja por debajo una determinada proabilidad
según la definición de percentiles el percentil p de la variable es el valor por debajo del cual la probababilidad de
hallaral es r% graficamnte se trata de fiajr el are r% y el problema es determinar cual es el z que la acumula.
Usamos un sofware para solicitarlo este valor, a partir de la probabilidad acumulada pedimo el valor de z, por ejemplo
el percentil p95, de la distribución normal es:
El valor 1,6449 acumula el 95% o bien P(z<1,6449=0,95) y del mismo modo el precentil 99 es: 2,3263
Por simetría de al distribución los percentiles complementarios son valores opuestos de la variable , los percentiles 5 y
1 son …con lo que bajo el modelo normal estándar P5: -1.6449 yP1:2.3263
Por el uso que haremos de la distribución normal hay algunos percentiles de mucha importancia y conviene recordar
son los que delimitan áreas centrales. De probabilidad 90 95 y 99.
Para determinarlos hay que identificar a que valores de z correpsonden para el área central de 0,90 el área de 0,10 que
queda fuera se reparte de amnera simétrica en las dos colas de la distribución a razón de 0,50 en cada una.
Unidad 10
Una vez que disponemos de una síntesis de la información que se recogió de un conjunto de entidades, pasa a para
saber si lo observado vale también para casos que no han sido observados.
La estadística inferencial se ocupa de decirno bajo que condiciones se pueden extender nuestros hallazgos a casos no
observados,
Cuando se realizan generalizaciones ellas estarán limitadas a un contexto, por ejemplo el análisis que se haga sobre la
relación pobreza/educación en argentinca puede no ser valido para la población de brazil.
Por ello siempre debe estar explicita cual e sla población de referencia a la cual es valido extender los resultados que
se obtienen.
Dos procedimientos que se desarrollan en los siguientes párrafos son la estimación por intervalo (o intervalos de
confianza) y prueba de hipótesis conocida como docimasia de hipótesis.
Estos son los dos métodos que se utilizan para producir generalizaciones estadísticas a partir de muestras es decir
inferencias.
Estimación por intervalo
Hemos llegado a este punto en el que haremos uso de casi todos los elementos que se presentaron hasta aquí,
1. Parte la descripción de datos provenientes de una muestra
2. Parte se ingreso al terreno de la incertidumbre
3. Se integrara estos elementos en un procedimiento para realizar las estimaciones que interesen.
Estimación puntual: ofrecen un único valor como estimación del parámetro de interés
o La media muestral es un estimador de la media poblacional
o La proporción muestral estimador de la proporción poblacional
Ejemplo: si una muestra de 50 personas que egresaron de una carrera universitaria en los últimos 10 años, se encuentra
que han terminado con un promedio de 6,50, disponemos de una media muestral.
Si ahora me preguntase: el promedio con que terminan la carrera todas las personas que egresan, la respuesta es
tentativa porque la población es hipotética -en el futuro seguirá habiendo gente que egresa- entonces diremos que
posiblemente es cercano a 6.50. con esta definición impresisa hacemos una estimación de la media poblacional. De
igual modo, si en la misma muestra de 50 profesionales se ve que la proporción de mujeres es de 0.70 podremos decir
que del total de quinenes se reciben en esa carrera /alrededor de 70% son mujeres, asi hacemos una estimación de P
a partir de p, pero estas estimación son deficiente sya que no sabemos cuan cerca puede estar la verdader nota
promedio de 6.50 o la verdadera proporción de mujeres del 70%, estas son las que se denominan estimaciones
puntuales.
Asique la generalización a la población no es la simple tranferencia del valor muestral a un conjunto mas grande.
Como vimos las leyes que relacionan la muestra y la población son probabilísticas esas leyes son las que hau que usar
para hacer la inferencia desde la muestra hacia la población.
Intervalos de confianza
Una estimación mas completa de los parámetros mencionados, consiste en ofrecer no un numero como una estimación
puntual sino un intervalo, acerca del cual se depositca cierta confianza que contenga al parámetro. Esta forma de
estimar ofrece dos números los limites de un intervalo del que esperamos contenga al parámetro que estimamos,
decimos esperamos que contenga porque no hay certeza absoluta de que se encuentre allí, hay una confianza que en
estos ejemplos hemos fijado en el 95% 90% y vermeso que ese porcentaje puede elegirse veremos como construir
estos intervalos de confianza para estimar los 2 primeros parámetros (media y proporcion)
o Hay una confianza del 95% en que el intervalo (6,10/6,90) contenga al promedio con que se termina una
carrera en vez de decir que el promedio con que egresan quienes terminan una carrera universitaria debe ser
cercano a 6.50
o Con una confianza del 95% el intervalo (68/72) contiene a la proporción de mujeres egresadas -en vez de
decir “entre quienes egresan hay alrededor de 70% de mujeres”
Estiamacion de la media
Haremos uso de lo que sabemos hasta el momento sobre las distribuciones en el muestreo para mejorar la calidad de
las estimación puntuales y construir los intervalos de confianza.
Debido a que la media ha sido obtenida de menera aleatoria, la media muestral es una variables aleatoria. Cuya
distribución tiene media u y desviación estándar rox
Vemos por la formula que amedida que aumenta el tamaño de la muestra esa distribución tiende a ser normal, es decir
que será tano mas cercana a una distribución normal cuanto mas grande sea n.
Si la muestra es mas pequeña que 30 casos, no podremos usar inmediatamente la distribución normal sino que
deberemos apelar a la distribución t de student.
Capitulo 11
Prueba de hipótesis: la lógica
La prueba de hipótesis es un procedimiento de la investigación cuantitativa, se basa en los mismo principios de
estimación de parámetros que fundamentan la construcción de intervalos de confianza. Su objetivo es usar los
resultados muestrales para obtener conocimiento acerca de la población
El razonamiento de la prueba de hipótesis
La prueba de hipótesis tiene como objetivo proveer argumento para decidir en contextos de incertidumbre. El
resultado de esta prueba permitirá decidir si lo que se observa en la muestra es compatible con una aseveración
hipotética sobre la población. Nunca será posible decidir si la hipótesis es verdadera, es algo que no podemos saber,
podemos ver si, hasta que punto lo que observamos en la muestra contradice o no lo que se afirma a escala
poblacional. Es decir podremos descarta una hipótesis por no ser compatible con lo que se observa pero no a la
inversa, solo podremos concluir que la evidencia no la contradice a la hipótesis , lo que comúnmente se suele enunciar
como no hay evidencia para rechazarla.
Para mostrar esta forma de razonar, se lo puede comparar con un juicio penal
La persona acusada no será condenada hasta que no hay evidencia suficiente para hacerlo. La evidencia casi siempre
es información fragmentada, sujeta a interpretación diferente. El inicio del juicio la persona acusada es inocente-
esto nosotros denominamos hipótesis nula-esta expresión indica que se trata de un estado inicial en que toda persona
es inocente hasta que se pruebe lo contrario, por lo que la hipótesis nula señala que esta persona acusada no es
diferente de cualquiera que no ha cometido un delito, mientra no haya pruebas suficientes, la hipótesis nula se
considerara acepta. La fiscalía aportara pruebas en dirección contraria a esta hipótesis, para probar que debe
rechazarse la hipótesis nula y asi acusar al acusado, pero si hay suficiente evidencia se dará la hipoteiss nula por
rechazada. La decisión de condenar a la persona acusada solo se tomara cuando la probabilidad de decidir de
menera errada sea pequeña.-
En este ejemplo la población es el conjunto completo de información necesaria para tomar la decisión de manera
certera sin error, se trataría de un conjunto infinito de datos que permitiría la reconstrucción exacta de los hechos en
los que participo la persona acusada, esa información nunca esta disponible, la decisión debe tomarse a partir de un
fragmento de ella, las pruebas que han podido reunirse, la evidencia.
En la analogía que hacemos con nuestros procedimientos, esta evidencia, constituye la muestra a partir d ela que se
juzgara la hipótesis nula: aceptarla o rechazarla. La muestra es el fragmento de información disponible, solo que en el
caso de la estimación, esta es obtenida con procedimiento que buscan su representatividad.
Otro ejemplo
Tenemos dudas sobre lo equilibrada que puede estar una moneda que se utilizara en un juego de azar.
o La hipótesis nula será: hasta que no se pruebe lo contrario, x sale con la misma frecuencia q c.
o X no tiene ninguna diferencia con c, la moneda esta equilibrada, esta hipótesis nula formalmente se lee como
salir con la misma frecuencia que c, equivale a , en infinitas tiradas la mitad de veces saldrá x
o Matemáticamente ello se escribe asi Ho: P =1/2 “la hipótesis nula afirma que la proporcion de veces que
saldrá c es ½”
o Como no es posible arrojar la moneda infinita veces generamos un conjunto de datos apra hacer la prueba
tirando al moneda un numero finito de veces

Los Datos Estadísticos

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Los Datos Estadísticos

Cargado por

Copyright:

Formatos disponibles

Contenido

Tablas de distribución de frecuencias (tablas de valores), contienen los recuentos de c categoría.

La presentación grafica de los resultados

Tortas Nominal, cuando son pocas categorías y Frecuencia relativa f’

Polígonos de frecuencias Para construirlo se toma la marca de Frecuencia relativa o

medidas de posición: indicaran en torno a que valores se distribuyen las observaciones

 media o promedio, es un valor de la variable obtenido de la sumatoria de todas las observaciones

gráficamente se puede ver en un histograma.

χ < Mediana distribucion asimetrica izquierda

evaluación cuantitativa de asimetrías

 positivo, asimetrías derechas

g 1=0 distribucion simetrica

medidas de dispersión basadas en la media

Box plot y la dispersión

 cuando la caja es larga, la distribución de datos es dispersa en la parte central

medidas de dispersión cuando no hay distancias

¿ y a la proporción restante 1− ρ=0

El individuo en relación a su grupo

 formulamos hipotesis sobre la posible respuesta: quizas la edad influya

tablas bivariadas, o de contribucion conjunta

clasificaciones de las relaciones

una clasificación respecto al tiempo

 intensidad de una relación será:

evaluando la distribución conjunta

Coeficiente q de Kendall mide la intensidad de relación para variables dicotómicas

 el coeficiente da un numero entre +/-1

concepto de independencia estadística

Consideremos ahora la distribución de la actividad económica por sexo:

Quizás es mas claro si formulamos la pregunta en términos de la diferencia entre grupos

Relación entre variables

alguna de ellas o las dos tienen mas de dos categorías

Variables de nivel ordinal:

Ejemplo: ¿cuál es la probabilidad de obtener un n# mayor a 4 si se tira un dado?,

Además, este tiene 6 resultados posibles, por lo que

Obtención de este cociente:

¿ A formas que puede suceder

Para nuestro ejemplo:

#A: es 2 porque son las formas en que puede obtenerse un # mayor a 4,

¿ ϕ es 6 que es el número total de resultados posibles al tirar un dado.

Relación entre asignación a priori y a posteriori.

Operando con probabilidades

 Para que un numero sea considerado una probabilidad ósea PA

Con probabilidades frecuenciales.

650 f marginal cat cordoba

f conjunto cat rosario∩ R

f marginal cat cordoba+ f marginal cat rosario

ρ ( cordoba U rosario )= ρ cordoba+ ρrosario=0

f marginal cat cordoba+ f marginal cat T −f conjunta cordoba /T

tenemos los siguientes modelos:

Esto lo llevamos a una nueva tabla

Cualquier sofware calcula las probabilidades o áreas bajo la curva normal,

también se pueden identificar

También podría gustarte