Documentos de Académico
Documentos de Profesional
Documentos de Cultura
La estadística se puede definir como la ciencia que recopila, organiza, analiza e interpreta la
información numérica o cualitativa, mejor conocida como datos, de manera que pueda llevar a
conclusiones válidas.
La estadística inferencial
Estudia cómo sacar conclusiones generales para toda la población a partir del estudio de
una muestra, y el grado de fiabilidad o significación de los resultados obtenidos.
La población
La muestra
Muestra de una poblacion: conjuntos de elementos que forman parte de una población
Homogeneidad - que todos los miembros de la población tengan las mismas características
según las variables que se vayan a considerar en el estudio o investigación. Por ejemplo, si
se fuera a investigar la incidencia de la drogadicción entre jóvenes mujeres adolescentes,
entonces hay que definir claramente las edades que comprenden la adolescencia y cuando se
seleccione la población asegurarse de que todas las personas entrevistadas sean de la edad
determinada y del sexo femenino. (La adolescencia se define operacionalmente como el
periodo comprendido de edad que fluctúa entre 12 y 21 años.)
Dato
Valor observado de la variable
Variables:
componente estructural del dato, es un sistema de clasificación que se emplea para clasificar las
UdA, que emplea el científico
Para que se considere un dato estadístico debe tener 2 características:
a) Que sean comparables entre sí.
b) Que tengan alguna relación.
Lo que estudiamos en cada individuo de la muestra son las variables (edad, sexo, peso, talla,
tensión arterial sistólica, etcétera). Los datos son los valores que toma la variable en cada caso.
Lo que vamos a realizar es medir, es decir, asignar valores a las variables incluidas en el estudio.
Deberemos además concretar la escala de medida que aplicaremos a cada variable.
Variables cuantitativas.
Son aquellas variables en las que características o propiedades pueden presentarse en diversos
grados de intensidad, es decir, admiten una escala numérica de medición. Son cualidades
numericas medibles medibles. Ej.: puntaje obtenido, nº de empleados, edad, tiempo de recorrido,
tamaño de…
Variables cuantitativas continuas, si admiten tomar cualquier valor dentro de un rango
numérico determinado (edad, peso, talla).
Es aquella que teóricamente puede tomar cualquier valor en una escala de medidas, ya sea
entero o fraccionario.
Ejemplo : Estatura : 1.90 m
Son aquellas que pueden adoptar entre dos números puntos de referencias intermedio. Las
calificaciones académicas (10.5, 14.6, 18.7, etc.) siempre son cuantitativas, son las que pueden
asumir cualquier valor. Por ejemplo, la edad, altura, peso, índice académico.
Hay decimales. Ejemplo: Peso, temperatura, altura. “8hs. 3minutos, 2 segundos”, “1 mts, 70 cam,
2 mm” “1 semana, 3 dias, 1 noche”
si no admiten todos los valores intermedios en un rango. Suelen tomar solamente valores enteros
(número de hijos, número de partos, número de hermanos, etc).
Son aquellas que no admiten posiciones intermedias entre dos números. Ej., en Barinas la
división de territorial la constituyen 11 municipios por no (10.5 u 11.5 municipios).son aquellas
que sólo adquieren un valor absoluto o específico que nunca cambian. Pueden ser cualitativas.
Ejemplo: el sexo, nacionalidad,
grupo étnico, entre otras.
Son numeros enteros: 8k 8 años 8km Nunca 3.1/2
Variables cualitativas.
Atributos, condiciones o cualidades que poseen los individuos no numericas, aquello que se
dice de las personas y objetos:
(diagnostico clínico, sexo, actividad laboral, profesión, marcas de…tipo de enseñanza publica/
privada, clase social alta-media-baja, catolico/protestante, alto/gordo). Sus valores Se
relacionan con los niveles de medición Nominal y Ordinal.
Este tipo de variables representan una cualidad o atributo que clasifica a cada caso en una de
varias categorías. La situación más sencilla es aquella en la que se clasifica cada caso en uno
de dos grupos (hombre/mujer, enfermo/sano, fumador/no fumador). Son datos dicotómicos o
binarios. Como resulta obvio, en muchas ocasiones este tipo de clasificación no es suficiente y
se requiere de un mayor número de categorías (color de los ojos, grupo sanguíneo, profesión,
etcétera).
Son clasicaciones y etiquetas o codigos que solo sirven para distinguirlas. Clasifica clases
distintas entre si, no hay una mejor que otra:
Clases exhaustivas (todos los elementos de la población, no pueden estar en dos categorías
al mismo tiempo) cada individuo debe pertenecer a una de las categorias
Clases excluyentes individuo u objeto que pertenece a una sola de las categorias
Escalas ordinales: en las escalas utilizadas, existe un cierto orden o jerarquía entre las
categorías (grados de disnea, estadiaje de un tumor, etcétera).
hay establecido un orden jerárquico, y son diferentes los elementos. Se presentan escalas
(nivel alto, medio, bajo). No se puede cuantificar ni decir que tanto mayo qué es.
Nivel de educación:
Nulo
Primario
Secundario
Terciario
Intervalar:
ero no existe un 0 absoluto. El punto 0 no representa la ausencia de la característica sino que es un punto
convenido arbitrariamente.
Temperatura:
Fahrenheit or Celsius
Medición en una escala continua
No existe un 0 absoluto
Histograma de frecuencias
Una distribución normal que tiene media igual a 0 y desvición estándar igual a 1 se denomina
distribución normal estándar.
Valor z: la distancia entre un valor seleccionado, designado como X, y la población media μ,
dividida entre la desviación estándar de la población σ,
b) Son simétricas del eje vertical que pasa por x= media poblacional
c) Tienen dos puntos de inflexión, donde cambia la concavidad, en los puntos correspondientes
a la media más/menos una desviación típica.
En x= media – desvío poblacional, la concavidad va hacia abajo.
j) El área total bajo la curva indica la probabilidad correspondiente a la totalidad de los valores y
vale 1.
La distribución de frecuencia:
F%: Expresa qué porcentaje del total corresponde a la Fa. F%: Fr . 100.
Estadistica descriptiva, una vez que se han recogido los valores que toman las variables de
nuestro estudio (datos), procederemos al análisis descriptivo de los mismos. Para variables
categóricas, como el sexo o el estadiaje, se quiere conocer el número de casos en cada una
de las categorías, reflejando habitualmente el porcentaje que representan del total, y
expresándolo en una tabla de frecuencias.
Para variables numéricas, en las que puede haber un gran número de valores observados
distintos, se ha de optar por un método de análisis distinto, respondiendo a las siguientes
preguntas:
Son aquellas que ‘representan’ a la totalidad de las observaciones. Son la Moda, Mediana y
Media. Indican el centro de un conjunto de observaciones
Moda:
Es el valor de la variable que más veces se repite, es decir, aquella cuya frecuencia absoluta
es mayor. No tiene porque ser única.
Mediana:
Consideramos una variable discreta X cuyas observaciones en una tabla estadística han sido
ordenadas de menor a mayor. Llamaremos mediana, Medal primer valor de la variable que
deja por debajo de sí al La mediana del ejemplo anterior sería el valor que deja a la mitad
de los datos por encima de dicho valor y a la otra mitad por debajo
una mediana es el valor de la variable que deja el mismo número de datos antes y después
que él, una vez ordenados estos. De acuerdo con esta definición el conjunto de datos
menores o iguales que la mediana representarán el 50% de los datos, y los que sean mayores
que la mediana representarán el otro 50% del total de datos de la muestra.
Valor de la variable que ocupa una posición central, valores mayores que ella y el de los
menores. es el valor que separa por la mitad las observaciones ordenadas de menor a mayor,
de tal forma que el 50% de estas son menores que la mediana y el otro 50% son mayores. Si
el número de datos es impar la mediana será el valor central, si es par tomaremos como
mediana la media aritmética de los dos valores centrales.
La mediana: es el valor que deja a la mitad de los datos por encima de dicho valor y a la otra
mitad por debajo. Si ordenamos los datos de mayor a menor observamos la secuencia:
Media
Es el promedio aritmético de las observaciones, es decir, la división entre la suma de todos
los datos y el numero de ellos N. La media no es más que la suma de todos los valores de
una variable dividida entre el número total de datos de los que se dispone. es el simple
promedio de las observaciones del grupo, es decir el valor obtenido sumando las
observaciones y dividiendo esta suma por el número de observaciones que hay en el grupo.
En realidad hay muchas clases de promedios y ésta se la llama media aritmética para denotar
la suma de un grupo de observaciones dividida por su número.
La media: suma de todos los valores de una variable dividida entre el número total de datos de
los que se dispone:
Medidas de forma
Asimetría
mide si la curva tiene una forma simétrica, es decir, si respecto al centro de la misma
(centro de simetría) los segmentos de curva que quedan a derecha e izquierda son
similares.
Es que tan desplazada del centro esta la campana. Marca la tendencia del eje. Para cual de
todos los resultados esta más inclinado
Hemos comentado que el concepto de asimetría se refiere a si la curva que forman los
valores de la serie presenta la misma forma a izquierda y derecha de un valor central (media
aritmética)
Para medir el nivel de asimetría se utiliza el llamado Coeficiente de Asimetría, Si el
coeficiente de asimetría da 0 significa que no hay asimetría. Mas de 1 si
asimétrica
cuanto mayor sea el tamaño de la muestra, mas cerca de la distribucion normal sera la
misma. N=30
Medidas de dispersión
Rango: mide la amplitud de los valores de la muestra y se calcula por Diferencia entre el
mayor valor de la muestra (1,30) y el menor valor (1,20). Luego el rango de esta muestra es
10 cm.
Amplitud
Se obtiene restando el valor mas bajo del mas alto en un conjunto de observaciones. La
amplitud tiene la ventaja de que es fácil de calcular y sus unidades son las mismas que las de
la variable que se mide. La amplitud no toma en consideración el número de observaciones de
la muestra estadística, sino solamente la observación del valor máximo y la del valor mínimo.
Sería deseable utilizar también los valores intermedios del conjunto de observaciones.
- Varianza: Mide la distancia existente entre los valores de la serie y la media. Se calcula
como sumatorio de las difrencias al cuadrado entre cada valor y la media, multiplicadas por el
número de veces que se ha repetido cada valor. El sumatorio obtenido se divide por el tamaño
de la muestra.
La varianza siempre será mayor que cero. Mientras más se aproxima a cero, más
concentrados están los valores de la serie alrededor de la media. Por el contrario, mientras
mayor sea la varianza, más dispersos están.
la varianza es una medida de que tan cerca, o que tan lejos están los diferentes valores de
su propia media aritmética. Cuando más lejos están las X i de su propia media aritmética,
mayor es la varianza; cuando más cerca estén las X a su media menos es la varianza.
Sx2=
S = √ 427,61 = 20.67
Son índices que describen la variabilidad o dispersión y por tanto cuando los
datos están muy alejados de la media, el numerador de sus fórmulas será grande y la
varianza y la desviación típica lo serán.
Al aumentar el tamaño de la muestra, disminuye la varianza y la desviación típica.
Para reducir a la mitad la desviación típica, la muestra se tiene que multiplicar por 4.
Cuando todos los datos de la distribución son iguales, la varianza y la desviación
típica son iguales a 0.
Para su cálculo se utilizan todos los datos de la distribución; por tanto, cualquier
cambio de valor será detectado.
80 - 15 = 65 días
CV = 20,67/52,3 = 0,39
Cuartiles: son 3 valores que distribuyen la serie de datos, ordenada de forma creciente o
decreciente, en cuatro tramos iguales, en los que cada uno de ellos concentra el 25% de los
resultados.
Deciles: son 9 valores que distribuyen la serie de datos, ordenada de forma creciente o
decreciente, en diez tramos iguales, en los que cada uno de ellos concentra el 10% de los
resultados.
Percentiles: son 99 valores que distribuyen la serie de datos, ordenada de forma creciente o
decreciente, en cien tramos iguales, en los que cada uno de ellos concentra el 1% de los
resultados.
Entonces se crea una hipótesis estadística inferencial, que es una afirmación que se formula
sobre o acerca de la distribución de una o más variables. Una prueba de hipótesis es un
conjunto de operaciones estadísticas que permite mediante la utilización del muestreo,
rechazar o no la hipótesis formulada, posibilitando el cálculo de la probabilidad de cometer error
en la decisión adoptada.
Ejemplo: tiramos un dado al aire y queremos saber cual es la probabilidad de que salga un 2,
o que salga un número par, o que salga un número menor que 4.
El experimento tiene que ser aleatorio, es decir, que pueden presentarse diversos
resultados, dentro de un conjunto posible de soluciones, y esto aún realizando el experimento
en las mismas condiciones. Por lo tanto, a priori no se conoce cual de los resultados se va a
presentar:
Ejemplos: lanzamos una moneda al aire: el resultado puede ser cara o cruz, pero no
sabemos de antemano cual de ellos va a salir.
En la Lotería de Navidad, el "Gordo" (en España se llama "Gordo" al primer premio) puede ser
cualquier número entre el 1 y el 100.000, pero no sabemos a priori cual va a ser (si lo
supiéramos no estaríamos aquí escribiendo esta lección).
Hay experimentos que no son aleatorios y por lo tanto no se les puede aplicar las reglas de
la probabilidad.
Antes de calcular las probabilidades de un experimento aleaotorio hay que definir una serie de
conceptos:
Suceso elemental: hace referencia a cada una de las posibles soluciones que se pueden
presentar.
Ejemplo: al lanzar una moneda al aire, los sucesos elementales son la cara y la cruz. Al
Ejemplo: lanzamos un dado y queremos que salga un número par. El suceso "numero par" es
un suceso compuesto, integrado por 3 sucesos elementales: el 2, el 4 y el 6
O, por ejemplo, jugamos a la ruleta y queremos que salga "menor o igual que 18". Este es un
suceso compuesto formado por 18 sucesos elementales (todos los números que van del 1 al
18).
Ejemplo: si tiramos una moneda al aíre una sola vez, el espacio muestral será cara o cruz.
Si el experimento consiste en lanzar una moneda al aire dos veces, entonces el espacio
muestral estaría formado por (cara-cara), (cara-cruz), (cruz-cara) y (cruz-cruz).
Universo y Muestra
El Universo es el conjunto de individuos u objetos de los que se desea conocer algo en una
investigación;
una Muestra consiste en un subconjunto o parte del universo o población en que se llevará a
cabo la investigación con el fin posterior de generalizar los hallazgos al todo.
El muestreo consiste en seguir un método, un procedimiento de manera tal que al escoger un
grupo pequeño de una población, se pueda tener un grado de probabilidad de que ese
pequeño grupo efectivamente posee las características del universo que estamos estudiando.
Es utilizado para seleccionar la muestra.
Unidad de muestreo:
El muestreo consiste en seguir un método, un procedimiento de manera tal que al escoger un
grupo pequeño de una población, se pueda tener un grado de probabilidad de que ese
pequeño grupo efectivamente posee las características del universo que estamos estudiando.
Muestra aleatoria
Una muestra aleatoria es una muestra seleccionada de manera que cada elemento o persona
en la población que se estudia tiene una probabilidad de selección, donde cada miembro tiene
igual oportunidad de ser incluido.
a. Probabilísticas Aleatorio
subconjunto donde todos los elementos de la población tienen la misma probabilidad de
ser escogidos. Ej: cdo llaman por teléfono para hacer encuestas.
Dos pasos:
Aleatorio o al azar simple cada unidad tiene la probabilidad equitativa de ser incluida en la
muestra, por sorteo o rifa o tarjetas con nombres o números, o tablas con columnas verticales,
horizontales y transversales, determinando el orden en que se hará uso de la tabla, columna y
fila.como su nombre lo indica, es una muestra donde se escogió al azar a los elementos que
la componen. Por ejemplo a partir de listas
Para obtener una muestra, se numeran los elementos de la población y se seleccionan al azar los
n elementos que contiene la muestra.
b- aleatorio sistemático
Se elige un individuo al azar y a partir de él, a intervalos constantes, se eligen los demás hasta
completar la muestra.
Por ejemplo si tenemos una población formada por 100 elementos y queremos extraer una
muestra de 25 elementos, en primer lugar debemos establecer el intervalo de selección que será
igual a 100/25 = 4. A continuación elegimos el elemento de arranque, tomando aleatoriamente un
número entre el 1 y el 4, y a partir de él obtenemos los restantes elementos de la muestra.
2, 6, 10, 14,..., 98
c -muestreo estratificado:
se caracteriza por la sub-división de la población en sub- grupos o estratos (capas)
En una fábrica que consta de 600 trabajadores queremos tomar una muestra de 20. Sabemos
que hay 200 trabajadores en la sección A, 150 en la B, 150 en la C y 100 en la D.
Ej. Si se desea hacer un estudio en las escuelas primarias, 1º se seleccionan las escuelas, 2
los grados, 3º los alumnos. Las inferencias hechas por conglomerado no son tan confiables
como las de muestreo aleatorio.
Este tipo de muestreo, tambien conocido como “muestreo por conveniencia”, no es aleatorio, no
es recomendable, por lo cual se desconoce la probabilidad de selección de cada unidad,
entonces no tiene la credibilidad del muestreo probabilística.
No posee la credibilidad de que goza el muestreo probabilístico, se caracteriza porque el
investigador selecciona la muestra siguiendo algunos criterios identificados para los fines del
estudio. Intencional o deliberado o el accidental o por comodidad. Ej: por cuotas.
Por conveniencia:
Es el método más deficiente.
Los sujetos del universo son elegidos porque son accesibles de medir donde se hace con un
criterio intencional accidental o por comodidad.
A veces se toman los casos que estan disponibles en ese momento.
Por cuota:
El investigador selecciona la muestra a partir de algunas variables como: sexo, raza, religión etc
Consiste en establecer cuotas para las diferentes categorías del universo., que son réplicas del
universo., quedando a disposición del investigador la selección de unidades.
Ej. Encuestas de opinión pública, donde los encuestadores salen a buscar personas en una zona
determinada hasta cubrir su cuota.
Ej. Telemarketer, hasta que alcancen el cupo establecido por la empresa.
Distribución muestral de medias
es el conjunto de todas las medias posibles de la muestra de una U, seleccionadas de una
población, y la probabilidad de ocurrencia asociada con cada media muestral.
dice que si tenemos un grupo numeroso de variables independientes y todas ellas siguen el
mismo modelo de distribución (cualquiera que éste sea), la suma de ellas se distribuye según una
distribución normal.
Error no muestral
Error muestral
X= es la media aritmetica
Parámetro: Propiedad descriptiva de la muestra de una población que refleja las caracteristicas
escenciales de la misma. Se establecen por inferencia
Estimación de parámetros
Con una muestra aleatoria, de tamaño n, podemos efectuar una estimación de un valor de un
parámetro de la población; pero también necesitamos precisar un:
Intervalo de confianza
Se llama así a un intervalo en el que sabemos que está un parámetro, con un nivel de confianza
específico.
Nivel de confianza
Tamaño de la muestra
Con un riesgo de error del 1% (o con un nivel de confianza del 99%) puede decirse que la media
poblacional está entre 99.355 y 100.645.
Nivel de Confianza.
Probabilidad de que la estimación efectuada se ajuste a la realidad. Cualquier información que
queremos recoger está distribuida según una ley de probabilidad (Gauss o Student), así llamamos
nivel de confianza a la probabilidad de que el intervalo construido en torno a un estadístico capte
el verdadero valor del parámetro.
Analisis multivariado
Es la asociación entre variables, el analisis nos permite conocer el comportamiento de esa
variable en cuanto a frecuencias y porcentajes.
Se relacionan dos variables ej.: sexo y voto pudiendo asociarlas a ambas
Para esto se usa la tabla de contingencia.
Que es clasificar a cada individuo teniendo en cuenta las dos variables.
El analisis multivariado nos permite relacionar mas de una variable a la vez y ver la
intensidad de la relación entre estas, si estan encimadas o no
Análisis de heteregenoidad:
Una media o promedio de 20% hacia arriba, nos da una población heterogénea- o sea
desvíos amplios, alejados
Una media o promedio del 20% hacia abajo, nos da una población homogénea, o sea
desvíos bajos, concentrados
Fue al azar?
Fue heterogenea?
Las variables son Continuas o discretas?
Cuantas fueron las variables suministradas?
La mayoría comenzó de inmediato a buscar trabajo
La muestra fueron de 134 individuos
Las variables cualitativas se transformaron en cuantitativas al atribuirle numero 1 al si, y
2 al no y se pueden sacar la media y el desvio.
Variables relevantes Aquellas que causen el que una persona se sienta mal y luego las
consecuencias de sentirse bien o mal
Variables cualitativas
1- la sensación de ser útil.
2- estaba conforme con el tipo de trabajo que tenia
3- actualmente ¿esta BUSCANDO TRABAJO?
4- Desde que perdió el empleo ¿se desprendió de su casa?
Son las variables que creemos que son las que mas presionan al sujeto, a sentirse mal por la
pérdida de este, son las que mas afectan al estado psiquico del sujeto.
En la tabla de contingencia
Es una tabla que dice si una variable es dependiente de la otra.
La T.C Nos da la respuesta si la variable que elegimos tiene relación con la variable que
ponemos a prueba.
Uno no sabe si es dependiente o no hasta que no se hace la T.C
Supuestamente estamos tratando de buscar una dependencia entre le nivel de angustia de una
persona y las variables elegidas, para decir: “la angustia depende de estos factores” y
corroborar la hipótesis.
La dependiente (columna) tiene que ser la que estamos evaluando, probando “El estado del
ánimo” porque depende de…tranquilo, preocupado, nervioso, angustiado y desesperado.
Pueden salir 25 tablas de contingencia
“la sensación de ser útil” me va a reflejar en mi estado psíquico, porque al haberlo perdido
me siento un inútil. Tengo que hacer depender a mi estado de angustia con la variable de ser
útil.
Variable dependiente siempre tiene que ser el estado de ánimo, tendré que ver de que
depende mi estado de ánimo. Es la que busca encontrar relación con algo que desconozco
Como dependiente se toma al estado de ánimo que va a depender de todos los demás
factores.
La probabilidad:
Se calcula como el area que hay debajo de la curva standarizado.
Las prob. Son los valores de area debajo de la curva entre un valor determinado y otro
Particularmente desde el menos infinito hasta el mas infinito da 1. (-0.50 y +0.50 para cada
lado)
Porque dado que cada fenómeno tiene su magnitud, en lugar de hacer distintas curvas se
prefiere standarizar todo y llevar a Z donde se trabaja con una curva idéntica para todos los
casos
Valor tipificado
Es cuando debajo de la campana pongo Z para los valores positivos a la derecha y los valores
negativos en la izquierda
No siempre la moda refleja el valor que mas se repite. Porque lo que esta intervalado no
reflejan siempre los numeros reales.
La tabla de contingencia
Es una tabla donde se ponen dos variables de las cuales desconocemos la dependencia de
una respecto a la otra y de acuerdo a los valores que arroja infiero si hay dependencia de una
hacia la otra
Si tengo en mi tabla de contingencia que arroja un valor de 75 contra 25% infiero cuan
diferencia, pero en las frecuencias decian 3 contra 1 por ser una muestra muy pequeña, este %
que nos parecia contundente estadísticamente no sirve.
Antes de inferir por el % hay que fijarse en las frecuencias. Si el % respecto a la población es
significante.
Uno busca que una variable sea dependiente de la otra pero no siempre se corrobora
Las personas que se ven tranquilas por la familia, el 78.4% se sentía util en el trabajo y el
31.6 no. (Suman 100%)
Nos fijamos donde esta el 100% y apuntamos para arriba. Hay que comparar la columna que
suma 100%
Entonces aquellos que se sentian utiles en su trabajo y hoy no lo tienen, la familia los ve
intranquilos y preocupados
Entonces aquellos que se sentina utiles en su trabajo y hoy no lo tienen, la familia los ve
intranquilos
Test de hipótesis
Es siempre encontrar la relación entre una variable y otra, a traves de la tabla de contingencia
para ver si esa relación es correcta o no.
El desvío
Se mide en la unidad en que se esta evaluando. Es la misma unidad de la media (cm. Mls. Km
grs.)
Si es SI-No no se mide en unidades.
Cuanto mas mínimo es el desvió es que todo tiende hacia un mismo valor
Es que tan alejados del valor central de la media están los valores.
Ej. Todos los chicos se sacaron la misma nota= 10, desvio pequeño, todos concentrados,
puede ser bueno o malo, depende. O todos saben, o la profesora les regalo la nota.
Los desvios me sirven para sacar el coeficiente de variación, saber si una muestra es
homogenea o heterogenea. Me da la idea de cómo se conporta la variable.
Este trabajo tiene la cagada que no presenta unidades porque hablamos de SI.NO, malo,
bueno.
Cuando las variables son continuas puedo hablar de media y desvio, porque de reglas de
medición si se sacan los desvíos.
Cuando las respuestas estan discretizadas entre mas de dos valores, es util sacar los desvíos.
Ej. Malo, bueno regular, entonces el desvió se arrima a una de ellas. Estan discretizadas pero
entre ellos hay distintas opciones.
Pero cuando las variables son discretas SI-NO ¿de que me sirve sacar los desvíos si no vale la
pena tener la media?, (aunque se puede sacarla y decir para que lado se arriman al SI o Al NO)
Si el desvió es que tan alejados están los valores de la media y tengo dos valores: SI.NO ¿Qué
tan alejados pueden estar uno del otro, si son solo dos? Va a ser homogenea porque son todos
SI o todos NO, son 50% y 50%
pero nosotros que conocemos casi todas son cualitativas y las cuantitativas son discretas,
donde frente al SI y No de la edad de los hijos no me sirve de nada calcular la media o el
desvió y coeficiente de variación, pero el programa lo hace sin discriminar sin son valores
continuos o discretos.
¿En que unidades esta este desvió la sensación de ser útil? SI-No, no tiene ningún valor
En la variable con que frecuencia busca trabajo, si me sirve por ser continua. Por definición el
desvió es que tanto se alejan los valores de la media. Para este caso aunque es mínimo y la
media de 2.92 muy cerca del valor 3 que me representaba 3 veces por semana, y el desvió es
pequeño puedo inferir que la gran mayoría esta concentrado en buscar trabajo 3 veces por
semana.
Si hubiese tenido un desvió grande es que tengo muchas personas que buscan todos los días,
muchas que no buscan nunca.
El desvió nos dice que tan alejados están todos los valores individuales de la media
Desvió, varianza
Coeficiente de variación
Que es la división entre el desvio sobre la media a eso lo multiplicado por 100, si el
resultado es mayor a 20=homogenea
Analisis de heterogenidad:
1-(x-desvió./x) x 100
Ej. Si todos se sacaron 0, es homogeneo, entonces es malo, a la profesora no le conviene los mismos
resultados, porque ella no sabe explicar o porque no estudiaron
Una media o promedio de 20% hacia arriba, nos da una población heterogénea- o sea
desvíos amplios, alejados
Si la media (la mayoría) están concentrados en el medio con un desvió bajo, no es estudiable
por tener un desvío bajo, concentrado: es al azar. homogéneo
El desvío bajo, concentrado en la media, significa que no estan tan desviados, alejados de la
media, que respondieron al azar (un 50% de responder bien y un 50% de responder mal) el
azar requiere que se centren las notas en el centro. Entonces no tiene relevancia, no es
estudiable los que respondieron ni bien ni mal con desvió bajo, concentrado.
Media en el centro y desvío pequeño, no sirve porque es hecho al azar.
Error muestral
Se ven cuando el individuo no puede sacar una buena medición
En las cualitativas no se puede inferir el E.M
En las cuantitativas discretas, ¿Qué error puede haber?, no tengo forma de averiguar si las
respuestas son correctas o no.
La respuesta SI-NO es una variable discreta y no tienen termino medio, por lo cual no puedo
calcular el desvió porque seria en vano, menos el coeficiente de variación
La varianza al ser la raíz cuadrada esta dando idea de un desvió pero a diferencia de este
contempla en el numero los casos donde se desvía para arriba o para abajo.
En la curva las variables tienen dispersiones para arriba o para abajo, hay ciertos valores
dispersos positivos y negativos.
Por eso el desvió es la varianza al cuadrado, se la eleva para que todo esto de positivo y no se
anulen unas a otras.
Tablas de contingencia
Si la media da 1,22 es que la gran mayoria SI se sentia conforme en el trabajo, el desvio esta
para el si
¿La mayoría esta buscando trabajo?. Por la media arrima a el si estan buscando trabajo
El desvió nos dice que tan alejados estan todos los valores individuales de la media
Introducción
En este trabajo se van a relacionar las ciencias sociales con la estadística, que siendo una
herramienta matemática nos ayuda a arribar a relaciones, teorías e hipótesis, mediante la
selección de una muestra homogénea Y tratar de encontrar relaciones a través de tablas de
contingencia para arribar a hipótesis-
Se nos suministro una base de datos SPSS con más de 300 variables y una N de 134
individuos
Estamos intentando representar en este trabajo impreso las que a nuestro criterio fueron las
más relevantes, en cuanto a lograr mediante el uso de herramientas estadísticas una relación
entre: El nivel de angustia de un sujeto y las caract. De los mismos.
En cuanto al histograma
No se hace la curva si tenemos solo dos valores, una curva tipificada, de Gaus se hace cuando
hay mas resultados que dos.
Esta curva tiene como valores abajo, en los ejes, los valores de z. esta representando los
valores de Z en el eje horizontal, porque la tipificación es encontrar los valores de Z.
Si entre los valores pueden tener cierta correlación: malo- bueno muy malo, si
corresponde la curva, porque entre un malo y excelente hay un bueno, hay ciertos
valores intermedios desde nuestra subjetividad
Si nosotros entre estos 4 valores elegimos dos, (lo estamos discretizando porque no
tenemos capacidad de vocabulario para describir otros estados continuos) entonces
sigue siendo continua porque si existen otros estados en el medio. Porque el estado de
ánimo es continuo, no se pasa de mal a bien de golpe.
Variable cuantitativa continua: edad de los hijos. La media =2.48 y la moda =2 son
valores útiles para calcular la media la moda y el desvió.
Cuando son recien nacidos los hijos no estan tan angustiados como cuando entran en
primaria.
Aquellos que se sentian utiles: se encuentran en proporcion mas intranquilos que los que no
se sentian utiles, ambos estan intranquilos pero la proporcion es mayor que los que no se
sentian utiles, un 87% contra un 80% que da una dif. Menor del 7%
Se nos suministro una base de datos del SPSS con una muestra es de 134 sujetos con mas de
380 variables, de las cuales tomamos las mas relevantes, no sabemos como se tomo la
muestra, si al azar o no probabilística.
La media es el promedio y la mediana es la que deja el 50% por encima y 50% por debajo del
valor. La mediana parte a N por la mitad
La base desconoce las edades le atribuye a ellas un valor: 1,2,3,4 y de esa franja da
la moda y la media
2 es la moda, porque en la tabla del SPSS la mayoria es tomada del valor 2 que cargo el
programa y que corresponde a la edad de 6-12 años, no porque tengan mayoria los de dos
años .
Y la media es de 2.48 porque me da los valores del 2 que van de 6-12 años y el numero 3
(por 2.48 que es casi 3) que va de 13-18 años, entonces la media esta entre estos
valores=6-18 años
Sabemos que 6 a 12 hay son los casos que mas se repiten y la media esta entre 6-12 y 13-
18 con una media de 2.48
valor 3=13-18 con 20 casos en estas dos franjas se concentran la mayor cant. Hijos
La de 6-12 el 2 …. Por ser mas casos que los de 13-18 que le asgina casi 3
La base sumo todo los intervalos de cada valor y los dividio por 4 (N) y dio entre el rango 2 y
el 3, que dio entre los 6 y 18 años = 2.48
Tabla de contingencia
En cuanto a preocupado estan todos preocupados 50%, pero mas aquellos que se sentian
utiles 76%
R- la mayoría esta preocupado y si comparo una con otra infiero que unos mas que otros
No se puede calcular media, mediana, moda ni desviación estandard, pues las variables
cualitativas no son numéricas. lo que si puedes hacer es calcular proporciones.
por ejemplo, si tu variable es gusto por la gaseosa y tienes las respuestas cerradas como "si
me gusta" y "no me gusta" no puedes obtener un promedio pero si puedes obtener la
proporción de respuestas de si y de no
las variables cuantitativas son las unicas que se pueden analizar por medio de promedios,
medianas, modas, desviaciones estandard, probabilidades normales (gausianas), covarianzas y
varianzas. estas variables son todas numericas como peso, estatura, dinero, masa, distancia,
conteos y cualquier otra variable cuantificable.
No sabemos que criterio se uso para la selección de la muestra, podemos inferir que es
aleatoria simple, el unico conocimiento que tenemos es que la población de la que se tomo
la muestra es gente desempleada (estratificado?)
Las categorías de la lista deben cubrir todas las respuestas posibles, esto es, son
colectivamente exhaustivas
Codificar las preguntas cerradas implica asignar números como etiquetas de las
categorías a fin de aprovechar plenamente la capacidad del programa informático. El
informante expresa su respuesta según una lista fija. Es posible que la lista influya en la
respuesta.
Los datos nominales contienen información sobre un atributo. Los valores que la variable
puede adoptar son categorías no mensurables unas en función de otras de manera objetiva,
es decir, que no se pueden ordenar ni se pueden establecer razones. Los valores que la
variable puede adoptar son nombres, de ahí la palabra “nominal”.
Los datos describen un atributo. Los valores que los datos pueden adoptar constituyen
categorías. Las categorías no se pueden poner objetivamente en ningún orden ni medirse
unas en función de otras. “Masculino” no es dos veces “Femenino”.
Los datos nominales constan de categorías que no pueden ser ordenadas. Una variable
nominal puede variar solamente en términos de determinada cualidad: masculino/femenino,
región, etc. Se trata, por consiguiente, de una variable cualitativa. Los datos basados en un
intervalo o una razón son continuos y constan de tantos valores posibles que pueden
considerarse continuos. La variable se mide según una escala continua. Una variable
basada en un intervalo varía en función de la magnitud o la cantidad y es, por consiguiente,
una variable cuantitativa.
Los datos ordinales se sitúan entre los dos anteriores y se consideran en ocasiones
cualitativos, cuando las categorías difieren por la cualidad, y en ocasiones cuantitativos, en
cuyo caso el orden de las categorías da magnitud a los valores de la variable.
Aquellos que se sentían útiles en su empleo anterior, por un porcentaje mínimo se hallan más
intranquilos que aquellos que no se sentían útiles
Pero de los totales se deduce que la mayoría de los sujetos ESTAN INTRANQUILOS.
Aquí observamos que aquellos que se sentían útiles están más preocupados que el resto de aquellos
que no se sentían útiles. Asimismo advertimos que, los que no se sentían útiles están más o menos
preocupados en porcentajes iguales
Si bien aquellos que apreciaban su empleo por sentirse útiles, están más nerviosos que los que no se
sentía útiles
Observamos en cuanto a la angustia, que se hallan más angutiados aquellos que no se consideraban
útiles
Ambos grupos en su mayoría presentan otros estados de ánimo que no fueron enunciados
anteriormente.
Si bien la mayoría de los sujetos que buscan trabajo o aquellos que no lo hacen, no están tranquilos,
están aún más intranquilos los que buscan trabajo TODOS LOS DIAS.
Aquí sí la mayoría se encuentra angustiada, no tanto los que buscan trabajo de vez en cuando, y
concentrándose el mayor porcentaje en aquellos que no buscan trabajo, quizás ese estado de ánimo no
les permita salir a buscarlo.
No se hallan desesperados en su mayoría, hallándose aún menos los que buscan trabajo de vez en
cuando.
A su vez, la mayoría estaría sintiéndose o siendo visto por su familia, desde otro tipos de estados que
no cuadran dentro de los antes citados.
Tanto los sujetos que buscan trabajo como los que no lo hacen, están intranquilos en su mayoría, pero
lo están más aquellos que si buscan trabajo en la actualidad.
Tanto los sujetos que buscan trabajo como los que no lo hacen, están preocupados en su mayoría, pero
lo están más aquellos que si buscan trabajo en la actualidad.
La mayoría no refleja este estado de ánimo, pero están aún menos nerviosos los que no buscan trabajo,
no así los que si lo buscan.
Por los datos recogidos se observa que la mayoría no se halla angustiada, y menos aún los que no
buscan trabajo.
Aquí el mayor porcentaje se inclina para el desesperado, y se ve reflejado más en aquellos que no
buscan trabajo que los que sí lo buscan.
La mayoría de los sujetos que están buscando trabajo, y los que no lo buscan, presentan otros estados
no descriptos anteriormente.
La mayoría de los sujetos que expresan el grado de conformidad con su trabajo, está preocupado, pero
lo están más aquellos que no estaban conformes con su trabajo.
El nerviosismo estaría casi en porcentajes similares, hay poca diferencia, pero así todo la mayoría no
está nerviosa, concentrándose el porcentaje mayor de nerviosismo en aquellos que no estaban
conformes con su trabajo.
El mayor porcentaje de sujetos se halla angustiado respecto al grado de conformidad que poseían con
su trabajo, pero la mayor cantidad de angustiado se ve en aquellos que no estaban conformes con su
trabajo.
Aquellos que estaban muy conformes con su trabajo están más desesperados que el resto.
Se observan otros tipos de estados, en aquellos que estaban muy conformes con su trabajo.
Están más intranquilos aquellos sujetos que perdieron el empleo, y las edades de sus hijos oscilan entre
los 6 a 12 años. Plena escolarización primaria.
Están más preocupados aquellos sujetos que perdieron el empleo, y las edades de sus hijos oscilan
entre los 6 a 12 años. Plena escolarización primaria.
Están más nerviosos aquellos sujetos que perdieron el empleo, y las edades de sus hijos oscilan entre
los 0 a 5 años.
Están más angustiados aquellos sujetos que perdieron el empleo, y las edades de sus hijos oscilan
entre los 13 a 18 años. Quizás por no poder planificar un buen futuro para ellos.
Están menos desesperados aquellos sujetos que perdieron el empleo, y las edades de sus hijos oscilan
entre los 19 o más años, obviamente por que sus hijos pueden buscar trabajo para ayudar en la casa.
Otros estados presentan aquellos sujetos que perdieron el empleo, y las edades de sus hijos oscilan
entre los 0 a 5 años.
Está menos nervioso aquel que perdió su casa del que no la ha perdido.
Se halla más angustiado aquel que no se desprendió de su casa, presentando asimismo otros estados
en su mayoría.
1 La muestra fue al azar, porque no se tomo cierto rango de edades etc.
3 rango: son los intervalos de 0-5 6-12 etc que el programa ya los tenia
estipulado
4 Z: ¿Los datos se presentaron tipificados? NO, fueron SI/NO, y las cantidades, son
cantidades exactas, no transformadas a Z haciendo las cuentas.
Los datos no fueron presentados por Z sino en los valores verdaderos de cantidades de hijos,
edad de los mismos etc.
¿Los % se calcularon en base a la tipificacion y probabilidad? NO, porque estan hechos en base
a las frecuencias
Cuarteles, deciles, percentiles: estos % representan frente a la muestra total, y el recoger las
respuestas de los individuos de la población.
Los cuartiles, deciles, perceptiles son frente a una cierta respuesta que quiero analizar, cuantas
personas, respondieron a eso.
“Si tienen hijos entre los 1 y 19 años” el 25% de las personas, ¿en qué edades tienen los hijos?.
Es encontrar que fraccion, cuantas personas del total cumplen con una fraccion determinada
Ej¿Qué edad tienen los hijos que corresponden al 25% al 10% 0 al 1% de la población.?
cuando planteamos una hipótesis (H1) es la que me planteo. La hipótesis alternativa (H0) es
plantear lo contrario a H1, si se comprueba H0 es que la otra no es valida, la descarto siendo una
hipótesis de rechazo.
7- Media aritmética: en una población U, la que representa el total de los casos, como uno
nunca puede llegar a TODA la población, hace la media aritmetica. De un subconjunto de dicha
poblacion, tomando los distintos promedios de ciertas poblaciones pequeñas, y ahí si puedo
llegar a inferir cual seria el promedio de U.
ej: siendo U:el total de la capital. Media artim.: Los barrios. Tomando el promedio de los barrios
puedo arribar a U
8- tablas de contingencia
Variable dependiente (columna): “ES EL EFECTO QUE ESTOY ESTUDIANDO DEL NIVEL DE
ANGUSTIA QUE DEPENDA DE LA EDAD DE LOS HIJOS” donde uno no lo sabe de antemano,
intenta a traves de la tabla de contingencia demostrarlo o no.
10- la media no es el valor correspondiente a la edad, sino al INTERVALO. al valor que el spss
adjudica.
19 a mas valor 4
“Los hombres desempleados tienen en base a esto, hijos en un promedio de 6-12 años”, que no
corresponde al valor edad sino al valor que el programa asigno para representarlo, el 2= 6-12
años.
Cuando hay intervalos se pierden por agrupar los datos fidelidad de los mismos
El desvio esta en la misma unidad del promedio: “del valor INTERVALOS, no de edades”.
La media la encontramos en el intervalo Nº 2, (6-12 años) pero con un desvio de 1.19 en unidades de
intervalo, para abajo, o sea, - 1 desvio hacia 0-5 años o para arriba + 1 desvio hacia 13-18 años. Una
muestra bastante heterogenea del 24% y un desvio amplio del 1.19+-
Si el promedio es en la mitad del intervalo de los 6-12 años, hay dentro del mismo, una leve tendencia
asimetrica positiva hacia los 10/11 años y decimos que no paso al intervalo siguiente de los 13/18 años
porque en vez de 0.107 hubiera sido un intervalo entero, a una unidad de intervalo no un 0.
La asimetría no sirve, porque cuanto se puede desviar para el SI que para el NO. salvo que sean
intervalos
Si hubiera mas variables si se puede inferir a cuanto mas se desvia a una que a otra
% se saca: si el 134 de N es el 100%, el 104 es: 104.100/124=77.6% SI tenia la sensación de ser util.
100%-77.6= 22.4% NO tenia la sensación de ser util
la mediana si se puede, si tengo 134 individuos, la mitad es 67 que dicen que si y 67 que no. la
mediana indica que el 50% van a contestar SI/NO
Son variables cualitativas continuas, con relación entre todas, donde no se pasa de un estado a otro.
Si tuvieramos riqueza de vocabulario encontrariamos otros estados intermedios
A los que se sintieron utiles en su trabajo el 87% no esta tranquilo el resto si esta tranquilo