Pdet-621 Material

PDET - 610
Análisis Estadístico
Diseño De Estructuras
Metálicas Y De Construcción
Semestre VI
CONTENIDO
1. Análisis exploratorio de datos
2. Aplicación de probabilidades
3. Como inferir a base de nuestras y relacionando

variables
4. Números índice y confirmado de supuestos.
ANÁLISIS EXPLORATORIO DE DATOS
DISEÑO DE ESTRUCTURAS METÁLICAS Y DE CONSTRUCCIÓN

¿QUÉ ES LA ESTADÍSTICA?
Cuando coloquialmente se habla de estadística, se suele pensar en una relación de

datos numéricos presentada de forma ordenada y sistemática. Esta idea es la
consecuencia del concepto popular que existe sobre el término y que cada vez está más
extendido debido a la influencia de nuestro entorno, ya que hoy día es casi imposible
que cualquier medio de difusión, periódico, radio, televisión, etc., no nos aborde
diariamente con cualquier tipo de información estadística. Sólo cuando nos adentramos
en un mundo más específico como es el campo de la investigación de las Ciencias
Sociales: Medicina, Biología, Psicología, percibimos que la Estadística se convierte en
la única herramienta que permite dar luz y obtener resultados, y por tanto beneficios, en
cualquier tipo de estudio, cuyos movimientos y relaciones, por su variabilidad intrínseca,
no puedan ser abordadas desde la perspectiva de las leyes deterministas. Desde un
punto de vista más amplio, podemos decir que la Estadística se utiliza como tecnología
al servicio de las ciencias donde la variabilidad y la incertidumbre forman parte de su
naturaleza. La Estadística es la rama de las matemáticas aplicadas que permite estudiar
fenómenos cuyos resultados son en parte inciertos. Al estudiar sistemas biológicos, esta
incertidumbre se debe al desconocimiento de muchos de los mecanismos fisiológicos, a
la incapacidad de medir todos los determinantes de la enfermedad y a los errores de
medida que inevitablemente se producen. Así, al realizar observaciones en clínica o en
salud pública, los resultados obtenidos contienen una parte sistemática o estructural,
que aporta información sobre las relaciones entre las variables estudiadas, y una parte
de “ruido” aleatorio. El objeto de la estadística consiste en extraer la máxima información
sobre estas relaciones estructurales a partir de los datos recogidos. Historia de la
Estadística: Su raíz: STATUS=cosas del estado. Durante el siglo pasado, era
considerada como la Ciencia del Estado. Sus orígenes: El recuento. Las civilizaciones
antiguas recogían datos sobre población, producción agrícola y renta. Tal cantidad de
información debía ser resumida en valores numéricos para su interpretación y uso en la
toma de decisiones políticas. Definición: La Estadística se ocupa de los métodos y
procedimientos para recoger, clasificar, resumir, hallar regularidades y analizar los datos,
siempre y cuando la variabilidad e Diplomado en Salud Pública 2. Metodología en Salud
Pública 01. Introducción a la Estadística 2 - 12 incertidumbre sea una causa intrínseca
de los mismos; así como de realizar inferencias a partir de ellos, con la finalidad de
ayudar a la toma de decisiones y en su caso formular predicciones. “La estadística es la

ciencia que permite tomar decisiones en situaciones de incertidumbre” ¿A qué nos
referimos cuándo hablamos de variabilidad? Cuando nos referimos a una determinada
característica (p.ej. nivel de ácido úrico) en los individuos de una población nos estamos
refiriendo a una distribución de valores. La observación de un determinado grupo de
pacientes nos proporciona información acerca de esta distribución. Los resultados que
observamos se relacionan con la distribución poblacional. Sin embargo, observaciones
distintas proporcionan resultados distintos (aunque compatibles), por ejemplo un mismo
tratamiento aplicado a grupos distintos de pacientes proporcionará resultados distintos.
La Bioestadística es la rama de la estadística que estudia la utilización de métodos
estadísticos en problemas médicos y biológicos. Enseña y ayuda a investigar en todas
las áreas de las Ciencias de la Vida donde la variabilidad no es la excepción sino la
regla. Podemos clasificar la Estadística en descriptiva, cuando los resultados del análisis
no pretenden ir más allá del conjunto de datos, e inferencial cuando el objetivo del
estudio es derivar las conclusiones obtenidas a un conjunto de datos más amplio.
Estadística descriptiva: Describe, analiza y representa un grupo de datos utilizando
métodos numéricos y gráficos que resumen y presentan la información contenida en
ellos.
Estadística inferencial: Apoyándose en el cálculo de probabilidades y a partir de datos

muéstrales, efectúa estimaciones, decisiones, predicciones u otras generalizaciones
sobre un conjunto mayor de datos. Su tarea fundamental es la de hacer inferencias
acerca de la población a partir de una muestra extraída de la misma. El análisis de una
base de datos siempre partirá de técnicas simples de resumen de los datos y
presentación de los resultados. A partir de estos resultados iniciales, y en función del
diseño del estudio y de las hipótesis preestablecidas, se aplicarán las técnicas de
inferencia estadística que permitirán obtener conclusiones acerca de las relaciones entre
las variables estudiadas. Las técnicas de estadística descriptiva no precisan de
asunciones para su interpretación, pero la información que proporcionan no es
fácilmente generalizable. La estadística inferencial permite esta generalización, pero
requiere ciertas asunciones que deben verificarse para tener un grado razonable de
seguridad en las inferencias.
CONCEPTOS BÁSICOS Vamos a definir algunos conceptos básicos y fundamentales a

los cuales haremos referencia continuamente: Diplomado en Salud Pública 2.
Metodología en Salud Pública 01. Introducción a la Estadística 3 - 12 Unidad estadística,
Individuo o Elemento: personas u objetos que contienen cierta información que se desea

estudiar y que pertenecen a la población en estudio. Población: conjunto de individuos
o elementos que cumplen ciertas propiedades y entre los cuales se desea estudiar un
determinado fenómeno. Muestra: subconjunto representativo de una población.
Estadístico: función definida sobre los valores numéricos de una muestra. Parámetro:
función definida sobre los valores numéricos de características medibles de una
población. Estimador: función de los valores de una muestra que se elabora para indagar
el valor de un parámetro de la población de la que procede la muestra. Los parámetros
poblacionales se denotan con letras del alfabeto griego, mientras que los estimadores
muéstrales se denotan con letras de nuestro alfabeto. Así, por ejemplo, la media del
colesterol en una población, que se denotaría por μ, es un parámetro que se estima a
partir de la media de los valores de colesterol en una muestra obtenida en esa población,
que se representaría por. Variables o caracteres: característica observable que varía
entre los diferentes individuos de una población. Las variables pueden dividirse en
cualitativas y cuantitativas. Modalidades o categorías: posibles valores de una variable.
Las modalidades deben ser a la vez exhaustivas y mutuamente excluyentes (cada
elemento posee una y sólo una de las modalidades posibles). Las modalidades pueden
agruparse en clases (intervalos). 1.2.1 Tipos de variables
Variables cualitativas: Se usan con datos que representan categorías que son
mutuamente excluyentes, aunque se utilicen números para cada categoría no
representan cantidades. Para su medición usamos escalas:
Nominales: no hay relación entre las categorías. Una escala nominal sólo permite
clasificar (no jerarquizar ni ordenar). Ej.: Género, nacionalidad, situación geográfica
Distinguimos dos tipos de variables cualitativas o categóricas nominales:  Dicotómicas
o binarias: sano/enfermo, hombre/mujer  Policotómicas (con varias categorías): grupo
sanguíneo (A/B/AB)
Ordinales: sus posibles categorías se encuentran jerarquizadas y ordenadas. Ej.:

Mejoría a un tratamiento, satisfacción de un usuario, grado de dolor x Diplomado en
Salud Pública 2. Metodología en Salud Pública 01. Introducción a la Estadística 4 - 12
Es buena idea codificar las variables cualitativas asignando un código numérico a cada
categoría (“etiqueta”) para poder procesarlas con facilidad. ¡Ojo! Aunque se codifiquen
como números, debemos recordar siempre el verdadero tipo de las variables con las que
estamos trabajando y su significado cuando vayamos a usar programas estadísticos.
¡No todo está permitido con cualquier tipo de variable! Variables cuantitativas: Se usan

con datos que se expresan mediante cantidades numéricas que permiten hacer
operaciones matemáticas. Existen los siguientes tipos:
Discretas: sólo puede tomar valores enteros. Ej.: Nº de hijos, nº de intervenciones
Continuas: Si sus posibles valores están en un conjunto infinito. Las podemos

categorizar en intervalos (trataremos este tema en la clase práctica con SPSS). Ej.:
Edad, peso, tensión arterial En la tabla se resumen los distintos tipos de variables y su
utilidad:
TIPO DE VARIABLE SIRVE PARA Cualitativa nominal CLASIFICAR Cualitativa ordinal

JERARQUIZAR Cuantitativa discreta CONTAR Cuantitativa continua MEDIR Figura 1.1
Diplomado en Salud Pública 2. Metodología en Salud Pública 01. Introducción a la
Estadística 5 - 12 Aquí tenéis un ejemplo de base de datos en SPSS: Figura 1.2
Estadística 6 - 12 1.3 MUESTREO Cuando se decide cuantificar sólo una parte de las
unidades de una población y a partir de esta información estimar sus parámetros,
entonces estamos planteando un problema de muestreo. La estadística habitualmente
estudia sólo una muestra de individuos. Se entiende por muestra al subconjunto de una
población de mayor tamaño. Se entiende por población o universo al conjunto de todos
los individuos o elementos (unidades de análisis) que cumplen ciertas características. Al
proceso de extracción de una muestra a partir de una población se le denomina
muestreo. A la interpretación del tratamiento estadístico de unos datos que acaba
generalizándolos a toda la población se le llama inferencia. Figura 1.3 El muestreo es
una herramienta de la investigación científica, su función básica es determinar qué parte
de la realidad en estudio (población o universo) debe de examinarse con la finalidad de
hacer inferencias sobre el todo de la que procede. Un proceso inductivo (que va de lo
particular a lo general) se asocia inevitablemente a la posibilidad de cometer errores. El
error es mayor en la medida que la muestra sea más pequeña, y sobre todo, cuando la
muestra no refleja o “representa” la realidad sobre la que recaen las conclusiones de la
inferencia. El error que se comete debido al hecho de que se sacan conclusiones sobre
cierta población, a partir de la observación de sólo una parte de ella, se denomina error
de muestreo. Dentro del proceso de selección de una muestra, la población suele
dividirse en unidades de muestreo las cuales deben de cubrir por entero a la población,
en otras palabras, todo miembro de la población o unidad de análisis pertenece a una y
sólo una unidad de muestreo. Una unidad de muestreo puede contener un conjunto de

unidades de análisis, incluso, un conjunto de unidades de muestreo correspondientes a
una etapa posterior. La lista de las unidades de muestreo, recibe el nombre de marco
maestral.
POBLACIÓN MUESTRA Muestreo Inferencia Diplomado en Salud Pública 2.

Metodología en Salud Pública 01. Introducción a la Estadística 7 - 12 Ejemplo 1.1.
Supongamos que se estudia una población de escolares a fin de conocer la prevalencia
de cierta dolencia. Cada escolar es una unidad de análisis, pero, en lugar de contar con
un listado de escolares, se tiene un listado de colegios (alguno de los cuales se elegirán
para el estudio). Una vez hecha esta selección, se toman algunas aulas de los colegios
elegidos. Finalmente, dentro de estas últimas se eligen alumnos que integran la muestra
definitiva. El listado de colegios primero, el de las aulas que tiene cada colegio
seleccionado y el de niños, correspondiente a cada aula elegida dentro de los colegios
de la muestra, constituyen el marco muestral del estudio. Puesto que hay tres procesos
escalonados de selección, existen en este caso las llamadas unidades de muestreo de
primera, segunda y tercera etapa. Figura 1.4 Podemos resumir en estos cuatro puntos
las ventajas que la utilización de muestras presenta con respecto a la enumeración
completa de la población:
Coste reducido. Si los datos se obtienen de una pequeña fracción del total, los gastos
de recogida y tratamiento de los datos se reducen. Incluso si la obtención de información
en toda la población es factible, suele ser mucho más eficiente la utilización de técnicas
de muestreo.
Mayor rapidez. Los datos pueden ser más fácilmente recolectados y estudiados si se
utiliza una muestra que si se emplean todos los elementos de la población. Por tanto, el
uso de técnicas de muestreo es especialmente importante cuando se necesita la
información con carácter urgente.
Mayor flexibilidad y mayores posibilidades de estudio. La disponibilidad de registros

completos es limitada. Muy a menudo, la única alternativa posible para la realización de
un estudio es la obtención de datos por muestreo.
Mayor control de calidad del proceso de recogida de datos. Al recoger datos en un

número menor de efectivos, resulta más fácil recoger un número mayor de variables por
individuo, así como tener un mejor control de la calidad del proceso de recogida de datos.
La teoría de muestreo persigue un doble objetivo. Por un lado, estudia las técnicas que
permiten obtener muestras representativas de la población de forma eficiente. Por otro

lado, indica cómo utilizar los resultados del muestreo para estimar los parámetros
poblacionales, conociendo a la vez el grado de incertidumbre de las estimaciones.
Estadística 8 - 12 Así, la teoría de muestreo pretende dar respuesta a varias preguntas
de interés:  ¿Cómo se eligen a los individuos que componen la muestra?  ¿Cuántos
individuos formarán parte de la muestra? ¿Cómo se cuantifican las diferencias existentes
entre los resultados obtenidos en la muestra y los que hubiéramos obtenido si el estudio
se hubiera llevado a cabo en toda la población? 1.3.1 Técnicas de muestreo La
característica más importante de una muestra es que debe ser representativa de la
población objeto de estudio para poder extrapolar los resultados a la población total. Las
nociones de muestra representativa y de muestra probabilística suelen identificarse
erróneamente como una y la misma. Como consecuencia puede ocurrir que, al admitir
que la muestra no fue seleccionada por vía del azar, el investigador sienta que su estudio
carece del rigor científico necesario. La noción que mejor sintetiza la idea de
representatividad es la siguiente: “Lo que debe procurarse es que la muestra tenga
internamente el mismo grado de diversidad que la población” Los métodos para
seleccionar una muestra representativa son numerosos, podemos clasificarlos en: 
Probabilístico: Todos los individuos tienen la misma probabilidad de ser elegidos para
formar parte de la muestra (principio de equiprobabilidad).  No Probabilístico: La
elección de los individuos no depende de la probabilidad, sino del proceso de toma de
decisiones del investigador (las muestras seleccionadas por decisiones subjetivas
tienden a estar sesgadas).
MUESTREO PROBABILISTICO Los procedimientos probabilísticos reducen la carga

subjetiva que podría influir en la elección de las unidades que se van a estudiar, y sobre
todo, permiten medir el grado de precisión con que se realizan las estimación de los
parámetros poblacionales. El azar no necesariamente inyecta representatividad a cada
muestra que se obtenga, sino lo que realmente asegura es la imparcialidad en la
conducta del investigador. Se considera que el método de selección de la muestra tiene
un carácter estadísticamente riguroso cuando su diseño cumple las siguientes
condiciones: A cada elemento de la población, se le otorgue una probabilidad conocida
de pertenecer a la muestra. Y por supuesto, esta probabilidad no sea nula. Diplomado
en Salud Pública 2. Metodología en Salud Pública 01. Introducción a la Estadística 9 -
12 Vamos a describir brevemente los principales procedimientos probabilísticos de
selección de muestras: Muestreo aleatorio simple  Muestreo sistemático Muestreo

aleatorio estratificado Muestreo por conglomerados Muestreo polietápico Muestreo
aleatorio simple (m.a.s.) Es el más sencillo y conocido de los distintos tipos de muestreo
probabilístico. Supongamos que se pretende seleccionar una muestra de tamaño n a
partir de una población de N unidades. Un muestreo aleatorio simple es aquel en el que
cada unidad de muestreo de la población tiene la misma probabilidad de ser
seleccionado. Puede probarse que el m.a.s. es un procedimiento equiprobabilístico; es
decir, todas las unidades de la población tienen la misma probabilidad n/N de ser
elegidas en la muestra. A la probabilidad que tiene cada individuo de pertenecer a la
muestra se le denomina fracción de muestreo: f= n/N Para la selección de una m.a.s.,
se enumeran previamente las unidades de la población de 1 a N y a continuación se
seleccionan n números distintos entre 1 y N utilizando algún procedimiento aleatorio
(mediante una tabla de números aleatorios o un generador de números aleatorios por
ordenador). Ejemplo 1.2  Elegir una muestra aleatoria de 5 estudiantes en un grupo de
estadística de 20 alumnos.  Extraer una muestra a partir de 37.488 historias clínicas
del Servicio de Planificación Familiar de un Hospital. Muestreo sistemático Cuando los
elementos de la población están ordenados en una lista, podemos muestrear de la
siguiente forma: En primer lugar, se calcula la constante de muestreo k=N/n. Se elige
aleatoriamente un número de arranque r entre 1 y k, donde k es la parte entera de N/n
Se le suma a r (primera unidad elegida) la constante k sucesivamente hasta completar
el tamaño de la muestra. Ejemplo 1.3 De un conjunto de 1.000 unidades queremos
seleccionar 200. Diplomado en Salud Pública 2. Metodología en Salud Pública 01.
Introducción a la Estadística 10 - 12 La constante de muestreo será K = 1000/200 = 5,
por tanto se escogerá a una de cada cinco. La primera será sorteada entre los números
del 1 al 5; si el elegido es el 2, el siguiente sería el 7 (2+k),… y así hasta completar la
muestra. Muestreo estratificado Cuando se desea asegurar la representatividad de
determinados subgrupos o estratos de la población, la alternativa más sencilla es
seleccionar por separado distintas submuestras dentro de cada estrato. Los estratos han
de definir subgrupos de población que sean internamente homogéneos con respecto a
la característica o parámetro de interés y, por tanto, heterogéneos entre sí. En la práctica,
los estratos se definen en función de variables fáciles de medir previamente y relevantes
para el tema objeto de estudio (edad, sexo, área geográfica de residencia). En general,
el número de estratos L ha de ser reducido (rara vez resulta eficiente utilizar más de 5
estratos) y el tamaño por estrato no debe ser muy pequeño. Para la selección de una
muestra estratificada de tamaño n, la población de N unidades se divide en L estratos

de tamaños N1, N2,..., NL, cuya suma es igual a N. 1. Decidir el número de variables
elegidas para la estratificación. 2. Elegir las variables de la estratificación e indicar el
orden de estas variables, escogiendo como primera la que más discrimina. 3. Distribuir
la muestra en cada estrato, AFIJACIÓN. Que la muestra sea representativa de cada
estrato y que cada estrato esté suficientemente representado para poder tomar como
válidos los resultados obtenidos. En el muestreo estratificado, es necesario determinar
cómo se distribuye el tamaño muestral total n entre los distintos estratos; es decir, la
asignación de los tamaños muestrales n1,..., nL. El procedimiento utilizado con mayor
frecuencia es la afijación proporcional: el tamaño de la muestra de cada estrato es
proporcional al tamaño del estrato correspondiente con respecto a la población total.
Ejemplo 1.4 Tenemos una población con N= 10.000 y queremos distribuir una muestra
de tamaño n= 600 personas en L= 3 estratos. La distribución de la población por edades
es la siguiente: Grupo A: 1.500 habitantes 60 años Asignamos por Afijación Proporcional
a cada estrato su tamaño muestral: nL= (n/N)xNL Estrato 1. Grupo A: 600x (1.500 /
10.000) = 90 hab. Estrato 2. Grupo B: 600x (6.500 / 10.000) = 390 hab. Estrato 3. Grupo
C: 600x (2.000 / 10.000) = 120 hab. Diplomado en Salud Pública 2. Metodología en Salud
Pública 01. Introducción a la Estadística 11 - 12 Muestreo por conglomerados La
aplicación de los diseños muestrales anteriores requiere de la enumeración u ordenación
de todos los elementos de la población. Sin embargo, a menudo no se dispone de una
lista completa o, aun disponiendo de tal lista, resulta muy costoso obtener información
de las unidades muestreadas. Por ejemplo, si se seleccionara una muestra aleatoria
simple de 1000 individuos de una gran ciudad, los individuos seleccionados estarían muy
dispersos y la recogida de información sería extraordinariamente laboriosa. En tales
circunstancias, una alternativa consiste en clasificar a la población en grupos o
conglomerados, para así seleccionar una muestra de estos conglomerados y después
tomar a todas o a una parte de las unidades incluidas dentro de los conglomerados
seleccionados. Los conglomerados acostumbran a ser agrupaciones naturales de
individuos como hogares, hospitales, colegios, provincias, etc. A diferencia de la
estratificación, las diferencias dentro de cada conglomerado deben ser máximas: en
cada conglomerado debe haber unidades representativas de toda la población, de lo
contrario se perdería información al seleccionar únicamente algunos de ellos. Los
resultados no varían si se selecciona uno u otro conglomerado. El número de
conglomerados es típicamente elevado, de los cuales suele seleccionarse un número
relativamente pequeño para resolver el problema de la dispersión muestral. Ejemplo 1.5
Si queremos extraer una muestra para un estudio epidemiológico en niños escolarizados

en Zaragoza, con edades comprendidas entre 5 y 14 años, a partir de una lista completa
de las aulas de todos los centros escolares, podemos elegir aleatoriamente un cierto
número de aulas (conglomerados) de manera que la muestra estaría formada por todos
los niños de las aulas seleccionadas. Muestreo polietápico Los diseños muestrales
empleados en la práctica se realizan combinando las técnicas descritas anteriormente.
En muchas situaciones, resulta más apropiado obtener la muestra final en diferentes
etapas o pasos. En un muestreo polietápico, la población se divide en grupos
exhaustivos y mutuamente excluyentes, que constituyen las llamadas unidades de
primera etapa; cada una de ellas se desagrega a su vez en subgrupos o unidades de
segunda etapa, y así sucesivamente, hasta llegar en una última etapa a los elementos
o unidades de análisis. La selección de unidades en cada una de las etapas se realiza
mediante una técnica de muestreo diferente y la muestra final será la resultante de
aplicar sucesivamente cada una de estas técnicas. Ejemplo 1.6 Para obtener una
muestra de pacientes diabéticos ingresados en nuestro país, en una primera etapa se
escoge una muestra de hospitales, y en la segunda etapa, una muestra de pacientes
diabéticos ingresados en los hospitales elegidos. Diplomado en Salud Pública 2.
Metodología en Salud Pública 01. Introducción a la Estadística 12 –
MUESTREO NO PROBABILISTICO Los métodos de muestreo no probabilístico son

aquellos en los que las unidades de análisis se recogen según criterios del investigador
y no utilizando métodos en los que interviene el azar, de modo que no es posible estimar
la probabilidad que tiene cada elemento de ser incluido en la muestra y no todos los
elementos tienen posibilidad de ser incluidos. No garantizan la representatividad de la
muestra y por lo tanto no permiten realizar estimaciones inferenciales sobre la población.
Al igual que en los anteriores existen diferentes tipos de muestro no probabilístico: por
cuotas, por conveniencia, método bola de nieve,… 1.3.2 Tamaño muestral Una vez
abordados los diferentes diseños de muestreo es decir, como se obtiene la muestra, uno
de los puntos que preocupa a la mayoría de los investigadores es cuantos individuos
debe tener la muestra es decir que tamaño. Buscamos una fórmula que nos de un
"número mágico" de sujetos que formen nuestra muestra. No vamos a entrar en fórmulas
de cálculo de tamaño muestral (ver material de apoyo) puesto que para comprender su
desarrollo necesitamos tener algunos conceptos estadísticos que todavía no hemos
desarrollado. Sin embargo, vamos a tener en cuenta algunas consideraciones: El
tamaño de la muestra estará en función de cuan frecuente sea lo que deseamos medir.
Si lo que quiero estudiar es muy frecuente, necesitaré una muestra más pequeña, que

si se da con menor frecuencia. Sin embargo, nosotros calculamos el tamaño muestral
para conocer algo que desconocemos y, sin embargo, debemos de partir de un
conocimiento de su valor (en la mayoría de los casos por otros estudios) para saber que
tamaño de muestra elegimos.
El tamaño de la muestra estará en función del máximo error de muestreo que se esté
dispuesto a admitir al estimar un parámetro (a menor error necesitamos mayor muestra).
Se supone, por tanto, que hay un error máximo, lo cual no siempre es fácil de determinar
a priori y, en cualquier caso, se trata de una decisión esencialmente subjetiva.  Cuanto
más complejo es el diseño que utilizamos, mayor será la muestra que necesitaremos,
puesto que el efecto del diseño nos hace aumentar el tamaño de la muestra para
conseguir el mismo grado de precisión.
Medidas de Tendencia Central y de Variabilidad

Contenidos
 Medidas descriptivas de forma: curtosis y asimetría

 Medidas de tendencia central: media, mediana y moda
 Medidas de dispersión: rango, varianza y desviación estándar.
Coeficiente de variación
 Percentiles
 Diagrama de caja
MEDIDAS DE TENDENCIA CENTRAL
Al trabajar con histogramas y polígonos de frecuencias, vimos que las

distribuciones de los datos pueden adoptar varias formas. En algunas
distribuciones los datos tienden a agruparse más en una parte de la distribución
que en otra. Comenzaremos a analizar las distribuciones con el objeto de obtener
medidas descriptivas numéricas llamadas estadísticas, que nos ayuden en el
análisis de las características de los datos. Dos de estas características son de
particular importancia para los responsables de tomar decisiones: la tendencia
central y la dispersión
MEDIDAS DE TENDENCIA CENTRAL: Moda, mediana y media

Tendencia central: La tendencia central se refiere al punto medio de una
distribución. Las medidas de tendencia central se denominan medidas de posición.
Moda:
es el valor que más se repite en un conjunto de datos.
Ejemplo 1: Los siguientes datos representan la cantidad de

pedidos diarios recibidos en un período de 20 días,
ordenados en orden ascendente
0 0 1 1 2 2 4 4 5 5
6 6 7 7 8 12 15 15 15 19
Mo = 15 La cantidad de pedidos diarios que más se repite es 15
Fte: Empresa NN. 2009

Ejemplo 2: La cantidad de errores de facturación por día en un período de
20 días, ordenados en orden ascendente es
0 0 1 1 1 2 4 4 4 5
6 6 7 8 8 9 9 10 12 12
Esta distribución tiene 2 modas. Se la llama distribución

bimodal.
Mo = 1 y Mo = 4
Fte: Empresa NN. 2009
Cálculo de la moda para datos agrupados
Si los datos están agrupados en una distribución de frecuencias, se selecciona el

intervalo de clase que tiene mayor frecuencia llamado clase modal.
 d1
Mo  L Mo 
dd
Moda
Mo
LMo d1 Límite inferior de la clase modal
frecuencia de la clase modal menos la frecuencia de la clase
anterior a ella ( d1  f i  fi1 )
d2
frecuencia de la clase modal menos la frecuencia de la clase
h posterior a ella ( d  f  f )
Para determinar un solo valor de este intervalo para la moda utilizamos la
siguiente ecuación:

Ejemplo 3: La edad de los jubilados encuestados en Mendoza en noviembre del
2008
EDAD mi fi f ri f Fi Fri Fri

ri% %
[50,60) 55 10 0,20 20 10 0,20 20
[60, 70) 65 18 0,36 36 28 0,56 56
[70, 80) 75 14 0,28 28 42 0,84 84
[80, 90) 85 6 0,12 12 48 0,96 96
[90,100) 95 2 0,04 4 50 1 100

La clase modal es [60, 70) , ya que es la que presenta la mayor frecuencia
LMo  fi  f i1  f i1  h  10

60 18 10 14
d 1  fi  =18-10 d 2 fi  fi 1 = 18-14=4
fi1 =8

 8 ⎞
Mo  60  .10  66,66
 
84
⎝ ⎠
 La edad que más se repite es 66,66 años
VENTAJAS Y DESVENTAJAS DE LA MODA
 Se puede utilizar para datos cualitativos nominales u

ordinales y para datos cuantitativos
 No se ve afectada por los valores extremos
 Se puede utilizar cuando la distribución de frecuencias tenga clases

abiertas
 Cuando todas las puntuaciones de un grupo tienen la misma

frecuencia, se dice que no tiene moda
 Si un conjunto de datos contiene 2 puntuaciones adyacentes con la

misma frecuencia común (mayor que cualquier otra), la moda es el
promedio de las 2 puntuaciones adyacentes Ej. (0,1,1,2,2,2,3,3,3,4,5)
tiene Mo=2,5
 Si en un conjunto de datos hay dos que no son adyacentes con la

misma frecuencia mayor que las demás, es una distribución bimodal.
Conjuntos muy numerosos se denominan bimodales cuando
presentan un polígono de frecuencias con 2 lomos, aún cuando las
frecuencias en los 2 picos no sean exactamente iguales. Estas

ligeras distorsiones de la definición están permitidas porque el
término bimodal es muy conveniente y en último término es
descriptivo. Una distinción conveniente puede hacerse entre la moda
mayor y la moda menor. Por ejemplo en el gráfico siguiente, la moda
mayor es 6 y las menores son 3,5 y 10
Puntuaciones obtenidas en un examen de aptitudes
Fte: Elaboración propia. 2009

Mediana:
es el valor que divide al conjunto ordenado de datos, en dos subconjuntos
con la misma cantidad de elementos. La mitad de los datos son menores que la
mediana y la otra mitad son mayores
En general, vamos a representar un conjunto x1 x2 x3 ,... , xn

de n datos como Si los datos están , x( , x( x
( 3 ) , ... , x( n )
ordenados, los indicaremos ,
1) 2) ,
donde el subíndice encerrado entre paréntesis indica el orden o ubicación en

el conjunto ordenado
Se presentan dos situaciones:

 Número impar de datos: La mediana es el dato que está n
1
 en la posición
2
~~
Me  m x x
 n1 ⎞


⎝2⎠
Sea el conjunto ordenado de

datos:
2 3 5 6 8
x( 1 ) x( 2 ) x( 3 x( 4 x( 5 )
) )
Me  x⎞ n1 ⎞  x
51  x( 3 )  5
 
⎝ 2 ⎠ ⎝2⎠

 La mitad de las observaciones son menores o iguales que 5 y la otra
mitad son mayores o iguales que 5.
 Número par de datos: Es el promedio entre los dos datos centrales.
~  ~x 
Me  m 2 2
2 3 5 6 8 9
x( 1 ) x( x( x( x( x6 
2) 3) 4) 5)
x 6 ⎞  x 6 ⎞
  x( 3 )  x3  56
 x31 x4 
1 
2 2
Me  ⎝ ⎠⎝ ⎠    5,5
2 2 2 2
 La mitad de las observaciones son menores o iguales que 5,5 y la otra

mitad son mayores o iguales que 5,5.

Cálculo de la mediana para datos agrupados
Si los datos están agrupados en una distribución de frecuencias, se selecciona

el intervalo de clase que contiene a la mediana llamado clase mediana. Para ello,
debemos determinar la frecuencia
n1
acumulada absoluta que contenga al . El valor de este intervalo para la
2
elemento número mediana se calcula
utilizando la siguiente ecuación:
n1
F
~  ~x  L
Me  m 2
m
fi
Me Mediana
Lm Límite inferior de la clase mediana
n cantidad de datos
Fi-1 frecuencia acumulada absoluta de la clase anterior al

intervalo mediana
Ejemplo (Continuación): La edad de los residentes en un complejo de

viviendas tiene la siguiente distribución:
EDAD mi fi f ri f Fi Fri Fri

ri% %
[50,60) 55 10 0,20 20 10 0,20 20
[60, 70) 65 18 0,36 36 28 0,56 56
[70, 80) 75 14 0,28 28 42 0,84 84
[80, 90) 85 6 0,12 12 48 0,96 96
[90,100) 95 2 0,04 4 50 1 100
50  1
, es
La clase mediana es la que contenga el elemento
2
en la posición
decir en la posición 25,5 . Buscamos en la frecuencia Fi y vemos que se

acumulada halla en el intervalo [60, 70)

LMe  Fi1  fi  h5
60 10 18
 25,5 10 ⎞
Me  60  .10  68,61
 
 18 
INTERPRETE: ...............................................................................
VENTAJAS Y DESVENTAJAS DE LA MEDIANA
 Se puede utilizar para datos cualitativos ordinales y para datos

cuantitativos

 No se ve afectada por los valores extremos. Esta es la propiedad
más importante que tiene.
 Se puede utilizar cuando la distribución de frecuencias tiene clases

abiertas, a menos que la mediana caiga en una de las clases abiertas
 Si hay un gran número de datos, el tener que ordenarlos para

hallar la mediana insume esfuerzo y tiempo.
Media o media aritmética:

Es el promedio de los datos
 Una muestra con n (minúscula) observaciones, tiene una media x (que

se denomina
estadística)
 Una población con N (mayúscula) elementos tiene una media  (que se
denomina
parámetro)
Cálculo de la media para datos no

agrupados
x
x
x
 n
N

Vemos que es la suma de las observaciones divididas el total de datos.
Cuando calculamos la media de la población, dividimos por la cantidad de datos
de la población N y cuando se calcula la media muestral por n
Ejemplo: El Departamento de Acción Social ofrece un estímulo

especial a aquellas agrupaciones en las que la edad
promedio de los niños que asisten está por debajo de 9
años. Si los siguientes datos corresponden a las edades de
los niños que acuden de manera regular al Centro
¿calificará éste para el estímulo?
8 5 9 10 9 12 7 12 13 7 8
x 8  5  9  10  9  12  7  12  13  7  8
x   9,09
n 11
Interpretación: ...........................................................................................................
..................................................................................................................................
Cálculo de la media para datos agrupados
Para calcular la media para datos agrupados, primero calculamos el punto medio
de cada clase
(marca de clase intervalo mi ). Después multiplicamos cada punto medio por la
frecuencia absoluta de cada
Una manera de hacer los cálculos es utilizando la siguiente
tabla:
x
 mi . f i
n

EDAD mi fi mi .fi
[50,60) 55 10 550
[60, 70) 65 18 1170

[70, 80) 75 14 1050
[80, 90) 85 6 510
[90,100) 95 2 190
Total 50 3470
3470
x  69,4
50
La edad promedio es de 69,4 años
VENTAJAS Y DESVENTAJAS DE LA MEDIA
 Se trata de un concepto familiar e intuitivamente claro
 Cada conjunto de datos tiene una media y es única
 Es útil para llevar a cabo procedimientos estadísticos como la

comparación de medias de varios conjuntos de datos. En estadística
inferencial es la medida de tendencia central que tiene mejores
propiedades
 Aunque la media es confiable en el sentido de que toma en cuenta

todos los valores del conjunto de datos, puede verse afectada por
valores extremos que no son representativos del resto de los datos.
La media puede malinterpretarse si los datos no forman un
conjunto homogéneo.
 No se puede calcular la media si la distribución de frecuencias tiene

clases abiertas
COMPARACIÓN ENTRE LA MEDIA, LA MEDIANA Y LA MODA
 Las distribuciones simétricas tienen el mismo valor para la media,

la mediana y la moda.

 En una distribución con sesgo positivo, la moda se halla en el punto
más alto de la distribución, la mediana está hacia la derecha de la

moda y la media más a la derecha.
Es decir Mo < Me < x
 En una distribución con sesgo negativo, la moda es el punto más alto,

la mediana está a la izquierda de la moda y la media está a la izquierda
de la mediana. Es decir, x < Me < Mo
 Cuando la población tiene una distribución sesgada, con frecuencia

la mediana resulta ser la mejor medida de posición, debido a que está
siempre entre la media y la moda. La mediana no se ve altamente
influida por la frecuencia de aparición de un solo valor como es el
caso de la moda, ni se distorsiona con la presencia de valores
extremos como la media.
 La selección de la media, la mediana o la moda, depende de la

aplicación. Por ejemplo, se habla del salario promedio (media); el
precio mediano de una casa nueva

puede ser una estadística más útil para personas que se mudan a un
nuevo vecindario (si hay una o dos crestas que distorsionan la
media). Y mientras que la familia promedio conste de 1,7 niños, tiene
más sentido para los diseñadores de automóviles pensar en la familia
modal, con dos niños.
M E DIDAS DE V ARIA B I L I DAD
Dispersión: L a dispersión se refiere a la extensión de los datos, es decir

al grado en que las observaciones se distribuyen (o se separan).
Existen otras dos características de los conjuntos de datos que proporcionan

información útil: el sesgo y la curtosis.
Sesgo ( skewness) : L as curvas que representan un conjunto de datos pueden

ser simétricas o sesgadas. L as curvas simétricas tienen una forma tal que una línea
vertical que pase por el punto más alto de la curva, divide al área de ésta en dos
partes iguales. Si los valores se concentran en un extremo se dice sesgada. U na
curva tiene sesgo positivo cuando los valores van disminuyendo lentamente hacia el
extremo derecho de la escala y sesgo negativo en caso contrario.
 E l sesgo es una medida de la asimetría de la curva. E n general es un valor que

va de -3 a 3.
Una curva simétrica toma el valor 0.
SES POS I T IVO SI M ÉT R I (Sesgo 0) SES NEG AT IVO

GO CA GO
Curtosis ( Kurtosis) : Nos da una idea de la agudeza (o lo plano) de la

distribución de frecuencias. Una curva normal (es el patrón con el que se compara
la curtosis de otras curvas) tiene curtosis 0. E sta curva se llama mesocúrtica. Si
la curtosis es mayor que 0, la curva es más empinada quela anterior y se denomina

leptocúrtica (Lepto, del griego, "empinado" o "estrecho"). Si la curtosis es menor que
0, es relativamente plana y se denomina platicúrtica ( "plano", "ancho")
(E n el gráfico la curva punteada es la curva normal (mesocúrtica))

MEDIDAS DE DISPERSIÓN
Las medidas de dispersión son útiles porque:
Nos proporcionan información adicional que nos permite juzgar la confiabilidad de

nuestra medida de tendencia central. Si los datos están muy dispersos la posición
central es menos representativa de los datos, como un todo, que cuando estos se
agrupan más estrechamente alrededor de la media.
Ya que existen problemas característicos de distribuciones muy dispersas, debemos

ser capaces de distinguir que presentan esa dispersión antes de abordar los
problemas
Nos permiten comparar varias muestras con promedios parecidos
Los analistas financieros están preocupados por la dispersión de las ganancias de

una empresa que van desde valores muy grandes a valores negativos. Esto indica
un riesgo mayor para los accionistas y para los acreedores. De manera similar los
expertos en control de calidad, analizan los niveles de calidad de un producto
RANGO:
Es la diferencia entre el mayor y el menor de los valores
Observados
R  x( n )  x( 1 )
Siendo x la observación mayor y x la observación
 El rango es fácil de entender y de encontrar, pero su utilidad como medida

de dispersión es limitada. Como sólo toma en cuenta el valor más alto y el
valor más bajo ignora la naturaleza de la variación entre todas las demás
observaciones, y se ve muy influido por los valores extremos.
 Debido a que considera sólo dos valores tiene muchas

posibilidades de cambiar drásticamente de una muestra a otra en
una población dada.

 Las distribuciones de extremo abierto no tienen rango.
VARIANZA Y DESVIACIÓN ESTÁNDAR
Las descripciones más comprensibles de la dispersión son aquellas que tratan con
la desviación promedio con respecto a alguna medida de tendencia central.
Veremos dos medidas que nos dan una distancia promedio con respecto a la
media de la distribución: varianza y desviación estándar.
VARIANZA DE LA POBLACIÓN:
Es el promedio de las distancias al cuadrado que van de las observaciones a la media

Para calcular la varianza de la población, dividimos la suma de las distancias al
cuadrado entre la media y cada elemento de la población. Al elevar al cuadrado
cada una de las distancias, logramos que todos los números que aparecen sean
positivos y, al mismo tiempo asignamos más peso a las desviaciones más grandes.
Las unidades de la varianza están elevadas al cuadrado (pesos al cuadrado,
unidades al cuadrado, etc.) lo que hace que no sean claras o fáciles de interpretar.
La desviación estándar, que es la raíz positiva de la varianza, se mide en la

misma unidad que la variable, y su interpretación es " en promedio los valores se
alejan de la media en unidades"
Aplicación de la desviación estándar poblacional
La desviación estándar nos permite determinar, con un buen grado de precisión,

dónde están localizados los valores de una distribución de frecuencias con relación a
la media.
Para curvas cualesquiera, el teorema de Chebyshev asegura que al menos el

75% de los valores
caen dentro de  2 (2 desviaciones estándar) a partir de la media  , y al menos el
89% de los
valores caen dentro de  3 .
Se puede medir con más precisión el porcentaje de observaciones que caen dentro
de un rango específico de curvas simétricas con forma de campana (regla
empírica):
1. Aproximadamente 68% de las observaciones cae dentro de  1


En el gráfico interpretamos el 0 como  , y los números como unidades de  .
Por ejemplo, 1
es   ; -1 ;2   2 ; etc.
 es es

Cálculo de la varianza y la desviación estándar utilizando datos agrupados
  2 ( m i  ). f i

m 2i. f i
2
N N
( m i  ). f i  mi2. f i
2
N N
2
 n.x
n1 n 1
2
: Varianza de la población
: Desviación estándar de la población
f i : frecuencia absoluta de la clase i
msi  s 2 de clase de la clase i

: marca
 : media de la población
N : tamaño de la población
DESVIACIÓN ESTÁNDAR MUESTRAL:

2
xx
n1
( mi  x ). fi
n 1
VARIANZA Y DESVIACIÓN ESTÁNDAR MUESTRAL
Para calcular la varianza y la desviación estándar muestral se utilizan las mismas

fórmulas que las
poblacionales, sustituyendo  con x y N con n  1 .La utilización de n  1 en
lugar de n se verá con más detalle más adelante.Las expresiones para el cálculo de
la varianza y desviación estándar muestral son:

DATOS SIN AGRUPAR
2 2
xx
2
s    n.x
n1 n 1 n 1
s 2 : Varianza de la muestra
x : Elemento u observación
x : Media de la muestra
DATOS AGRUPADOS
s 2
( mi  x ). fi
n 1
DESVIACIÓN ESTÁNDAR MUESTRAL:
s
s 2 : Varianza de la muestra
s : Desviación estándar de la muestra
f i : frecuencia absoluta de la clase i
mi : marca de clase de la clase i
x : media de la muestra
Ejemplo: Los siguientes datos representan una muestra de la cantidad de
pedidos diarios entregados :
17 25 28 27 16 21 20 22 18 23

a) Hallar el rango, la varianza y la desviación estándar e interpretar.
b) Hallar el porcentaje de observaciones que están alrededor de la media a
una distancia de 2 desviaciones estándar. Comparar con el teorema de
Chebyshev y con la regla empírica
a) Para hallar el rango ordenamos el conjunto de mayor a menor
16 17 18 20 21 22 23 25 27 28
R = x( 10 )  x( 1 ) = 28 - 16 = 12 La diferencia entre el mayor y el menor valor
observado es 12
Para el cálculo de la varianza conviene realizar un cuadro:
x 2
x x x  x  x2
(1 (2) x (4) (1)2
) (3)
16 21,7 -5,7 32,49 256
17 21,7 -4,7 22,09 289
18 21,7 -3,7 13,69 324
20 21,7 -1,7 2,89 400
21 21,7 -0,7 0,49 441
22 21,7 0,3 0,09 484
23 21,7 1,3 1,69 529
25 21,7 3,3 10,89 625
27 21,7 5,3 28,09 729
28 21,7 6,3 39,69 784
2 2
 x  217  x  x   x 
152,1 4861
2
 x  x  152,1
1) s2    16 ,9
n 1 10  1
s  s 2  4,11 En promedio, la cantidad de pedidos se
separa de la media, en 4,11 (pedidos).
2 2
2 x n.x 4861 10.21,7 2 152,1
2) s       16 ,9
n 1 n 1 9 9 9
b) ( x  2s; x  2s )  ( 21,7  8,22;21,7  8,22 )  ( 13,48;28,92 )

Todos los valores de la variable caen en este intervalo o sea el 100%
Según Chebyshev: al menos el 75% de los valores caen en ese intervalo, por lo
tanto se verifica

Según la regla empírica: aproximadamente el 95% de las observaciones caen
en dicho intervalo, (el 100% es un valor bastante cercano)
COEFICIENTE DE VARIACIÓN:
La desviación estándar es una medida absoluta de la dispersión que expresa la

variación en las mismas unidades que los datos originales. Pero no puede ser la
única base para la comparación de dos distribuciones. Por ejemplo si tenemos
una desviación estándar de 10 y una media de 5, los valores varían en una
cantidad que es el doble de la media. Si por otro lado tenemos una desviación
estándar de 10 con una media de 5000, la variación respecto a la media es
insignificante.
Lo que necesitamos es una medida relativa que nos proporcione una estimación
de la magnitud de la desviación respecto de la magnitud de la media.
El coeficiente de variación es una medida relativa de dispersión que
expresa a la desviación estándar como un porcentaje de la media
 s
CV  .100% en la población CV  .100% en la muestra

x
Se lo utiliza en la comparación de variación de dos o más grupos.
Ejemplo: Se pretende comparar el desempeño en ventas de 3 vendedores. Los

resultados siguientes dan los promedios de puntajes obtenidos en los cinco años
pasados por la concreción de los objetivos
A 88 68 89 92 103
B 76 88 90 86 79
C 104 88 118 88 123
xA sA  12,67
CV  .100%  14,4%
88 12,67
88
sB  6 6 ,02
CV  .100%  7,18%
xB ,02
83,8 83,8
sC  16 16 ,35
CV  .100%  15,69%
,35 104,2
xC 
104,2

Vemos que el vendedor C tiene la mayor variabilidad, mientras que el B tiene la menor. El
desempeño de C parece ser mejor si analizamos la media, pero hay que tener en cuenta que
también tiene la mayor variabilidad en la concreción de los objetivos.
PERCENTILES
Un percentil aporta información acerca de la dispersión de los datos en el intervalo que

va del menor al mayor valor de los datos. En los conjuntos de datos que no tienen muchos
valores repetidos, el percentil p divide e los datos en dos partes. Cerca del p porciento de las
observaciones tienen valores menores que el percentil p y aproximadamente (100-p) por
ciento de las observaciones tienen valores mayores o iguales que este valor.
Definición:
El percentil p es un valor tal que por lo menos p por ciento de las observaciones son menores
o iguales que este valor y por lo menos (100-p) por ciento de las restantes son mayores o
iguales que ese valor.
Cálculo del percentil:

Paso 1. Ordenar los datos de menor a mayor en orden ascendente.
Paso2. Calcular el índice i
 p⎞
i= n
 
100
⎝ ⎠
donde p es el percentil deseado y n el número de observaciones.

Paso 3. (a) Si no es un número entero, debe redondearse al primer entero mayor que i
denotando la posición del percentil p.
(b) Si es un número entero, el percentil p es el promedio de los valores en las posiciones i e i+1
Ejemplo:
Se tiene los primeros sueldos de 12 egresados en Administración.
Ordenados son:

3310 3355 3450 3480 3480 3490 3520 3540 3550 3650 3730 3925
p⎞  85 ⎞
Paso 2: i= n= 12  10.2
   
100 100
⎝ ⎠ ⎝ ⎠
Paso 3. Como i no es un número entero se debe redondear al primer entero mayor que es 11.
Es decir el percentil 85 se encuentra en la posición 11. Este es 3730

CUARTILES
Con frecuencia es conveniente dividir los datos en cuatro partes, así cada una contiene el
25% de los datos. A los puntos de división se los llama cuartiles :
Q1= primer cuartil o percentil 25 Q2=

segundo cuartil o percentil 50 Q1=
tercer cuartil o percentil 75
Rango intercuartílico (RIC) es también una medida importante a tener en cuenta, es la

diferencia entre el tercer y primer cuartel
RIC= Q3- Q1
Nos indica el 50 % de las observaciones centrales

DIAGRAMA DE CAJA Y BIGOTES
Un diagrama de caja es un resúmen gráfico de los datos con base en el resumen de cinco
números . La clave para elaborar un diagrama de cajas está en calcular Q1, Q3 y la mediana
o Q2.
También hay que calcular el RIC= Q3- Q1
Pasos para dibujar el diagrama de cajas:
1. Se dibuja una caja cuyos extremos se localicen en el primer y tercer cuartel. En
nuestros datos de salarios Q1=3465 y Q3= 3600 . Significa que la caja contiene el 50% de los
datos centrales .
2. En el punto dónde se localiza la mediana (3505) se traza una línea horizontal o vertical
según se represente la caja en posición vertical u horizontal respectivamente. Si se quieren
comparar dos poblaciones a veces también se representa la media dentro de la caja.
3.Usando el rango intercuartílico RIC= Q3- Q1 se localizan los límites. En un diagrama de
caja los límites se encuentran en 1,5*(RIC) abajo del Q1 y 1,5(RIC) arriba del Q3 . En el
caso de los salarios el RIC= Q3- Q1 = 3600-3465=135. por lo tanto los límites son
Li=3465 - 1,5*(RIC)= 3465-1,5*135 = 3262,5 Ls=
3600+ 1,5*(RIC)= 3600+1,5*135=3802,5
Los datos que quedan fuera de estos límites se consideran observaciones atípicas.
4. A las líneas punteadas se las llama bigotes . Los bigotes van desde los extremos de la
caja hasta los valores menor y mayor de los correspondientes a los límites inferior y superior
encontrados en el paso 3.Por lo tanto los bigotes terminan en los salarios cuyos valores son
3310 y 3730.
5. Por último con un círculo o asterisco se identifica la observación atípica 3925.
Actividad con R
> sueldo<-c(3310,3355,3450,3480,3480,3490,3520,3540,3550,3650,3730,3925)
> boxplot(sueldo, main="Primer sueldo de los egresados de Administración", col="blue")

Este gráfico no se puede realizar con Excel.
Para obtener todas las medidas juntas usando R se utiliza el comando summary.
Summary(sueldo)
Min. 1st Qu. Median Mean 3rd Qu.
Max. 3310 3472 3505 3540 3575
3925
Para datos sin agrupar en el caso de la edad de los jubilados encuestados se colocan
en una columna y luego en el menú herramientas se busca análisis de datos estadística
descriptiva se marca el rango de las celdas y se le pide resumen de estadísticas aceptar y
larga
Edad de los jubilados encuestados en Mendoza en noviembre del

2008.
Columna1

Media 68,42
Error típico 1,47277054
Mediana 65,5
Moda 65
Desviación estándar 10,414060
4
Varianza de la 108,45265
muestra 3
Curtosis -
0,6706671
Coeficiente de 0,4307184
asimetría 9
Rango 40
Mínimo 53
Máximo 93
Suma 3421
Cuenta 50
Ejemplo de los salarios de los egresados de

Administración:
Columna1
Media 3540
Error típico 47,819895
7
Mediana 3505
Moda 3480
Desviación estándar 165,65297
8
Varianza de la 27440,909
muestra 1
Curtosis 1,7188836
4
Coeficiente de 1,0911086
asimetría 9
Rango 615
Mínimo 3310
Máximo 3925
Suma 42480
Cuenta 12

Medidas de posición
Las medidas de posición proporcionan información resumida de la variable objeto de estudio
 Medidas de posición centrales
 Media (aritmética, geométrica y armónica)

 Mediana
 Moda
 Medidas de posición no centrales

 Cuantiles (cuartiles, deciles y percentiles)
Media aritmética
Media geométrica

Media armónica
Mediana
1. Ordenar los datos de menor a mayor

2. Calcular N/2
3. Obtener las frecuencias absolutas acumuladas Ni
Datos no agrupados en intervalos
Mediana
1. Ordenar los datos de menor a mayor
2. Calcular N/2
3. Obtener las frecuencias absolutas acumuladas Ni

Datos agrupados en intervalos

MODELOS DE PROBABILIDAD
DISCRETOS

 4.1 Distribución binomial
© 4.1.1 Definición. Ejemplos
 Sea un experimento aleatorio en el que sólo puedan darse dos posibilidades: que ocurra
un determinado suceso A, que llamaremos éxito, o que no ocurra dicho suceso, o sea
que
ocurra su complementario, que llamaremos fracaso, A.
 Se conoce la probabilidad de ocurrencia del suceso A, y por lo tanto la de su

complementario:
P A  p ; P A 1 p  q
 Se repite el experimento n veces en las mismas condiciones (independencia). Se define

la variable aleatoria Binomial :
 X: “nº de veces que ocurre el suceso A (nº éxitos) en n realizaciones independientes
del experimento”
 Por lo tanto, X: 0, 1, 2 , 3, ……n
X  B(n; p)

 Función de probabilidad
P( X  r)  n p q n r
r
n!
prqn  r
r!  n  r !
r : 0,1, 2,..., n
 Puede comprobarse que se verifica:
n n
 P( X  r)   n p r q nr  1
r
r 0 r 0

Ejemplos
• Nº de caras al lanzar 20 veces una moneda
• Nº de aprobados si se presentan 80 alumnos a un examen
• Nº de familias con un solo hijo en una población de 120 familias
• Nº de reacciones negativas ante un fármaco

administrado a 40 pacientes
• Nº de accidentes de tráfico si han circulado 1200 automóviles
• Nº de semillas que germinan de las 20 semillas que se han plantado en

suelos de idéntica composición
© 4.1.2 La media y la varianza
 Media
n
  E[ X ]   rP( X  r)  np
r 0

 Varianza
n
Var[ X ]   2   (r   ) 2
P( X  r)  npq
r0
Diez individuos, cada uno de ellos propenso a la tuberculosis, entran en contacto con un portador de
la enfermedad. La probabilidad de que la enfermedad se contagie del portador a un sujeto cualquiera
es de 0.1. ♦ Ejemplo
¿Cuántos se espera que contraigan la enfermedad? Solución:
X  B (10; 0.1)  E(X )  10 0.1  1
Uso de tablas

♦ Ejemplo
La probabilidad de que cierto antibiótico presente una reacción negativa al administrarse

a un ave rapaz en recuperación es de 0.15. Si se les ha administrado dicho antibiótico a
10 aves, calcúlense las probabilidades de que haya reacción negativa:
a. En dos aves
b. En ningún ave
c. En menos de 4 aves
d. En más de 3 aves
e. Entre 2 y 5 aves
Solución:
Suceso A : " A un ave se le presenta reacción negativa"
X :"nº de aves a las que se les presenta tal reacción"P ( A )  0.15 ; n  10 ; X  B (10 ;
0.15)
a. P( X  2)  0.2759
b. P( X  0)  0.1969

c. P( X  4)  P( X  3)  P( X  0)  P( X  1) 
 P( X  2)  P( X  3)  0.1969  0.3474 
 0.2759  0.1298  0.95
d. P( X  3)  1 P( X  3)  1  P( X  0)  P( X  1) 
P( X  2)  P(X  3)  1 0.1969  0.3474  0.2759 

0.1298  0.05
e. P(2  X  5)  P( X  2)  P( X  3)  P( X  4) 
 P( X  5)  0.2759  0.1298  0.0401 0.0085 
 0.4543
Un hombre y una mujer, cada uno con un gen recesivo (Azul) y uno dominante (Marrón)
para el color de los ojos, son padres de tres hijos. ¿Cuál es la distribución de probabilidades
para X, número de hijos con ojos azules?
E = {(AA), (AM), (MA), (MM)}
A = “Ojos Azules”; P ( A ) = p =1/4; n = 3X

= {Nº de hijos con ojos azules de 3 hijos}

© 4.1.4 Aditividad
 Sean k variables aleatorias, X1, X2,...,XK , que verifican:
 Independientes entre sí
 X B ( n ; p ), i = 1, 2,…k
i i
 Definimos la variable aleatoria X como:
 X2
X  X1  .... X k
 En estas condiciones se verifica que la variable aleatoria

X sigue una distribución Binomial:
X  B(n ... n ; p)
1 k
 4.2. Distribución de Poisson
© 4.2.1 Definición. Ejemplos
 Se define la variable aleatoria X como el número de sucesos que ocurren en un

intervalo continuo de tiempo, longitud o espacio, de un tamaño determinado.
 Sea 
el número medio de sucesos que ocurren en estos

intervalo  La
s.
 variable aleatoria así definida sigue una distribución

de Poisson de parámetro 
X  P  

 Nº de leucocitos en una gota de sangre
 Nº de veces que una planta de energía nuclear emite gases radiactivos en un periodo de tres
meses
 Función de probabilidad
 r 
P( X  r )  ; r  0,1, 2, 3,...;   0
r!
 Puede comprobarse que se verifica:
 La media
  E[X ]  

 Varianza
Var [ X ]   2  
♦ Ejemplos
 Número de bacterias nocivas por cada cm3 de agua.
 Número de partículas radiactivas emitidas cada hora por una cierta sustancia.
 La probabilidad de reacción negativa ante un fármaco de un individuo es 0.05. Si

hay 100 individuos, X: “nº individuos con reacción negativa”
 La probabilidad de que un individuo tenga un accidente es 0.01. Si hay 3500

individuos, X: “nº de accidentados”
 Se estima que sólo uno de cada 50 loros capturados en la cuenca del Amazonas,
para su utilización como animales domésticos, sobrevive al cambio. Se capturan
700 pájaros en un día, X: “nº de loros que sobreviven”
© 4.2.3 Uso de tablas

En una gasolinera la llegada de vehículos sigue la
distribución de Poisson de parámetro 1.6. Calcúlese la
probabilidad de que:
a. El nº de vehículos que lleguen sea superior a tres
b. Esté comprendido entre dos y cinco
c. Llegue algún vehículo
a. P( X  3)  1- P( X  3)  1- P( X  0) - P( X  1) - P( X  2) - P( X  3)  0.0789
b. P(2  X  5)  P( X  2)  P( X  3)  P( X  4)  P( X  5)  0.4689
c. P( X  1)  1 P( X  1)  1 P( X  0)  0.7981

Aditividad
 Sean k variables aleatorias, X1, X2,...,XK , que verifican:
 Independientes entre sí
 X P ( ), i = 1, 2,…k
i
i
 Definimos la variable aleatoria X como:
 X2
X  X1  .... X k
 En estas condiciones se verifica que la variable aleatoria

X sigue una distribución de Poisson:
X  P(  ...  )
1 k
©4.2.5 Aproximación de una Binomial a

una Poisson

 Sea X una v.a. con distribución Binomial
X  B(n; p)
 Si se verifica que
n > 30 y p < 0.1

o bien
np  5
 La distribución binomial se aproxima a una

distribución de Poisson de parámetro  = np
X  P(  np)
♦ Ejemplo
La probabilidad de que al administrársele un antibiótico a un ave rapaz en recuperación

se le presente una reacción negativa es 0.05. Si se le va a administrar el antibiótico a 80
de estas aves, calcúlese la probabilidad de que:
1. No haya reacción negativa en ningún ave

2. Al menos haya reacción negativa en dos de ellas
3. Como mucho la haya en 5

Solución:
Suceso A : " A un ave se le presenta reacción negativa"
X :"nº de aves a las que se les presenta tal reacción"
P( A)  0.05; n  80; X B (80 ; 0.05)
n > 30 y p < 0.1
 X  P (  np)  P (  80  0.05)  P (  4)
1. P( X  0) 0.0183
2. P( X  2) 1 P( X 1) 1 P( X  0)  P( X 1)
 0.9084
3. P( X  5)  P( X  0)  ... P( X  5)  0.7851

MUESTREO
En ocasiones en que no es posible o conveniente realizar un censo (analizar

a todos los elementos de una población), se selecciona una muestra, entendiendo
por tal una parte representativa de la población.
El muestreo es por lo tanto una herramienta de la investigación científica,

cuya función básica es determinar que parte de una población debe examinarse,
con la finalidad de hacer inferencias sobre dicha población.
La muestra debe lograr una representación adecuada de la población, en la

que se reproduzca de la mejor manera los rasgos esenciales de dicha población
que son importantes para la investigación. Para que una muestra sea
representativa, y por lo tanto útil, debe de reflejar las similitudes y diferencias
encontradas en la población, es decir ejemplificar las características de ésta.
Los errores más comunes que se pueden cometer son:
1.- Hacer conclusiones muy generales a partir de la observación de sólo una

parte de la Población, se denomina error de muestreo.
2.- Hacer conclusiones hacia una Población mucho más grandes de la que
originalmente se tomo la muestra. Error de Inferencia.
En la estadística se usa la palabra población para referirse no sólo a personas

si no a todos los elementos que han sido escogidos para su estudio y el término
muestra se usa para describir una porción escogida de la población.
TIPOS DE MUESTREO
Existen diferentes criterios de clasificación de los diferentes tipos de

muestreo, aunque en general pueden dividirse en dos grandes grupos: métodos de
muestreo probabilísticos y métodos de muestreo no probabilísticos.
I. Muestreo probabilístico

Los métodos de muestreo probabilísticos son aquellos que se basan en el
principio de equiprobabilidad. Es decir, aquellos en los que todos los individuos
tienen la misma probabilidad de ser elegidos para formar parte de una muestra y,
consiguientemente, todas las posibles muestras de tamaño n tienen la misma
probabilidad de ser seleccionadas. Sólo estos métodos de muestreo probabilísticos
nos aseguran la representatividad de la muestra extraída y son, por tanto, los más
recomendables. Dentro de los métodos de muestreo probabilísticos encontramos
los siguientes tipos:
1.- Muestreo aleatorio simple:
El procedimiento empleado es el siguiente: 1) se asigna un número a cada

individuo de la población y 2) a través de algún medio mecánico (bolas dentro de
una bolsa, tablas de números aleatorios, números aleatorios generados con una
calculadora u ordenador, etc.) se eligen tantos sujetos como sea necesario para
completar el tamaño de muestra requerido.
Este procedimiento, atractivo por su simpleza, tiene poca o nula utilidad
práctica cuando la población que estamos manejando es muy grande.
2.- Muestreo aleatorio sistemático:
Este procedimiento exige, como el anterior, numerar todos los elementos de

la población, pero en lugar de extraer n números aleatorios sólo se extrae uno. Se
parte de ese número aleatorio i, que es un número elegido al azar, y los elementos
que integran la muestra son los que ocupa los lugares i, i+k, i+2k, i+3k,...,i+(n-1)k,
es decir se toman los individuos de k en k, siendo k el resultado de dividir el tamaño
de la población entre el tamaño de la muestra: k= N/n. El número i que empleamos
como punto de partida será un número al azar entre 1 y k.
El riesgo este tipo de muestreo está en los casos en que se dan

periodicidades en la población ya que al elegir a los miembros de la muestra con
una periodicidad constante (k) podemos introducir una homogeneidad que no se da
en la población. Imaginemos que estamos seleccionando una muestra sobre listas
de 10 individuos en los que los 5 primeros son varones y los 5 últimos mujeres, si
empleamos un muestreo aleatorio sistemático con k=10 siempre seleccionaríamos
o sólo hombres o sólo mujeres, no podría haber una representación de los dos
sexos.

3.- Muestreo aleatorio estratificado:
Trata de obviar las dificultades que presentan los anteriores ya que

simplifican los procesos y suelen reducir el error muestral para un tamaño dado de
la muestra. Consiste en considerar categorías típicas diferentes entre sí (estratos)
que poseen gran homogeneidad respecto a alguna característica (se puede
estratificar, por ejemplo, según la profesión, el municipio de residencia, el sexo, el
estado civil, etc.). Lo que se pretende con este tipo de muestreo es asegurarse de
que todos los estratos de interés estarán representados adecuadamente en la
muestra. Cada estrato funciona independientemente, pudiendo aplicarse dentro de
ellos el muestreo aleatorio simple o el estratificado para elegir los elementos
concretos que formarán parte de la muestra. En ocasiones las dificultades que
plantean son demasiado grandes, pues exige un conocimiento detallado de la
población. (Tamaño geográfico, sexos, edades,...).
La distribución de la muestra en función de los diferentes estratos se

denomina afijación, y puede ser de diferentes tipos:
Afijación Simple: A cada estrato le corresponde igual número de elementos

muéstrales.
Afijación Proporcional: La distribución se hace de acuerdo con el peso (tamaño)

de la población en cada estrato.
Afijación Optima: Se tiene en cuenta la previsible dispersión de los resultados, de

modo que se considera la proporción y la desviación típica. Tiene poca aplicación
ya que no se suele conocer la desviación.
4.- Muestreo aleatorio por conglomerados:
Los métodos presentados hasta ahora están pensados para seleccionar

directamente los elementos de la población, es decir, que las unidades muéstrales
son los elementos de la población.
En el muestreo por conglomerados la unidad muestral es un grupo de

elementos de la población que forman una unidad, a la que llamamos
conglomerado. Las unidades hospitalarias,
los departamentos universitarios, una caja de determinado producto, etc., son
conglomerados naturales. En otras ocasiones se pueden utilizar conglomerados no

naturales como, por ejemplo, las urnas electorales. Cuando los conglomerados son
áreas geográficas suele hablarse de "muestreo por áreas".
El muestreo por conglomerados consiste en seleccionar aleatoriamente un

cierto numero de conglomerados (el necesario para alcanzar el tamaño muestral
establecido) y en investigar después todos los elementos pertenecientes a los
conglomerados elegidos.
II. Métodos de muestreo no probabilísticos
A veces, para estudios exploratorios, el muestreo probabilístico resulta

excesivamente costoso y se acude a métodos no probabilísticos, aun siendo
conscientes de que no sirven para realizar generalizaciones (estimaciones
inferenciales sobre la población), pues no se tiene certeza de que la muestra
extraída sea representativa, ya que no todos los sujetos de la población tienen la
misma probabilidad de se elegidos. En general se seleccionan a los sujetos
siguiendo determinados criterios procurando, en la medida de lo posible, que la
muestra sea representativa.
En algunas circunstancias los métodos estadísticos y epidemiológicos

permiten resolver los problemas de representatividad aun en situaciones de
muestreo no probabilístico, por ejemplo los estudios de caso-control, donde los
casos no son seleccionados aleatoriamente de la población.
Entre los métodos de muestreo no probabilísticos más utilizados en investigación

encontramos:
1.- Muestreo por cuotas:
También denominado en ocasiones "accidental". Se asienta generalmente

sobre la base de un buen conocimiento de los estratos de la población y/o de los
individuos más "representativos" o "adecuados" para los fines de la investigación.
Mantiene, por tanto, semejanzas con el muestreo aleatorio estratificado, pero no
tiene el carácter de aleatoriedad de aquél.
En este tipo de muestreo se fijan unas "cuotas" que consisten en un número

de individuos que reúnen unas determinadas condiciones, por ejemplo: 20

individuos de 25 a 40 años, de sexo femenino y residentes en Gijón. Una vez
determinada la cuota se eligen los primeros que se encuentren que cumplan esas
características. Este método se utiliza mucho en las encuestas de opinión.
2.- Muestreo intencional o de conveniencia:
Este tipo de muestreo se caracteriza por un esfuerzo deliberado de obtener

muestras "representativas" mediante la inclusión en la muestra de grupos
supuestamente típicos. Es muy frecuente su utilización en sondeos preelectorales
de zonas que en anteriores votaciones han marcado tendencias de voto.
También puede ser que el investigador seleccione directa e

intencionadamente los individuos de la población. El caso más frecuente de este
procedimiento el utilizar como muestra los individuos a los que se tiene fácil acceso
(los profesores de universidad emplean con mucha frecuencia a sus propios
alumnos).
3.- Bola de nieve:
Se localiza a algunos individuos, los cuales conducen a otros, y estos a otros,

y así hasta conseguir una muestra suficiente. Este tipo se emplea muy
frecuentemente cuando se hacen estudios con poblaciones "marginales",
delincuentes, sectas, determinados tipos de enfermos, etc.
4.- Muestreo Discrecional · A criterio del investigador los elementos son elegidos
sobre lo que él cree que pueden aportar al estudio.
Ventajas e inconvenientes de los distintos tipos de muestreo probabilístico
CARACTERISTICAS VENTAJAS INCONVENIENTE

S
 Sencillo y de
fácil
comprensión.

Requiere que se
 Cálculo rápido posea de
Se selecciona una de medias y antemano un
muestra de tamaño n varianzas. listado completo de
Aleatorio de una población de N toda la población.
simple unidades, cada  Se basa en la Cuando se trabaja
elemento tiene una teoría con muestras
probabilidad de estadística, y pequeñas es
inclusión igual y por tanto posible que no
conocida de n/N. existen represente a la
paquetes población
informáticos adecuadamente.
para analizar
los datos
 Fácil de aplicar.
Conseguir un listado de
los N elementos de la  No siempre es
población necesario tener
un listado de Si la constante de
Determinar tamaño
toda la muestreo está
muestral n.
población. asociada con el
Definir un intervalo k= fenómeno de
Sistemático N/n.  Cuando la interés, las
Elegir un número población está estimaciones
aleatorio, r, entre 1 y k ordenada obtenidas a partir
(r= arranque aleatorio). siguiendo una de la muestra
tendencia pueden contener
Seleccionar los conocida, sesgo de selección
elementos de la lista. asegura una
cobertura de
unidades de
todos los tipos.
En ciertas ocasiones  Tiende a  Se ha de
resultará conveniente asegurar que conocer la
estratificar la muestra la muestra distribución
Estratificado según ciertas variables represente en la
de interés. Para ello adecuadament población
debemos conocer e a la de las
la composición
estratificada de la población en variables
población objetivo a función de
unas

hacer un muestreo. variables utilizadas
Una vez calculado el seleccionadas. para la
tamaño muestral estratificació
apropiado, este se  Se obtienen n.
reparte de manera estimaciones
proporcional entre los más precisa
distintos estratos
definidos en la  Su objetivo es
población usando una conseguir una
simple regla de tres. muestra lo más
semejante
posible a la
población en lo
que a la o las
variables
estratificadoras
se refiere.
 Es muy  El error
eficiente estándar
Se realizan varias fases cuando la es mayor
de muestreo sucesivas población es que en el
(polietápico) muy grande y muestreo
dispersa. aleatorio
Conglomerad La necesidad de
os simple o
listados de las unidades  No es preciso estratificad
de una etapa se limita a tener un listado o.
aquellas unidades de de toda la
muestreo seleccionadas población, sólo  El cálculo
en la etapa anterior. de las del error
unidades estándar es
primarias de complejo.
muestreo.
PRESENTACIÓN
Regresión y Correlación lineal simple es el noveno fascículo, de una serie de

guías de estudio en las que se desarrollan los temas de los programas de las

asignaturas del área de Probabilidad y Estadística, así como temas selectos que
complementan el aprendizaje de de esta disciplina. Tienen la característica de
que el estudiante adquiera sólo aquella que trate el tema que necesite reforzar o
el que sea de su propio interés.
Estas guías de estudio pretenden reorientar y actualizar el enfoque con el que

se debe abordar el estudio de los métodos estadísticos, despertando la inquietud
por aprender y resolver los problemas y casos planteados.
Cada guía integra el desarrollo del tema con ejercicios, casos de estudio y con la
sección llamada Aprendiendo.com. En esta última sección se le proporciona al
estudiante un ambiente interactivo, utilizando los recursos disponibles en
Internet, de tal forma que los casos planteados los desarrolle en ambientes de
aprendizaje que le permitan encontrarse con el conocimiento,
“manipularlo”, hacerlo suyo. Con esta filosofía se utilizan applets, sitios de
internet con acceso a bases de datos reales, software de uso libre y en
general los recursos de la Web 2.0, que se refieren a una segunda generación
en la historia de la Web basada en comunidades de usuarios, que fomentan la
colaboración y el intercambio ágil de información entre los mismos.
Nuestro reconocimiento a la Dirección General de Asuntos del Personal

Académico de nuestra Casa de Estudios, que a través del Programa de Apoyo a
Proyectos para la Innovación y Mejoramiento de la Enseñanza (PAPIME) ha
apoyado nuestro proyecto “Implantación de un Laboratorio Virtual de
Estadística y Elaboración de las Guías de Estudio con Soporte Multimedia”
clave PE302709.
Los Autores

REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE
Es común que las personas tomen decisiones personales y profesionales

basadas en predicciones de sucesos futuros. Para hacer estos pronósticos, se
basan en la relación intuitiva y calculada entre lo que ya se sabe y lo que se debe
estimar. Si los responsables de la toma de decisiones pueden determinar cómo
lo conocido se relaciona con un evento futuro, pueden ayudar considerablemente
al proceso de toma de decisiones.
Cualquier método estadístico que busque establecer una ecuación que

permita estimar el valor desconocido de una variable a partir del valor conocido
de una o más variables, se denomina análisis de regresión.
Los análisis de regresión y correlación mostrarán como determinar la

naturaleza y la fuerza de una relación entre dos variables.
El término regresión fue utilizado por primera vez por el genetista y

estadístico inglés Francis Galton (1822-1911) en 1877 Galton efectúo
un estudio que demostró que la altura d los hijos de padres altos tendía
a retroceder, o “regresar”, hacia la talla media de la población. Regresión fue
el nombre que le dio al proceso general de predecir una variable,(la talla de los
niños) a partir de otra (la talla de los padres).
Hoy en día, esta tendencia de miembros de cualquier población que están en

una posición extrema (arriba o debajo de la media poblacional) en un momento,
y luego en una posición menos extrema en otro momento, (ya sea por sí o por
medio de sus descendientes), se llama efecto de regresión.
El análisis de regresión se desarrolla una ecuación de estimación, es decir,

una formula matemática que relaciona las variables conocidas con las
desconocidas. Luego de obtener el patrón de dicha relación, se aplica el análisis
de correlación para determinar el grado de relación que hay entre las variables.

REGRESIÓN LINEAL SIMPLE
“Una técnica estadística que establece una ecuación para estimar el valor
desconocido de una variable, a partir del valor conocido de otra variable, (en vez
de valores de muchas otras variables) se denomina análisis de regresión
simple.”
Por lo tanto el análisis de regresión lineal simple, es el proceso general de

predecir una variable (Y) a partir de otra (X).
Las relaciones entre las variables pueden ser directas o también inversas.
 Relación directa: la pendiente de esta línea es positiva, por que la variable Y

crece a medida que la variable X también lo hace.
 Relación inversa: La pendiente de esta línea es negativa, por que a medida

que aumenta el valor de la variable Y, el valor de la variable X disminuye.

VARIABLE INDEPENDIENTE (X)
En el análisis de regresión una variable cuyo valor se suponga conocido y

que se utilice para explicar o predecir el valor de otra variable de interés se llama
variable independiente; se simboliza con la letra X.
Otros nombres alternativos para la variable independiente (X), son variable

explicatoria, variable predictora y en ocasiones variable regresora.
VARIABLE DEPENDIENTE (Y)
En el análisis de regresión una variable cuyo valor se suponga desconocido

y que se explique o prediga con ayuda de otra se llama variable dependiente y
se simboliza con la letra Y.

La variable dependiente, al igual que la variable independiente es llamada de
diferentes maneras algunas de ellas son: variable explicada o variable
pronosticada.
DIAGRAMAS DE DISPERSIÓN
Un diagrama de dispersión es una ilustración gráfica que se usa en el

análisis de regresión. Consta de una dispersión de puntos tal que cada punto
representa un valor de la variable independiente (medido a lo largo del eje
horizontal), y un valor asociado de la variable dependiente (medido a lo largo del
eje vertical).
El diagrama de dispersión, también llamado nube de puntos, brinda dos tipos

de información, visualmente se pueden determinar los patrones que indican
como las variables están relacionadas (lineal o mediante una curva) y por otro
lado si existe una relación entre ellas visualizando la clase de línea o ecuación
de estimación que describe a dicha relación.
A continuación se ilustran algunas relaciones en los diagramas de dispersión:

METODO DE MINIMOS CUADRADOS
El método que por lo común se utiliza para ajustar una línea a los datos
muestrales indicados en el diagrama de dispersión, se llama método de
mínimos cuadrados. La línea se deriva en forma tal que la suma de los
cuadrados de las desviaciones verticales entre la línea y los puntos individuales
de datos se reduce al mínimo.
El método de mínimos cuadrados sirve para determinar la recta que mejor

se ajuste a los datos muestrales, y los supuestos de este método son:
 El error es cero.
 Los datos obtenidos de las muestra son estadísticamente independientes.
 La varianza del error es igual para todos los valores de X.
Una línea de regresión calculada a partir de los datos muestrales, por el

método de mínimos cuadrados se llama línea de regresión estimada o línea
de regresión muestral.
Dicha línea recta es la que mejor se ajusta al conjunto de datos (X, Y) y es

aquella en que la distancia que hay entre los datos y la supuesta recta es la
menor posible, y se calcula mediante la siguiente formula:
ŷ  a  bx
 Para calcular el valor de b (pendiente), que representa el grado de

inclinación que tiene la recta, se emplea la siguiente formula:
xy  n x y
b
2
2  nx
x

 Para calcular el valor de a (ordenada al origen), que representa el punto en
que la recta corta al eje de las Y, se emplea la siguiente formula:
a  y  bx
Las variables a y b son constantes numéricas que son las que se calculan
mediante el método de mínimos cuadrados.

ERROR ESTANDAR DE ESTIMACIÓN
El siguiente proceso que se necesita en el análisis de la regresión lineal

simple es cómo medir la confiabilidad de la ecuación de estimación que hemos
desarrollado.
El error estándar de estimación mide la variabilidad o dispersión de los

valores observados alrededor de la línea de regresión y se representa como Se.
Su formula es la siguiente:
Se   y  a   y   b   xy
2
n 2
Cuanto mayor sea el error estándar de la estimación, más grande será la

dispersión (o esparcimiento) de puntos alrededor de la línea de regresión. Por
el contrario, si Se= 0, se espera que la ecuación de estimación sea un estimador
“perfecto” de la variable dependiente, en este caso todos los puntos caerían
directamente sobre la línea de regresión y no habría puntos dispersos, como se
muestra en la siguiente figura:

El error estándar de estimación tiene la misma aplicación que de la desviación
estándar que se vio en los temas anteriores. Esto es, suponiendo que los puntos
observados tienen una distribución normal alrededor de la recta de regresión,
podemos esperar que:
 68% de los puntos están dentro de ± 1se

 95.5% de los puntos están dentro de ± 2se
 99.7% de los puntos están dentro de ± 3se
El error estándar de la estimación se mide a lo largo del eje “Y”, y no perpendicularmente

desde la recta de regresión.
Las suposiciones son:
1. Los valores observados para Y tienen distribución normal alrededor de

cada valor estimado de ŷ
2. La varianza de las distribuciones alrededor de cada valor posible de
ŷ es la misma.
Si esta segunda suposición no fuera cierta, entonces el error estándar en un punto

de la recta de regresión podría diferir del error estándar en otro punto.
PROCEDIMIENTO PARA REALIZAR UN ANÁLISIS DE REGRESIÓN

LINEAL SIMPLE
1. Obtención de los datos muestrales.

2. Los datos obtenidos se tabulan. (tener cuidado en determinar
correctamente quien es la variable independiente y dependiente)
X Y
3. La información se gráfica en un diagrama de dispersión,

estableciéndose la posible relación entre las dos variables
4. Se calcula la pendiente.
xy  nxy
b
2
2  nx
x

5. Se calcula la ordenada al origen.
a  y  bx
6. Se obtiene la ecuación que mejor se ajusta a la información obtenida.
ŷ  a  bx
7. Se traza la línea estimada en el diagrama de dispersión.
8. Se calcula el error estándar de estimación.
Se   y  a   y   b   xy
2
n 2
Por ejemplo:
Una cadena de Pizzerías toma una muestra de diez de sus sucursales

para tratar de encontrar un modelo matemático que le permita predecir sus
ventas y obtuvo los siguientes datos: la población de personas en miles fue de
2, 6, 8, 8, 12, 16, 20, 20, 22, 26; y las ventas trimestrales en miles de pesos
fue de: 58, 105, 88, 118, 117, 137, 157, 169, 169, 149, 202.

 Realice una regresión para estimar las ventas de dos sucursales que tienen
14,000 y 30,000 personas como potenciales clientes respectivamente.
Solución
Datos
n=10
X: Población de personas en miles

Y: Ventas trimestrales en miles de pesos
1. Tabular los datos obtenidos:

Sucurs X Y
al
1 2 58
2 6 105
3 8 88
4 8 118
5 12 117
6 16 137
7 20 157
8 20 168
9 22 149
10 26 202
2. Graficar los datos en un diagrama de dispersión y determinar la posible

relación entre las variables X Y.

Se puede observar una relación lineal directa.
3. Realizar los cálculos correspondientes
Sucurs X Y X X2 Y
al Y 2
1 2 58 116 4 3364
2 6 105 630 36 11025
3 8 88 704 64 7744
4 8 118 944 64 13924
5 12 117 1404 144 13689
6 16 137 2192 256 18769
7 20 157 3140 400 24649
8 20 168 3380 400 28224
9 22 149 3278 484 22201
10 26 202 5252 676 40804
 140 1300 2104 2528 184393
 0
4. Calculo de la pendiente.
140  mil personas

x
14
10

1300  130 mil pesos
y
10
Por lo tanto la pendiente es
21040 1014130
b 2
5
2528  1014
5. Calculo de la ordenada al origen.

a  130  514 60
6. Obtener la ecuación que mejor se ajuste.

 ŷ  60  5x

7. Trazar la línea estimada.
8. Calcular el error estándar de estimación.
Se  184393  60 1300  5  21040 

12.21
Tiene un error de estimación de 12,210 pesos.
 Para una N = 14,0001
ŷ  60  514  130
 14,130
 Para una N = 30,000
ŷ  60  530  210

 30,210
1 Recuerda que estamos trabajando con miles de pesos, en este
ejercicio.CORRELACIÓN SIMPLE
Mientras que el análisis de regresión simple establece una ecuación precisa

que enlaza dos variables, el análisis de correlación es la herramienta estadística
que podemos usar para describir el grado o fuerza en el que una variable esta
linealmente relacionada con otra.
Dependiendo del tamaño de esta medida cuantitativa se puede decir, que

tan cercanamente se mueven dos variables, y por lo tanto, con cuanta
confiabilidad se puede estimar una variable con ayuda de la otra.
Una técnica estadística que establece un índice que proporciona, en un solo

número, una medida de la fuerza de asociación entre dos variables de interés,
se llama análisis de correlación simple.
El análisis de correlación es la herramienta estadística de que nos valemos

para describir el grado de relación que hay entre dos variables.
A menudo el análisis de correlación simple se utiliza junto con el análisis de

regresión lineal simple para medir la eficacia con que la línea de regresión explica
la variación de la variable dependiente, Y.
Diagramas de dispersión con correlación débil y fuerte.
Existen dos medidas para describir la correlación entre dos variables: el

coeficiente de determinación y el coeficiente de correlación.

COEFICIENTE MUESTRAL DE DETERMINACIÓN
La medida más importante de que también ajusta la línea de regresión

estimada en los datos muestrales en los que esta basada, es el coeficiente de
determinación muestral, este es igual a la proporción de la variación total de
los valores de la variable dependiente, “Y”, que puede explicarse por medio de
la asociación de Y con X medida por la línea de regresión estimada.
El coeficiente de determinación es la manera primaria de medir el grado,

o fuerza, de la relación que existe entre dos variables, X y Y.
El coeficiente de determinación muestral se representa como r2, y mide

exclusivamente la fuerza de una relación lineal entre dos variables.
 El Calculo del coeficiente de determinación se lleva a cabo con la siguiente

formula:
a   y b   xy n  y 2 
r 2 
2  n  y 2 
y
COEFICIENTE MUESTRAL DE CORRELACIÓN
La raíz cuadrada del coeficiente de determinación muestral, r 2 , es un

índice alternativo común del grado de asociación entre dos variables
cuantitativas. Esta mediad se llama coeficiente de correlación muestral (r) y
es un estimador puntual del coeficiente de correlación poblacional ().
El coeficiente de correlación muestral es la segunda medida con que

puede describirse la eficacia con que una variable es explicada por otra, así pues
el signo de r indica la dirección de la relación entre las dos variables X y Y.

El siguiente esquema representa adecuadamente la intensidad y la
dirección del coeficiente de correlación muestral.
 El calculo del coeficiente de correlación muestral se lleva a cavo con la

siguiente formula:
r
2
r
INTERVALO DE CONFIANZA
Debido a que la recta estimada de regresión, no es del todo real, es

necesario elaborar un intervalo de confianza que le de seguridad a nuestros
cálculos.
Como se ha visto, cuando se utilice el método de mínimos cuadrados, los

coeficientes de regresión, a y b son estimadores insesgados, eficientes y
consistentes de  y , también aquí es muchas ocasiones es deseable
establecer intervalos de confianza.
 Los intervalos de confianza se calculan con la siguiente fórmula:
yc  ŷ t / 2 , gl  S 
e
n2 

 

INTERVALO DE PREDICCIÓN
El intervalo de predicción, como su nombre lo indica, se utiliza para predecir un
intervalo de valores de Y, dado un valor de X.
 El intervalo de predicción se calcula con la siguiente fórmula:
  
 Se 
y p  yˆ  t 2 n  21
PROCEDIMIENTO PARA REALIZAR UN ANÁLISIS DE CORRELACIÓN

LINEAL SIMPLE
1. Obtención y tabulación de los datos muestrales.
2. La información se gráfica en un diagrama de dispersión.
3. Calcular la pendiente y ordenada al origen.
4. Se obtiene la ecuación que mejor se ajusta a la información obtenida.
5. Se traza la línea estimada en el diagrama de dispersión.
7. Calcular el coeficiente de determinación.
8. Determinar el coeficiente de correlación.
9. Determinar el intervalo de confianza.
10. Determinar el intervalo de predicción.

Por ejemplo:

Un gerente de ventas reunió los datos siguientes relacionados con las
ventas anuales en miles de pesos y los años de experiencia de diez vendedores.
Estime las ventas anuales para un vendedor con 7 años de experiencia.
Solución
1. Obtención y tabulación de los datos muestrales.
X: Años de experiencia
Y: Ventas anuales en miles de pesos.
Vendedor X Y
1 1 80
2 3 97
3 4 92
4 4 10
2
5 6 103
6 8 11
1
7 10 11
9
8 10 12
3
9 11 11
7
10 13 136
 70 1080
2. Diagrama de dispersión.

Realizar los cálculos correspondientes y determinar la pendiente y ordenada al origen.
Vendedo X Y XY X2 Y
2
r
1 1 80 80 1 6400
2 3 97 291 9 9409
3 4 92 368 16 8464
4 4 102 408 16 10404
5 6 103 618 36 10609
6 8 111 888 64 12321
7 10 119 1190 100 14161
8 10 123 1230 100 15129
9 11 117 1287 121 13689
10 13 136 1768 169 18496
 70 1080 8128 632 119082
1080
y  108
10
70
x 7
10
8128
b
107108

2
632 107
4
a  108  47  80

3. Ecuación que mejor se ajusta.ˆ 
80  4x
 Para un vendedor con 7 años de experiencia, sus ventas estimadas serían:
ŷ 80  47  108 ventas anuales
4. Trazo de la línea estimada en el diagrama de dispersión
Se  
4.61
6. Calcular el Coeficiente de Determinación.

2
80 1080  4  8128  10 108
2 2 
r   119082  10108 

2
r  93.03%
El 93% de las ventas anuales se deben a la experiencia de los vendedores y
el 7% restante de debe a otros factores.
7. Calcular el Coeficiente de Correlación
r  0.9645
0.9303
Este número nos indica que las variables X Y tienen una correlación positiva
intensa.
8. Determinar el intervalo de confianza al 95%.
Considerando
yˆ 108 ventas anuales
 4.61
y  108  2.306
c  
 10 
108  3.3617  y  108  3.3617
c
104.6383  yc  111.3617
Se puede asegurar con un nivel de confianza del 95% que las ventas de los
vendedores con 7 años de experiencia están entre 104.6 y 111.4 miles pesos
anuales.
9. Determinar el intervalo de predicción para un vendedor con 9 años de

experiencia
  se
tiene
Sustituyendo:
2
1 9  7
y p  108  2.306  1 
4.61 10 632 10(7) 2

108 11.291  y  108 11.291
p

96.709  y p 119.291Se puede asegurar con un nivel de confianza del
95% que las ventas pronosticadas de un vendedor con 9 años de
experiencia están entre 96.71 y 119.3 miles pesos anuales.
Ejercicios propuestos:
1. El jefe del departamento de aguas de una ciudad desea establecer una

relación entre el consumo mensual domiciliario de agua Y, y el tamaño de las
familias X, Dados los datos muestrales, determine:
Galone Tamañ
s de o de
Agua familia.
Y X
650 2
1200 7
1300 9
430 4
1400 1
2
900 6
1800 9
640 3
793 3
925 2
a) Elabora el diagrama de dispersión.

b) Calcula la pendiente y ordenada al origen.
c) Obtener la ecuación que mejor se ajusta a los datos.
d) Traza la línea estimada en el diagrama de dispersión.
e) Calcula el error estándar de estimación.
f) Calcula el coeficiente de determinación.
g) Determina el coeficiente de correlación.
h) Determina el intervalo de confianza al 99%.
i) Determina el intervalo de predicción 99%
2. El gerente de una compañía de seguros desea establecer la relación entre el
seguro de vida de las personas Y, y sus salarios X. Realice una regresión con
los datos muestrales:

Seguro Salario
de Anual.
vida
Y X
50 10
80 29
100 30
130 31
150 36
3. Un economista desea establecer la relación entre la tasa de desempleo Y, y

la tasa de cuentas vencidas de la Tesorerías, Determine la regresión y
correlación con los datos muestrales.
Y X
6.7 9.7
7.3 9.8
8.9 7.6
9.1 6.1
7.2 10.2
5.2 12.7
6.9 14.3
6.9 7.9
7.1 8.9
1. Elabora el diagrama de dispersión.

2. Calcula la pendiente y ordenada al origen.
3. Obtener la ecuación que mejor se ajusta a los datos.

4. Traza la línea estimada en el diagrama de dispersión.
5. Calcula el error estándar de estimación.
6. Calcula el coeficiente de determinación.
7. Determina el coeficiente de correlación.
8. Determina el intervalo de confianza al 95%.
9. Determina el intervalo de predicción 95%
4. Un director de ventas desea establecer la relación entre las ventas del

segundo año de vendedores Y, y sus ventas del primer año X. Realice un análisis
de regresión.
Y 69 75 86 11 12 133
1 9
X 170 133 86 16 112 133
1

5. Un gerente de comercialización desea establecer la relación entre las

ventas Y, y el precio de un producto similar fabricado por la competencia X,
Realice un análisis de correlación.
Ventas Precio de
competencia
Y X
520 13
550 13
600 15
610 15
620 16
724 21
680 21
300 14

962 40
270 12
1. Elabora el diagrama de dispersión.

2. Calcula la pendiente y ordenada al origen.
3. Obtener la ecuación que mejor se ajusta a los datos.
4. Traza la línea estimada en el diagrama de dispersión.
5. Calcula el error estándar de estimación.
6. Calcula el coeficiente de determinación.
7. Determina el coeficiente de correlación.
8. Determina el intervalo de confianza al 99%.
9. Determina el intervalo de predicción 99%
6. Se hizo una encuesta a una muestra de 10 los estudiantes de 3er. Semestre

de la carera de Lic. En administración del grupo 1301 del semestre 2009-1 y se
encontraron los siguientes datos:
Estudiante Altura (mts) Peso (Kg)

1 1.50 48
2 1.54 50
3 1.60 52
4 1.72 70
5 1.80 72
6 1.50 50
7 1.61 57
8 1.54 54
9 1.63 80
10 1.70 62
7. Los datos siguientes muestran las ventas (en miles de cajas) y los costos de
un anuncio publicitario para la televisión (en millones de pesos) para 7 marcas
principales de refrescos.

Marca Gastos de Ventas de
publicidad cajas
($) (miles)
Coca-Cola 13.0 19.3
Pepsi- 9.4 13.8
Cola
Sprite 6.4 8.4
Diet Coke 5.7 5.5
7-Up 4.2 5.9
Jarritos 2.9 5.3
Boing 1.6 2.5
a) ¿Dibuje el diagrama de dispersión, que parece indicar este diagrama
acerca de la relación entre las dos variables?
b) Trace una recta que pase por los datos, para aproximar una relación
lineal entre los gastos del anuncio y las ventas.
c) Aplique el método de los cuadrados mínimos para plantear la ecuación
estimada de regresión.
d) Prediga las ventas para una marca que decida gastar $7 millones de
pesos en un anuncio publicitario.
e) Calcule el error estándar en la regresión.
f) Calcule el coeficiente de determinación y correlación e interprételos.
g) Determina el intervalo de confianza al 95%.
h) Determina el intervalo de predicción 95%
8. La revista del consumidor publico en su número 381 del mes de noviembre

del 2008 la siguiente información acerca del uso de los teléfonos celulares:
Año Usuarios que compran

tiempo aire en (miles de
usuarios)
2000 1628
2001 1784
2002 2006
2003 2029
2004 2508
2005 3268
2006 4035
2007 5199
a) Trace un diagrama de dispersión para estos datos,

b) Aplique el método de mínimos cuadrados para plantear la ecuación
c) Trace una recta que pase por los datos, para aproximar una relación

lineal entre la altura y el peso.
d) Prediga cuantos usuarios compraran tiempo aire para su teléfono celular
para el año 2009.
e) Calcule el error estándar en la regresión.
f) Calcule el coeficiente de correlación y el coeficiente de determinación e
interprételos.
g) Determina el intervalo de confianza al 92%.
h) Determina el intervalo de predicción 92%
9. Un vendedor de Century 21 desea establecer la relación entre el tiempo en

meses que están a la venta los departamentos antes de lograr su venta y el
precio pedido por ellos. Los datos de una muestra de 9 departamentos se
muestran a continuación:
Meses en venta 6.5 7.0 8.6

12. 9.0 9.5 8.6 10.6 15.0
1
Precio pedido (en 800 1000 990 125 1400 110 990 990 1250
miles de pesos) 0 0

c) Prediga cuanto tiempo se tardara en vender un departamento que
cueste $ 1’500,000 pesos.
d) Calcule el error estándar en la regresión.
e) Calcule el coeficiente de correlación y el coeficiente de determinación e
interprételos.
f) Determina el intervalo de confianza al 95%.
g) Determina el intervalo de predicción 95%

10. El Orgamismo Operador de agua en el Muncipio de cuautitlán Izcalli
OPERAGUA quiere conocer la relación entre en consumo mensual domiciliario
de agua y el tamaño de las familias, toma una muestra de 10 familias elegidas al
azar y encuentra los siguientes datos:
Metros cúbicos 65 120 130 43 140 90 180 64 79 92

consumidos
Tamaño de la 2 7 9 4 12 6 9 3 3 4
familia
c) Prediga cuantos metros cúbicos al mes consumirá una familia que tiene
10 miembros.
e) Calcule el coeficiente de correlación y el coeficiente de determinación e
interprételos.
11- El gerente de una mueblería “FAMSA” quiere conocer la relación de las

ventas logradas por un vendedor en dos años, toma una muestra de 8
vendedores que lograron la etiqueta de (vendedor del mes) y encontró los
siguientes datos:
Unidades vendidas en el año 170 13 86 161 11 13 13 82

2007 3 2 3 6
Unidades vendidas en el año 99 95 50 80 92 88 13 10
2006 0 0
c) Calcule el error estándar en la regresión.
d) Calcule el coeficiente de correlación y el coeficiente de determinación e
interprételos.
e) Determina el intervalo de confianza al 95%.
f) Determina el intervalo de predicción 95%

12. Según el INEGI los nacimientos registrados en el país en el 2007 fueron:
Nacimientos
Mes de registro Registrados
1 Enero 220,670
2 Febrero 211,330
3 Marzo 213,299
4 Abril 270,819
5 Mayo 225,298
6 Junio 205,572
7 Julio 211,180
8 Agosto 249,626
9 Septiembre 220,666
10 Octubre 241,529
11 Noviembre 211,857
12 Diciembre 173,237
a) Aplique el método de mínimos cuadrados para plantear la
ecuación estimada de regresión.
b) El INEGI reporto que en julio de 2007 se registraron 211,330
nacimientos, utiliza la ecuación obtenida y predice cuantos
debieron de haberse registrado en ese mes, compara resultados
y obtén tus conclusiones.
c) Estime cuantos nacimientos se registraron en enero de 2008.
e) Calcule el coeficiente de correlación y el coeficiente de
determinación e interprételos.
TEORÍA DE DECISIÓN Y MODELOS ESTADÍSTICOS
1. ELEMENTOS DE LA TEORIA DE DECISION
En la vida el hombre se enfrenta a la necesidad de tomar constantemente decisiones.

Este utiliza reglas que fijan su comportamiento tras observar, repetidamente, los
fenómenos del mundo circundante. El éxito de ellas es evaluado al considerar en que
proporción estas han sido acertadas. Las ciencias del comportamiento modelan este,
yestablecen la cordura de los individuos, al considerar su aptitud para fijar reglas que
le lleven a ser racional y exitoso. Esto ha conllevado la necesidad de establecer teorías

que modelen la toma de decisiones en diversas ciencias particulares. Piense en la
Sicología y las Ciencias Políticas,
por ejemplo. La racionalidad de los individuos se mide de acuerdo a ciertos modelos
de comportamiento desarrollados en estas ciencias. Al considerar el problema general,
el punto de vista matemático ha conllevado a desarrollar modelos que conforman la
Teoría de Decisión. Esta se imbrica con la Teoría de Juegos por lo que un campo fértil
de su uso está en la variopinta de problemas que se planteada en el diseño de sistemas
inteligentes para los videojuegos y en la Economía.
1.1. El método científico de investigación
El método científico puede ser considerado como un proceso en el que el intelecto

humano opera a través de la intuición, la lógica y la experticia. Así mediante la intuición
se hacen extrapolaciones que dan base planteamientos teórico nuevos. Se realizan
experimentos, se generan experiencias, para ver la validez de las teorías al usar
razonamientos lógicos. Este es un ciclo que se repite ad infinitum. En este proceso
juega un papel importante la cuantificación de los resultados de las experiencias. Del
nivel de desarrollo de una ciencia esta dado por su capacidad de matematizar sus
teorías. Esto va desde el hecho de cuantificar los resultados de sus experimentos hasta
el establecer relaciones funcionales complejas entre diversos elementos. Solo en
estadio primitivo una ciencia establece solo relaciones cualitativas. Entonces, una
ciencia en cierta etapa dota de magnitudes a los resultados de su interés especulativo
y utiliza métodos cuantitativos para afirmar o negar sus hipótesis. Esto podemos
llamarlo proceso decisional.
Todo proceso decisional lleva a tomar una acción. Si conocemos todo el ambiente
estamos ante un estado de certidumbre pero en general este no es el caso. Si no se
conocen las consecuencias y solo podemos asignarle una medida a su posible
realización decimos que estamos ante un proceso de decisión bajo incertidumbre. En
particular le podemos asignar una probabilidad de obtener un cierto resultado al tomar
nuestras decisiones. Entonces tiene sentido establecer que perdidas se esperan de
nuestras posibles decisiones. La esperanza matemática de estas se denominan riesgo

Figura. Un esquema del proceso decisional en la experimentación científica
Veamos un esquema del proceso decisional en la próxima figura.
Figura Proceso decisional en general.
Ejemplo. Se valora el salir de excursión a la playa o al campismo, o hacer una fiesta
en casa de un amigo. El conjunto de las acciones es A= {A1, A2}= {excursión, fiesta}.
Entonces tenemos que A1 = {X1, X2}= {ir a la playa, ir al campismo} y A2= {X3}=
{ir a una fiesta}.
Diseño de experimentos Fenómeno en la Naturaleza Modelo matemático

Observaciones del fenómeno bajo estudio Medición de los resultados Procesos lógico-
matemáticos Abstracción experimental Abstracción teórica experimentación
Elaboración de decisiones Sistema usado para hacer las predicciones Sistema de
valores Criterio de decisión Ir a la playa vale $10 y al campismo $100 mientras que
organizar la fiesta sale en $50. Lo que no saben es si el día será soleado o no. Ellos
confían el parte meteorológico con una probabilidad subjetiva p. Por tanto, su decisión
está sujeta a un riesgo. Entonces si su acción es A1 establece un gasto de $10 con
probabilidad p y $100 con 1-p pero A2 se asocia siempre a un gasto de $50 siempre.
Entonces prefiero salir si 10p+100(1-p) <50, o sea si p>5/9.
La Estadística tiene su razón de ser en la toma de decisiones que sean aceptables en
su comportamiento práctico al analizar fenómenos cuyo comportamiento es
impredecible. Este hecho es muchas veces sepultado por el desarrollo de estudios
teóricos de los modelos considerando su comportamiento probabilístico. En estas
discusiones no es evidente que los modelos se consideran aceptables porque con una
alta frecuencia las decisiones emanadas de su uso son exitosas. Veremos algunos
de los elementos de esta teoría que permiten modelar el funcionamiento de los
mecanismos inferenciales usados comúnmente en el desarrollo de métodos y
razonamientos estadísticos para tomar decisiones.
Sea un problema en el que debemos tomar una decisión en el que hay un conjunto G
de posibles decisores. El fenómeno a analizar dará información a los decisores antes
de que ellos tomen su decisión Definición (Estados de la Naturaleza). Se dice que es

el espacio de los estados si este es el conjunto de los elementos que especifican
completamente el ambiente en el que se deben tomar las decisiones.
Si |G|2 y los estados de la naturaleza determinan un ganador, hay un conflicto de

intereses entre los decisores (jugadores) y el problema que se enfrenta es estudiado
por la Teoría de Juegos. Esta permite modelar diversos problemas. La economía es
modelada usando la Teoría de Juegos. Se considera que hay n jugadores que
compiten entre si buscando maximizar sus ganancias. Esto da un marco matemático
para estudiar estratégicamente modelos de la Microeconomía, por ejemplo.
Si consideramos que solo hay dos jugadores: el decisor y la Naturaleza. La naturaleza

es un jugador pasivo, que fija un estado  El decisor observa algunas realizaciones
del fenómeno y trata de establecer una acción al considerar que estado, o estados, son
aceptables. Para ello elabora reglas que deben maximizar su ganancia al minimizar el
error que conlleva decidir usándolas.
Sea Del conjunto de las decisiones posibles y C el de las consecuencias de estas.
Definición Un problema de decisión es caracterizado por {, D, C} donde c(d,|)C es

la consecuencia de tomar la decisión dD cuando el estado de la naturaleza es 
Los procesos de decisión pueden ser de tres tipos dado el ambiente en que se
desarrollan
1. Ambiente de certidumbre. Este conocido con certeza y la acción sie

2. mpre lleva a un resultado conocido de antemano
2. Ambiente de riesgo. Cada decisión lleva a una serie de posibles consecuencias
y se les asigna una función de probabilidad (fdp) .
3.Ambiente de incertidumbre. Cada decisión conlleva una serie de consecuencias que
dependen del estado desconocido. Se le asigna un valor numérico a cada decisión
para hacer las comparaciones.
1.2. Elementos principales que caracterizan un problema de Decisión. Podemos
concretar la discusión anterior fijando que un problema de decisión es fijado al tener:

(a) Un número de posibles acciones una de las cuales debe ser seleccionada.
(b) Un número de eventos denominados estados de la naturaleza, uno de los cuales
debe ser cierto.
(c) Un valor que representa un pago, una pérdida o una consecuencia asociada a cada
acción posible y cada posible estado de la naturaleza.
(d)El criterio que utilice el decisor para evaluar las acciones alternativas.
WEB GRAFIA.
http://www.pdfhumanidades.com/sites/default/files/apuntes/11_Medidas%20de%20TC%20y%
20Variabilidad.pdf
file:///C:/Users/Admin/Downloads/11_Medidas%20de%20TC%20y%20Variabilidad.pdf
http://www.ics-aragon.com/cursos/salud-publica/2014/pdf/M2T01.pdf
https://ocw.unican.es/pluginfile.php/858/course/section/934/cap_2.pdf
https://www.ugr.es/~bioestad/_private/Tema_4_color.pdf
http://www.estadistica.mat.uson.mx/Material/elmuestreo.pdf
file:///C:/Users/Admin/Downloads/elmuestreo.pdf
http://asesorias.cuautitlan2.unam.mx/Laboratoriovirtualdeestadistica/CARPETA%203
%20INFERENCIA_ESTADISTICA/DOC_%20INFERENCIA/TEMA%204/09%20REG
RESION%20Y%20CORRELACION%20LINEAL%20SIMPLE.pdf
https://www.ucm.es/data/cont/docs/518-2013-11-13-Analisis%20de%20Regresion.pdf
https://www.researchgate.net/publication/309230625_TEORIA_DE_DECISION_Y_M
ODELOS_ESTADISTICOS

Pdet-621 Material

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Pdet-621 Material

Cargado por

Copyright:

Formatos disponibles

PDET - 610

1. Análisis exploratorio de datos

3. Como inferir a base de nuestras y relacionando

4. Números índice y confirmado de supuestos.

ANÁLISIS EXPLORATORIO DE DATOS

DISEÑO DE ESTRUCTURAS METÁLICAS Y DE CONSTRUCCIÓN

Cuando coloquialmente se habla de estadística, se suele pensar en una relación de

DISEÑO DE ESTRUCTURAS METÁLICAS Y DE CONSTRUCCIÓN

Estadística inferencial: Apoyándose en el cálculo de probabilidades y a partir de datos

CONCEPTOS BÁSICOS Vamos a definir algunos conceptos básicos y fundamentales a

DISEÑO DE ESTRUCTURAS METÁLICAS Y DE CONSTRUCCIÓN

Ordinales: sus posibles categorías se encuentran jerarquizadas y ordenadas. Ej.:

DISEÑO DE ESTRUCTURAS METÁLICAS Y DE CONSTRUCCIÓN

Discretas: sólo puede tomar valores enteros. Ej.: Nº de hijos, nº de intervenciones

Continuas: Si sus posibles valores están en un conjunto infinito. Las podemos

TIPO DE VARIABLE SIRVE PARA Cualitativa nominal CLASIFICAR Cualitativa ordinal

DISEÑO DE ESTRUCTURAS METÁLICAS Y DE CONSTRUCCIÓN

POBLACIÓN MUESTRA Muestreo Inferencia Diplomado en Salud Pública 2.

Mayor flexibilidad y mayores posibilidades de estudio. La disponibilidad de registros

Mayor control de calidad del proceso de recogida de datos. Al recoger datos en un

DISEÑO DE ESTRUCTURAS METÁLICAS Y DE CONSTRUCCIÓN

MUESTREO PROBABILISTICO Los procedimientos probabilísticos reducen la carga

DISEÑO DE ESTRUCTURAS METÁLICAS Y DE CONSTRUCCIÓN

DISEÑO DE ESTRUCTURAS METÁLICAS Y DE CONSTRUCCIÓN

DISEÑO DE ESTRUCTURAS METÁLICAS Y DE CONSTRUCCIÓN

MUESTREO NO PROBABILISTICO Los métodos de muestreo no probabilístico son

DISEÑO DE ESTRUCTURAS METÁLICAS Y DE CONSTRUCCIÓN

Medidas de Tendencia Central y de Variabilidad

 Medidas descriptivas de forma: curtosis y asimetría

MEDIDAS DE TENDENCIA CENTRAL

Al trabajar con histogramas y polígonos de frecuencias, vimos que las

MEDIDAS DE TENDENCIA CENTRAL: Moda, mediana y media

DISEÑO DE ESTRUCTURAS METÁLICAS Y DE CONSTRUCCIÓN

Ejemplo 1: Los siguientes datos representan la cantidad de

Mo = 15 La cantidad de pedidos diarios que más se repite es 15

Fte: Empresa NN. 2009

DISEÑO DE ESTRUCTURAS METÁLICAS Y DE CONSTRUCCIÓN

Esta distribución tiene 2 modas. Se la llama distribución

Fte: Empresa NN. 2009

Cálculo de la moda para datos agrupados

Si los datos están agrupados en una distribución de frecuencias, se selecciona el

DISEÑO DE ESTRUCTURAS METÁLICAS Y DE CONSTRUCCIÓN

EDAD mi fi f ri f Fi Fri Fri

DISEÑO DE ESTRUCTURAS METÁLICAS Y DE CONSTRUCCIÓN

LMo  fi  f i1  f i1  h  10

VENTAJAS Y DESVENTAJAS DE LA MODA

 Se puede utilizar para datos cualitativos nominales u

 No se ve afectada por los valores extremos

 Se puede utilizar cuando la distribución de frecuencias tenga clases

 Cuando todas las puntuaciones de un grupo tienen la misma

 Si un conjunto de datos contiene 2 puntuaciones adyacentes con la

 Si en un conjunto de datos hay dos que no son adyacentes con la

DISEÑO DE ESTRUCTURAS METÁLICAS Y DE CONSTRUCCIÓN

Puntuaciones obtenidas en un examen de aptitudes

Fte: Elaboración propia. 2009

DISEÑO DE ESTRUCTURAS METÁLICAS Y DE CONSTRUCCIÓN

En general, vamos a representar un conjunto x1 x2 x3 ,... , xn

donde el subíndice encerrado entre paréntesis indica el orden o ubicación en

Se presentan dos situaciones:

Sea el conjunto ordenado de

DISEÑO DE ESTRUCTURAS METÁLICAS Y DE CONSTRUCCIÓN

 Número par de datos: Es el promedio entre los dos datos centrales.

 La mitad de las observaciones son menores o iguales que 5,5 y la otra