Estimación de intervalos de referencia de variables biológicas

Escrito por| Bioestadística

Introducción

Los gráficos y las tablas de percentiles constituyen una herramienta de uso común en la práctica clínica. Se denomina intervalo de referencia a una pareja de valores que corresponden a los límites de determinados percentiles de la distribución de probabilidad de los datos, y que son simétricos con respecto a la mediana.

Evidentemente para establecer intervalos de referencia es fundamental emplear una muestra adecuada, tanto desde el punto de vista de la representatividad de la población que se desea cuantificar, habiendo sido obtenida mediante algún procedimiento de muestreo aleatorio, como en cuanto al tamaño de la misma, que permita efectuar las estimaciones con una adecuada precisión.

En ocasiones también se habla de “intervalo o rango de normalidad“, aunque esta terminología afortunadamente va cayendo en desuso por confusa e inapropiada, ya que en un intervalo del 95% obtenido a partir de una población sana, por definición, el 5% de los individuos estarán fuera de ese denominado intervalo de normalidad. Por otro lado nada impide el determinar intervalos de referencia para poblaciones de enfermos con una patología concreta, donde por tanto el término normal constituye en cierta medida un contrasentido. Además la palabra normal nos induce rápidamente a pensar en una distribución de probabilidad normal o gaussiana, cuando lo más habitual es que los datos que estamos midiendo no se ajusten en principio a ese tipo de distribución de probabilidad, sobre todo cuando se maneja determinaciones analíticas.

Estimación de intervalos de referencia

A partir de una muestra de n sujetos se trata de estimar un intervalo de referencia del q %, donde frecuentemente q es el 95% o el 90%. Se trata de estimar los percentiles (100-q)/2 y (100+q)/2, que corresponden al 2.5% y 97.5% para un intervalo de referencia del 95%.

La forma más simple de estimar esos percentiles es calcularlos directamente a partir de la distribución de nuestros datos. Procedemos entonces a ordenar los valores en sentido creciente, y para un intervalo del 95% el límite superior vendrá dado por aquel valor que deja por debajo el 97.5% de los datos y por encima el 2.5% restante. Si debido al número de observaciones ese punto no coincide exactamente con un valor de la serie, se obtiene por interpolación. El problema de este método radica en que produce estimaciones sesgadas, sobre todo si las muestras no son muy grandes, por lo que se prefiere utilizar otros procedimientos, disponiendo de dos alternativas: utilizar modelos paramétricos o utilizar técnicas no paramétricas.

En cuanto a las técnicas paramétricas las más empleadas se basan en suponer una distribución normal o de Gauss para los datos. Una vez estimada la media m y la desviación estándar s, a partir de nuestros datos, los percentiles se estimarán a partir del modelo de distribución de probabilidad normal como m+zps, donde zp es el valor de la función de distribución normal correspondiente al percentil p. Así para el percentil 97.5% el valor de zp es 1.96

Figura 1

En la práctica no es adecuado utilizar directamente el modelo de probabilidad normal, ya que la mayoría de parámetros biológicos suelen alejarse de ese modelo (como en la figura 1), presentando asimetría (skewness) más o menos marcada, ya sea con colas hacia el lado izquierdo de la distribución (asimetría negativa) o hacia el lado derecho (asimetría positiva). En otras situaciones, aunque sí exista simetría, sin embargo la densidad de probabilidad de los datos es diferente de la que correspondería a una distribución normal, bien porque presenta una mayor agrupación de valores en torno a ese valor central (mayor apuntamiento), o porque, al contrario, presenta una distribución de probabilidad más “aplanada” o extendida. Esta característica, relativa a cómo se reparte la frecuencia entre el centro y los extremos de la distribución, se denomina apuntamiento o curtosis. A veces con una transformación sencilla es suficiente para lograr una variable modificada que sí sigue una distribución de probabilidad normal.

Cuando tenemos asimetría hacia el lado derecho, la transformación logarítmica puede ser adecuada. Otras transformaciones sencillas consisten en utilizar la raíz cuadrada, o la función inversa 1/x.

Un tipo de transformación muy empleado es la de Box-Cox, que tiene la siguiente expresión

cuando =0 la transformación corresponde a ln(X). El parámetro  se estima por el procedimiento de máxima verosimilitud.

En ocasiones es necesario aplicar dos transformaciones: una para eliminar la asimetría y luego otra para eliminar la curtosis.

Para verificar si los datos siguen o no una distribución normal, se suele utilizar los gráficos de ajuste a una normal, y algún contraste específico para tal fin, como puede ser la prueba de Kolmogorov-Smirnov, prueba de Anderson-Darling, prueba de Shapiro-Francia, prueba de Shapiro-Wilks, la prueba de chi², o la prueba de Cramer-von Mises.


Figura 2. Gráfico de verificación de ajuste a una distribución normal

Una vez que ya se puede suponer que los datos transformados siguen una distribución de probabilidad normal de forma aceptable, se estimarán los percentiles mediante la distribución normal, y después se deshacen las transformaciones, para obtener los límites de referencia en las unidades de los datos.

Estimación de intervalos de referencia en función de una variable

Una gran cantidad de variables biológicas van evolucionando con la edad, por lo que no es adecuado postular unos límites de referencia globales, sino que éstos deben ser determinados en función de la edad. Para resolver este cálculo se han propuesto diferentes procedimientos, en general bastante complejos.

Vamos a presentar aquí uno de los métodos más sencillos, planteado por Wright y Royston, consistente en aplicar transformaciones básicas y técnicas de regresión múltiple para modelar la media, la desviación estándar y la asimetría.

Ahora para cada sujeto tenemos dos datos: la variable estudiada X, y la edad que vamos a representar por T. Es muy posible que antes de nada convenga transformar la variable X tomando logaritmos, para corregir la presencia de asimetría positiva (presencia de una cola alargada hacia el lado derecho, hacia los valores elevados de X) o si la dispersión de los datos aumenta con el valor medio (heterocedasticidad). Se supone que disponemos sólo de una observación por sujeto, para una edad determinada, ya que si no fuera así, tendríamos una situación de estudio longitudinal con medidas repetidas para el mismo sujeto, que requiere técnicas especiales de análisis, bastante más complejas.

Se utilizarán técnicas estándar de regresión múltiple para ajustar por el método de mínimos cuadrados ecuaciones polinómicas para la media y la desviación estándar, en función de la edad.

En primer lugar se procederá modelar la media mT en función de la edad. Para ello se comienza intentando ajustar un polinomio de orden tres:

Seguidamente comprobamos si con polinomio de orden inferior habría sido suficiente, si el coeficiente d no es significativamente diferente de 0, en cuyo caso se ajusta un polinomio de segundo orden, y repetimos el mismo razonamiento para ver si es suficiente con una recta, o incluso puede ser que el parámetro no varíe con la edad.

Si los ajustes no son buenos y se comprueba que es necesario al menos un polinomio de orden 3, puede ser interesante probar a ajustar un polinomio fraccional, en cuyo caso las potencias de la variable Edad se escogen del conjunto {-2,-1,-0.5,0,0.5,1,2,3…}, donde 0 corresponde a la función logarítmica. La ventaja de este tipo de polinomio respecto a los polinomios de coeficientes enteros de orden 3 o superior, es que presentan un ajuste con mayor plausibilidad biológica, ya que no tienen las curvaturas artificiosas de los polinomios estándar.

Una vez elegido el modelo para la media, procedemos a modelar la desviación estándar. Para ello se calculan los residuos absolutos escalados:

que corresponden a la diferencia en valor absoluto entre cada valor y la media estimada según el modelo para esa edad, multiplicada por 1.25.

Al igual que hicimos con la media, se analiza ahora si los residuos A varían con la edad, y se busca de forma análoga un modelo para esa evolución. La desviación estándar suele requerir funciones menos complejas que la media, y habitualmente es suficiente con ajustar una recta (a + b.Edad). Si observamos que la dispersión no depende de la edad, es decir que se mantiene aproximadamente constante al variar ésta, se estimará entonces a partir de la dispersión residual del modelo de regresión utilizado para modelar la media.

De esta forma tenemos dos ecuaciones: una para estimar la media mT y otra para la desviación estándar sT en función de la edad.

Seguidamente habrá que verificar si el modelo se ajusta a una distribución normal. Para ello calculamos los valores estandarizados:

Lo primero que podemos hacer es construir un gráfico de ajuste a la normalidad, como el de la figura 2, y aplicar una prueba de bondad de ajuste a una distribución normal.

Otra herramienta gráfica consiste en representar los valores estandarizados en el eje de las Y, en función de la edad en el eje de las X, y éstos se deben distribuir de forma constante, de igual manera a ambos lados del valor cero para todo el rango de edades de la muestra.

Si comprobamos que es aceptable el ajuste a una normal de los valores estandarizados, podemos ya utilizar la fórmula:

PercentilT= mT+Zp.sT

donde Z es el valor correspondiente de la distribución normal (1.96 para un intervalo de referencia de 95%, 1.28 para un intervalo del 90%, etc). Además habrá que tener en cuenta que si los datos se transformaron previamente, por ejemplo con la función logaritmo, ahora habrá que deshacer la transformación, calculando exp(Percentil).

Si no fuera bueno el ajuste a una distribución normal, habrá que tener en cuenta en el modelo también la asimetría, pero para no aumentar la complejidad de esta exposición de momento no vamos a profundizar en ese aspecto, remitiendo al lector interesado al artículo Wright y Royston.

Referencias

Simplified estimation of age-specific reference intervals for skewed data (p 2785-2803)
E. M. Wright, P. Royston
Statistics in Medicine, 16:2785-2803 (1997)
 

Luis Miguel Molinero Casares

Febrero 2004

Último modificado: 16 julio, 2017