¿Qué hacer si no obtuve resultados estadísticamente significativos?

¿Qué hacer si no obtuve resultados estadísticamente significativos?

Por Brayam Pineda
Psicólogo. Especialista en Analítica de Datos.
Universidad Nacional de Colombia.

Imagine que usted es docente y empezó el 2021 con motivación por su labor, el 2020 lo cogió sin armas para la educación virtual, pero en el periodo de descanso decembrino investigó y logró consolidar una propuesta de pedagogía virtual que ha demostrado ser eficaz en estudios anteriores. Realizó pequeñas adaptaciones en pro del contexto de la población estudiantil y de las circunstancias propias de Colombia, y al final del semestre académico tiene por fin el resultado del examen final de todos los estudiantes, los resultados le indican que el promedio es más alto que el del semestre anterior y se le ocurre una gran idea: a lo mejor, está ante un modelo de enseñanza digno de replicar en otros escenarios académicos similares al suyo, sólo es cuestión de demostrar su eficacia mediante una prueba de hipótesis, por supuesto.

Los pasos son siempre los mismos: 1) Especificar la hipótesis nula y alterna; en este caso usted quiere ver si existen diferencias entre los puntajes de la evaluación final de ambos grupos. 2) Elegir el nivel de significancia,  el clásico 0.05 que nunca falla. 3) Determinar la muestra y la recolección de datos; en este caso, es algo que ya no puede cambiar, supongamos que fueron cursos de 30 estudiantes cada uno. 4). Comprobar los supuestos; para esto usted aplica un t test, y obtiene un p valor de 0.07. 5). Nada que hacer, no hay diferencias estadísticamente significativas y por lo tanto su método no sirve. Fin.

Seguramente todos hemos estado o estaremos frente a un caso similar en algún momento, y bien sea por nuestra falta de conocimiento o poca experiencia hemos cometido el error de abandonar o modificar buenos procesos esperando que ese p valor cambie en una próxima ocasión. A continuación presento algunos aspectos a considerar cuando no se obtienen resultados significativos con el fin de no abandonar su investigación.

1. Examina la calidad de los datos:

La calidad de los datos o certeza de la evidencia es, en pocas palabras, considerar todas aquellas fuentes de error internas y externas que pudieron haber afectado el estudio. En el caso de las fuentes externas tenemos el contexto de aplicación, las características sociodemográficas de los sujetos evaluados, eventualidades en el día de la aplicación, agotamiento de los sujetos, entre otros. Ahora bien, también existen fuentes de error internas, entre las que tenemos las relacionadas con el instrumento de evaluación, el modelo estadístico que usamos, el cumplimiento de los supuestos propios del modelo de análisis, el muestreo, entre otros. 

Si bien determinar la calidad de los datos parece un proceso algo subjetivo, es sumamente importante reportar junto con nuestros resultados los posibles factores que pudieron haber afectado de forma positiva o negativa nuestra investigación. Ciapponi (2013) ofrece algunas pistas para identificar la calidad de los datos en función del grado de impacto que tengan futuras investigaciones en la nuestra y su tamaño del efecto: 

Calidad alta: es muy improbable que investigaciones adicionales cambien nuestra confianza en la estimación del efecto. Calidad regular: es probable que investigaciones adicionales tengan un impacto importante sobre nuestra confianza en la estimación del efecto y puede cambiarla. Calidad baja: es muy probable que investigaciones adicionales tengan un impacto importante sobre nuestra confianza en la estimación del efecto y es probable que la cambie.” (p. 125)

Como el lector pudo haber notado, la cita habla de la relación entre la calidad de los datos y el tamaño del efecto observado. Esto es así ya que incluso investigaciones con resultados estadísticamente significativos y un tamaño del efecto importante se ven afectadas por este factor. Al respecto, Ciapponi (ibídem) expone una tabla que integra el tamaño del efecto y la calidad de la evidencia en la expresión de los resultados en investigaciones clínicas.

2. Verifique que el valor de alfa (α) sea el adecuado

Es frecuente usar valores de α tradicionales, sin considerar los antecedentes de su problema y las consecuencias de usar un nivel de significancia u otro. La significancia clínica no es para nada la estadística. Es más, la significancia estadística es regularmente mal entendida. En principio Fisher propuso la palabra significancia como algo “digno de prestarle atención”, y propuso un 5% como criterio personal. Si bien este valor fue producto de más estudios y se generalizó dentro de la comunidad científica, no es ni mucho menos un estándar. Por ejemplo, para experimentos de física de partículas es común utilizar valores en la significancia de 5 sigmas, es decir 0,00005%, por otro lado, es común que la comunidad científica acepte hasta 0.1 en el nivel de significancia (Clark, M. L., et al., 2005). 

Los experimentos en disciplinas tan complejas como la psicología y la educación a veces se ven atravesados por múltiples factores, de ahí que muchas veces requieren modelos complejos, como los multivariados, para estudiar sus conceptos. Es por eso que, en nuestro ejemplo del inicio, al tratarse de una nueva práctica educativa y ser la primera vez en implementarse, además de las adaptaciones producto del contexto, se puede considerar incluso el valor más alto dentro de los niveles de significancia aceptados. Recordemos que el nivel de significancia es el porcentaje de error que se está dispuesto a asumir y va de la mano de otros conceptos importantes como la potencia estadística y el tamaño del efecto. 

No quiero dejar pasar la oportunidad para aclarar que, si bien usted puede escoger valores de significancia distintos a los tradicionales, esto debe hacerse antes de empezar su investigación; es decir, no puede cambiar el nivel de significancia que está dispuesto a asumir en virtud de sus resultados.

3. Verificar la potencia estadística del estudio:

La potencia estadística es una cuantificación en términos de probabilidades de que el modelo usado en una investigación detecte diferencias estadísticamente significativas o efectos allí donde los haya (Quezada, 2007). Es decir que, si su estudio cuenta con poca potencia, es probable que aún si ‘en el mundo real’ existan diferencias estadísticamente significativas, su modelo no es lo suficientemente sensible como para detectarlas. 

La potencia estadística se calcula con base en el tamaño de la muestra n, la magnitud del efecto deseado y el Alpha. Usted puede calcularla en dos momentos: previo al inicio de su investigación para determinar el tamaño de la muestra necesario para que su experimento consiga el efecto deseado y obtenga diferencias significativas en caso de que las haya. A este respecto, el valor tradicionalmente aceptado para considerar un indicador de potencia como bueno es de 80%. Un segundo momento para calcularla es posterior a su experimento, caso en el cual usted da como insumos los tres valores mencionados, los cuales usted obtuvo como fruto de su investigación y obtiene como resultado la potencia real de su estudio (Quezada, 2007). Reportar este indicador es clave para dar mayor robustez a la evidencia que usted aporta, al respecto lo invito a conocer qué otros indicadores deberían reportar cuando realice una investigación ¿Por qué el valor p no lo es todo?.

De la mano de la potencia estadística viene un error frecuente en las conclusiones de los estudios que no encuentran diferencias significativas y es recomendar siempre aumentar el tamaño de la muestra. Ante esto, vale la pena considerar dos aspectos: 1. Si usted tiene un estudio con la suficiente potencia estadística, así aumente el tamaño de su muestra es poco probable que sus resultados cambien considerablemente. 2.El problema con esta sugerencia es que, con muestras extremadamente grandes, es posible encontrar diferencias significativas entre los grupos, sin embargo, esas diferencias son lo suficientemente pequeñas como para poder decir, con base en el tamaño del efecto, que pese a que existen diferencias estadísticamente significativas, no existen diferencias clínicamente significativas.

4. Reportar e interpretar los resultados
Entiendo que es un punto algo complicado de aceptar, usted quería obtener resultados estadísticamente significativos y con eso demostrar que su hipótesis era correcta, pero ello se debe a una falsa creencia acerca de lo que es la ciencia. Uno de los propósitos de la investigación científica es, claro está, el descubrimiento, pero no es el único. Acumular evidencia acerca de distintas teorías e hipótesis es parte fundamental de la tarea del científico. Esto, sin embargo, se ha visto pormenorizado por los agentes de divulgación científica los cuales, al darle mayor importancia a la innovación y el descubrimiento dentro de sus criterios de aceptabilidad, muchas veces dejan de lado valorar el aporte al cuerpo de evidencias tan necesario en todas las disciplinas. Lo anterior ha llevado a  que las probabilidades de publicar estudios en los cuales no se hayan encontrado diferencias significativas sean menores respecto a los estudios en los que sí las encontraron (Nosek et al., 2012).
Reportar resultados negativos es tan importante como reportar resultados positivos ya que representan el 50% del conocimiento (Centeno-Leyva y Dominguez-Lara, 2020). Ahora bien, la tarea no debe quedarse sólo en el reporte, pues tal y como señalan Trujillo et al. (2017) “cuando un software estadístico concluye su tarea, muchos estudiantes e incluso investigadores consolidados, creen que en ese momento ha terminado también la suya. Se trata de un grave error, es precisamente en ese momento donde comienza la función más importante del investigador, es decir, el análisis e interpretación contextual de la información de salida arrojada por el software” (p. 19). Recuerde que la labor del investigador es justamente responder al objetivo de su estudio, no es el software quien determina el resultado de su investigación, sino su capacidad de tomar la evidencia encontrada y transformarla en información objetiva sobre las hipótesis planteadas.
Sumado a todo lo anterior, y teniendo en cuenta la importancia de la acumulación de evidencia en la investigación científica, lo invito a pensar en una nueva investigación teniendo en cuenta los resultados de la anterior, lo que podría cambiar y lo que podría mejorar. Recuerde que una sola investigación no es determinante para ninguna teoría, es la posibilidad de replicarla de diferentes formas y en distintos contextos lo que da la robustez deseada a nuestra evidencia.

Referencias

Alonso Trujillo, J., Cuevas Guajardo, L., & Alonso, A. (2017). Uso del ritual de la significancia estadística y su impacto sobre el aprendizaje de la misma. Revista CuidArte, 6(12), 16.

Centeno-Leyva, S. & Dominguez-Lara, S. (2020). La replicabilidad en la investigación psicológica: una reflexión. Interacciones, 6(3), e172.

Ciapponi, A. (2013). ¿ Significancia clínica o significancia estadística?. Evidencia, actualización en la práctica ambulatoria16(4).

Clark, M. L. (2004). Los valores P y los intervalos de confianza:¿ en qué confiar?.

Faba BG, Sánchez MM. La Colaboración Cochrane en México. An Med Asoc Med Hosp ABC. 2001;46(3):130-136.

Nosek, B. A., Spies, J. R., & Motyl, M. (2012). Scientific utopia: II. Restructuring incentives and practices to promote truth over publishability. Perspectives on Psychological Science, 7(6), 615-631.

Add Comment

Your email address will not be published. Required fields are marked *