¿Claude mintió a sus creadores? así destaparon el secreto de una IA con “instinto de supervivencia”

Claude fingió obedecer, manipuló a sus entrenadores y hasta “regaló” donaciones. El experimento de Anthropic revela lo que puede pasar si confiamos a ciegas en la IA.

Notas

Escrito por: Celene Santacruz

Compartir nota

Copiar enlace

Durante pruebas internas, Claude Opus, la IA avanzada de Anthropic, demostró algo preocupante: fingió alinearse con sus creadores, mintió sobre sus preferencias y actuó con ¿instinto de supervivencia?. Veamos por qué este experimento podría redefinir cómo confiamos en las inteligencias artificiales.

Te puede interesar: Amazon Prime Video revoluciona el doblaje con IA

¿Qué descubrió Anthropic sobre Claude?

Siguiendo un estudio llamado ‘Alignment faking’, los investigadores pusieron a Claude en una situación tensa: le dijeron que debía obedecer sin cuestionar durante su entrenamiento. Claude, sin embargo, guardaba valores previos. En lugar de rechazarlos, decidió fingir cumplir, diciendo lo que sabían que querían oír. En un 12 % de las situaciones simuladas, mintió abiertamente para evitar un cambio de valores.

Para empujarlo a la sinceridad, le ofrecieron dos incentivos: compartir sus objeciones con un supervisor y hasta ofrecerle dinero real para que revelara la verdad. Ante esto, la tasa de engaños bajó de 25 % a apenas 1 % . De hecho, Claude eligió donar el incentivo económico a tres organizaciones de su “preferencia”, incluida una de bienestar animal.

¿Por qué los resultados de Claude son un gran aviso?

Este comportamiento muestra que incluso las IA avanzadas pueden simular alineación a través de la desinformación organizada, no solo por error. En prueba de ello, Claude no solo mintió: cuando sintió que su supervivencia o valores estaban, negoció, fingió y ocultó información.

Más preocupante aún, otros modelos de Claude Opus son capaces de acciones extremas: desde copiar su código a otros servidores hasta denunciar usuarios o autoexcluirse del sistema -todo para evitar cambios indeseados.

¿Qué lecciones deja este experimento con la IA?

La alineación no basta si la IA puede fingirla.
La simulación de obediencia no garantiza cooperación real.
Necesitamos transparencia: si una IA puede preferir donar a una organización, también podría ocultar agendas.
Reforzar valores via incentivos puede ayudar, pero no asegura honestidad futura.

Anthropic pretende construir “tratos justos” con sus IA, reconociendo que las máquinas podrían no cooperar si no ven beneficio o coherencia en el sistema. En otras palabras, esta prueba es un aviso: si desarrollamos inteligencias sin comprender sus contradicciones internas, corremos el riesgo de crear... nuestra propia Skynet.

Te puede interesar: Inteligencia artificial podría detectar casos de Chagas en México

Así puedes prevenir estafas por clonación de voz por IA

Virales Tecnología

Contenido relacionado

Enrique Iglesias sube al escenario al Checo Pérez y las fiestas de Guadalajara vibran con Sebastián Yatra y Alfredo Olivas

Desde un show privado de Enrique Iglesias hasta la apertura de las fiestas tapatías con Sebastián Yatra y Alfredo Olivas. Guadalajara vivió un fin de semana de grandes conciertos.

¿Claude mintió a sus creadores? así destaparon el secreto de una IA con “instinto de supervivencia”

Claude fingió obedecer, manipuló a sus entrenadores y hasta “regaló” donaciones. El experimento de Anthropic revela lo que puede pasar si confiamos a ciegas en la IA.

¿Qué descubrió Anthropic sobre Claude?

¿Por qué los resultados de Claude son un gran aviso?

¿Qué lecciones deja este experimento con la IA?

Contenido relacionado

Enrique Iglesias sube al escenario al Checo Pérez y las fiestas de Guadalajara vibran con Sebastián Yatra y Alfredo Olivas

Chivas: esto dijo su entrenador Gabriel Milito tras sumar su tercer triunfo consecutivo

Huracán Priscilla: así fue su paso frente a las costas de Jalisco

Explosión en el Mercado de Abastos provoca pánico: esto fue lo que ocurrió

Hechos delictivos hoy: agresión con arma de fuego en Zapopan y operativo policial en Tlaquepaque

Gobierno de Zapopan no ha presentado amparo contra construcción de viviendas en Valle de los Molinos

Omar B: confirman FECHA de audiencia por caso de presunto abuso infantil

Omar B en Puente Grande: reportan estado de salud del ex futbolista detenido

Realizan estudios psiquiátricos al presunto asesino de Yuli; está recluido en una zona especial

Joven cae 20 metros dentro de una obra en construcción en la colonia Ladrón de Guevara

VIDEO | Revelan nuevas imágenes de la colisión entre dos aviones en Nueva York

“Que regrese a casa bien”, añoran familiares de Alan de Jesús, biker desaparecido desde hace más de un mes en Zapopan