ChatGPT puede manipularse con las reacciones
Un miembro del equipo técnico de OpenAI acaba de confirmar que la manipulación de clics funciona también en la inteligencia artificial.
Y después eliminó el tweet. Pero está aquí:
No creo que la gente entienda realmente lo complicada que es la fase de postentrenamiento de un modelo de lenguaje. Por ejemplo, cuando estuvimos entrenando el modelo o3 recientemente, el modelo se volvió británico sin razón aparente. De repente empezó a escribir «check» como «cheque».
Hay otra historia antigua que escuché sobre cómo un modelo GPT temprano dejó de hablar croata de un día para otro y nadie podía entender por qué. Resulta que los usuarios croatas eran mucho más propensos a votar negativamente los mensajes, así que el modelo simplemente se rindió y decidió no hablar croata en absoluto.
Will Depue (master of slop @ OpenAI)
¿Cómo se puede manipular ChatGPT?
Con las reacciones de pulgar arriba/abajo. Las reacciones en el modelo se utilizan con fines de aprendizaje. Abusando de ellas a gran escala se puede influir en los resultados.
Las reacciones de pulgar arriba/abajo se utilizan con fines de aprendizaje del modelo. ¡Si puedes abusar de ellas a gran escala, puedes influir en los resultados!
No estaba seguro de que realmente pudiera ser tan fácil. Parece que sí lo es.
Información basada en la publicación de Twitter/X de Will Depue eliminada posteriormente.