Análisis en profundidad de LLMs como ChatGPT
Análisis en profundidad de la tecnología de inteligencia artificial de modelos de lenguaje grande (LLM) que impulsa ChatGPT y similares.
Es domingo y si estás pensando que hacer, te recomiendo invertir 3 horas y media en ver este vídeo de Andrej Karpathy.
Vídeo Deep Dive into LLMs like ChatGPT
Este es un análisis en profundidad sobre la tecnología de inteligencia artificial de modelos de lenguaje grande (LLM) que impulsa ChatGPT y productos relacionados.
Cubre toda la pila de entrenamiento de cómo se desarrollan los modelos, junto con modelos mentales para entender su «psicología» y cómo sacarles el máximo provecho en aplicaciones prácticas.
Formador
Andrej fue miembro fundador de OpenAI (2015) y luego Director Senior de IA en Tesla (2017-2022). Actualmente es fundador de Eureka Labs, que está construyendo una escuela nativa de IA.
Capítulos
- 00:00:00 introducción
- 00:01:00 datos de preentrenamiento (internet)
- 00:07:47 tokenización
- 00:14:27 entrada/salida de redes neuronales
- 00:20:11 funcionamiento interno de redes neuronales
- 00:26:01 inferencia
- 00:31:09 GPT-2: entrenamiento e inferencia
- 00:42:52 inferencia del modelo base Llama 3.1
- 00:59:23 del preentrenamiento al postentrenamiento
- 01:01:06 datos de postentrenamiento (conversaciones)
- 01:20:32 alucinaciones, uso de herramientas, conocimiento/memoria de trabajo
- 01:41:46 conocimiento de sí mismo
- 01:46:56 los modelos necesitan tokens para pensar
- 02:01:11 tokenización revisitada: los modelos tienen dificultades con la ortografía
- 02:04:53 inteligencia irregular
- 02:07:28 ajuste supervisado a aprendizaje por refuerzo
- 02:14:42 aprendizaje por refuerzo
- 02:27:47 DeepSeek-R1
- 02:42:07 AlphaGo
- 02:48:26 aprendizaje por refuerzo con retroalimentación humana (RLHF)
- 03:09:39 adelanto de lo que está por venir
- 03:15:15 seguimiento de los LLMs
- 03:18:34 dónde encontrar LLMs
- 03:21:46 resumen general
Andrej Karpathy
Andrej Karpathy es un científico informático eslovaco-canadiense, nacido el 23 de octubre de 1986 en Bratislava (entonces Checoslovaquia, hoy Eslovaquia). Se trasladó a Toronto con su familia a los 15 años.
Formación Académica
- Grado en Ciencias de la Computación y Física por la Universidad de Toronto (2009).
- Máster en la Universidad de British Columbia (2011), donde trabajó en simulaciones físicas para robótica.
- Doctorado (PhD) en la Universidad de Stanford (2015), bajo la supervisión de Fei-Fei Li, centrado en redes neuronales aplicadas a visión por computador y procesamiento de lenguaje natural.
Carrera Profesional
- OpenAI (2015–2017, 2023–2024): Miembro fundador y científico investigador especializado en aprendizaje profundo y visión por computador.
- Tesla (2017–2022): Director Senior de Inteligencia Artificial, liderando el equipo de visión por computador para el sistema Autopilot. También participó en el desarrollo del robot humanoide «Optimus».
- Eureka Labs (desde 2024): Fundador de esta iniciativa educativa centrada en IA, con el objetivo de crear una escuela nativa de inteligencia artificial.
Información basada en el vídeo «Deep Dive into LLMs like ChatGPT» de Andrej Karpathy.
