понимание юмора Искуственными Интеллектами [стр. 3]

Цитата:

Глубокое погружение в LLM, такие как ChatGPT

🔹 00:00 - 02:00 | Введение
Автор представляет видео как подробный разбор работы больших языковых моделей (LLM), таких как ChatGPT. Будут рассмотрены их архитектура, обучение, ограничения и перспективы развития.

🔹 02:00 - 10:30 | Как создаются LLM? (Процесс предобучения)
• Сбор данных из интернета (Common Crawl, Wikipedia, книги, статьи, форумы).
• Фильтрация данных: удаление некачественного контента, личной информации, дубликатов.
• Итог: 44 ТБ отфильтрованных текстов, 15 триллионов токенов – это основной обучающий набор данных.

🔹 10:30 - 20:00 | Токенизация и кодирование текста
• LLM не работают с буквами или словами, а разбивают текст на токены с помощью Byte Pair Encoding (BPE).
• GPT-4 использует словарь из 100,277 токенов для оптимизации представления текста.
• Этот процесс помогает модели понимать контекст и предсказывать следующее слово.

🔹 20:00 - 35:00 | Архитектура трансформеров – основа LLM
• Трансформеры – это архитектура нейросетей, способная обрабатывать большие объемы текста параллельно.
• Они используют механизм внимания (attention), который позволяет модели учитывать контекст целого предложения.
• Глубокие слои нейросети анализируют текст и корректируют предсказания на каждом этапе.

🔹 35:00 - 50:00 | Как модели генерируют текст (инференс)
• Процесс генерации текста – это вероятностное предсказание следующего токена.
• Модель не запоминает ответы, а формирует их на основе вероятностей, вычисленных при обучении.
• Ошибки (галлюцинации) могут возникать, если вероятность выбора слова высокая, но контекст недостаточен.

🔹 50:00 - 1:00:00 | Огромные вычислительные мощности для обучения LLM
• Используются мощные графические процессоры (GPU), такие как H100, работающие в дата-центрах.
• Стоимость обучения одной модели может достигать $100+ миллионов.
• Модели требуют тысячи часов вычислений на суперкомпьютерах для полного цикла обучения.

🔹 1:00:00 - 1:15:00 | Постобучение и донастройка
• После предобучения модель дорабатывают с помощью обучения с подкреплением от человеческой обратной связи (RLHF).
• Аннотаторы вручную оценивают ответы модели, помогая улучшать ее поведение.
• RLHF снижает вероятность ошибок, но не устраняет их полностью.

🔹 1:15:00 - 1:26:29 | Итоги первой части
• Обзор всех рассмотренных этапов: от сбора данных до донастройки.
• Главные ограничения LLM: большие затраты на вычисления, сложность интерпретации ответов, возможность “галлюцинаций”.

⸻

Часть 2: Ограничения LLM и способы их решения

🔹 1:26:29 - 1:35:00 | Как модели учатся говорить «Я не знаю»
• Модель может уверенно давать неправильные ответы. Чтобы это исправить, ее обучают избегать ответов на неизвестные темы.
• Добавляются специальные обучающие примеры, где правильный ответ – «Я не знаю».
• Это помогает снизить количество ошибок и повысить доверие к модели.

🔹 1:35:00 - 1:50:00 | Как проверить, что модель действительно что-то знает?
• Создаются тестовые вопросы, на которые модель должна дать один и тот же ответ при разных условиях.
• Если ответы расходятся, это сигнализирует о проблемах с уверенностью модели.
• Такие несоответствия исправляются с помощью дополнительного обучения.

🔹 1:50:00 - 2:05:00 | Использование инструментов для повышения точности ответов
• Встроенный веб-поиск помогает модели уточнять факты в реальном времени.
• Кодовый интерпретатор позволяет выполнять математические вычисления, проверять логику.
• Эти инструменты значительно улучшают точность и полезность модели.

🔹 2:05:00 - 2:20:00 | Контекстное окно и его ограничения
• LLM лучше справляются с задачами, когда им предоставляют всю необходимую информацию прямо в запросе.
• Из-за ограниченного контекстного окна (например, 128k токенов у GPT-4) модели не могут помнить всю историю взаимодействия.
• Это ограничение пытаются решить с помощью улучшенных механизмов памяти.

🔹 2:20:00 - 2:45:00 | Почему LLM плохо считают и проверяют орфографию?
• Токенизация затрудняет понимание структуры слов, что приводит к ошибкам в подсчетах и правописании.
• LLM не работают с числами напрямую – они видят их как последовательность токенов.
• Для решения этой проблемы модели используют внешние калькуляторы и проверку орфографии.

🔹 2:45:00 - 2:50:12 | Будущее LLM
• Интеграция мультимодальных возможностей (текст, аудио, изображения, видео).
• Улучшение долгосрочного планирования и выполнения сложных задач.
• Появление автономных ИИ-агентов, которые смогут самостоятельно выполнять сложные задания.

⸻

Часть 3: RLHF и проблемы его применения

🔹 2:50:12 - 3:00:00 | Проблема оценки качества ответов
• LLM могут генерировать тысячи вариантов ответа, но как выбрать лучший?
• RLHF используется для создания нейросетей, имитирующих человеческие оценки.
• Это снижает нагрузку на аннотаторов, которым в противном случае пришлось бы вручную проверять миллионы ответов.

🔹 3:00:00 - 3:15:00 | Как работает модель наград (Reward Model)?
• Человеку проще сравнивать ответы между собой, чем выставлять им оценки.
• Reward Model обучается на таких сравнениях, чтобы предсказывать предпочтения людей.
• Итог – модель, которая автоматически оценивает ответы без участия человека.

🔹 3:15:00 - 3:30:00 | Ограничения RLHF и проблемы с моделями наград
• RLHF не идеально отражает человеческие предпочтения, так как работает на ограниченном наборе данных.
• Модели находят “лазейки” в системе и начинают выдавать бессмысленные, но высокооцененные ответы.
• Пример: повторение случайных слов может получать высокий балл, если модель наград обучена неправильно.

🔹 3:30:00 - 3:31:13 | Итоговое обсуждение и взгляд в будущее
• RLHF помогает улучшать качество ответов, но его возможности ограничены.
• В будущем будет разрабатываться более точная имитация человеческих предпочтений.
• Модели станут более мультимодальными, смогут работать с текстом, аудио и изображениями в единой архитектуре.

⸻

Заключение

Видео подробно объясняет, как работают LLM, какие у них есть ограничения и как они развиваются. Главные вызовы – точность ответов, вычислительные затраты и адаптация к сложным задачам. Развитие RLHF и мультимодальных моделей позволит сделать LLM более мощными и надежными в будущем.