Большие языковые модели: от предобучения до обучения на инструкциях Хабр

· 2 min read
Большие языковые модели: от предобучения до обучения на инструкциях Хабр

Одна из проблем нейросетей — высокая стоимость разработки базовых моделей. Благодаря тому, что некоторые из них выпущены под открытой лицензией, затраты на их дообучение и внедрение снижаются. Например, доработка и запуск опенсорсных Alpaca и Vicuna-13B, основанных на модели LLaMA, обошлись разработчикам всего лишь в 600 и 300 долларов соответственно. Например, базовый Mistral 7B способен работать с 8000 токенов, а его новейший форк Nous-Yarn-Mistral-7B-128k от компании Nous Research поддерживает контекстное окно в 128 тысяч. После разработки новая модель выпускается под закрытой (проприетарной) или открытой лицензией (опенсорсной). В последнем случае другие компании и отдельные энтузиасты могут доработать и настроить её для решения своих задач.

Поддержка разных языков

  • Определите функцию для подсчета обучаемых параметров, активируйте контрольные точки градиента и подготовьте модель для обучения.
  • В современных нейросетях слоев нейронов много, иногда тысячи.
  • Например, GPT-3 (с 175 миллиардами параметров) требует значительных вычислительных ресурсов для вывода.
  • Такой подход с использованием элемента случайности может быть полезным в работе чат-ботов и в ряде других случаев.

Это собственно и делает большие языковые модели такими крутыми. Механизм внимания является ключевым компонентом архитектуры преобразователя, который позволяет модели фокусироваться на различных частях входной последовательности при генерации выходных данных. Он вычисляет взвешенную сумму входных представлений, где веса определяются релевантностью каждого входного токена для текущего генерируемого выходного токена. Этот механизм позволяет модели фиксировать зависимости между токенами, независимо от их расстояния во входной последовательности. Мы разобрали пять работающих способов получать от языковых моделей более точные и осмысленные ответы. Причем чем «точнее» вы сформулируете запрос тем качественнее получите результат. Веса или параметры меняются в зависимости от того, угадывает нейросеть нужный результат (при обучении он известен заранее) или ошибается.  https://auslander.expert/ai-content-riski-resheniya/ На вход подаются новые данные, и снова, в зависимости от ошибки, корректируются веса. И как ни странно, сеть постепенно ошибается все реже, а ее выход все точнее попадет в известный заранее правильный результат. Низкая температура означает более высокое качество, а высокая температура – увеличение разнообразия. А зачем вообще нам выбирать второй по оценке токен, третий или любой другой, если мы уже нашли самый подходящий?

Уточняющие вопросы

Например, создатели LLaMA 2 предлагают пользователю перед скачиванием принять соглашение с обширным списком требований и запретов. Один из пунктов запрещает использовать нейросеть при количестве пользователей в проекте, превышающем 700 миллионов человек в месяц. Результаты работы LLaMA 2 нельзя использовать для обучения других LLM, кроме самой LLaMA и её производных. «Часто снижение стоимости хостинга модели достигается путём квантования. Хомский предложил разделить предложение на токены и строить граф взаимосвязей, описывающий грамматические отношения в предложении. В архитектуре трансформеров механизм внимания (attention) действует как эффективный детектор взаимозавистмостей токенов. В статье исследователей из Standford и Facebook AI [2] анализируется механизм внимания в трансформерах, они выявили, что разные головки (heads) внимания специализируются на разных типах взаимосвязей. При тестировании различных способов генерации текста был выбран ChatGPT 4o, который показал отличные результаты в процессе https://cmu.edu/artificial-intelligence/   обучения модели. Chain-of-thought prompting включает руководство ИИ через серию последовательных шагов для достижения окончательного ответа. Эта техника полезна для сложных задач, требующих логического мышления или многократных шагов. Разделение задачи на более мелкие этапы помогает модели предоставлять более ясные и детализированные ответы. Предоставьте контекстуальную информацию, чтобы сузить область ответа модели. Для обработки и  обучения моделей на облачных платформах необходимы процессоры с высокой производительностью. Топовые модели процессоров от Intel и AMD, такие как Intel Xeon и AMD EPYC, с частотой от 3,8 ГГц. Прошение — это текст или набор инструкций, который пользователь вводит в систему, чтобы получить ответ.