Как мы прикрутили RAG для интент-классификации, или Трудности перевода на LLM-ский Хабр

· 4 min read
Как мы прикрутили RAG для интент-классификации, или Трудности перевода на LLM-ский Хабр

Недостатком отложенной валидационной выборки является то, что приходится обучать модель на подмножестве данных, а не на всех, поскольку часть данных резервируется на оценку качества (валидационную выборку). Валидационная выборка должна занимать существенную пропорцию от всех данных, чтобы репрезентативно представлять разнообразие новых наблюдений в будущем. Из-за этого тестируемая модель будет в общем получаться хуже, чем итоговая модель, которая обучается на всех данных. После того, как мы оценили качество модели на валидационной выборке, итоговая модель обучается на всех размеченных данных (и на обучающей, и на валидационной выборке). подробнее

  • Для этого используются различные методы оптимизации, такие как случайный поиск, жадный поиск, генетические алгоритмы, байесовская оптимизация и другие.
  • Каждая модель обладает своими особенностями и может быть использована в различных задачах генерации.
  • Изначально компания специализировалась на обработке естественного языка, но в 2020 году переориентировалась на LLM, создав библиотеку Transformers.
  • Эксперименты проводились при объединении статистического и экспертного словарей, что обеспечивает совместное использование статистической информации о текстах и экспертных знаний в предметной области.

Понимание параметров модели большого языка и требований к памяти: глубокое погружение

Токены — дискретные символы, слова и другие фрагменты текста, которые используются для представления данных в структурированном формате. На небольшом графике в  правом верхнем углу на рисунке 3 видно, что количество исследований в области искусственного интеллекта не всегда линейно росло. Эти исследования переживали периоды скачкообразного развития от одного достижения к другому, в то время как сейчас развитие экспоненциальное. Большинство исследователей согласны с этой датой и считают конференцию началом эпохи искусственного интеллекта. Существует много дискуссий о том, кто является создателем искусственного интеллекта.

Оценка рабочей памяти

NOLIMA может стать новым стандартом для оценки того, насколько эффективно модели справляются с большими контекстными окнами, потенциально направляя развитие LLM в будущем. Предыдущие исследования показывают, что в этой области ещё есть куда стремиться. По мере роста контекстных окон — с 4096 токенов в GPT-3.5 до 8000 в GPT-4 — модели сначала испытывали трудности с извлечением базовых последовательностей слов. Позже они продемонстрировали улучшение опубликованных производителем результатов теста NIAH. Если вам когда-либо приходилось использовать языковую модель в интерактивной среде или через API, то скорее всего ваша работа начиналась с выбора нескольких входных параметров. Однако, у многих из нас возникают вопросы по поводу назначения и правильного использования этих параметров. Исследования показали, что производительность LLM имеет тенденцию подчиняться определенным законам масштабирования по мере увеличения количества параметров. (2020) заметили, что производительность модели улучшается по степенному закону количества параметров, вычислительного бюджета и размера набора данных. Каждый параметр обычно хранится в виде 32-битного числа с плавающей запятой, хотя в некоторых моделях используется обучение смешанной точности с 16-битными числами с плавающей запятой. Это позволяет модели намного точнее и качественнее предсказывать текста, подобные тем, https://allenai.org   на которых она обучалась. Таким образом, выбор подходящей архитектуры нейронной сети является критически важным шагом для успешного завершения проекта в области машинного обучения. Важно учитывать все особенности задачи и данных, чтобы создать модель, которая будет эффективно работать и достигнет поставленных целей. Это снижает вероятность частого использования одних и тех же токенов/слов/фраз и, как следствие, заставляет модель рассматривать более широкий спектр тем и чаще их менять. В свою очередь штраф за присутствие (presence penalty) является фиксированным и применяется единожды, если токен уже появлялся в тексте. Понимая эти компоненты, мы можем оптимизировать использование памяти во время обучения и вывода, обеспечивая эффективное распределение ресурсов и повышение производительности больших языковых моделей. Список задач, которые можно решать с помощью больших лингвистических моделей и правильных инструкций, может быть достаточно длинным.

Метрики классификации

Использование модели представления текстов в виде графа по сравнению с векторной моделью привело к сокращению количества гипотез от 25 до 43 %. Это объясняется уменьшением количества допустимых связей между словами за счет использования окна фиксированного размера, что приводит к уменьшению количества возможных комбинаций слов в гипотезах. Качество классификации текстов для наилучшей функции OR изменилось от –1,2 до 0,4 %. Наличие информации в виде связей между словами привело к сокращению количества гипотез, обеспечив сохранение качества классификации на приемлемом уровне. Кроме того, как наверняка многие из вас заметили, полученная выборка fluency repair содержит больше информации, чем обычная выборка для SFT, — в ней есть примеры исправлений. Такие исправления прекрасны тем, что можно делать обучение на триплетах (src, good, bad), а не только на парах (src, good). Мы можем явно показывать модели примеры не очень хороших по гладкости переводов и примеры исправлений, а также одновременно оптимизировать вероятность исправления и дебустить вероятности плохого ответа.  https://gratisafhalen.be/author/aeo-wizard/ В случае Full Fine-tune мы оптимизируем все параметры языковой модели, соответственно, разница между обучением с нуля и использованием LLM pretrain состоит исключительно в начальном приближении. И если мы делаем оптимизацию достаточно агрессивно, то эффект от начальной точки гораздо меньше эффекта датасета. В сравнении с метриками выше, более близкое к нулю значение DBI говорит о лучшем качестве кластеризации. Хотя данная метрика и обладает тем же недостатком, что и коэффициент силуэта, она может быть более предпочтительным вариантом из-за более простого вычисления. Эта метрика также лежит в диапазоне [0, 1] и может быть полезна при сравнении различных алгоритмов кластеризации, поскольку не делает никаких предположений об их структуре и, следовательно, может дать более объективную оценку. Следует добавить, что все 3 метрики хорошо интерпретируемые, поскольку лежат в диапазоне [0, 1], где 1 соответствует идеальной кластеризации. Также помимо этого, в scikit-learn имеется возможность получить все три метрики сразу. Она симметрична, не зависит от перестановок меток и их значений, которые теперь определены в диапазоне [-1, 1]. Одним из самых известных методов является Retrieval-Augmented Generation (RAG). Этот метод позволяет интегрировать внешние источники данных, такие как база с документацией компании, энциклопедии или интернет, в работу языковой модели, чтобы повысить точность ответов. Отличительной чертой нейросетей от других видов моделей является способность описывать самые разные зависимости, за счёт чего нейросети можно использовать в большом количестве задач. Только оценку качества прогнозов на отдельной тестовой выборке можно считать несмещенной в результате подбора гиперпараметров, поскольку только объекты этой выборки модель увидит в первый раз. Существует и кросс-валидационный подход многократного разбиения не на две, а на три подвыборки (nested cross-validation) для одновременного подбора гиперапаметров и оценки качества модели с наилучшими из них. Для более объективной оценки модели есть два подхода - использование отложенной валидационной выборки и кросс-валидация. В настоящей работе рассматривается бинарная шкала тональности, включающая два значения – позитивное и негативное. Классификация осуществляется на основе ДСМ-метода автоматического порождения гипотез, предложенного В.К. Целью работы является исследование влияния векторной и графовой моделей представления текстов на качество классификации отзывов по тональности. Среди причин переобучения могут быть тип модели и количество её параметров, качество и объём обучающих данных, а также неправильная настройка процедуры обучения. На практике языковые модели предсказывают вероятности не для всех слов в языке, а только для слов из словаря — конечного заранее отобранного набора слов. Мы можем использовать для прогнозирования разные модели или одну и ту же модель, но при разных значениях гиперпараметров. Важно уметь оценивать качество модели, чтобы подобрать самую точную модель и её наилучшую конфигурацию, а также знать, на какое качество работы мы можем рассчитывать на новых данных. Кроме того, можно применять методы распределенной обработки данных, при которых данные разбиваются на несколько частей и обрабатываются параллельно на нескольких узлах сети.