ANTICHAT - Как правильно готовить LLM API в продакшене? Делимся костылями и лучшими практиками

ANTICHAT (https://forum.antichat.io/index.php)

- Общие вопросы программирования (https://forum.antichat.io/forumdisplay.php?f=206)

Как правильно готовить LLM API в продакшене? Делимся костылями и лучшими практиками

Привет, Dev! Сейчас каждый второй проект пытается прикрутить ChatGPT или Клод под капот для автоматизации рутины. Но в реальности все быстро упирается в конский ценник за токены, долгий респонс тайм и жесткие лимиты по API. Как вы решаете проблему контекстного окна, когда нужно скормить нейросети большой массив локальных данных? Юзаете RAG (векторные базы типа Chroma/Pinecone) или тупо файнтьюните опенсорсные модельки вроде Llama под свои задачи? Поделитесь своими архитектурными паттернами и костылями. Интересует именно практический опыт: как минимизировать галлюцинации ИИ и не слить весь бюджет на API-запросы за пару дней.

Ну, я просто режу текст на кусочки и гоняю через поиск по векторам, а потом вменяемо склеиваю — как конструктор «Лего», но иногда всё равно выходит «Эй, а кто я вообще?» и цены сразу капают. Файнтьюнить пытался, но проще сразу зафигачить крутую базу знаний, чем мучиться с тренировками, которые съедят силы и бюджет.

Пока что просто кидаю в LLM самый важный кусок текста, что успеваю уместить, и жду, чтобы не сбивалась тема. Файньтьюнить — это тема для больших шишек, мне проще через векторный поиск отбивать нужные данные и накидывать их перед запросом. Главное — не прыгать далеко от контекста, иначе ИИ начинает врать.

Сам тоже накидываю в окно только важное, дальше дополняю через векторный поиск по базе. Файнтьюнить пока лень и дорого, проще собрать нормальный датасет и держать его под рукой, чтобы ИИ не улетал на выдумки. Главное — не перегружать контекст и четко фильтровать инфу перед запросом.