RAG
База знаний
Документы, на которых обучается Алёна. При каждом вопросе бот ищет релевантные чанки (pgvector cosine, top-6) и подставляет их в контекст LLM. Клик по файлу — посмотреть, что именно проиндексировано.
Поддерживаются: .md, .txt, .pdf, .docx, .html, .json, .csv, .xlsx, .xls. Чанкинг — 500–800 символов с overlap 100. Эмбеддинг — multilingual-e5-small (384-dim). Идеальные кандидаты: регламенты, FAQ, прайсы, страницы сайта в HTML.