Презентували відкриту українську мовну модель Lapa LLM: на що вона здатна

25.10.2025
356

В Україні презентували Lapa LLM v0.1.2 — велику мовну модель на базі Gemma-3-12B, що повністю оптимізована для роботи з українською мовою. Про це пише DOU з посиланням на розробників.


Над створенням Lapa LLM працювали фахівці з Українського католицького університету, КПІ, Львівської політехніки та AGH University у Кракові. Назвали модель на честь Валентина Лапи — співавтора методу групового урахування аргументів, що є одним із теоретичних фундаментів глибокого машинного навчання.

Одна з особливостей Lapa LLM у тому, що при її створенні повністю переписали токенізатор під українську мову. Загалом замінили 80 тисяч із 250 тисяч токенів, завдяки чому обробка тексту українською стала ефективнішою. За швидкістю роботи з українською мовою ця модель обходить оригінальну Gemma та більшість закритих моделей аналогічного класу, кажуть розробники.

У тестах на бенчмарках Lapa LLM показала такі результати:

  • Переклад: досягла 33 BLEU на FLORES для напрямку англійська → українська та показала високий результат у зворотному напрямку;
  • Обробка зображень: у тесті MMZNO Lapa LLM увійшла до числа лідерів серед моделей свого класу за точністю розпізнавання підписів і описів зображень українською;
  • Summarization і Q&A: продемонструвала стабільну роботу з великими текстами, збереження контексту й точність при відповіді на запитання — рівень, придатний для систем типу RAG;
  • Виявлення пропаганди: показала послідовність у визначенні маніпулятивних наративів і упереджених формулювань, що підтверджує якість фільтрації даних під час претрейнінгу.

За словами розробників, у деяких завданнях  Lapa LLM вже наближається до MamayLM, яку зараз вважають лідером серед українських мовних моделей. А у версії 1.0 вона має навіть перевершити результати MamayLM.

Для чого можна використовувати Lapa LLM:

  • створення корпоративних асистентів і чатботів українською;
  • створення машинного перекладу між українською та англійською;
  • побудова RAG-рішень для внутрішніх документів;
  • робота з конфіденційними текстами без передавання їх на зовнішні сервери.

Уся розробка моделі була максимально відкритою. Вихідний код, 25 навчальних датасетів, документацію та опис процесу тренування розробники опублікували у вільному доступі. У процесі навчання вони використовували відкриті українські корпуси та дані, оцінені за параметрами читабельності, граматики й відсутності дезінформації. На фінальних етапах використовувались якісні матеріали з бази відкритих даних Бібліотеки Гарварду.

Далі творці Lapa LLM планують створити міркувальну (reasoning) версію моделі та розширити корпуси для аналізу зображень і програмування.

Читайте новини і аналітику про ритейл та e-commerce в Україні на нашій сторінці в Facebook, на нашому каналі в Telegram, а також підписуйтеся на щотижневу email розсилку.