Презентували відкриту українську мовну модель Lapa LLM: на що вона здатна

25.10.2025

588

В Україні презентували Lapa LLM v0.1.2 — велику мовну модель на базі Gemma-3-12B, що повністю оптимізована для роботи з українською мовою. Про це пише DOU з посиланням на розробників.

Над створенням Lapa LLM працювали фахівці з Українського католицького університету, КПІ, Львівської політехніки та AGH University у Кракові. Назвали модель на честь Валентина Лапи — співавтора методу групового урахування аргументів, що є одним із теоретичних фундаментів глибокого машинного навчання.

Одна з особливостей Lapa LLM у тому, що при її створенні повністю переписали токенізатор під українську мову. Загалом замінили 80 тисяч із 250 тисяч токенів, завдяки чому обробка тексту українською стала ефективнішою. За швидкістю роботи з українською мовою ця модель обходить оригінальну Gemma та більшість закритих моделей аналогічного класу, кажуть розробники.

У тестах на бенчмарках Lapa LLM показала такі результати:

Переклад: досягла 33 BLEU на FLORES для напрямку англійська → українська та показала високий результат у зворотному напрямку;
Обробка зображень: у тесті MMZNO Lapa LLM увійшла до числа лідерів серед моделей свого класу за точністю розпізнавання підписів і описів зображень українською;
Summarization і Q&A: продемонструвала стабільну роботу з великими текстами, збереження контексту й точність при відповіді на запитання — рівень, придатний для систем типу RAG;
Виявлення пропаганди: показала послідовність у визначенні маніпулятивних наративів і упереджених формулювань, що підтверджує якість фільтрації даних під час претрейнінгу.

За словами розробників, у деяких завданнях Lapa LLM вже наближається до MamayLM, яку зараз вважають лідером серед українських мовних моделей. А у версії 1.0 вона має навіть перевершити результати MamayLM.

Для чого можна використовувати Lapa LLM:

створення корпоративних асистентів і чатботів українською;
створення машинного перекладу між українською та англійською;
побудова RAG-рішень для внутрішніх документів;
робота з конфіденційними текстами без передавання їх на зовнішні сервери.

Уся розробка моделі була максимально відкритою. Вихідний код, 25 навчальних датасетів, документацію та опис процесу тренування розробники опублікували у вільному доступі. У процесі навчання вони використовували відкриті українські корпуси та дані, оцінені за параметрами читабельності, граматики й відсутності дезінформації. На фінальних етапах використовувались якісні матеріали з бази відкритих даних Бібліотеки Гарварду.

Далі творці Lapa LLM планують створити міркувальну (reasoning) версію моделі та розширити корпуси для аналізу зображень і програмування.

Читайте новини і аналітику про ритейл та e-commerce в Україні на нашій сторінці в Facebook, на нашому каналі в Telegram, а також підписуйтеся на щотижневу email розсилку.

Предоставлено SendPulse

читайте також

Meta скоротить понад 20% співробітників через штучний інтелект

16.03.2026

Ваш номер телефону — у росіян: засновник Poster про дані українців, загрозу військовим та успіх у Азії

27.02.2026

Акції IBM впали через штучний інтелект

24.02.2026

Штучний інтелект зупинив роботу Amazon

22.02.2026