Аналіз можливостей застосування моделі Vision Grid Transformer для аналізу структури документів українського бухгалтерського обліку
Анотація
У сучасних умовах цифрової трансформації зростає потреба в автоматизації обробки бухгалтерських документів, зокрема в Україні, де значна частина первинної документації зберігається у паперовому вигляді або у форматі сканованих зображень. Ефективне вилучення інформації з таких документів вимагає застосування передових методів штучного інтелекту, зокрема глибокого навчання та мультимодального аналізу даних. У статті розглянуто можливість застосування модклі Vision Grid Transformer (VGT) для аналізу структури українських бухгалтерських документів. Модель VGT поєднує в собі два інформаційні потоки – візуальний (на основі Vision Transformer, ViT) та текстово-просторовий (на основі Grid Transformer, GiT), що забезпечує комплексне представлення документа як за зовнішнім виглядом, так і за змістом. Додаткову гнучкість моделі забезпечують методи попереднього навчання – MGLM (Masked Grid Language Modeling) та SLM (Segment Language Modeling), які дозволяють вивчати як локальні, так і глобальні контекстуальні залежності між текстовими елементами. У дослідженні акцентовано увагу на особливостях адаптації моделі VGT до українського контексту. Окреслено головні виклики, серед яких – відсутність якісних публічних анотованих датасетів українською мовою, необхідність високоточного оптичного розпізнавання символів (OCR) для кириличних шрифтів, проблеми з розпізнаванням рукописного тексту (HTR), а також складнощі, пов’язані з бухгалтерською термінологією та абревіатурами.
Авторське право (c) 2025 Максим Коростіль, Ілона Лагун (Автор)

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.