Аналіз можливостей застосування моделі Vision Grid Transformer для аналізу структури документів українського бухгалтерського обліку

  • Максим Коростіль
  • Ілона Лагун
Ключові слова: аналіз структури документа, глибоке навчання, оптичне розпізнавання символів, рукописне розпізнавання тексту, автоматизація бухгалтерського обліку, україномовні бухгалтерські документи

Анотація

У сучасних умовах цифрової трансформації зростає потреба в автоматизації обробки бухгалтерських документів, зокрема в Україні, де значна частина первинної документації зберігається у паперовому вигляді або у форматі сканованих зображень. Ефективне вилучення інформації з таких документів вимагає застосування передових методів штучного інтелекту, зокрема глибокого навчання та мультимодального аналізу даних. У статті розглянуто можливість застосування модклі Vision Grid Transformer (VGT) для аналізу структури українських бухгалтерських документів. Модель VGT поєднує в собі два інформаційні потоки – візуальний (на основі Vision Transformer, ViT) та текстово-просторовий (на основі Grid Transformer, GiT), що забезпечує комплексне представлення документа як за зовнішнім виглядом, так і за змістом. Додаткову гнучкість моделі забезпечують методи попереднього навчання – MGLM (Masked Grid Language Modeling) та SLM (Segment Language Modeling), які дозволяють вивчати як локальні, так і глобальні контекстуальні залежності між текстовими елементами. У дослідженні акцентовано увагу на особливостях адаптації моделі VGT до українського контексту. Окреслено головні виклики, серед яких – відсутність якісних публічних анотованих датасетів українською мовою, необхідність високоточного оптичного розпізнавання символів (OCR) для кириличних шрифтів, проблеми з розпізнаванням рукописного тексту (HTR), а також складнощі, пов’язані з бухгалтерською термінологією та абревіатурами.

Опубліковано
2025-08-19
Як цитувати