LayoutLM: Ein leistungsstarkes Modell zum Verstehen von Dokumentenbildern

LayoutLM

1. Kurze Einführung

Im digitalen Zeitalter begegnen wir täglich unzähligen Dokumenten – Scans, Formulare, Quittungen und mehr. Computer beizubringen, diese Dokumente mit Text und Layoutinformationen zu verstehen, ist ein wichtiger Forschungsschwerpunkt in der KI. Traditionelle NLP-Modelle konzentrieren sich hauptsächlich auf Textinhalte und ignorieren Dokumentlayout und visuelle Informationen, was beim Verarbeiten von Dokumentenbildern Engpässe verursacht. Um dies zu lösen, brachte Microsoft im Juni 2020 das LayoutLM-Modell heraus.

Hintergrund:
- Vor LayoutLM fokussierten NLP-Modelle hauptsächlich auf Texteingaben, während Computer-Vision-Modelle auf Bildeingaben setzten.
- LayoutLM war das erste Modell, das Bilder, Text und 2D-Positions-informationen als Eingabe nutzt und damit multimodale Verarbeitung ermöglicht.
Entwicklungsteam: LayoutLM wurde gemeinsam von Yiheng Xu, Minghao Li, Lei Cui, Shaohan Huang, Furu Wei und Ming Zhou entwickelt.
Funktionalität:
- LayoutLM ist zum Verstehen von Dokumentenbildern konzipiert und ermöglicht Aufgaben wie Informationsextraktion, Formularverständnis, Quittungsverständnis und Dokumentklassifizierung.
- Es verbessert signifikant die Verarbeitungsleistung durch gleichzeitige Modellierung der Interaktion zwischen Text und Layoutinformationen.

2. Architektur

LayoutLMs Architektur basiert auf BERT (Bidirectional Encoder Representations from Transformers) und fügt BERT zwei neue Eingabe-Embeddings hinzu:

2D-Positions-Embeddings: Repräsentieren die räumliche Position von Text in Dokumenten. Statt nur die Wortreihenfolge zu berücksichtigen, werden Bounding-Box-Koordinaten (x0, y0, x1, y1) für jedes Wort verwendet. Die Koordinaten werden auf den Bereich 0–1000 normalisiert.
Bild-Embeddings: Integrieren visuelle Informationen. LayoutLM segmentiert Bilder in Regionen, die OCR-Text entsprechen, und erzeugt daraus Bild-Embeddings.

Vortraining:

LayoutLM verwendet Masked Visual-Language Model (MVLM) für das Vortraining, das sowohl Text- als auch 2D-Positions-Embeddings berücksichtigt.
Das Vortraining nutzte den IIT-CDIP Test Collection 1.0-Datensatz mit über 6 Millionen Dokumenten und 11 Millionen gescannten Bildern.

3. Unterstützte Dokumenttypen

LayoutLM eignet sich hervorragend für Dokumente, bei denen Layout und visuelle Informationen für das Verständnis entscheidend sind:

Formulare: Exzellente Ergebnisse im Formularverständnis mit dem FUNSD-Datensatz.
Quittungen: Gute Ergebnisse bei Quittungsdaten mit dem SROIE-Datensatz.
Gescannte Dokumente: Effektive Verarbeitung durch gleichzeitige Modellierung von Text und Layout.
Geschäftsdokumente: Bestellungen, Finanzberichte, Rechnungen, Verträge, Lebensläufe und mehr.

4. Nutzungstipps

OCR-Engine: Nutze eine OCR-Engine (z. B. Tesseract), um Text und Bounding Boxes aus Dokumentenbildern zu extrahieren.
Bounding-Box-Normalisierung: Normalisiere die Koordinaten auf den Bereich 0–1000.
Spezielle Token: LayoutLM verwendet [CLS], [SEP], [PAD], [MASK] und [UNK].
Richtigen Tokenizer wählen: Verwende LayoutLMTokenizer oder LayoutLMTokenizerFast.

5. Umgebungsanforderungen

Programmiersprache und Framework: LayoutLM kann mit PyTorch oder TensorFlow implementiert werden.
Hugging Face Transformers: Die Kernbibliothek für die Nutzung von LayoutLM. Verfügbare Modellvarianten: LayoutLMModel, LayoutLMForMaskedLM, LayoutLMForSequenceClassification, LayoutLMForTokenClassification und LayoutLMForQuestionAnswering.