Forschungsprogramm AKieZ

Automatisierte Kuratierung von in-vivo erfassten Zeitreihen

English version is here.

Einleitung

Um ein KI-System zu trainieren, sind eine große Menge guter Daten eine unbedingte Voraussetzung. Durch das Internet sind für Text- oder Bilddaten große Datenmengen leicht verfügbar geworden und die Möglichkeit, KI-Modelle auf hochparallelisierten Grafikprozessoren ausführen zu können, hat die Fortschritte des letzten Jahrzehnts in diesem Bereich in Gang gesetzt. In konsequenter Fortsetzung dieser Entwicklung basieren die jüngsten Entwicklungen im Bereich der KI auf der Integration gigantischer Datenmengen in ein allgemeingültiges Modell. Die Verbindung von Sprach- und Bilddaten zeigen bereits Ansätze zu einem solchen detaillierten Weltmodell. Allerdings steht hinter solchen massiven Modellen ein enormer Aufwand für die Sammlung und Verarbeitung der Daten. Das Training dauert Wochen und verschlingt Kosten in Millionenhöhe.

Neueste Erkenntnisse zeigen, dass zur Erzielung optimaler Ergebnisse die Modellgröße stark, die Datenmenge moderat und die Zyklenanzahl im Training schwach anwachsen sollten, um das optimale Ergebnis zu erzielen. Wird nur einer der Parameter erhöht, ist der Effekt auf die Vorhersagegenauigkeit eines KI-Modells begrenzt. In der Praxis ist es aber meist die begrenzte Menge an Daten, die sich zum Training eignen, die den Engpass darstellt. Dabei kommt es bei der Eignung besonders auf eine ausgewogene Verteilung sowie eine zuverlässige Annotation (Labeling) der Daten an. Neueste Ergebnisse zeigen, dass mit Daten hoher Qualität und genügend Training die Leistung von sehr großen Modellen auch von deutlich kleineren erreicht werden kann. Daher legen Entwickler von Modellen wie DeepL mehr Gewicht auf die Qualität der Daten statt deren Quantität. Innerhalb ihrer Domäne sind die Ergebnisse, die durch diesen Ansatz möglich werden, überzeugend. Durch eine effektive Nutzung begrenzt vorhandener Daten wird somit das bestmögliche Ergebnis erzielt. Allerdings hängt die Wirtschaftlichkeit dieses Vorgehens von den Kosten ab, die für das Kuratieren der Daten notwendig sind. Meist erfolgt dieser Prozess in Handarbeit, kostet viel Zeit und Geld und beruht manchmal sogar auf der Ausbeutung von Menschen in Niedriglohnländern. Ein weiterer Grund für eine Kuratierung von Trainingsdaten ist der AI Act der Europäischen Kommission, der neue Vorschriften über außervertragliche zivilrechtliche Haftung an künstliche Intelligenz mit sich bringt. Indem die Datenqualität überwacht wird, kann der Sorgfaltspflicht Genüge getan werden, wodurch sich das Haftungsrisiko für die Anwender von KI eingrenzen lassen sollte.

Unser Vorhaben soll daher helfen, Trainingsdaten durch das Einbringen von Fach- und Kontext-Wissen im Trainingsprozess aufzuwerten und die Datenaufnahme effizienter zu gestalten. Unser Fokus liegt darauf, Daten mit niedriger Qualität durch geeignete Kuratierungsmethoden für das Training zu erschließen und dadurch das Training unserer Modelle zu verbessern. Diese Ansätze werden innerhalb des Projektes so weit wie möglich automatisiert, um sie wirtschaftlich und handhabbar zu machen.

Als Anwendungsfall soll eine Schrifterkennung dienen, die Inertialdaten eines elektronischen Stiftes per Mustererkennung in computerlesbare Schrift umwandelt. Mit diesem System haben beide Projektpartner bereits einschlägige Erfahrungen gesammelt und es liegt eine gute Datenbasis vor, um unmittelbar mit dem Projekt starten zu können.

Projektpartner

STABILO International GmbH
Schwanweg 1
90562 Heroldsberg

STABILO übernimmt die Projektleitung, die Definition der Randbedingungen, einen Teil der Datenkollektion und alle hardwarenahen Aufgaben. Das Design, die Implementierung und der Betrieb der Datenkuratierung – immer mit aktuellen Forschungsergebnissen des Lehrstuhls ausgestattet – finden ebenfalls bei STABILO statt. Demonstrator-Apps, ihre Interaktion mit dem Schrifterkennersystem und rigorose Softwaretests gehören auch zum unternehmensseitigen Aufgabengebiet.

und

Lehrstuhl für Maschinelles Lernen und Datenanalytik
Carl-Thiersch-Straße 2b
91052 Erlangen

Der Lehrstuhl für maschinelles Lernen und Datenanalytik führt Forschung zu den Themen Transfer Learning, Data Augmentation, Natural Language Processing und Active Learning durch, kooperiert mit dem Industriepartner bei Fragen der Umsetzung in Produktivsoftware und führt die wissenschaftlichen Evaluationen zu den Forschungsergebnissen durch.

Beide Partner sind für die Aufnahme von Trainingsdaten zuständig, wobei STABILO die dafür notwendigen Apps und Server zur Verfügung stellt.

Strukturierung der Arbeiten

Arbeitspaket 1: Anforderungsdefinition

  • Definition und Ausarbeitung der Anforderungen

Arbeitspaket 2: Automatische Datenbewertung

  • Datengetriebene Analyse durch Clustering-Algorithmen
  • Statistische Analyse zur Datenqualitätskontrolle
  • Einsatz physikalischer Randbedingungen für Datenqualitätskontrollen
  • Integration der Ansätze in einen Demonstrator.

Arbeitspaket 3: Automatische Beurteilung von Ground Truth Annotationen

  • Abgleich mit Schriftspurrekonstruktion
  • Abgleich mit Erkennerensemble
  • Erarbeiten Bayes’scher Ansätze zur Identifizierung unsicherer Annotationen
  • Integration der Ansätze in einen Demonstrator

Arbeitspaket 4: Automatisches Annotieren von Daten ohne Ground Truth

  • Zuweisung mehrerer Annotationen mit Erkennerkonfidenz durch Ansätze aus AP 3
  • Abgleich mit komplexen Sprachmodellen
  • Evaluation der Qualität der neuen Annotationen
  • Integration der Ansätze in einen Demonstrator

Arbeitspaket 5: Active Learning mit Nutzereingabe

  • Erarbeiten von Active Learning und Human-in-the-Loop-Mechanismen zum semiautomatisierten Annotieren
  • Evaluation der Akzeptanz der Mechanismen
  • Evaluation der Qualität der durch Active Learning ermittelten Annotationen
  • Integration der Ansätze in einen Demonstrator

Arbeitspaket 6 und 7: Validierung

  • Sammlung von Handschriftmustern
  • Test der Demonstratoren
Diese Arbeiten werden vom bayerischen Staat gefördert im Rahmen des Bayerischen Verbundforschungsprogramms (BayVFP) 
des Freistaates Bayern, Förderlinie “Digitalisierung”.