Milliarden Menschen nutzen t?glich das Internet und produzieren dabei Quintillionen Bytes an Daten. Künstliche Intelligenz (KI) erm?glicht es, aus diesen riesigen Datenmengen strukturierte Erkenntnisse zu gewinnen. Davon profitieren insbesondere Unternehmen, die auf Grundlage von Daten gesch?ftskritische Entscheidungen treffen. Das Problem: Obwohl die Daten heute in einer Vielzahl von Sprachen verfügbar sind, mangelt es an mehrsprachigen Datens?tzen wie Wissensgraphen (engl.: Knowledge Graphs), die Informationen strukturiert modellieren und Grundlage für viele KI-Anwendungen sind. In einem neuen Forschungsprojekt arbeiten Wissenschaftler*innen der Fachgruppe ?Data Science“ am Institut für Informatik der Universit?t Paderborn mit Partnern aus der Industrie daran, Endanwender*innen die Abfrage gro?er Mengen mehrsprachiger Textdaten mithilfe von Wissensgraphen zu erm?glichen. Durch diese Schlüsselkomponente soll der Einsatz von KI-gestützten L?sungen in Unternehmen effizienter werden, beispielsweise bei Frage-Antwort-Systemen (Question Answering, kurz: QA) in Form von Chatbots oder Enterprise Search, also firmeninternen Suchmaschinen.
Das Projekt mit dem Titel ?Polylingual Hybrid Question Answering“ (PORQUE) wird für die n?chsten drei Jahre vom Bundesministerium für Bildung und Forschung (BMBF) im Rahmen des F?rderprogramms ?Eurostars“ mit insgesamt 1,2 Millionen Euro gef?rdert. Zu den Projektpartnern z?hlen das Unternehmen Semantic Web Company (Konsortialführer) und der Softwareentwickler SiteFusion.
Neue Plattform vereint mehrsprachige Daten
?Unser Projekt zielt darauf ab, polylinguale, also mehrsprachige, konversationelle KI weiterzuentwickeln, um Nutzenden die M?glichkeit zu bieten, eine Vielzahl mehrsprachiger Datenquellen abzufragen. Dadurch sollen Unternehmen in der Lage sein, weltweit verfügbare Daten zu nutzen, um informiert gesch?ftskritische Entscheidungen treffen zu k?nnen“, so Prof. Dr. Axel-Cyrille Ngonga Ngomo, Leiter der Fachgruppe ?Data Science“ am Institut für Informatik der Universit?t Paderborn.
Die Herausforderung liegt darin, komplexe Fragen über mehrere Sprachen hinweg, basierend auf gro?en Mengen heterogener Daten zu beantworten. ?Die Innovation unseres Ansatzes liegt in der Kombination aus automatischer maschineller ?bersetzung und Wissensgraphen“, erl?utert der Informatiker. ?Wissensgraphen bilden die Grundlage, ohne die viele KI-Anwendungen und -Assistenten heute nicht funktionieren würden: 365足彩投注_365体育投注@ stecken in L?sungen zum Auffinden von Informationen und QA-Systemen“, so Artem Revenko, Director Research, PoolParty Semantic Suite. Beispielsweise verbergen sich die Datens?tze hinter den Informationsbl?cken, die Google bei Suchanfragen einblendet, noch bevor man eine Seite aufruft, oder werden bei Amazon zum Beantworten von Fragen an Alexa genutzt. ?Neben der Schwierigkeit, dass ein Mensch eine Frage auf viele verschiedene Arten stellen kann, mangelt es an Wissensgraphen in anderen Sprachen als Englisch, da knapp die H?lfte aller Informationen im Web nicht auf Englisch verfügbar sind“, erkl?rt Ngonga Ngomo. ?Obwohl bereits ein gro?er Aufwand betrieben wurde, Wissensgraphen sprachübergreifend verfügbar zu machen, sind die meisten popul?ren Wissensgraphen, z. B. DBpedia, in ihrer englischen Version am umfangreichsten. Dieser Mangel an mehrsprachigen Datens?tzen schr?nkt die ?bertragung von Modellen, die auf maschinellem Lernen basieren – wie QA-Systeme –, auf unterschiedliche Sprachen ein“, so der Wissenschaftler weiter.
Beantwortung sprachübergreifender Fragen aus dem europ?ischen Markt
Die neuartige Plattform zur mehrsprachigen Beantwortung von Fragen soll eine Hybrid-L?sung werden, erl?utert Ngonga Ngomo. ?Unsere Plattform soll die ?bersetzung und sprachübergreifende Anreicherung von Wissensgraphen, gekoppelt mit Informationen aus Texten aus dem Web umfassen. Sobald ein Wissensgraph mit mehrsprachigem Inhalt angereichert ist, wollen wir ihn als Hintergrundwissen für die Erstellung und Qualit?tsverbesserung von polylingualen QA-Systemen verwenden.“ Das sei insbesondere im europ?ischen Kontext relevant, da Daten in diesem Raum in einer Vielzahl von Sprachen verfügbar sind.
Bisher gebe es nur sehr wenige L?sungen, die in Texten enthaltene Entit?tsnamen (wie Namen von Personen oder Orten) mit polylingualem Dom?nenwissen verknüpfen, um Fragen zu beantworten, so Ngonga Ngomo. Er erg?nzt: ?Kommerzielle Anwendungen, die ein mehrsprachiges QA erm?glichen, h?ngen bislang stark von Menschen ab, die einen Teil der Qualit?tssicherung der Daten übernehmen, was zeitaufwendig und kostenintensiv ist. Indem wir die maschinelle ?bersetzung als automatisiertes System mit spezifischen Sprachverarbeitungstechniken kombinieren, erm?glichen wir es Endanwendenden, mehrsprachige Fragen zu stellen und automatisiert pr?zise Antworten zu erhalten.“
Weitere Informationen zur Fachgruppe Data Science: en.cs.uni-paderborn.de/ds
Jennifer Strube, Stabsstelle Presse, Kommunikation und Marketing