Developing Open Scource Foundation Models for Low Resource Languages (TRA 6 Projekt)

Unsere Forschung
Polyglot ist eine Initiative zur Überwindung der sprachlichen Kluft in der natürlichen Sprachverarbeitung (NLP) durch die Entwicklung effizienter und zugänglicher Grundmodelle für Sprachen mit geringen Ressourcen.
Während die jüngsten Durchbrüche in der generativen KI durch groß angelegte Grundlagenmodelle vorangetrieben wurden, haben diese Fortschritte vor allem Sprachen mit hohen Ressourcen begünstigt, während viele unterrepräsentierte Sprachen zurückblieben. Das derzeitige Deep-Learning-Paradigma, das stark auf riesige Datensätze und Rechenleistung angewiesen ist, hat diese Kluft unbeabsichtigt vergrößert und es Sprecher*innen von Sprachen mit geringen Ressourcen erschwert, auf KI-Technologien zuzugreifen und diese so zu gestalten, dass sie ihre sprachliche und kulturelle Identität widerspiegeln.
Polyglot begegnet diesem Ungleichgewicht durch die Entwicklung von Tools, Modellen und Datensätzen, die eine offene, nachhaltige und inklusive KI-Entwicklung unterstützen. Unser Ziel ist es, Forscher*innen und Communities, die mit ressourcenarmen Sprachen arbeiten, durch hochwertige Open-Source-Ressourcen zu stärken, damit sie auf ihre Bedürfnisse zugeschnittene Sprachmodelle erstellen und optimieren können.
Polyglot wird vom Bundesministerium für Bildung und Forschung und dem Ministerium für Kultur und Wissenschaft des Landes Nordrhein-Westfalen im Rahmen der TRA Sustainable Futures (Universität Bonn) und der Exzellenzstrategie von Bund und Ländern gefördert.
Mehr Informationen über unser Projekt finden Sie hier:
Seite der Uni Bonn zum Ersten Platz "Most Interesting Results Competition" 1
Hugging Face 2
Die Innovation des Polyglot-Projekts liegt in seinem Engagement, Grundmodelle für Sprachen mit geringen Ressourcen zugänglich und effektiv zu machen, die in der Vergangenheit von den großen Fortschritten in der generativen KI ausgeschlossen waren. Anstatt bestehende Modelle wahllos zu skalieren, verfolgt Polyglot einen gezielten, nachhaltigen und Open-Source-Ansatz, indem es maßgeschneiderte Tools, Datensätze und Modelle entwickelt, die an die einzigartigen sprachlichen und kulturellen Kontexte unterrepräsentierter Gemeinschaften angepasst werden können. Dies demokratisiert nicht nur den Zugang zu KI-Technologien, sondern befähigt auch lokale Forschende und Sprecher*innen, KI-Systeme aktiv so zu gestalten, dass sie ihre Werte und Identitäten widerspiegeln.
Ein interdisziplinäres Projekt ist ein Projekt, das Forschende und Methoden aus verschiedenen akademischen Bereichen zusammenbringt, um gemeinsam komplexe Probleme anzugehen, die mit einer einzigen disziplinären Perspektive nicht vollständig verstanden werden können. Im Fall von Polyglot beispielsweise arbeiten Deep-Learning-Spezialistinnen, Experten für Hochleistungsrechner, Linguisten und Philosophinnen Seite an Seite – nicht nur, um Sprachmodelle für unterrepräsentierte Sprachen zu entwickeln, sondern auch, um sicherzustellen, dass diese Technologien ethisch, nachhaltig und mit kultureller Sensibilität entwickelt werden. Diese Art der Zusammenarbeit ermöglicht tiefere Einblicke und verantwortungsbewusstere Innovationen, indem sie technische Exzellenz mit gesellschaftlichem Bewusstsein verbindet.
Das Projekt Polyglot soll eine Vielzahl von hochwirksamen Ergebnissen hervorbringen, die sowohl in akademischer als auch in praktischer Hinsicht einen Beitrag zur NLP-Community leisten. Dazu gehören eine umfassende Reihe von Datensätzen, einsprachige große Sprachmodelle und Bewertungsbenchmarks, die auf Sprachen mit geringen Ressourcen zugeschnitten sind und alle offen zugänglich gemacht werden. Ein Open-Source-Repository gewährleistet Transparenz und Reproduzierbarkeit, sodass andere auf unserer Arbeit aufbauen können. Wir streben außerdem mehrere begutachtete Veröffentlichungen an – mindestens eine pro Zielsprache –, die wichtige Aspekte des Projekts behandeln, wie beispielsweise die Erstellung von Datensätzen und die Modellleistung. Darüber hinaus unterstützt das Projekt die Forschung von Hochschulabsolvent*innen und bietet einen fruchtbaren Boden für Master- und Doktorarbeiten. Schließlich planen wir die Ausrichtung eines internationalen, interdisziplinären Workshops, um den Dialog über die Entwicklung von LLMs für unterrepräsentierte Sprachen zu fördern.
TUCANO - Developing LLM for Portugese
Diese Studie zielt darauf ab, eine neue Reihe von Ressourcen vorzustellen, um die zukünftige Entwicklung der neuronalen Texterzeugung für Portugiesisch zu fördern. In dieser Arbeit dokumentieren wir die Entwicklung von GigaVerbo, einer Verkettung deduplizierter portugiesischer Textkorpora mit insgesamt 200 Milliarden Tokens. Anhand dieses Korpus haben wir eine Reihe von Decoder-Transformern namens Tucano trainiert. Unsere Modelle schneiden in mehreren portugiesischen Benchmarks gleichwertig oder besser ab als andere portugiesische und mehrsprachige Sprachmodelle ähnlicher Größe.
Mehr Informationen:
Arxiv3
GitHub4
TUCANO
Bild © C4AI USP / YouTube
Teammitglieder
Nicholas Kluge Corrêa5 (Principal Investigator)
Center for Science and Thought, Universität Bonn
kluge@uni-bonn.de
Aniket Sen6 (Principal Investigator)
High Performance Computing and Analytics Lab / Helmholtz-Institut für Strahlen- und Kernphysik, Universität Bonn
sen@hiskp.uni-bonn.de
Sophia Falk7
Bonn Sustainable AI Lab, Institut für Wissenschaft und Ethik, Universität Bonn
falk@iwe.uni-bonn.de
Shiza Fatimah
Institut für Informatik, Universität Bonn
s39sfati@uni-bonn.de
Kontakt
Links
- https://www.uni-bonn.de/de/neues/052-2025
- https://huggingface.co/Polygl0t
- https://arxiv.org/html/2411.07854v1
- https://github.com/Nkluge-correa/Tucano
- https://www.cst.uni-bonn.de/de/personen/nicholas_kluge
- https://lqcd.hiskp.uni-bonn.de/author/aniket-sen/
- https://www.iwe.uni-bonn.de/de/team/sophia-falk