Zurück zur News-Liste

Menschliche Stimme zerlegen, verstehen und manipulieren

11.07.2023 | Forschung, Sonderforschungsbereiche, Künstliche Intelligenz, Mitteilung, TRR 318 - Technisch unterstütztes Erkl?ren von Stimmcharakteristika (Teilprojekt C06)

Ein Beitrag von Mitteilung

Ein Team aus Informatiker*innen und Linguist*innen der Universit?ten Bielefeld und Paderborn hat untersucht, wie man verschiedene Teile der menschlichen Sprache voneinander trennen und damit besser analysieren und ver?ndern kann. Die Ergebnisse flie?en in die Forschung des TRR-Teilprojekts C06 ?Technisch unterstütztes Erkl?ren von Stimmcharakteristika“ ein.

?Die menschliche Stimme ist ein komplexes Konstrukt aus ?berlagerungen verschiedener Einflussfaktoren. Dadurch hat sie verschiedene Eigenschaften, die nur schwer zu identifizieren sind“, sagt Professor Dr. Reinhold H?b-Umbach, Professor für Nachrichtentechnik an der Universit?t Paderborn und einer der Leiter des Teilprojekts C06. ?Indem wir Sprachsignale in verschiedene Komponenten zerlegen, k?nnen wir mehr darüber erfahren, was unsere Stimmen einzigartig macht.“

Bei den Komponenten wird zwischen sprachlich-inhaltlichen Eigenschaften – was jemand sagt – und klanglichen Eigenschaften – wie die Stimme dabei klingt – unterschieden. In ihrer Ver?ffentlichung zeigen die Forschenden, wie die einzelnen Komponenten auf der klanglichen Ebene zusammenh?ngen. Dafür erstellten sie ein Modell aus neuronalen Netzen, das die verschiedenen klanglichen Aspekte voneinander trennt. Dieses kann dafür genutzt werden, eine neue synthetische Sprache mit gezielt ver?nderten Eigenschaften, zum Beispiel einer gewünschten mittleren Tonh?he (Pitch), zu erzeugen.

Die Ergebnisse pr?sentierten die Forscher*innen in ihrem Artikel ?Speech Disentanglement for Analysis and Modification of Acoustic and Perceptual Speaker Characteristics“ (deutsch: Entflechtung von Sprache zur Analyse und Modifikation akustischer und wahrnehmungsbezogener Sprechereigenschaften). ?Mit der Ver?ffentlichung tragen wir dazu bei, zu verstehen, wie wir mit dem Computer verschiedene Aspekte von Sprache verstehen und ver?ndern k?nnen“, fasst Frederik Rautenberg, Mitautor des Artikels und ebenfalls Forschender im Teilprojekt C06, zusammen. ?Damit k?nnen wir Sprachver?nderungsprogramme entwickeln, die zum Beispiel Menschen mit Sprechschwierigkeiten helfen k?nnen.“

Der Artikel wurde auf der 49. Jahrestagung für Akustik (DAGA) vorgestellt. Die DAGA ist die gr??te Konferenz zum Thema Akustik im deutschsprachigen Raum und fand vom 6. bis 9. M?rz in Hamburg statt.

Projekt C06 ?Technisch unterstütztes Erkl?ren von Stimmcharakteristika“

Das Teilprojekt C06 untersucht in seiner Forschung Stimmcharakteristika und wie man sie mit dem Computer manipulieren kann. Ziel ist es, ein intelligentes System zu entwickeln, das Expert*innen einsetzen k?nnen, um Laien das Ph?nomen Stimme erkl?ren zu k?nnen.

Weitere Informationen:

Link zum Teilprojekt C06
Webseite der Jahrestagung für Akustik in Hamburg: https://www.daga2023.de/
Artikel ?Speech Disentanglement for Analysis and Modification of Acoustic and Perceptual Speaker Characteristics“ von Frederik Rautenberg, Michael Kuhlmann, Janek Ebbers, Jana Wiechmann, Fritz Seebauer, Petra Wagner und Reinhold H?b-Umbach: https://ris.uni-paderborn.de/record/44849

Foto (TRR 318): Frederik Rautenberg, wissenschaftlicher Mitarbeiter im Teilprojekt C06.
Download (1 MB)

Kontakt

Prof. Dr. Reinhold H?b-Umbach

Nachrichtentechnik (NT) / Heinz Nixdorf Institut

Leiter des Fachgebiets Nachrichtentechnik

E-Mail schreiben +49 5251 60-3626

Mehr zur Person

Frederik Rautenberg

Nachrichtentechnik (NT) / Heinz Nixdorf Institut

Forschung & Lehre

E-Mail schreiben +49 5251 60-3680

Mehr zur Person