blog.arthistoricum.net

Spiegel Detektion

Spiegel können zum Problem werden. Machmal sind sie der Retter. Jedenfalls hat der Mensch eine Kultur des Spiegels, Spiegelns und die Kunst illusionistischer Spiegelung vorzuweisen, die nachzuzeichnen Einblicke in anthropologische und kulturhistorische Dimensionen erschlösse. Ein Spiegel lässt den Menschen (noch) mehr sehen oder - man denke an architektonische illusionistische Spiegelkonzeptionen - hilft, scheinen zu lassen, etwas sei, das so nicht ist. Der Maschine muss man jede Art der Reflexion erst mühsam beibringen. Auch dies zeigte vor kurzem die Darstellung der Wissenschaftler Siegfried Handschuh und Simon Donig im Rahmen der Vortragsreihe zur digitalen Kunstgeschichte am Münchener Institut für Kunstgeschichte. Besonders Spiegel werden bei dem Versuch, den Computer sehen zu lehren, zum Problem.

Die Forscher - Informatiker plus Historiker - zeichneten ihre Arbeit zur maschinellen Detektion klassizistischen Mobiliars in Interieurszenen digitaler Bilder im Neoclassica Projekt nach. Neoclassica ist ein digitales Rahmenwerk, das sich dezidiert der Erforschung des Klassizismus in seinen Erscheinungsformen widmet. Die automatische Objekterkennung wird durch den Computer erreicht, der zuvor durch Trainingsdaten "Erfahrung" sammelte. Eine als cutting edge Forschung zu bezeichnende Agenda methodischer „Verheiratung“ von Bild- und Sprachelement (Zitat S. Handschuh [1]) liegt den Verfahren zugrunde. Nun würde natürlich jeder gerne wissen, wer von den beiden Partnern bei der methodischen Verheiratung von Bild- und Sprachelement auf welche Weise Schwierigkeiten bereitet, denn: es sind die Schwierigkeiten, Brüche und Unschärfen, die in den digital humanities auf Brennpunkte weisen und gezielt zu beforschen sind. Hier werden im Folgenden, vor allem aus bildwissenschaftlicher Perspektive, einige Aspekte der avancierten Arbeit des Passauer Forscherteams aufgegriffen. Zunächst zur angestrebten Bild-Sprache Zusammenführung. Dann zum Klassizismus als Gegenstand des deep learning. Abschließend zum Spiegelproblem.

Bild und Sprache durch den Computer zusammenzuführen weist auf einen hohen Schwierigkeitsgrad. Doch schon ist einzuschränken: Ein Bild- und ein Textelement werden bei Neoclassica maschinell verbunden, methodisch das Bildganze auf ein Segment und die Sprache auf ein Element in der Textgestalt reduziert. Die Forscher um Siegfried Handschuh entwickeln eine eigene Neoclassica Ontologie. Die Kombination eines top-down Ansatzes, der die Annotation der Artefakte und das Feilen an der Ontologie steuert, mit einem bottom-up Ansatz, der große Datenmengen und deep learning Verfahren nutzt, lässt ein research framework entstehen, das auch kunsthistorische Forschungsfragen adressiert. Mit der Neoclassica Forschung ist auch die Ambition verbunden, das zerebrale Assoziationsspektrum künstlich nachzubilden. Visualisiert werden die durch das Training der Computer erreichten Erfassungsleistungen typischerweise durch Netzwerke.

Die Ergebnisse hängen individuell von den den deep learning Verfahren zu Grunde gelegten Daten ab. Plastisch mag die Bedingtheit der Resultate von den Datensätzen durch folgendes Exempel aus der Welt jenseits der schönen Künste vorzuführen sein. Auch bei Modellen künstlicher Intelligenz gibt es eine, korpusbedingte Individualität. So ließe sich beispielsweise das Wissen einer Maschine mit "Narben" kreieren: bei dem Wort "Hund" "assoziierte" diese zwar, wie Maschinen, die mit anderen Korpora trainiert wurden, die höhere Wahrscheinlichkeit, dass ein solcher im Deutschen "Rex" und die geringere Wahrscheinlichkeit, dass er "Olga" heißt, und eher ein Schäferhund und seltener ein Dackel ist, aber sie "merkte" sich auch den "Biß" und die "Gefahr".

Die Stellen, bei denen es beim automatischen Zusammenspiel von Bild und Wort schwierig wird, sind metaphorische Ausdrücke, der Umgang mit Negationen, Ironie und Ambiguität, mit Mehrdeutigkeiten und äusserst seltenen Ausdrücken. Wenn die einzelnen Elemente in dem, was sie eigentlich zu sein haben, zu sehr "aus der Reihe tanzen", wenn das Wort zu sehr bildlich wird oder die Bildelemente überdeterminierbar und polyvalent. Wenn die Elemente Anderes reflektieren, wie Spiegel. Für effizientes processing im Bereich der Computer Vision ist die Sprache noch in ihrer Textgestalt zu vereinfachen, beispielsweise mittels Methoden der text simplification.

Die Anknüpfungspunkte für kunsthistorische und bildwissenschaftliche Fragestellungen an ein Rahmenwerk wie Neoclassica sind vielfältig. Die Ebenen der Motivgeschichte, Ikonographie und Ikonologie, aber auch sozialgeschichtliche Ansätze, die versuchen, einzelne Kunstwerke durch die Erhebung größerer Datenvolumen zu kontextualisieren, stilgeschichtliche und formalistische Ansätze erweisen sich als pools für Studien via frameworks wie Neoclassica. Besonders fällt auf, dass der Klassizismus als Konzept und in seinen mannigfachen Erscheinungsformen in einem Rahmenwerk wie Neoclassica auf völlig neue Weise adressiert werden kann. Das Prinzip der "Multimodalität", das die Passauer Forschungsagenda regiert und das (neben der Multimedialität) auch Stichwortgeber der DHd-Tagung in Frankfurt a.M. und Mainz 2019 ist, lässt zuvor kaum zu realisierende Verschränkungen von text-, bild-, skulptur- und architekturbezogenen Fragestellungen zu. 

Abb. 1: Computer Vision, Lernexempel, Objekt Detektion, Beispiele für die Aufgabe der automatischen Trennung von Gegenstand und Bildhintergrund, Erfolgsquote der Klassifizierung als "Chair" (von li. nach re.): 99%, 97%, 95%, 99% (Stand 6.2018). © Metropolitan Museum of Art, New York City / Universität Passau, Neoclassica, S. Handschuh, S. Donig. 

Warum beginnen die Forscher ihre Experimente auf dem Feld der Computer Vision als eines Unterfangens, den Computer Gegenstände detektieren zu lehren, mit dem Mobiliar des Klassizismus? Warum gehen sie auf diese Weise vor? Auch die möglichst effiziente Annotation der Bildsegmente durch die Forscher und die manuelle Markierung der Bildsegmente mittels Polygonnetze sind Teil der Arbeit. Klare, einfache Formen und ein reduzierter Formenschatz geniessen zunächst den Primat.

Abb. 2: Computer Vision, Objekt Detektion, Beispiele der automatischen Detektion klassizistischen Mobiliars in Interieurszenen digitalisierter Bilder bei perspektivischer Verzerrung, Detektion in: Edward Hau, "Innenräume des Winterpalasts. Raum zwischen der kleinen Halle der Feldmarschälle und der Kriegsgallerie", Aquarell, 1871, St. Petersburg, Eremitage, op. 14366, Digitalisat, Trefferquote: 100%. © Eremitage, St. Petersburg / Universität Passau, Neoclassica, S. Handschuh, S. Donig.

Mit hoher Trefferquote lassen sich beispielsweise die in der Abbildung 2 grün eingefassten Stühle, obwohl sie allesamt perspektivisch verzerrt sind, bereits vom Computer erkennen. Schwierigkeiten für die Computer Vision bereitet zum Beispiel in der jetzigen Phase noch die in der Abbildung 3 links unter dem Fenster zu sehende Bank.

Abb. 3: Computer Vision, Objekt Detektion, Beispiele der automatischen Detektion klassizistischen Mobiliars in Interieurszenen digitaler Bilder, R-CNN: TensorFlow Framework: Faster-R-CNN/InceptionV2, Polygon Annotation gemäß Neoclassica Ontologie, Train/Test Auftrennung: 80:20, mikrogemittelt: Genauigkeit 0.53, Trefferquote 0,51 (Stand 6.2018). © Metropolitan Museum of Art, New York City / Universität Passau, Neoclassica, S. Handschuh, S. Donig.

Zu den produktiven Fehlern gehört etwa die falsche Zuschreibung eines Secrétaire à abbatant als Kamineinfassung durch den Computer, dargestellt in Abbildung 4. Vielleicht kann deutlich werden, dass einerseits klare, einfache Formen für die Maschine zunächst einfacher zu bewältigen sind, als abgeleitete, barocke Formen. Dass andererseits aber auch der klassische Sprachschatz Formen aufweist, die mehrfach determinierbar sind, und sei es durch ihre Funktion. Es wird verständlich, dass man versucht, der Maschine zunächst Basisformen und -kombinationen einzuprägen. Ein wenig ist es, als übte man mit dem Klavierschüler das C vor dem Cis und das Dur vor dem Moll.

In der Computer Vision beginnt das generative Training der Maschinen als Methode das frühere, diskriminative Training abzulösen. Ist es zunehmend möglich, das Klassische oder Klassizistische in Proportionsverhältnissen und Binnenstrukturen informatisch zu erfassen und zu beschreiben, so würde aus kunsthistorischer Sicht die Differenz zu den "weitergewälzten Formen der Renaissance"[2], den Formen des Barock, interessieren. Künstliches Lernen und Kunstgeschichte als Stilgeschichte finden bei einer generativ arbeitenden Computer Vision zu einer methodologischen Verschränkung. Denn beide werden sich für das Typische, Bezeichnende interessieren und Abweichungen der Formen vom Typischen als solche klassifizieren.

Abb. 4: Computer Vision, Objekt Detektion, Beispiele der automatischen Detektion klassizistischen Mobiliars in Interieurszenen, exemplarische Darstellung spezifischer Aufgaben und Herausforderungen: Detektion eines Spiegels (li., rot eingefasst): Erfolgsquote 0% (Stand 6.2018), Mehrfachklassifizierung (Mitte, siehe Pfeil, Stand 6.2018), falsche Attribution: Secrétaire à abbatant als Kamineinfassung (re., siehe Pfeil, Stand 6.2018). © Metropolitan Museum of Art, New York City / Universität Passau, Neoclassica, S. Handschuh, S. Donig.

Schier unmöglich gestaltet sich zur Zeit die automatische Detektion der Spiegel. Der Spiegel zeigt, was er nicht ist. Er gibt mehr zu sehen, als er selbst ist. Klar, er ist ein Gegenstand. Doch sobald man ihn sieht, wird man mehr sehen, als nur ihn. Wie soll man das der Maschine beibringen? Hier ist stets, je nach Umgebung und Aufnahmesituation, etwas anderes zu sehen. Vielleicht ist das Erkennenlernen eines Spiegels durch den Computer das most tricky of all tricky. Er müsste wiederholt mit Szenarien und Möglichkeiten der Lichtreflektion und der Spiegelreflektion konfrontiert werden. Und doch klassifizierte er, in unserem Fall als Kenner des Klassizistischen, die meist hochformatigen, rechteckigen Spiegel (Abb. 4) klassizistischer Interieurs stets als Tür.

Das erinnert ein wenig daran, als der Computer Vision Spezialist Björn Ommer einmal erklärte, wie der Computer Parkplätze erkennt. Er "sieht" nicht den "Parkplatz". Er "merkt sich", dass hier eine höhere Fluktuation von Autos stattfindet. Und dass es hier auch häufig Bäume gibt. Spiegel und Parkplatz sind auf gewisse Weise Leerstellen. Der Clou ihrer Funktion liegt in unserer Zutat. Sie stehen für Reflexion und Addition. Da der Computer lernen kann, Gegenstände allein über Akzidenzien und das Kontingente zu erfassen, um so über den Umweg einen Begriff der Substanz zu erreichen, wird er auch noch das Spiegelproblem lösen.

Wer davon ausgeht, bei dem Zusammenspiel Mensch-Maschine, als dessen ein exemplarisches Feld sich die Forschung in den digital humanities begreifen lässt, bestimme der Mensch die Maschine, er zeige, was sie zur Maschine mache, dem sei gesagt, dass es auch anders herum so sein kann, dass die Maschine dem Menschen zeigt, was ihn zum Menschen macht. Über unsere Leichtigkeit im Erkennen der Spiegel, der Spiegelreflexion und der Spiegelung habe ich zum Beispiel zuvor noch nie nachgedacht.

 

 

[1] Siegfried Handschuh, Vortrag "Wir denken und rechnen Kunst. Aktuelle Arbeiten zur Wissensmodellierung und Deep Learning für klassizistische Artefakte", Ludwig-Maximilians-Universität München, Institut für Kunstgeschichte, 19.6.2018. In eine ähnliche Richtung geht der Beitrag von Siegfried Handschuh im Panel Der ferne Blick. Bildkorpora und Computer Vision in den Geistes- und Kulturwissenschaften. Stand - Visionen - Implikationen, DHd-Tagung Kritik der digitalen Vernunft, Köln, 1.3.2018, Min. 30:00-37:00, zur Bildelement-Textelement Zusammenführung: Min. 36:15.
[2] Heinrich Wölfflin, Kunstgeschichtliche Grundbegriffe. Das Problem der Stilentwicklung in der neueren Kunst, zit. nach 8. Aufl. München 1943 (1915), S. 251.

 

 

0 Kommentar(e)

Kommentar

Kontakt

Kommentar

Absenden