Become a Creator today!Start creating today - Share your story with the world!
Start for free
00:00:00
00:00:01
Folge 4: Visuelles Flanieren – Mit Computer Vision in großen Bildmengen suchen image

Folge 4: Visuelles Flanieren – Mit Computer Vision in großen Bildmengen suchen

S1 E4 · #arthistoCast – der Podcast zur Digitalen Kunstgeschichte
Avatar
678 Plays2 years ago

Im Zuge der Digitalisierung von Museums- und Archivbeständen sind wir in der Kunstgeschichte mit einer enormen Menge heterogener Bilddatenbanken konfrontiert. Aber wie können wir uns diese großen Bilddatenmengen erschließen? Was ist visuelles Suchen und wie funktioniert die Technik dahinter?

In dieser Folge spricht Jacqueline Klusik-Eckert mit Prof. Dr. Peter Bell und Stefanie Schneider, M.Sc., über das visuelle Suchen in großen Bilddatenmengen. Dabei geht es neben einer Reflexion über unsere Suchstrategien in der Kunstgeschichte auch um Prototypen für das visuelle Suchen. Hierbei werden in experimentellen Anwendungen unterschiedliche Verfahren des Computersehens, Computer Vision, erprobt. Angefangen bei der Frage, ob es visuelles Suchen überhaupt schon gibt, werden unterschiedliche Suchverhalten und Routinen besprochen, wie man sich großen Datenmengen nähern kann. Dabei wird klar, dass das visuelle Suchen mittels Computer Vision Verfahren eher einem mäanderndem Flanieren ähnelt und hilft, über unsere menschlichen Wahrnehmungsgrenzen hinauszugehen. Welche Rolle diese Hilfsmittel bei der Erschließung von unkategorisierten Datenmengen spielen und wie man sie auch zur Inspiration für neue Forschungsideen nutzen kann, wird im gemeinsamen Gespräch erörtert.

Dabei gewinnt man einen Einblick in die Technik hinter der Benutzeroberfläche. Denn oft ist nicht klar, was ein Algorithmus als “ähnlich” betrachtet oder warum gewisse Werke miteinander in eine Art Punktwolke, dem Skatterplot, gruppiert werden. Die beiden Experti*innen erklären die dahinterliegenden Verfahren und zeigen auch ihre Grenzen auf. Es wird klar, dass der Einsatz dieser digitalen Werkzeuge als Hilfsmittel auch immer mit einer Diskussion über facheigene etablierte Verfahren und Methoden des Recherchierens und Suchens einhergeht.

Prof. Dr. Peter Bell ist Professor für Kunstgeschichte und Digital Humanities an der Philipps-Universität Marburg. In seiner Forschung beschäftigt er sich schon länger mit den Einsatzszenarien von Computer Vision für die Kunstgeschichte. In seiner Arbeitsgruppe wurde u.a. die Bildsuche imgs.ai von Fabian Offert entwickelt.

Stefanie Schneider, M.Sc., ist Wissenschaftliche Assistentin für Digitale Kunstgeschichte an der Ludwigs-Maximilians-Universität München. Als Fachinformatikerin und ausgebildete Anwendungsentwicklerin hat sie schon einige Prototypen für die Digitale Kunstgeschichte entwickelt und spricht über das Projekt „iART – Ein interaktives Analyse- und Retrieval-Tool zur Unterstützung von bildorientierten Forschungsprozessen

Begleitmaterial zu den Folgen findest du auf der Homepage unter https://www.arthistoricum.net/themen/podcasts/arthistocast

Alle Folgen des Podcasts werden bei heidICON mit Metadaten und persistentem Identifier gespeichert. Die Folgen haben die Creative-Commons-Lizenz CC BY 4.0 und können heruntergeladen werden. Du findest sie unter

https://heidicon.ub.uni-heidelberg.de/#/detail/1738702

Bei Fragen, Anregungen, Kritik und gerne auch Lob kannst du gerne per Mail an uns schicken unter

podcast@digitale-kunstgeschichte.de

Recommended
Transcript

Die Bedeutung der Suche in der Kunstgeschichte

00:00:07
Speaker
Artistocast, der Podcast zur digitalen Kunstgeschichte.
00:00:16
Speaker
Ein großer Teil unserer Wissenschaft besteht aus Suchen.
00:00:19
Speaker
Suchen nach Konkretem, der systematischen Suche, zum Beispiel im Rahmen einer Recherche, aber auch Suchen für den Überblick.
00:00:27
Speaker
Dazu gehört auch das Durchblättern von Ausstellungskatalogen dazu, genauso wie das Schlendern durch eine Ausstellung oder das Scrollen durch eine Bilddatenbank.
00:00:37
Speaker
Dort, wo das Auge hängen bleibt, halte ich inne, schaue genauer hin und dann auch auf die Informationen zu dem Werk.
00:00:44
Speaker
Wir Menschen sind schließlich Seetiere,
00:00:46
Speaker
Und als KunsthistorikerInnen haben wir unsere Fähigkeit zu sehen trainiert.
00:00:51
Speaker
Im Digitalen dominiert dann aber trotzdem wieder der Text und wir müssen Gesehenes bzw.
00:00:57
Speaker
Imaginiertes immer erst in Sprache übersetzen.
00:01:00
Speaker
In der letzten Folge haben wir über das Suchen im Digitalen gesprochen.
00:01:04
Speaker
Der Einstieg in die Informationswelt, in die großen Datenbanken geschieht über die Sprache.
00:01:09
Speaker
Mittels linguistischer Verfahren kann man diese Texteingabe optimieren.
00:01:13
Speaker
Was bei Textsuchen noch logisch und als der direkte Weg erscheint, wirkt bei der Bildsuche dann doch ein bisschen schräg.
00:01:21
Speaker
Wir müssen das Sehen in Sprache übersetzen.
00:01:24
Speaker
Sind wir lost in Translation?

Einführung der Gäste und Diskussion über digitale Kunstprojekte

00:01:27
Speaker
Darüber möchte ich mit Peter Bell sprechen.
00:01:29
Speaker
Er ist Professor für Kunstgeschichte und Digital Humanities an der Philips-Universität in Marburg und beschäftigt sich schon lange mit dem Computersehen, also dem Computer Vision.
00:01:39
Speaker
Und ihn frage ich mal, wie das mit dem Suchen und den Bildern so ausschaut.
00:01:44
Speaker
Außerdem habe ich mir noch Stefanie Schneider eingeladen.
00:01:46
Speaker
Sie ist wissenschaftliche Assistentin in der digitalen Kunstgeschichte der Ludwigs-Maximilians-Universität München.
00:01:53
Speaker
Als ausgebildete Anwendungsentwicklerin bringt sie das notwendige Wissen über Statistik und Informatik mit.
00:02:00
Speaker
In den letzten Jahren war sie an vielen unterschiedlichen Prototypen für die digitale Kunstgeschichte beteiligt,
00:02:06
Speaker
Ich möchte mit ihr über das Projekt iArt sprechen.
00:02:09
Speaker
Hier hat sie sich der Herausforderung der Bildsuche gestellt und gibt uns einen Einblick hinter die Kulissen.
00:02:14
Speaker
Hallo Peter.
00:02:20
Speaker
Hallo.
00:02:21
Speaker
Sag mal, warum suchen wir in der Kunstgeschichte generell in den Bildwissenschaften nicht standardmäßig mit Bildern, sondern mit Text?
00:02:29
Speaker
Gibt es überhaupt sowas wie eine rein visuelle Suche bei uns im Fach?
00:02:34
Speaker
Ja, die gibt es schon oder es gibt auch mehrere, die sind prototypisch oder als kleine Feature an die Datenbanken angehangen, aber es gibt sie noch nicht als eine Alternative, die jeder kennt oder jeder benutzen würde.

Warum dominieren Textsuchen in der Kunstgeschichte?

00:02:52
Speaker
Und das liegt natürlich daran, dass wir einfach schon sehr lange auf den Text geworfen sind und wir von Aufschreibesystemen daherkommen, wie Inventarkatalogen,
00:03:03
Speaker
und Galeriekatalogen und so weiter und daher gewöhnt sind, uns vom Text aus dem Bild zu nähern.
00:03:11
Speaker
Klar, weil wir lernen ja natürlich auch mit den Kategorien, die im Text vorgegeben sind, Epochen, Titel, Künstlerinnen und Künstler und das ist das, wonach wir suchen.
00:03:21
Speaker
Aber drehen wir die Sache doch mal um.
00:03:23
Speaker
Ist es denn nicht eigentlich naheliegender, nach was Visuellem zu suchen?
00:03:27
Speaker
Ja, das würde ich grundsätzlich auch sagen.
00:03:29
Speaker
Zumindest ist es etwas, was komplementär dazu steht.
00:03:33
Speaker
Denn was wir auch betrachten müssen bei den eben genannten Sachen, ist, dass die oft das Bild ja voraussetzen.
00:03:41
Speaker
Also wenn ich eine Galerie besitze und einen Katalog darüber führe,
00:03:47
Speaker
dann kann ich relativ lakonig sein mit meinen Daten.
00:03:52
Speaker
Ich kann einfach sagen, die Maria von Rubens und muss die nicht näher beschreiben.
00:03:59
Speaker
Und dadurch gehen uns viele Dinge, die im Bild eigentlich stattfinden, in diesen Beschreibungen verloren, weil wir nur diese Kennzeichnungen brauchen und Informationen, die über das Bild hinausgehen, die also im Bild nicht enthalten sind, aber mit dem zu tun haben, wie zum Beispiel der Aufenthaltsaufgabe.
00:04:17
Speaker
Ort des Bildes, der erstmal ja über das Bild per se nichts aussagt.
00:04:23
Speaker
Ja, und am seltensten werden ja auch Farben beschrieben oder Formen, also das, was man sieht, also das, was man implizit dann irgendwie vor Augen hat, ist ja nie Teil der Metadaten, also den Elementen, die man dann später suchen kann.
00:04:37
Speaker
Ja, was davon ausgeht, dass wir wirklich das ganz im Blick behalten können, nur bei Hunderttausenden oder Millionen von Bildern gelingt uns das eben nicht,
00:04:47
Speaker
Und im Grunde genommen müsste der Computer eben dann auch diese Informationen haben, um mit diesen Bildern umgehen zu können.
00:04:54
Speaker
Und durch die heutige Bildverarbeitung ist das dann eben auch möglich.
00:04:59
Speaker
Aber bislang ist man eben davon ausgegangen, dass man das dann schon irgendwie findet und wurde dann oft mit Ergebnissen von mehreren tausend Bildern überrascht.
00:05:10
Speaker
Und da wäre zum Beispiel die Einordnung, es ist ein sehr dunkles Bild oder es hat erdige Töne.

Herausforderungen und Potenziale der visuellen Suche

00:05:17
Speaker
schon hilfreich gewesen.
00:05:19
Speaker
Aber wie du sagst, das findet sich oft nicht in den Metadaten, die eben sehr standardisiert sind und eben auch methodisch auf andere Dinge abheben.
00:05:29
Speaker
Die Frage ist ja auch immer, wie stark sich unsere Verschlagwortungen eben auch nach den gerade gängigen Methoden richten.
00:05:39
Speaker
Und in den letzten 50 Jahren war zum Beispiel Kennerschaft nicht ganz so wichtig wie in den 50 Jahren davor und so weiter.
00:05:48
Speaker
Ist denn eine visuelle Suche an sich eine ganz andere Art von Suche als eine Textsuche?
00:05:56
Speaker
Also ist der Grundansatz ein anderer?
00:06:00
Speaker
Also wenn ich eine große Bilddatenbank habe und ich suche nach etwas, ist es ja meistens schon so, dass man weiß, wonach man sucht.
00:06:11
Speaker
Zum Beispiel habe ich ein Thema, über das ich forsche, ein Topos und möchte Vergleichsbeispiele haben.
00:06:17
Speaker
Dann gebe ich sehr häufig Beispiele.
00:06:20
Speaker
den Titel dieser Bilder ein oder bei Architektur irgendwie eine Architekturart oder eine Region und hoffe, dass ich dann ganz viele Vergleichsbeispiele bekomme.
00:06:30
Speaker
Das wäre so ein so ein unpräzises Suchen nach Dingen, wo ich noch nicht genau weiß, was ich will.
00:06:38
Speaker
So ein inspirierendes Suchen.
00:06:40
Speaker
Wäre das beim Visuellen dann gar nicht möglich?
00:06:43
Speaker
Weil ich kann ja nicht mein inneres Bild, das ich vor Augen habe, in den Computer legen.
00:06:49
Speaker
Ja, das ist ein wichtiger Punkt.
00:06:52
Speaker
Das heißt also, hier fehlen auch einerseits die Interfaces und andererseits aber auch die Praktiken, sowas zu tun.
00:07:05
Speaker
Allerdings die einfachste Möglichkeit, die auch irgendwo äquivalent mit Phrasen ist, ist eben, dass man
00:07:13
Speaker
Bilder direkt einspielt.
00:07:15
Speaker
Das ist, was man auch von der Google-Bildersuche kennt.
00:07:17
Speaker
Also ich habe ein Bild und suche ähnliche Bilder.
00:07:21
Speaker
Oder ich möchte auch assoziativ dieses Bild eingeben und gucken, was gibt es denn sonst noch, was jetzt noch gar nicht mal ähnlich im Sinne von Kopien oder so ist, sondern was...
00:07:37
Speaker
irgendwie da vergleichbar ist.
00:07:41
Speaker
Also das ist das, was du vielleicht meinst, mit diesem, mal so ein Thema jetzt im Visuellen zu sondieren.
00:07:52
Speaker
Und was man dann eben auch in vielen Fällen tun kann, ist nur gewisse Bereiche eines Bildes auszuwählen.
00:08:00
Speaker
Und da werden wir eben auch
00:08:02
Speaker
bei etwas wie Bildelementen, dass ich jetzt ein architektonisches Detail zum Beispiel aus einem Bild herausgreife und nur noch danach suche.
00:08:11
Speaker
Das heißt, die visuelle Suche ist eben auch sehr vielgestaltig.
00:08:17
Speaker
Man könnte auch dort die logischen Verbindungen machen.
00:08:20
Speaker
Also man verbindet verschiedene Bildelemente, die darin vorkommen sollen, wie mit und in der Textsuche
00:08:30
Speaker
Und neuerdings verbinden sich ja auch eben linguistische Modelle wiederum mit den Bildmodellen, wodurch auch Bildsuchen ausgelöst werden können mit einer sprachlichen Eingabe.
00:08:45
Speaker
Das heißt, wir haben da sehr viel.
00:08:48
Speaker
Theoretisch könnte man auch versuchen, Zeichnungen zu machen.
00:08:52
Speaker
Eine andere Art des sehr assoziativen Einstiegs ist es,
00:08:57
Speaker
dass man schon mit einer Menge von Bildern konfrontiert wird, zum Beispiel mit einer Visualisierung, wo die Bilder schon nach gewissen Ähnlichkeiten sortiert sind und geht da hinein und fängt von dort aus dann zu suchen.
00:09:11
Speaker
Also das wäre dann auch so ein Browsen in den Bildern, was ähnlich assoziativ ist, wie so von Google-Suche zu Google-Suche und von Hyperlink zu Hyperlink zu springen.
00:09:26
Speaker
Das heißt, was es im Moment schon gibt und was technisch möglich ist, ist so eine Art von Suchschlitz.
00:09:31
Speaker
Da copy-paste ich oder kopiere, lege mein Bild rein, das ich habe.
00:09:35
Speaker
Zum Beispiel von dieser Rubens-Madonna.
00:09:38
Speaker
Und über...
00:09:41
Speaker
dahinter liegende Prozesse, die man erstmal nicht sieht, kommen dann aus der Datenbank Bilder gespielt, bei denen der Computer entschieden hat, die sind auf irgendeine Weise Treffen zu meiner Suchanfrage.
00:09:54
Speaker
Du hast ähnlich gesagt.
00:09:56
Speaker
Also ähnlich im Sinne von, das sind die gleichen Farben, es ist die gleiche Größe oder auch ähnlich im Sinne von, das sind Formen identisch.
00:10:06
Speaker
Ja, jetzt wird es wirklich langsam kompliziert, denn jetzt steigen wir wirklich in die Technik ein.
00:10:14
Speaker
Das kommt sehr stark auf das Training an.
00:10:18
Speaker
Also sind das Algorithmen, die zum Beispiel stark auf Shape, also quasi auf Konturen, auf Formen trainiert worden sind, wo die Farbe vielleicht auch gänzlich vernachlässigt wird.
00:10:31
Speaker
Das würde uns helfen, um Kompositionen zu finden, um signifikante Formen wie Gesichter zu finden und so weiter.
00:10:39
Speaker
Dann haben wir Trainings oder auch Architekturen, zum Beispiel CNNs, also neuronale Netzwerke, die gehen relativ stark auf Texturen, auch etwas auf Farbe, auch etwas auf Shape.
00:10:57
Speaker
Da ist es wirklich eine Mischung.
00:11:02
Speaker
Und wir können aber auch, und das ist dann wiederum ähnlich wie Spezialdatenbanken, wo Realien verschlagwortet sind oder wo man sich noch detaillierter für Kostüm interessiert und deshalb Dinge sehr genau beschreibt,
00:11:22
Speaker
So kann man eben bei der Bildsuche auch über das Training schon starke Vorgaben machen und sagen, hier bei diesen Bildsuchen soll es vor allen Dingen um die Posen der Figuren gehen, um gewisse Dinge, die wir angelernt haben, wie die Säulenordnung und so weiter.
00:11:44
Speaker
Das setzt aber eben voraus, dass hier ein spezielles Training und nicht ein generisches Training am Anfang steht.
00:11:53
Speaker
Und je spezieller können die Ergebnisse sein.
00:11:57
Speaker
Und deshalb ist es eben auch sehr wichtig,
00:12:00
Speaker
wenn man so eine Bildsuche benutzt, um auch Enttäuschungen vorzubeugen, zu wissen, was ist da eigentlich für eine Architektur, was sind da für Algorithmen dahinter, was kann ich von denen erwarten?

Wie entwickeln sich Kunstsuchen durch visuelle Ansätze?

00:12:13
Speaker
Das heißt, wenn man auch so eine visuelle Suchmaschine baut, für eine Bilddatenbank zum Beispiel, müsste man vorher wissen, auf welche Art und Weise gesucht wird, um in Vorbereitung dessen die Algorithmen trainieren zu können.
00:12:29
Speaker
Also dahinter stecken unterschiedliche Verfahren der künstlichen Intelligenz.
00:12:33
Speaker
Das heißt, man braucht auch immer so einen Vorlauf, so eine Vorbereitung, damit diese Arten von Suchen auch funktionieren können.
00:12:42
Speaker
Ja, natürlich ist es immer auch eine Orientierung an den Usern und an zu perzipieren, was die wahrscheinlich wollen.
00:12:50
Speaker
Andererseits kann man auch mit den Daten selber arbeiten.
00:12:54
Speaker
Wenn ich eine große Bilddatenbank wie zum Beispiel Foto Marburg habe, die zu sehr großen Teilen aus Schwarz-Weiß-Bildern besteht, wird der Algorithmus schon deshalb anders trainiert werden, andere
00:13:11
Speaker
ausprägen als bei einer Datenbank, die vornehmlich aus Farbfotografie besteht.
00:13:20
Speaker
Und das geht aber jetzt auch hinein in die Details.
00:13:24
Speaker
So mehr Architektur ich da zum Beispiel drin habe, umso mehr
00:13:30
Speaker
kann das Netz, ganz egal, also ich möchte jetzt nicht auf die verschiedenen auch aktuellen Transformarchitekturen und so weiter eingehen, aber so mehr Differenzierung ich in einzelnen Sparten habe, umso mehr kann dort auch eben distinguiert werden.
00:13:49
Speaker
Es klingt ja alles technisch machbar und es ist jetzt auch keine neueste Technologie.
00:13:53
Speaker
Computer Vision ist ja auch schon ein paar Jahre alt, da wird viel dran geforscht.
00:13:57
Speaker
Wieso suchen wir trotzdem immer noch nach Text?
00:13:59
Speaker
Also wieso ist diese Art und Weise des Suchens noch nicht implementiert, noch nicht serienmäßig in allen Bilddatenbanken als erweiterte oder vertiefte oder eben als visuelle Suche möglich?
00:14:11
Speaker
Ich glaube,
00:14:13
Speaker
Die Recherche findet in der Kunstgeschichte extrem unterschiedlich statt.
00:14:19
Speaker
Das hat nicht nur mit dem Kanon und seinen Problemen zu tun, sondern dass große Teile der Kunstgeschichte auf einem Höhenkampf stattfinden, dass die Frage der Bildbeschaffung oder die Frage nach ähnlichen Bildern gar nicht so wichtig ist.
00:14:36
Speaker
Das geht so weit,
00:14:39
Speaker
dass ich Diskussionen geführt habe über die Abschaffung von Bilddatenbanken, also zum Beispiel als Abo oder so, mit dem Hinweis...
00:14:47
Speaker
wenn ich eine Abbildung suche, dann gehe ich immer direkt zum Museum, zur Museumswebsite.
00:14:54
Speaker
Also diese Geschichte zeigt mir eigentlich, wie unterschiedlich die Herangehensweisen sind.
00:15:00
Speaker
Denn wer kann das tun?
00:15:02
Speaker
Das kann nur der tun, der schon genau weiß, dass dieses Werk eben in diesem Museum ist.
00:15:09
Speaker
Und mit dieser Selbstsicherheit kann natürlich keiner auftreten,
00:15:16
Speaker
der zum Beispiel über Kleinmeister arbeitet oder über Künstlerinnen mit einem extrem großen Oeuvre in Privatbesitz und so weiter.
00:15:28
Speaker
Und
00:15:29
Speaker
Ähnlich wie eben diese Leute, die sich in den Zug setzen und an irgendwelche Schlosstore klopfen oder Sammlungen anfahren, die man kaum kennt, so ist das mit der Bildsuche auch ein bisschen, dass nur ein gewisser Teil des Faches wirklich diese Funktion überhaupt ermessen kann und wirklich diesen Sinn begreift.
00:16:00
Speaker
Das heißt, man muss die Bildsuche, also die visuelle Suche, um bei dem Begriff zu bleiben, als eine ganz andere Art Methode des Recherchierens und Methode des Suchens verstehen.
00:16:11
Speaker
Sowohl wahrscheinlich, was die Herangehensweise angeht, also was ist meine eigene Erwartung an diese Suche, als auch der Grund, warum ich diese Art von Suche benutze, oder?
00:16:21
Speaker
Ja.
00:16:23
Speaker
Ja, es ist einerseits schon naheliegend, also auch wenn ich das jetzt gerade sehr stark gemacht habe, dass viele das vielleicht gar nicht brauchen oder, also das ist eigentlich mein Punkt, meinen, dass sie es nicht brauchen, weil sie das Potenzial noch nicht wirklich erkannt haben.
00:16:44
Speaker
oder weil sie sich durch eben, man kann schon was sagen, jahrhundertlange Restriktionen eben nur an das halten, was allgemein verfügbar und schnell zu beschaffen ist.
00:16:56
Speaker
So ist das, wenn man sich dann eben mal drauf einlässt, dann klar, dass man da auch wieder vor ganz neuen Herausforderungen steht.
00:17:04
Speaker
Also eine Herausforderung ist zum Beispiel, dass wir keine Anwendung,
00:17:08
Speaker
große Datenbank haben, die all das, was wir finden wollen, dann verbindet, sondern eben zwar sehr große, aber auch dann viele kleine, nicht damit verbundene Daten,
00:17:21
Speaker
unterschiedliche Bereiche des Kunstmarkts und der Museen und des akademischen Bereichs, die nicht untereinander verknüpft sind.
00:17:32
Speaker
Und das macht natürlich auch schwierig, da einen Algorithmus drüber laufen zu lassen, sodass es auch deshalb vielleicht noch keine größeren Lösungen gibt, weil das eben immer nur innerhalb einer Datenbank erst mal stattfinden kann.
00:17:46
Speaker
Also da müsste man ganz nachdenken.
00:17:48
Speaker
Neu überlegen, wie man das verbindet.
00:17:50
Speaker
Zur Frage, wie nutzen wir das?
00:17:52
Speaker
Ist das was völlig Neues?
00:17:54
Speaker
Würde ich das ein Stück weit auch verneinen, weil wir haben ja ständig dieses Erlebnis, dass wir sagen, im Museum oder auch wenn wir in einem Katalog aufschlagen,
00:18:03
Speaker
Das habe ich doch schon mal gesehen, das ist doch ähnlich wie das.
00:18:06
Speaker
Der Unterschied nur zwischen unserem Wahrnehmungsapparat und auch unserem Gedächtnis ist dann oft, dass wir dann eben einen zweiten Katalog dazuholen oder eben eine Suche starten nach diesem vermeintlich ähnlichen Bild und dann feststellen müssen, dass es doch auch ganz anders aussieht.
00:18:25
Speaker
Und vielleicht nur ganz gewisse
00:18:27
Speaker
Ähnlichkeiten hatten, die uns dann dazu gebracht haben, diese Verbindung zu ziehen.
00:18:33
Speaker
Während die große Stärke des Computers ist, dass er eben all das, was er mal registriert hat, dann auch wirklich so immer wieder abrufen kann und damit nicht nur eben vermeintliche Ähnlichkeiten aus dem Gedächtnis kramt, sondern dann oft sehr passende.
00:18:53
Speaker
Das Phänomen, das du beschreibst, kenne ich absolut.
00:18:55
Speaker
Dann hat man irgendwie so ein Bild im Kopf und denkt sich, warte mal, da muss es doch noch andere ähnliche geben.
00:19:00
Speaker
Und ich saß dann aber vor Stapel von Katalogen und habe die durchgeblättert.
00:19:04
Speaker
Und dann lagen dann fünf, sechs Bücher, drei Auktionskataloge und irgendwie noch zwei Tabs offen auf dem Computer vor mir.
00:19:11
Speaker
um festzustellen, dass nur die Hälfte davon zugetroffen ist.
00:19:17
Speaker
Aber da geht ein ganzer Tag drauf.
00:19:19
Speaker
Also das ist dann so ein ganzer Tag in der Bibliothek, bis man dann mal so drei, vier Werke hat, die man dann so mit der gedachten Ähnlichkeit nebeneinander sieht, um dann sie genau zu vergleichen.
00:19:31
Speaker
Du kennst ja schon einige von diesen Prototypen, beziehungsweise hast du in der Bereich ja auch schon viel geforscht.
00:19:38
Speaker
Gibt es da für dich selbst schon gewisse Methoden oder Routinen, die du bei der visuellen Suche hast?
00:19:45
Speaker
Hilft sie dir beim Forschen?
00:19:47
Speaker
Ja, definitiv, weil sie eben dieses Assoziative einerseits zulässt, also auch zeigt, wo geht das weiter, wenn mein Konzept aufhört, also beim Ikonografischen, also was passiert.
00:20:04
Speaker
Da sind dann immer weitere Kreuzigungen und was kommt dann eben als nächstes?
00:20:09
Speaker
Was ist kompositorisch vielleicht ähnlich?
00:20:11
Speaker
Und dann auch eben das Gleiche trifft natürlich auch kulturell zu.
00:20:19
Speaker
Also dass wir auch dort aus den Schubladen herauskommen und dann sehen, was kulturell dann doch nah beieinander liegt, wo wir gar nicht mit gerechnet hätten.
00:20:30
Speaker
Also auch da sehe ich eine Chance.
00:20:34
Speaker
Ich sehe als Strategie und Chance aber auch, dass man eine andere Geläufigkeit, könnte man sagen, mit dem Material bekommt.
00:20:44
Speaker
Und das ist besonders da gut, wo verschiedene Architekturen, also Algorithmen angeboten werden, verschiedene Arten der Visualisierung vielleicht auch angeboten werden, sodass ich mein Deck an Bildern sozusagen, was dann vielleicht auch aus vielen tausend Bildern besteht, immer wieder neu sortieren und mir neu präsentieren lassen kann.
00:21:10
Speaker
Und damit mit Geläufigkeit meine ich also, dass es dann eine Durchdringung des Materials gibt, die man eben im normalen linearen Durchblättern und alle, die das schon mal so gemacht haben, wie du es beschrieben hast, also die eben in diesem Haufen von Katalogen saßen und dann da gesucht haben, denen ist das eigentlich dann auch klar.
00:21:30
Speaker
Die können das Potenzial erkennen.
00:21:33
Speaker
Wenn man zum Beispiel bei iArt diese eigentlich sehr
00:21:40
Speaker
fast schon eine aggressive oder sehr zwingende Form des Clusterns hat, dass man sagt, ich möchte mein Ergebnis in sieben oder vier Cluster sortiert haben.
00:21:54
Speaker
Also alles, was da zu dem Thema kommt, muss unterschieden werden, visuell unterschieden werden in diese Zahl, die ich nenne.
00:22:02
Speaker
Also ich mache einfach wegen mir auch wieder Schubladen auf und
00:22:06
Speaker
Und der Computer wird gezwungen, das da hineinzulegen.

Vertiefung in das iArt-Projekt

00:22:09
Speaker
Und dann erkennt man, okay, mit sieben Clustern, da teilt sich schon alles ganz gut auf.
00:22:18
Speaker
Da habe ich gewisse Stile zusammen, vielleicht gewisse Jahrhunderte oder Epochen zusammen und so weiter.
00:22:24
Speaker
Und gewisse kompositorische Stile.
00:22:28
Speaker
Standardformulare.
00:22:30
Speaker
Und das geht noch weiter, also diese Systeme sind ja oft dann auch nicht selbst unintelligent, die können teilweise dann auch selbst abschätzen, wie viele Cluster sind wohl für dieses Material statistisch gesehen sinnvoll und schlagen dann 14 Cluster vor und ich schaue die an und habe dann auch einen neuen Eindruck des Materials.
00:22:51
Speaker
Wäre ich vielleicht nicht selber drauf gekommen, das jetzt in 14 Schubladen zu unterteilen.
00:23:01
Speaker
Schubladen.
00:23:03
Speaker
Eigenständige Sortierung und Aufteilung von großen Bildmengen.
00:23:06
Speaker
Dahinter steckt das Clustering, ein algorithmisches Verfahren, bei dem es um die Entdeckung von Ähnlichkeitsstrukturen geht.
00:23:14
Speaker
Die als ähnlich in Anführungszeichen eingestuften Objekte werden dann als Cluster bezeichnet und wie Punktwolken in einem reduzierten, zweidimensionalen Koordinatensystem angeordnet.
00:23:26
Speaker
Die Clusteranalyse selbst gehört als Verfahren, zu den Analyseschritten um großen Datenbeständen sich zu nähern, also im Gegensatz zu einer Klassifikation, bei der bereits vorher bestehende Klassen oder Konzepte oder anders gesagt Sortierungskategorien vorgegeben sind,
00:23:43
Speaker
können beim Clustering bislang unbekannte Zusammenhänge sichtbar werden.
00:23:48
Speaker
Man begegnet diesem Verfahren in der digitalen Kunstgeschichte dann häufig in Form von Visualisierungen.
00:23:54
Speaker
Es sieht dann so aus wie große Bildwolken oder Bildhaufen.
00:23:58
Speaker
Diese Art der Darstellung von Suchergebnissen findet man auch bei einem Prototypen für das visuelle Suchen, das Peter bereits genannt hat, iArt.
00:24:08
Speaker
Der 2022 als Open Source Software veröffentlichte Prototyp bietet den Zugang zu großen Datenmengen über die visuelle Suche.
00:24:17
Speaker
Stephanie Schneider von der LMU München war maßgeblich bei der Entwicklung beteiligt.
00:24:25
Speaker
Ihr habt bei euch im Projekt iArt diese Herausforderung angenommen, nicht nur das Suchen mit Bildern zu ermöglichen, sondern auch die Darstellung der Suchergebnisse anders visuell zu gestalten, als man es bei diesen Listen kennt.
00:24:42
Speaker
Wie ist iArt eigentlich zustande gekommen?
00:24:44
Speaker
Also was macht das Projekt aus?
00:24:47
Speaker
Also das war zum einen erstmal ein DFG-gefördertes Projekt von 2019 bis 2021, das wir gemeinsam mit Hannover und Porderborn unternommen haben.
00:24:58
Speaker
Und die Zielsetzung damals war erst mal trivial.
00:25:04
Speaker
Wir haben sehr viele große Bildsammlungen, die wir eben bislang nur durch Metadaten durchforsten konnten.
00:25:11
Speaker
Das Bild an sich ist aber einfach ein inhärenter Faktor der Kunstgeschichte.
00:25:16
Speaker
Jetzt haben wir mehr computationelle Möglichkeiten, tatsächlich auf dieses Bild zuzugreifen.
00:25:20
Speaker
Also möchten wir die natürlich auch nutzen.
00:25:23
Speaker
Deswegen war in IARTS so die Fokussetzung, wir möchten Ähnlichkeitsverfahren entwickeln, erst mal sehr diffus ausgedrückt, mit denen wir tatsächlich mit großen Bilddatenbanken besser und aber vor allem natürlich auch anders umgehen können als bislang.
00:25:40
Speaker
Also da die Hinwendung eher weg vom Metadatum und hin zum Bild.
00:25:47
Speaker
Und das funktioniert natürlich immer so auf unterschiedliche Weise.
00:25:50
Speaker
Also dadurch, dass das Konzept der Ähnlichkeit sehr diffus ist, stellten sich für uns viele Fragen.
00:25:56
Speaker
Was bedeutet für uns Ähnlichkeit überhaupt?
00:26:01
Speaker
Wiefern möchten wir den Nutzern unterschiedliche Einstiegsmöglichkeiten in diesen Bereich der Ähnlichkeit bieten?
00:26:09
Speaker
Aber auch, was ist realisierbar in so einem Drei-Jahres-Programm tatsächlich, was von der DFG gefördert wird?
00:26:16
Speaker
Wir haben uns letztendlich entschlossen, gewisse
00:26:21
Speaker
Anreize zu setzen, die dann auch durchaus noch weiterentwickelt werden können.
00:26:25
Speaker
Die ganze Software ist ja Open Source.
00:26:28
Speaker
Das heißt, was wir aktuell anbieten, sind sowohl eher einfache Ähnlichkeitsverfahren, also das, was man auch früher kannte, Farbähnlichkeit, durchaus auch gewisse stilistische Ähnlichkeiten, aber auch solche Möglichkeiten, die dann eher in den Bereich der Semantik eindringen, wo tatsächlich der Bildinhalt auch mit adressiert werden kann.
00:26:50
Speaker
Wird dieser Bildinhalt über Verfahren der Computer Vision erkannt oder spielen da wieder die Metadaten eine Rolle?
00:26:59
Speaker
Also wir bieten zwar zusätzlich noch eine Art Facettierung an, die auf Metadaten zugreift.
00:27:06
Speaker
Das hat aber eher...
00:27:08
Speaker
Historische Gründe.
00:27:09
Speaker
Wir haben herausgefunden, dass viele Kunsthistoriker einfach sehr an diesen Metadaten klammern.
00:27:14
Speaker
Das heißt, wenn wir diese Metadaten nicht integrieren, herrscht erstmal eine große Irritation, weil man nämlich durchaus möchte, nach gewissen Künstlern nochmal filtern zu können.
00:27:23
Speaker
Also ob das jetzt erstmal am Anfang ist oder im Nachgang, spielt keine Rolle, aber in jedem Fall war das so ein Feld, das definitiv bedient werden musste.
00:27:32
Speaker
Und erst dann kann man tatsächlich so ein bisschen flexibler werden und sagen, wir geben euch die Möglichkeit, ihr könnt mit Bildern nach Bildern suchen, ihr könnt einstellen, welche Art von Ähnlichkeit ist jetzt besonders interessant für euch, aber auch, welche Darstellung tatsächlich der Suchergebnisse ist jetzt vielleicht für eure Forschungsfrage besonders relevant.
00:27:54
Speaker
So neben diesem doch eher klassischen Bildraster, was aber auch deswegen eingebunden wurde, weil es eben etabliert wurde,
00:28:03
Speaker
Gibt es beispielsweise auch solche Formen der zweidimensionalen Adressierung, also wo dann eine Darstellung wirklich der Bilder im Raum dann nochmal mit eingewoben wird?
00:28:14
Speaker
Und auf diese Weise natürlich auch die Ähnlichkeiten zwischen den Objekten nochmal auf andere Weise explorierbar werden, als sie in so einer Art linearen Bildraster dann auch mit zustande kommen würden.
00:28:26
Speaker
Ja, ich habe das mal ausprobiert mit meinen klassischen Suchanfragen, die ich immer stelle.
00:28:30
Speaker
Ich suche immer nach Bartholomeus Spranger.
00:28:32
Speaker
Das ist der Künstler, bei dem ich mich gut auskenne.
00:28:36
Speaker
Und fand es sehr ansprechend, dass dann, ich sage es jetzt mal ganz vereinfacht, diese Haufen gebildet werden.
00:28:42
Speaker
Also ihr habt ein Clustering-Verfahren genutzt, das aufgrund von algorithmischer Ähnlichkeit
00:28:49
Speaker
Haufen bildet aus all den Bildern, die da in der Datenbank drin sind.
00:28:55
Speaker
Und dann kann man selbst sich ein bisschen durchwühlen und sich überlegen, zumindest mache ich das, ich gucke dann, was war wohl der Grund für diese Ähnlichkeiten?
00:29:07
Speaker
Weil die Ähnlichkeiten, die ja der Computer benutzt, sind keine Ähnlichkeiten, die wir verwenden.
00:29:11
Speaker
Also die Gesichter sehen gleich aus oder da sind überall die gleichen Vasen drauf.
00:29:16
Speaker
sondern die Ähnlichkeiten, die algorithmisch erkannt werden, sind doch ein bisschen anders, oder?
00:29:24
Speaker
Ich würde sagen, zum einen ja, zum anderen vermutlich am Ende auch nein.
00:29:30
Speaker
Also ja, natürlich der Computer, die Maschine, die künstliche Intelligenz, wie auch immer man das jetzt aktuell nennen möchte, funktioniert natürlich anders.
00:29:40
Speaker
Also der Prozess des Sehens ist, auch wenn man es natürlich gerne so ausdrückt, ein komplett anderer als das, was wir letztlich als Sehen bezeichnen würden.
00:29:52
Speaker
Da, wo es aber ähnlicher wird, es ist auch interessant, dass der Begriff der Ähnlichkeit tatsächlich auch dann immer auch auf anderen Gebieten noch mit anwendbar ist, ist dann da, wo wir tatsächlich so ein bisschen ins Training reinkommen.
00:30:04
Speaker
Denn wie lernen wir Menschen denn tatsächlich Konzepte kennen?
00:30:08
Speaker
Wir lernen sie, indem wir sie immer wieder sehen, indem wir Variationen feststellen, indem wir Differenzen bemerken, indem gewisse Muster erkannt werden.
00:30:17
Speaker
Und in diesem Sinne agiert die Maschine eigentlich erst mal relativ gleich.
00:30:23
Speaker
Das heißt, sie versucht herauszulösen, was ist jetzt tatsächlich statistisch signifikant für vielleicht genau diese Ikonographie, die ich hier gerade mit bezeichnen möchte.
00:30:35
Speaker
Auf andere Weise ist es natürlich aber auch so, dass dieser Semantic Gap, der natürlich durch diese Einzelpixel-Adressierung mit existiert, einfach viel verschluckt.
00:30:46
Speaker
Wenn wir also beispielsweise wenig Daten haben, und das ist in der Kunstgeschichte tatsächlich zumindest im digitalen Bereich meist der Fall, gibt es natürlich auch das Problem, dass wir viel weniger Möglichkeiten haben, diese Differenzen und Streuungen tatsächlich auch der Maschine relativ schnell beizubringen.
00:31:04
Speaker
Es ist immer da einfach, wo man viel Datenmaterial hat.
00:31:07
Speaker
Das merkt man auch beispielsweise in eher realweltlichen Anwendungsgebieten, also autonomes Fahren etc.
00:31:14
Speaker
Da liegt viel vor.
00:31:15
Speaker
Also können wir natürlich auch daraus relativ viel ableiten.
00:31:18
Speaker
Und ab dem Zeitpunkt, wo wir jetzt in Domänen reinschlittern, die tatsächlich digital bislang sehr wenig erfasst worden sind,
00:31:26
Speaker
kommen wir natürlich auch eher zu so einer Herausbildung wieder eines Kanons.
00:31:31
Speaker
Das heißt, wir werden feststellen, dass in iArt beispielsweise ein heiliger Sebastian ganz hervorragend erkannt wird und sicherlich auch Sündenfalldarstellungen ganz gut herausgefiltert werden können.
00:31:43
Speaker
Wenn wir uns dann aber eher in unsichere Gebilde bewegen, in Ikonographien oder vielleicht auch Heiligendarstellungen, die weniger bekannt sind, wo wir weniger Trainingsmaterial haben,
00:31:53
Speaker
dann merken wir relativ schnell, dass die algorithmische Ähnlichkeitsklassifikation an ihre Grenzen stößt.
00:32:03
Speaker
Also wo nichts ist, dann kann letztlich auch nichts abgeleitet werden.
00:32:08
Speaker
Ich denke gerade an mein Studium zurück, wie wenig Beispiele man wirklich, als es um Ikonografien und Darstellungstraditionen ging, gesehen hat und die dann aber immer wieder erkannt hat.
00:32:21
Speaker
Genau, das ist tatsächlich für uns so entscheidend.
00:32:25
Speaker
Wir als Menschen sind hochgradig flexibel.
00:32:28
Speaker
Wir brauchen vielleicht ein, zwei Bildbeispiele und da können wir sofort ableiten, okay, die Komponenten waren jetzt drin und der PC ist
00:32:36
Speaker
Der braucht mehr.
00:32:38
Speaker
Also wenn man dann fünf Darstellungen eines Heiligen hat, dann merkt er vielleicht, was die einzelnen Attribute sind.
00:32:44
Speaker
Problematisch ist es aber beispielsweise dann schon, wenn diese Attribute in irgendeiner Form stilistisch beispielsweise verzerrt sind, wenn sie nicht mehr eindeutig vielleicht auf eine Lampe zurückzuführen sind.
00:32:56
Speaker
auf einen Behälter, vielleicht auf einen Stab, manchmal aber natürlich auch durch die digitalen Reproduktionen bedingt, einfach eine schlechte Auflösung vorherrscht, sodass es einfach pixelmäßig schlecht erkennbar dann auch ist.
00:33:11
Speaker
Was habt ihr denn bei euch im Projekt festgestellt oder jetzt auch im Nachhinein durch die Benutzung von KunsthistorikerInnen, was denn der Mehrwert ist?
00:33:21
Speaker
Der Mehrwert ist vor allem eine freiere Exploration.
00:33:24
Speaker
Also dieses Weggehen von der eigentlich Suche nach reinen Identitäten, beispielsweise dann wirklich Reproduktionen nach demselben Original, was Google zumeist anbietet, hin zu eigentlich

Ermöglicht iArt explorative Suchmöglichkeiten?

00:33:37
Speaker
einer Form des freieren Durchstöberns von Sammlungen.
00:33:42
Speaker
Das Wichtigste, aber auch natürlich für Kunsthistoriker ein bisschen irritierender ist dabei, dass es nicht unbedingt um Präzision geht.
00:33:49
Speaker
Also natürlich möchte man, dass gewisse Ergebnisse tatsächlich auch als relevant eingestuft werden.
00:33:56
Speaker
Das validiert natürlich dann auch den Algorithmus, der dahinter liegt.
00:34:01
Speaker
Aber man möchte eigentlich gar nicht, dass es zu sehr einschränkt.
00:34:04
Speaker
Also es gibt eigentlich immer so einen Punkt, der tatsächlich noch nicht erreicht werden darf an Präzision.
00:34:11
Speaker
Ansonsten wird eigentlich jede Art der Exploration zunichte gemacht.
00:34:15
Speaker
Also gerade jetzt solche Beispiele, was ich festgestellt habe,
00:34:20
Speaker
Man sucht Sündenfallreproduktion.
00:34:21
Speaker
Natürlich kommen am Anfang viele Kranachs und Düras und das ist auch alles richtig und auch wichtig, dass diese erscheinen.
00:34:28
Speaker
Und dann rutscht man aber relativ schnell dann auch mit komputationalen Verfahren in Herkules-Ikonografien rein.
00:34:35
Speaker
Und am Anfang ist man ein bisschen irritiert.
00:34:39
Speaker
Und entweder man weiß es dann schon oder man kommt zumindest dann im Nachgang darauf, dass die Herkules-Ikonografie ja durchaus auch rezeptionsgeschichtlich eng mit dem Sündenfalldarstellung verknüpft ist.
00:34:50
Speaker
Das heißt also, diese gewisse Grundentfernung zu dem, was ich ursprünglich suche,
00:34:55
Speaker
ist hier gerade das Wichtige und unterscheidet natürlich auch diese Form der Adressierung sehr stark von metadatenbasierten Ansätzen.
00:35:03
Speaker
Weil wenn ich metadatenbasiert nach einem Künstler suche, bekomme ich natürlich auch nur Werke zurück, die diesem Künstler zugeschrieben worden sind.
00:35:10
Speaker
Wenn man einen Schritt weiter geht und eventuell noch Wikidata etc.
00:35:13
Speaker
einbinden würde, kriegt man dann vielleicht auch noch Schüler- oder Lehrerverhältnisse mit dazu angezeigt, die ja vielleicht auch einen gewissen Grad an Ähnlichkeit beherbergen würden.
00:35:23
Speaker
Aber diese wirklich weitreichenden Verzweigungen,
00:35:26
Speaker
die ich eigentlich gerade durch die Computervision als ermöglicht sehe, die sind da eben tatsächlich nicht machbar.
00:35:33
Speaker
Das hängt natürlich auch, was die Suche und was das Finden angeht und das Explorieren davon ab, was für Bilddaten eingespielt wurden.
00:35:40
Speaker
Jetzt braucht man natürlich öffentlich zugängliche Datenbanken, Bilddatenbanken, am besten mit Schnittstellen, dass man immer die aktuellsten Bilder und Informationen sich runterladen kann.
00:35:51
Speaker
Welche habt ihr denn da eingebaut?
00:35:54
Speaker
Wir haben tatsächlich eher so aus Effizienzgründen natürlich die größten eingebunden, also das Rijksmuseum beispielsweise, das Metropolitan ist mit dabei.
00:36:04
Speaker
Wir haben uns aber auch sehr stark natürlich an dem orientiert, was durch Wikidata und die Wikimedia Foundation veröffentlicht worden sind.
00:36:12
Speaker
Was vor allem dann auch den Vorteil hat, dass relativ wenige gleichere Produktionen im Datenbestand dann auch gelandet sind.
00:36:21
Speaker
Ganz ausschließend kann man das trotzdem leider nicht.
00:36:25
Speaker
Ansonsten haben wir auch darüber hinaus durchaus viel aus dem Internet heruntergeladen durch das sogenannte Scraping.
00:36:33
Speaker
Nicht immer ist aber ganz klar, inwiefern können wir das jetzt nochmal öffentlich zur Verfügung stellen.
00:36:38
Speaker
Also manchmal sind Lizenzen angegeben, manchmal sind sie so ein bisschen diffus.
00:36:42
Speaker
Manchmal behelfen wir uns dann damit, also wenn etwas tatsächlich Public Domain ist, dann versuchen wir uns das tatsächlich auch reinzuschieben.
00:36:51
Speaker
Ansonsten verstecken wir das eigentlich eher so ein bisschen im Trainingsvorgang.
00:36:55
Speaker
Also wir verwenden das zwar mit, bei Unsicherheiten stellen wir es dann aber tatsächlich auch nicht publik und setzen eher darauf, dass Wikidata dann neue Aktualisierungen mit einspeist und eventuell dann auch noch ein paar weitere kunsthistorische Bilder in den Bestand so mit reinwandern.
00:37:16
Speaker
Die Bereitstellungen von Bild- und Metadaten mit offenen Lizenzen ist im Rahmen des Artistocast-Podcasts schon mehrfach zur Sprache gekommen.
00:37:24
Speaker
Und in diesem Zuge werden auch immer wieder die üblichen Verdächtigen genannt, das Strikes Museum oder das Metropolitan Museum.
00:37:31
Speaker
Aber warum ist das so?
00:37:33
Speaker
Diese beiden Häuser haben nicht nur eine offene und liberale Datenpolitik.
00:37:37
Speaker
Sie bieten ihre Daten über einfach zugängliche Schnittstellen an oder legen sie sauber und gut dokumentiert in Repositorien ab.
00:37:45
Speaker
Die Bereitstellung von Bilddaten für das Training von neuronalen Netzen ist essentiell.
00:37:49
Speaker
Man braucht sie auch zur Verbesserung des visuellen Suchens.
00:37:52
Speaker
Gut trainierte KIs ermöglichen das explorierende Suchen in großen Bilddatenmengen.
00:37:59
Speaker
Ich als Mensch kann nicht in einer vertretbaren Zeit eine unglaublich große Menge von Bildern durchsuchen.
00:38:07
Speaker
Erst recht nicht durch Scrollen oder durch Browsen oder durch, wie man es oft hat bei Bilddatenbanken, Seite für Seite durchklicken und dann hat man dann diese Indexraster mit diesen
00:38:16
Speaker
zehn Bildern auf einer Seite und verbringt Stunden um Stunden, bis man dann überhaupt erst mal 100 durch hat, geschweige denn tausend oder mehrere.
00:38:26
Speaker
Das heißt, man benutzt diese Algorithmen, die visuelle Suche, wie so ein Unterstützungssystem, also als Erweiterung der eigenen Wahrnehmung zum Vorsortieren, wenn ich das richtig verstanden habe.
00:38:38
Speaker
Ja, unbedingt.
00:38:39
Speaker
Also auch hier, also der Begriff des Assistenzsystems wäre da angebracht.
00:38:45
Speaker
Sensoren, die mehr leisten, als wir können.
00:38:48
Speaker
Das ist definitiv so.
00:38:50
Speaker
Also es geht um Millionen Bilder, die registriert werden können und verglichen werden können.
00:38:56
Speaker
Und das ist schlichtweg nicht leistbar von uns.
00:39:00
Speaker
Das heißt, ja, Vorsortierung.
00:39:03
Speaker
Und ich glaube, da wären wir auch wieder bei der Frage,
00:39:09
Speaker
Warum dauert das so lange, bis sich das durchsetzt?
00:39:13
Speaker
Weil der erste Schritt ist, das Potenzial zu erkennen.
00:39:16
Speaker
Und der zweite Schritt ist, glaube ich, wie bei jeder Form von Assistenz oder Agentenverhältnis, Vertrauen.
00:39:27
Speaker
Also wirklich vertrauen zu können, dass dann auch der Computer das sieht, was ich finden möchte.
00:39:35
Speaker
Und während eben die Rechenleistung, damit eben auch die Schnelligkeit und die Memory-Kapazität, also die Gedächtnisleistung sozusagen beim Computer dann so viel besser ist, ist natürlich lange Zeit.

Zusammenarbeit zwischen menschlicher Intuition und Computersuchen

00:39:57
Speaker
Die Intuition des Menschen, wirklich zu verstehen, aha, hier sind zwei Menschen, die sind ineinander verschränkt, also wie eine optische Täuschung fast oder eben nur sehr, sehr schwer zu erkennen, das war definitiv immer der Vorsprung des Menschen.
00:40:17
Speaker
Aber der erodiert jetzt auch so langsam, weil der Computer immer
00:40:23
Speaker
mehr Verständnis auch bekommt für schwierige oder herausfordernde Bildformate oder Formulare.
00:40:36
Speaker
Ich finde die Metapher, die du da aufgebaut hast in deinem einen Aufsatz, Computer Vision und Visualisierung als didaktische Instrumente in der Kunstgeschichte ganz spannend.
00:40:45
Speaker
Du hast den Computer, also das Assistenzsystem, mit einem Hund bei der Drogenfahndung verglichen.
00:40:52
Speaker
Der Hund hat einfach gewisse Arten, anders Gerüche wahrzunehmen, aber er weiß natürlich nicht, ob das, was er riecht, wirklich was Illegales ist oder nicht.
00:41:00
Speaker
Er ist halt darauf trainiert worden, diesen Geruch wahrzunehmen.
00:41:04
Speaker
so wie die Algorithmen auch trainiert worden sind, gewisse Formen, Unterschiede, Kompositionen zu erkennen oder Ähnlichkeiten zu erkennen und aufgrund von gewissen trainierten Regeln Cluster bilden zu können oder Sortierungen ansetzen zu können.
00:41:18
Speaker
Und da kann man vielleicht auch immer der diffusen Angst, die da auch so in der Kunstgeschichte immer mitschwingt von, wenn die Computer zu gut wären, für was braucht man uns ja noch, entgegen gehen.
00:41:29
Speaker
Weil diese Sortierung heißt ja noch lange nicht, dass da Wissen dahinter steckt.
00:41:35
Speaker
Ja, das ist richtig und das Beispiel mit dem Hund trägt eine gewisse Weise, weil eben wir auch von dem Computer können wir jetzt keine Ergriffenheit bei einer Pieta erwarten oder so, also es gibt keine Empathie, es gibt keine...
00:41:51
Speaker
Es gibt auch natürlich keine Begeisterung für die Qualität.
00:41:57
Speaker
Die Frage ist bei all dem natürlich immer, was ist dann doch antrainierbar?
00:42:01
Speaker
Antrainierbar in einer Form, die dann immer noch nicht zur Ergriffenheit oder einer Qualitätsbegeisterung führt, aber die trotzdem Merkmale von Qualität zum Beispiel erkennt oder auch
00:42:20
Speaker
zum Beispiel eben über die Interaktion mit den Usern, weiß, was zu Ergriffenheit führt.
00:42:30
Speaker
Das Schwierige, und ich glaube, das kommt jetzt schon so ein bisschen raus, während man eben
00:42:36
Speaker
ganz viele Spezialsysteme erstellen könnte, zum Beispiel für einzelne Forschungsfragen, wie was ist jetzt qualitätsvoll, was ja auch ein ganz umstrittener Begriff in der Kunstgeschichte ist.
00:42:51
Speaker
Oder kennerschaftliche Fragen ist dann die Frage, wie bekommen wir ein relativ universales System,
00:43:00
Speaker
was die Frage, also viele Fragen des Faches bündeln kann in einer Suche, die ähnlich generisch ist wie die Textsuche, die ja auch irgendwie dieses Versprechen beinhaltet, ich kann da alles eingeben und es wird schon irgendwas gefunden werden.

Wie könnte die Zukunft der visuellen Suche aussehen?

00:43:17
Speaker
Wenn du dir das wünschen könntest, also ich sage jetzt mal ohne die Probleme, die Projektförderungen immer so mit sich bringen, was wären so die nächsten Schritte, die gemacht werden müssten, um zu so einer Art von Suche zu kommen, also visuelle Suche auf dieser Skala, auf diesem Niveau zu ermöglichen?
00:43:35
Speaker
Ja, ich denke, es ist jetzt im Grunde genommen die Aufgabe der Infrastrukturen, also im
00:43:44
Speaker
positivsten Sinn des Wortes, also große etablierte Bildarchive, diese Technologie aufzunehmen und dauerhaft nutzbar zu machen.
00:43:56
Speaker
Und das ist auch gar nicht so, dass das nicht schon passieren würde, aber dadurch, dass
00:44:03
Speaker
diese Datenbanken eben schon bislang, ähnlich wie auch Museen im Zusammenhang mit Digitalisierung, schon bislang mit ihren Aufgaben völlig ausgefüllt waren, wird sich das jetzt nicht eben in den nächsten fünf Monaten oder so einstellen.
00:44:25
Speaker
Aber ich glaube schon, dass dadurch, dass diese Algorithmen
00:44:31
Speaker
immer bekannter geworden sind, immer leichter zu implementieren und auch die Technologie darum immer populärer geworden ist, wenn wir an ChatGBT denken oder DALI und so weiter, dass dieses Interesse und auch das
00:44:53
Speaker
dieser Technologie immer größer wird.
00:44:55
Speaker
Deshalb bin ich eigentlich sehr optimistisch, dass wir in den nächsten Jahren als komplementäre Funktion eben solche Bildsuchen erkennen.
00:45:05
Speaker
Sehr interessieren würde mich wirklich
00:45:08
Speaker
Wie da die Zugänge sind.
00:45:09
Speaker
Also ist es immer dieses Bild eingeben, also das wirklich Einfachste, was man tun kann.
00:45:16
Speaker
Kann man selbst vielleicht eben über eine Mischung aus Text und Bild suche, wie wir das von Clip kennen, also dass man da eine kleine Phrase eingibt.
00:45:29
Speaker
Und ohne Metadaten, sondern nur über dieses Sprachbildmodell, der Computervorschläge macht, kommen wir da eben dem näher, was Bildsuchen heute leisten können, eben auch für die Kunstgeschichte.
00:45:45
Speaker
Hast du schon mal ausprobiert mit diesen generativen Bildsystemen, wie zum Beispiel Stable Diffusion, dir über den Text, also über die Eckphrases ein Bild zu geben, um das in einer visuellen Suche vergleichend ähnlich wiederzufinden?
00:46:01
Speaker
Ja, durchaus.
00:46:03
Speaker
Und das ist auch ein Ansatz, wo wir daran forschen, ob über...
00:46:12
Speaker
diese zusätzlichen Bilder nicht unbedingt der Computer zu dem kommt, was man will, sondern auch mal selber ein genaueres Verständnis bekommt von dem, was man eigentlich sucht.
00:46:25
Speaker
Also wir haben ja eigentlich dieses Gedankenbild im Kopf, aber es ist schwer, das zu verbalisieren.
00:46:32
Speaker
Und mit diesen generativen Modellen und dann entsprechend vielen Vorschlägen, die diese Systeme ja leicht machen können, könnte man dann zum Beispiel aus zehn wieder auswählen.
00:46:43
Speaker
Das ist am nächsten zu dem, wie ich mir das vorgestellt habe und so dialogisch.
00:46:48
Speaker
Und das ist überhaupt eine wichtige Methode, in der Arbeit mit den Algorithmen quasi so eine Form des Dialogs zu entwickeln.
00:47:00
Speaker
dass dann klar wird, in die Richtung möchte ich mich bewegen.
00:47:04
Speaker
Und diese Richtung, die kann wirklich eben dem Gedankenbild entsprechen oder, und das ist das Faszinierende, dann im Laufe des Prozesses erst als eine weitere Konkretisierung entstanden sein.
00:47:15
Speaker
Dass einem wirklich klar wird, dieses generierte Bild, das ist eigentlich noch ein besserer Sucheinstieg, als ich mir den vorgestellt habe.
00:47:22
Speaker
Ja.
00:47:23
Speaker
Das ist auf jeden Fall ein interessanter Ansatz, ja.
00:47:27
Speaker
Und was wir aber auch versucht haben, ist, ob wir mit generierten Bildern nicht wiederum Trainingsmaterial auch herstellen können, also Trainingsbilder herstellen können, um dann auch die Algorithmen noch besser zu trainieren auf das, was wir finden wollen.
00:47:42
Speaker
Funktioniert das?
00:47:44
Speaker
Bislang noch nicht wirklich gut, weil eben auch diese Bildgenerierung dann doch nicht...
00:47:51
Speaker
präzise genug ist, um eben die eigenen Wünsche da oder das, was man eben trainieren will, zu erfüllen.
00:48:00
Speaker
Aber die Ansätze sind da und die Technik wird wirklich quartalsweise besser.
00:48:05
Speaker
Deshalb gibt es da schon viel Hoffnung.
00:48:11
Speaker
Die Anwendungen im Forschungsbereich Computer Vision haben sich in den letzten Jahren wirklich rasant weiterentwickelt.
00:48:17
Speaker
Die Deep Learning Modelle für das Generieren von Bildern können heute augentäuschende Bilder erzeugen.
00:48:23
Speaker
Darüber müssen wir aber nochmal in einer eigenen Folge sprechen.
00:48:26
Speaker
Es ist schon mühsam genug, einen Überblick über die Bilder von bereits existierenden Werken zu bekommen.
00:48:32
Speaker
Beim Herumspielen mit iArt habe ich dann auch ein bisschen die Zeit verloren.
00:48:36
Speaker
Stephanie Schneider überrascht das nicht.
00:48:43
Speaker
Beim Ausprobieren von iArt ist mir aufgefallen, dass es so ein Kaninchenbauloch ist.
00:48:50
Speaker
Also ich habe dann mal mit Text gesucht, mal mit Bildern unterschiedliche Abbildungen auch reingeladen, auch Abbildungen, von denen ich wusste, dass die sehr ungewöhnliche Darstellungen drauf haben.
00:49:03
Speaker
Und durch diese Art und Weise der Visualisierung, also dann dieses Clusterings,
00:49:10
Speaker
bin ich so versunken in diese Bildhaufen.
00:49:14
Speaker
Also es hat bei mir wirklich so ein, wie sagt man, so ein Gehirnblitzgewitter ausgelöst, weil ich mir dann versucht habe, vorzustellen, was könnten die Verbindungen sein, was sehe ich da gerade?
00:49:24
Speaker
Also ich fand das unglaublich inspirierend auch,
00:49:28
Speaker
einfach mal so zu meandern durch die unterschiedlichen Bilder, durch das, was mir vorgegeben ist.
00:49:34
Speaker
Ich habe dann auf einmal so viel gesehen an Kunstwerken, die ich vorher noch überhaupt nicht auf dem Schirm hatte.
00:49:41
Speaker
Also jetzt zum Beispiel Medaillen kenne ich mich überhaupt nicht aus und da waren Parallelen, die ich gesehen habe.
00:49:46
Speaker
Natürlich jetzt auf dieser explorativen Ebene ist es erst mal Assoziationen, aber ich fand es unglaublich spannend und schon war eine halbe Stunde vorbei.

Strukturierte Suche vs. zufällige Entdeckungen in der Kunstforschung

00:49:58
Speaker
War das von euch auch so intendiert bei dem Projekt oder ist es eher etwas, was dann durch Zufall passiert ist?
00:50:05
Speaker
Ich glaube, dass es in den Verfahrensweisen schon inhärent ist.
00:50:10
Speaker
Also dadurch, dass wir eben tatsächlich keine exorbitant hohe Accuracy erzielen können in dieser Domäne, mussten wir uns natürlich von vornherein bewusst machen,
00:50:25
Speaker
Es wird gewisse Probleme oder auch Fragestellen unterstützen können.
00:50:30
Speaker
In anderen Fällen wird es dann aber hochgradig frei auch in der Ergebnismenge zurückgegeben werden können.
00:50:39
Speaker
Das heißt, es liegt natürlich dann auch daran, welche Bestände haben wir integriert,
00:50:44
Speaker
Und dann würde es immer wieder Anfragen gehen, könnt ihr das vielleicht noch hinzufügen oder ich interessiere mich dann eher irgendwie für die Teilmengen noch.
00:50:52
Speaker
Also uns war bewusst, wir können nicht alles lösen.
00:50:55
Speaker
Wir können jetzt eigentlich nur ein Tool am Anfang mal erstellen, das aufzeigen kann, welche Möglichkeiten es überhaupt gibt.
00:51:03
Speaker
Also durch diese Projektgebundenheit von drei Jahren.
00:51:06
Speaker
Genau, also natürlich durch die drei Jahre, wobei man natürlich auch immer dazu sagen muss, die Technologie entwickelt sich rasend schnell.
00:51:13
Speaker
Also gerade jetzt im letzten Jahr war das ja sehr deutlich.
00:51:16
Speaker
Zum einen natürlich durch die synthetische Bildgenerierung, also durch Stable Diffusion, aber natürlich dann auch eher durch Chat-GPT, durch das textuell gebundene, wo das wahnsinnig viel aufpoppt.
00:51:29
Speaker
was die letzten Jahrzehnte natürlich immer weiterentwickelt wurde, aber jetzt plötzlich zugänglich gemacht wurde.
00:51:35
Speaker
Und dieses Zugänglichmachen ist, glaube ich, gerade der fundamentale Unterschied.
00:51:40
Speaker
Also, dass Open Source Software freigegeben wird, dass die Leute selber ausprobieren können, wie funktioniert das.
00:51:47
Speaker
Welche Prompt schreibe ich jetzt?
00:51:49
Speaker
Welche Suchanfragen übergebe ich?
00:51:50
Speaker
Was bringt das zurück?
00:51:52
Speaker
Sodass wir da in einen ganz freien Raum letztlich hereinlaufen, auch des Flanierens, wie du ja selber dann auch gesagt hast, indem wir vielleicht...
00:52:03
Speaker
uns auch mal verlieren können.
00:52:05
Speaker
Und das ist vielleicht eigentlich auch das größte Lob, was man dann an solche Tools stellen kann, dass man sich verliert, dass man nicht mehr rigoros auf seiner Forschungsfrage drauf bleibt, sondern dass man auch mal sagt, oh, was ist das jetzt für ein Kunstwerk?
00:52:19
Speaker
Das kenne ich nicht.
00:52:21
Speaker
Was wird darauf abgebildet?
00:52:22
Speaker
Oh, jetzt suche ich vielleicht auch mal nach ähnlichen Bildern auf Basis dieses Werks.
00:52:27
Speaker
Oder hänge dann andere Suchanfragen ran, ob das jetzt beispielsweise in iArt wäre, aber vielleicht auch in anderen musealen Sammlungen.
00:52:34
Speaker
Vielleicht gibt es ja auch da gerade wieder so eine Rückführung, dass ich durch das Digitale dann auch im Analogen vielleicht wieder anders lerne zu sehen.
00:52:43
Speaker
Das ist auch so was, was ich in den Lehrveranstaltungen gerne mal mache.
00:52:45
Speaker
So einmal im Semester ins Museum gehen.
00:52:48
Speaker
Einfach vielleicht auch mit so einer eher tool-lastigen Fragestellung hineinlaufen.
00:52:54
Speaker
Ihr müsst jetzt mit ChatGPT arbeiten, aber auch, ihr sollt anders drauf blicken.
00:52:59
Speaker
Ihr sollt nicht mehr so ganz stark an diesem Domänenwissen kleben bleiben, sondern löst euch mal ein bisschen davon.
00:53:08
Speaker
Schaut euch mal an, was sind da vielleicht noch für Motive für...
00:53:13
Speaker
Rezeptionsräume, die geöffnet werden können, wenn man sich eben so einen ganz kleinen Schritt dann schon davon entfernt.
00:53:22
Speaker
Man nennt das ja auch Serendipity, also diesen glücklichen Zufall, etwas zu finden.
00:53:27
Speaker
Und bei aller Wissenschaftlichkeit und unserer Methodenkontrolle müssen wir auch zugeben, dass der glückliche Zufall sehr oft auch mit rein spielt beim Wissenschaftlern, beim Forschen.
00:53:43
Speaker
Also jetzt ist iArt schon seit drei Jahren online.
00:53:47
Speaker
Was sind denn so die Rückmeldungen?
00:53:49
Speaker
Habt ihr Nutzerinnenzahlen, mit denen ihr zufrieden seid?
00:53:53
Speaker
Also ist es etwas, was wirklich angekommen ist?
00:53:58
Speaker
Jein.
00:54:00
Speaker
Es gibt sicherlich immer mal wieder Hochphasen, gerade wenn das Tool vorgestellt wird.
00:54:06
Speaker
Also das ist ja auch ganz üblich und auch normal.
00:54:09
Speaker
Wir hatten auch viele Workshops, in denen wir auch so ein bisschen ausprobiert haben, wie tatsächlich gerade KunsthistorikerInnen damit umgehen.
00:54:20
Speaker
Ich würde sagen, es ist tatsächlich immer noch sehr schwierig,
00:54:25
Speaker
Auf der einen Seite nähern wir uns ja bewusst dann auch durch die Graphical User Interface beispielsweise an solche Varianten wie Google an.
00:54:35
Speaker
Also es gibt den traditionellen Suchschlitz und natürlich das Bild Raster.
00:54:40
Speaker
Auf der anderen Seite habe ich das Gefühl, dass viele zu restriktiv tatsächlich in ihrer Suche funktionieren.
00:54:47
Speaker
Also meist ist das eher nach dem Motto, ich habe jetzt einen Begriff, den suche ich und dann erwarte ich gewisse Ergebnisse und wenn die erfüllt werden, dann ist es gut.
00:54:56
Speaker
Wenn sie zu sehr erfüllt werden, ist es allerdings auch schon wieder schlecht.
00:55:00
Speaker
Dann habe ich so einfach diesen Überraschungsmoment nicht.
00:55:02
Speaker
Dann ist auch die Nachfrage, warum muss ich jetzt unbedingt nicht Metadaten gesteuert an diese Sache herangehen?
00:55:10
Speaker
Offensichtlich funktioniert es ja genauso gut.
00:55:13
Speaker
Andererseits fehlt dann eben auch dieses iterative Vorgehen.
00:55:18
Speaker
Also dass man tatsächlich von einer Ergebnismenge auf die nächste kommt, dass man ausprobiert, welche unterschiedlichen algorithmischen Möglichkeiten habe ich.
00:55:29
Speaker
Wir bieten ja beispielsweise Schieberegler an, in denen dann auch gesteuert werden kann, wie stark soll Farbähnlichkeit mit integriert werden, wie stark soll inhaltliche Ähnlichkeit eine Rolle spielen.
00:55:41
Speaker
Und dadurch, dass das sehr selten ausprobiert wird, werden natürlich viele Möglichkeiten einfach schon mal grundsätzlich nicht ausgeschöpft.
00:55:49
Speaker
Also man ist teilweise, glaube ich, erst mal enttäuscht.
00:55:54
Speaker
Okay, das wirkt jetzt eigentlich nicht viel anders.
00:55:58
Speaker
Und auf der anderen Seite liegt diese Enttäuschung aber auch darin begründet, dass man viele Funktionen gar nicht ausschöpft, dann erst mal im weiteren Sinne.
00:56:08
Speaker
Also dass viele, glaube ich, überhaupt noch nie auf dieser zweidimensionalen Darstellung waren, dass nie Cluster-Darstellungen noch mal mit herausgearbeitet worden sind.
00:56:17
Speaker
Also dass man immer noch sehr daran hängt, wie dieses klassische Bildraster in musealen Sammlungen funktioniert.
00:56:24
Speaker
Ich gebe etwas ein, ich kriege meine Bilder zurückgeliefert und dann klicke ich auf die zweite Seite und dann ist eigentlich mein Prozess schon abgeschlossen.
00:56:32
Speaker
Und dieses, naja doch, rechte, strikte Suchgefüge muss in irgendeiner Form aufgelöst werden.
00:56:40
Speaker
Und ich bin mir nicht sicher, ob man das tatsächlich...
00:56:44
Speaker
über derart technische Tools erzielen kann, ob es nicht vielleicht schon viel früher in irgendeiner Form integriert werden müsste, ob das jetzt in der Lehre ist oder ob vielleicht auch durch Museen experimentelle Ansätze gewählt werden müssen, wo die Computer Vision dann eben auch integraler Bestandteil wird, um dadurch auch ein größeres Bewusstsein zu erzielen, ich muss damit anders arbeiten, wenn ich tatsächlich erfolgreich sein möchte.
00:57:15
Speaker
Im Zuge der Digitalisierung und einer Etablierung von großen Bilddatenbanken sind wir in der Kunstgeschichte mit einer enormen Menge heterogener Daten konfrontiert.
00:57:25
Speaker
Computer Vision als Forschungsgebiet und Prototypen wie iArt können uns helfen, diese menschlich nicht wahrnehmbaren Datenmengen irgendwie nutzbar zu machen.
00:57:35
Speaker
Im Moment sind wir eher in einer Übergangszeit, in der sich die Herangehensweisen und Verfahren meist experimentell erst beweisen müssen.
00:57:44
Speaker
Das heißt ja nicht, dass man etablierte Methoden über den Haufen werfen muss.
00:57:52
Speaker
Ja, also ich fände es unglaublich charmant, wenn man beide Arten und Weisen des Suchen kombinieren würde.
00:57:57
Speaker
Also sowohl die Textsuche als auch die Bildsuche.
00:58:01
Speaker
So als eine Art nochmal extra Filter.
00:58:04
Speaker
Also ich finde auch Suchsysteme immer schön, in denen ich Kategorien oder so einen Index nebendran habe, um nach Schlagworten einschränken zu können oder Material oder Standort oder Herkunftsort, sobald die Sachen bekannt sind.
00:58:21
Speaker
Aber manchmal fehlen in diesen vorgegebenen Kategorien in Metadaten eben Elemente wie Farbe, wie Malweise oder wenn man in der Zeichnungsforschung unterwegs ist, auch Art und Weise des Duktus.
00:58:35
Speaker
Da wird ganz selten bis nie, also mir ist jetzt auch kein Beispiel bekannt, dass der Duktus einer Zeichnung mit beschrieben ist in den Metadaten.
00:58:43
Speaker
Und da könnte ich mir vorstellen, dass eine visuelle Suche nochmal hilft, diese Suche, die ich vorher schon über den Text gemacht habe, zu präzisieren.
00:58:52
Speaker
Ich könnte dann Elemente ausklammern und wenn ich sage, es soll halt im Zeichenstil von der mir vorgegebenen Zeichnung sein oder ich zeichne was sogar vor auf einem Pad, also sozusagen
00:59:04
Speaker
Ich zeichne in die Suchmaschine rein, so soll das Strichmuster sein und dann würde mir der Algorithmus alle Zeichnungen raussuchen, die ein ähnliches Strichbild haben.
00:59:14
Speaker
Das wäre großartig.
00:59:15
Speaker
Also da würde ich einen extremen Mehrwert sehen, gerade in der Zeichnungsforschung.
00:59:20
Speaker
Ja, aber auch hier ist auffällig, dass es das eben so wenig gibt, weil eben bei den
00:59:27
Speaker
Verschlagworten immer, dass das Bild fast ausgespart worden ist und seine stilistischen Details.
00:59:35
Speaker
Und natürlich können wir das einfangen über die Bildsuche.
00:59:41
Speaker
Die Frage ist natürlich, wer fängt dann tatsächlich zu zeichnen an?
00:59:44
Speaker
Oder müssten wir dann eben auch hier einen Katalog von Formen bereitstellen,
00:59:53
Speaker
mit denen dann gesucht werden kann.
00:59:57
Speaker
Und das gibt es ja teilweise bei Google Lens oder anderen Sachen, dass man einen Bildausschnitt wählt und dieser Bildausschnitt so klein ist, dass man eben in der Textur der Striche im Duktus quasi drin ist.
01:00:13
Speaker
Und dann kann es sein, dass man dann dort auch ähnliche Bilder eben findet, die so sind.
01:00:20
Speaker
Du hast ja selbst zusammen mit Fabian Offert auch eine visuelle Suche entwickelt, also ein Interface, in dem man auf gewisse Art und Weise damit suchen kann, Images AI.
01:00:30
Speaker
Was war bei der Entwicklung eure größte Herausforderung?
01:00:35
Speaker
Auch hier war das Problem, an Daten zu kommen, also Daten, die frei sind, die benutzbar sind und auf die man zugreifen kann.
01:00:46
Speaker
Und Fabian Offert, der das
01:00:50
Speaker
Projekt vornehmlich konzipiert und programmiert hat, ist da im Grunde genommen auf meinen Wunsch oder den Wunsch der Community eingegangen, einmal so ein Tool zu haben, wo man das ausprobieren kann und dann, und das ist das Besondere, eben auch mit verschiedenen Modellen ausprobieren kann.
01:01:10
Speaker
Also nicht nur irgendein neuronales Netz, sondern die sind quasi modulartig austauschbar,
01:01:19
Speaker
sodass man auch eben unter den unterschiedlichsten Verwendungen dieser Modelle dann in der Suche noch weiterkommen kann, also indem man die auch kombiniert stellt.
01:01:31
Speaker
Also genau eine Herausforderung ist die Art und Weise, wie man die Ergebnisse darstellt.
01:01:37
Speaker
Wir haben ein einfaches Grid, also die...
01:01:42
Speaker
Die Ergebnisse werden als eine Art Bildliste geführt, also eben auch wie die Treffer, wie man das bei Google auch gewohnt ist in der Bildsuche.
01:01:53
Speaker
Aber es werden jetzt zum Beispiel keine Visualisierungen gemacht, die eine Clusterung anzeigen und so weiter, was iArt teilweise hat und andere.
01:02:06
Speaker
Und das ist eben die Frage, hilft einem das weiter oder sind diese Visualisierungen, die ja letztlich auch starke dimensionale Reduktionen eben auf zwei Dimensionen sind, überhaupt so sinnvoll?
01:02:21
Speaker
Können wir die überhaupt so gut durchsuchen?
01:02:24
Speaker
Also Herausforderungen wären eigentlich eher jetzt in der Zukunft, wie könnte man das noch verbessern?
01:02:30
Speaker
Wie könnte man noch Zugänge schaffen?
01:02:33
Speaker
Welche
01:02:35
Speaker
neuen Modelle jenseits von Clip, VGG und diesem Posenansatz könnte man noch hinzunehmen und welche neuen Bilddatenbanken ließen sich damit noch verbinden?
01:02:51
Speaker
Du hast gerade Clip erwähnt.
01:02:53
Speaker
Was ist das ganz konkret?
01:02:55
Speaker
Also was meinst du damit?
01:02:57
Speaker
Clip ist ein Algorithmus aus der, ja, bekanntermaßen starken Produktion von Algorithmen von OpenAI, der Stiftung eben aus Kalifornien.
01:03:09
Speaker
die Bildgeneratoren wie DALI 2 und ChatGPT entwickelt hat.
01:03:15
Speaker
Und Clip ist tatsächlich ein Teil auch von diesen Bildgeneratoren in dem Sinn, dass hier Textmodelle mit Bildern verbunden sind, in dem...
01:03:31
Speaker
Bilder trainiert worden sind mit den Bildunterschriften oder anderen Texten, die mit dem Bild verknüpft sind.
01:03:38
Speaker
Und dadurch, dass dann diese Sprachmodelle auf diese visuellen Modelle treffen und mit ihnen verknüpft wird, entsteht ein verschränkter Raum, bei dem, wenn wir jetzt an Cezanne denken, eben gemalte Äpfel,
01:03:55
Speaker
neben dem Begriff Äpfel und Obst und Stillleben sind, aber vielleicht auch neben dem Begriff Abstraktion oder Neo-Impressionismus und so weiter.
01:04:07
Speaker
Also da entstehen Wortfelder.
01:04:10
Speaker
In diesem Raum, die dann gespickt sind, auch mit Bildern, die dabei liegen.
01:04:17
Speaker
Und jetzt habe ich natürlich schon diesen Cezanne als Beispiel erwähnt, aber wichtig ist natürlich bei Clip und vielen dieser Algorithmen, die eben in der Industrie kursieren,
01:04:30
Speaker
dass es an einer vermeintlich kompletten Wirklichkeit, also an unwahrscheinlich vielen Bildern aus dem Netz trainiert worden ist und damit auch nicht den Ideen und Kategorien der Kunstgeschichte folgt.
01:04:46
Speaker
Das heißt aber nicht, dass man das eben adaptieren kann und diesen Clip-Algorithmus als Suchmodell auch einsetzen kann.
01:04:55
Speaker
Und ähnlich wie man eben mit einem Satz bei DALI oder anderen Bildgeneratoren wie Stable Diffusion ein Bild erzeugt, so kann man auch hier einen Satz eingeben und kommt dann an einen Punkt in dem Raum.
01:05:12
Speaker
Und das Ergebnis, in dem Ergebnis wird dann geschaut, was ist denn mit dieser Phrase an Bildern in der Nähe verbunden, was haben wir denn da?
01:05:22
Speaker
Kommen da weitere Stillleben oder kommen dann da vielleicht auch schon irgendwelche Anzeigen?
01:05:28
Speaker
Anderen Bilder und das ist aber eben schon vorher registriert.
01:05:33
Speaker
Dadurch ist es auch so unwahrscheinlich schnell.
01:05:36
Speaker
Und diese Vorregistrierung, die sorgt eben auch dafür, dass wir völlig unabhängig sind von den Metadaten, die jetzt vielleicht das Museum hinterlegt hat.
01:05:46
Speaker
Also es ist im Grunde genommen eine ganz fremde Art und Weise, dann sich auf dieses Bild zu schauen, was dann auch die Möglichkeit schafft, alles Mögliche da einzugeben und dadurch auch relativ inklusiv zu sein, weil ich einfache Sprache eingeben kann, weil ich Dinge eingeben kann, die eben Kunsthistorikerinnen nie verschlagworten würden.
01:06:11
Speaker
Und trotzdem bekomme ich eben dann Bilder angezeigt und das stimmt dann auch in vielen Fällen.
01:06:22
Speaker
Oder würde aus kunsthistorischer, kategorischer Sicht erstmal nicht stimmen, aber eine gewisse Verbindung muss ja da sein, sonst wären ja diese Bilder nicht in diese Wolke, in dieses Fortfeld mit reingekommen.
01:06:34
Speaker
Irgendeinen Verknüpfungspunkt muss es ja da doch geben.
01:06:37
Speaker
Nein, also es ist ein statistisches Problem.
01:06:39
Speaker
Wenn ich
01:06:42
Speaker
... wirklich dort einen wunden Punkt gefunden habe, also einen Punkt, wo wirklich nicht viel da ist, weil das was ist, was es zum Beispiel im Netz und damit vielleicht in diesen Trainingsdaten nicht gibt oder sehr, sehr wenig gibt...
01:06:59
Speaker
dann wird das nächste Bild vielleicht etwas sehr anderes sein.
01:07:04
Speaker
Also auch hier gibt es Enttäuschung.
01:07:07
Speaker
Andererseits das Tolle auch wiederum von solchen Algorithmen ist, dass die eben auch nicht nur
01:07:15
Speaker
ein Bild heraus suchen können, wo das Gesuchte drin vorkommt, sondern auch das in dem Bild dann auch noch markieren können und damit auch anzeigen können, wie sie das Eingegebene verstanden haben.
01:07:33
Speaker
Also wir haben bei Clip auch so eine Heatmap-Map,
01:07:37
Speaker
Die zeigt dann bei jedem Bild an, kann man sich das zeigen lassen, was war hier ausschlaggebend, dann leuchtet es dort auf, woran es gelegen hat und auch mit diesem Test kann man dann sehr schnell sehen, ob das eingegebene Konzept verstanden worden ist oder ob der Computer sich an ganz anderen Dingen festgehalten hat, die er dafür gehalten hat.
01:08:00
Speaker
Also wenn man jetzt zum Beispiel irgendeine Körperhaltung gesucht hat, würde dann in den Suchergebnissen bei dieser Heatmap, also diesen auf dem gefundenen Bild aufgelagerten Farbflächen anzeigen, hier ist die ähnliche Pose, die ähnliche Körperhaltung, die ähnliche Armhaltung, das wäre dann irgendwie stark gelb oder stark rot und der Rest des Bildes würde dann so grün-blau erscheinen.
01:08:26
Speaker
Genau so ist es.
01:08:27
Speaker
Und dadurch, dass wir natürlich bei einem so aktuell trainierten Algorithmus auch viel mit Anachronismen zu tun haben, ist das zum Beispiel so, wenn ich dann nach einem Fahrrad suche und das Reichsmuseum hat wenig Fahrräder, erscheinen dann eben in dieser Heatmap große Wagenräder mit Speichen aufleuchtend, weil sie eben was Fahrradartiges in diesem Landschaftsbild oder so darstellen würden.
01:08:55
Speaker
Da bleibt zum Schluss eigentlich nur die Frage, welche Entwicklungen sind denn jetzt noch notwendig, um das umzusetzen?
01:09:03
Speaker
Ja, einerseits würde ich mir da wünschen, dass wir im Fach noch mehr darüber diskutieren und eben ausprobieren.
01:09:12
Speaker
Also Images.ai, und ich denke, iArt ist genauso gedacht, war vor allen Dingen auch ein Angebot an die Kunstgeschichte,
01:09:21
Speaker
sich mit diesen Sachen auseinanderzusetzen, zu evaluieren, was das kann, wie es funktioniert, wie es vielleicht auch für die eigene Forschung einsetzbar ist.
01:09:33
Speaker
Auch die Projekte, die jetzt schon eben mit Computer Vision arbeiten,
01:09:38
Speaker
sollten sich stärker vernetzen und sollten eben auch im Sinne der Nachhaltigkeit versuchen, mit Bilddatenbanken dann suchen zu entwickeln, die eben auf ihren Ergebnissen basieren.
01:09:52
Speaker
Und dann kommt auch den Digital Humanities eine große Aufgabe in dem Bereich zu, weil wir eben auch Stellen brauchen, die dann eben
01:10:02
Speaker
in den Bilderschiffen, solche Prototypen in was Verstetigstes umsetzen können.
01:10:10
Speaker
Und da ist die Herausforderung wirklich der Stellenmarkt.
01:10:14
Speaker
Und dadurch, dass es wahrscheinlich immer schwieriger wird oder schwierig bleibt,
01:10:20
Speaker
InformatikerInnen aus dem Bereich zu bekommen, kauf ich einfach auf die vielen neuen Digital Humanities Studiengänge und die wachsende Zahl an AbsolventInnen, also Leute, die eigentlich schon per se Interesse an kulturellem Erbe und Geschichte haben sollten, dass die auch
01:10:43
Speaker
ihren Platz da finden und in diesen Bereichen arbeiten werden.
01:10:48
Speaker
Das, denke ich, wäre sehr wichtig.
01:10:51
Speaker
Denn die Entwicklung, die geht eh voran.
01:10:55
Speaker
Also es ist jetzt nicht so, dass wir selbst unwahrscheinlich viel grandios neue Dinge entwickeln würden.
01:11:03
Speaker
Das kann in Zusammenarbeiten mit Leuten wie Björn Omer oder so passieren, dass da wirklich was originär Neues rauskommt.
01:11:12
Speaker
Wichtig scheint mir aber bei dieser unwahrscheinlich stark voranschreitenden Forschung überhaupt am Adaptieren, am Implementieren von Bestehendem dabei zu bleiben und dafür die Manpower und teilweise auch die Rechenpower im Bereich.
01:11:29
Speaker
durch GPUs und so weiter auch zu haben.
01:11:31
Speaker
Dann ist es jetzt an der Kunstgeschichte, diese Wege einzuschreiten und zu begleiten.
01:11:35
Speaker
Ja, danke dir, Peter, für den Einblick in dieses doch komplexe Feld und den Ausblick in das, was in der Zukunft möglich sein wird.
01:11:44
Speaker
Jetzt ärgere ich mich ein bisschen, dass es das noch nicht gab, als ich meine Doktorarbeit geschrieben habe.
01:11:49
Speaker
Das tue ich tatsächlich auch.
01:11:50
Speaker
Also ich habe ja auch in dem Jahr danach damit angefangen, als ich die Dissertation abgegeben habe.
01:11:56
Speaker
Aber umso mehr hoffe ich, dass andere dann profitieren können und wir selber ja auch noch eine ganze Weile.
01:12:02
Speaker
Und danke dir auch für deine Zeit und die Vorbereitung.
01:12:09
Speaker
Meine Vorbereitungszeit zu dieser Folge habe ich vor allem mit Herumspielen, mit diesen unterschiedlichen Prototypen A-Art und Images AI verbracht.
01:12:18
Speaker
Dabei habe ich immer wieder festgestellt, wie schnell ich in meinen Suchroutinen für eine Textsuche zurückgefallen bin.
01:12:25
Speaker
Mit der Zeit und einem bewussten Überwinden von anfänglichen Irritationen ob der seltsamen Ergebnisse kommt dann auch der Spaß.
01:12:34
Speaker
Und ich hoffe, dass viele Sammlungen diesen neuen Zugang zu ihren Objekten im Digitalen mit einbauen.
01:12:39
Speaker
Die Prototypen sind da und als Open-Source-Software von jedem nachnutzbar.
01:12:45
Speaker
Und wer jetzt neugierig geworden ist, findet in den Shownotes sowie im Blogbeitrag auf arthistoricum.net die Links für die Programme.
01:12:52
Speaker
Lasst uns in der Kunstgeschichte ein neues Suchen lernen.
01:12:55
Speaker
Welche Methoden und Suchroutinen sich hier ausbilden werden, liegt noch in der Zukunft.
01:13:00
Speaker
Jetzt heißt es erst mal ausprobieren, spielen, explorieren, inspirieren lassen, den glücklichen Zufall der Entdeckung heraufbeschwören.
01:13:08
Speaker
Heureka!
01:13:17
Speaker
Diese Folge wurde von Jacqueline Klusig-Eckert produziert im Auftrag des Arbeitskreises Digitale Kunstgeschichte.
01:13:23
Speaker
Unterstützt wird sie dabei von der Redaktion der Arbeitskreismitglieder Peter Bell, Lisa Diekmann, Peggy Große, Waltraud von Pippich und Holger Siemann.
01:13:33
Speaker
Finanziert wird AdHistocast, der Podcast zur digitalen Kunstgeschichte von NFDI for Culture, dem Konsortium in der nationalen Forschungsdateninfrastruktur, das sich mit Forschungsdaten zu materiellen und immateriellen Kulturgütern befasst.
01:13:47
Speaker
Unterstützt wird AdHistocast durch den Deutschen Verband für Kunstgeschichte.
01:13:53
Speaker
Du hast noch eine Frage oder Anregungen?
01:13:56
Speaker
Kontaktiere uns einfach unter podcast.digitale-kunstgeschichte.de