Become a Creator today!Start creating today - Share your story with the world!
Start for free
00:00:00
00:00:01
Folge 3: Vom Suchen und Finden – Information Retrieval image

Folge 3: Vom Suchen und Finden – Information Retrieval

S1 E3 · #arthistoCast – der Podcast zur Digitalen Kunstgeschichte
Avatar
638 Plays2 years ago

Wie oft sucht man etwas am Tag im Internet oder in Datenbanken? Auch wenn es da keine genauen Zahlen gibt, ist die Antwort auf jeden Fall: oft. Information Retrieval, also die Informationsrückgewinnung, sorgt dafür, dass wir die Informationen in großen, komplexen Datensammlungen überhaupt wiederfinden. Aber wie funktioniert das?

In dieser Folge spricht Jacqueline Klusik-Eckert mit Dr. Lisa Dieckmann und Dr. Jürgen Hermes über das interdisziplinäre Fachgebiet Information Retrieval. Ist es nicht ein Problem, dass wir in einer Bildwissenschaft wie der Kunstgeschichte mit Texten suchen? Und woher weiß ich, ob ich alles gefunden habe, was in der Datensammlung drin steckt?
Dr. Lisa Diekmann ist promovierte Kunsthistorikerin und Softwareentwicklerin und sorgt mit dem prometheus-Team dafür, dass wir nun schon seit 20 Jahren im prometheus-bildarchiv mit einer Suchanfrage in aktuell 121 Datensammunlungen suchen können. Dr. Jürgen Hermes ist Geschäftsführer des Instituts für Digital Humanities der Universität zu Köln und kennt sich mit sprachlicher Informationsverarbeitung und Suchmaschinen wie Google aus.

Gemeinsam möchten wir herausfinden, was hinter dem Suchfeld passiert, warum man manchmal enttäuscht von den Ergebnissen ist und wie Suchmaschinen bei der Suche helfen, ohne dass man es merkt. Wir stellen auch die Frage, was eigentlich Relevanz ist und wie den unterschiedlichen Erwartungshaltungen von Benutzer*innen entgegenkommt.

Begleitmaterial zu den Folgen findest du auf der Homepage unter https://www.arthistoricum.net/themen/podcasts/arthistocast

Alle Folgen des Podcasts werden bei heidICON mit Metadaten und persistentem Identifier gespeichert. Die Folgen haben die Creative-Commons-Lizenz CC BY 4.0 und können heruntergeladen werden. Du findest sie unter

https://doi.org/10.11588/heidicon/1747388

Recommended
Transcript

Warum suchen Menschen so oft nach Informationen?

00:00:16
Speaker
Wie oft suchst du etwas am Tag?
00:00:18
Speaker
Ich meine jetzt nicht die Haustürschlüssel oder das Handy.
00:00:22
Speaker
Wie oft sucht man im Alltag etwas in einer Datenbank?
00:00:26
Speaker
Bei Google oder bei Wikipedia?
00:00:28
Speaker
Ich habe da jetzt keine genauen Zahlen, aber die Antwort ist oft.
00:00:34
Speaker
Forschen hat auch viel mit Suchen zu tun.
00:00:36
Speaker
Mal schnell einen Begriff nachschlagen, die Jahreszahlen überprüfen, die man im Kopf hatte, eine Person suchen, nach Literatur oder Bilder recherchieren.
00:00:46
Speaker
Das alles gehört zu unserem kunsthistorischen, wissenschaftlichen Alltag.
00:00:51
Speaker
Da möchte man doch meinen, dass wir in diesen unzähligen Datenbanken uns bestens auskennen.
00:00:57
Speaker
Dass wir überhaupt etwas im Internet oder in einer Datenbank finden, ist nicht selbstverständlich.
00:01:03
Speaker
Und das, was hinter diesem kleinen weißen Suchfeld passiert, ist keine Zauberei.

Methoden der Informationsbeschaffung

00:01:10
Speaker
Dahinter steckt Information Retrieval, also die Informationsrückgewinnung.
00:01:15
Speaker
Das ist ein Fachgebiet, in dem Methoden und Techniken aus der Informationswissenschaft, Informatik und der Computerlinguistik zusammenkommen, um das Suchen nach komplexen Inhalten zu ermöglichen.
00:01:28
Speaker
Es geht um das Wiederauffinden von Informationen aus großen Mengen von gespeicherten Daten und Dokumenten mittels einer Suchanfrage, auch Query genannt.
00:01:38
Speaker
Dabei geht es nicht nur darum, etwas wieder aufzufinden und aufzulisten, sondern möglichst effizient große Datenbanken wie zum Beispiel Bibliothekskataloge, Online-Ressourcen oder das Prometheus-Bildarchiv zu durchforsten.

Warum sind Suchergebnisse oft enttäuschend?

00:01:54
Speaker
Ich möchte heute herausfinden, was hinter dem Suchfeld passiert, warum ich manchmal enttäuscht von den Ergebnissen bin und wie Suchmaschinen mir bei der Suche auch helfen, ohne dass ich es merke.

Vorstellung von Dr. Jürgen Hermes und Dr. Lisa Diekmann

00:02:12
Speaker
Weil das Information Retrieval sich aus unterschiedlichen Fächern bedient, habe ich mir heute zwei WissenschaftlerInnen zu Gast eingeladen.
00:02:20
Speaker
Dr. Jürgen Hermes ist Geschäftsführer des Instituts für Digital Humanities der Universität zu Köln und kennt sich mit sprachlicher Informationsverarbeitung und Suchmaschinen wie Google aus.
00:02:31
Speaker
Dr. Lisa Diekmann ist promovierte Kunsthistorikerin und Softwareentwicklerin und sorgt dafür, dass wir nun schon seit 20 Jahren im Prometheus-Bildarchiv mit einer Suchfrage in über 100 unterschiedlichen Datensammlungen etwas finden können.

Nutzerbedürfnisse im Prometheus Bildarchiv

00:02:46
Speaker
Gerade sind in Prometheus über drei Millionen Bilder eingespielt.
00:02:49
Speaker
Wie finde ich da die Nadel im Heuhaufen?
00:02:51
Speaker
Ja, erstmal würde ich, glaube ich, gar nicht unbedingt von der
00:02:55
Speaker
Nadel im Heuhaufen sprechen, ehrlich gesagt, weil wir ja einen großen Vorteil haben bei Prometheus.
00:03:01
Speaker
Denn wir haben ja quasi das Wissen über das Informationsbedürfnis der NutzerInnen, was Google ja jetzt erstmal so nicht hat.
00:03:10
Speaker
Wir wissen ja in den meisten Fällen, dass die NutzerInnen nach Kunstwerken, nach kulturellen Objekten suchen, nach KünstlerInnen, nach Standorten, nach bestimmten Themen.

Effiziente Suche durch Indizes

00:03:22
Speaker
Und dann findet man das hoffentlich auch.
00:03:25
Speaker
Jetzt ist es aber so, dass für uns aus BenutzerInnen-Perspektive ein schönes Interface dazwischen liegt, also die Oberfläche, in der wir suchen, der kleine Suchschlitz, den wir alle kennen.
00:03:37
Speaker
Was liegt denn da eigentlich dahinter?
00:03:40
Speaker
Ja, vielleicht kann ich allgemeiner antworten.
00:03:43
Speaker
Also tatsächlich ist Lisa für Prometheus die Spezialistin.
00:03:47
Speaker
Aber wenn man Suchmaschinen oder Information Retrieval im Allgemeinen betrachtet, dann hat man tatsächlich ja auf der Oberfläche eben diesen Suchschlitz, wo man Suchanfragen oder Queries reinschreiben kann.
00:04:01
Speaker
Und man kriegt dann Ergebnisse dazu.
00:04:03
Speaker
Und was im Inneren der Suchmaschine passiert, basiert zum großen Teil oder das zentrale Element da drin ist ein Index.
00:04:13
Speaker
Und in diesem Index ist kodiert, was sich wo findet.
00:04:17
Speaker
Ja, das heißt, man hat eine Menge von, normalerweise sagt man Dokumente, wo Informationen gespeichert sind, die man halt eben dann auch zurückliefert über die Suchmaschine.
00:04:29
Speaker
Und in diesen Dokumenten, die haben eben einen Inhalt.
00:04:34
Speaker
Und der Index zeigt jetzt halt, beziehungsweise im Index ist gespeichert, welcher Inhalt sich in welchen Dokumenten findet.
00:04:42
Speaker
Und der ist normalerweise, also wenn wir von einem Index sprechen, dann stellt man sich das ja so vor, dass halt eben jedes Dokument quasi so eine alphabetische oder wie auch immer sortierte Liste enthält von den Sachen, die drin sind.

Wie werden Suchbegriffe verarbeitet?

00:04:55
Speaker
Eine Suchmaschine hat jetzt einen invertierten Index.
00:04:57
Speaker
Das heißt, da sind die Sachen...
00:05:00
Speaker
Die, die sich in den Dokumenten finden, sind eben indexiert und haben eine Reihe von Dokumenten, in denen sie sich finden.
00:05:09
Speaker
Wenn man einen bestimmten, das nennt man Term, sucht, dann wird in dem Index geguckt, in einem invertierten Index geguckt, in welchen Dokumenten findet sich der Term und man kriegt halt eben diese Dokumentliste zurück.
00:05:24
Speaker
Das hat halt eben den Vorteil, dass man die einzelnen Suchthermen, also die einzelnen Dinge, nach denen man sucht, auch verknüpfen kann mit sogenannten bullschen Operatoren, wie und oder oder und dann einfach eine Schnittmenge bzw.
00:05:37
Speaker
eine Vereinigungsmenge von diesen Dokumenten zurückgibt.
00:05:41
Speaker
Bevor wir zum Verknüpfen kommen, habe ich nochmal eine Frage zum Verständnis.
00:05:45
Speaker
Mein Wort, das schreibe ich also da rein, das ist der Term.
00:05:49
Speaker
Und dieser Term rennt jetzt durch den Index durch und prüft, wo er drin vorkommt.
00:05:54
Speaker
Und alle Elemente, in denen er sich wiederfindet, werden mir dann als Suchergebnisse angezeigt.
00:05:59
Speaker
Also wie so kleine Schächtelchen, da liegen die ganzen Inhalte sortiert und indexiert.
00:06:05
Speaker
Und der Term rennt da durch und sagt, aha, du bist mir doch ähnlich, du siehst genauso aus wie ich, komm mal mit, wir machen das Suchergebnis.
00:06:12
Speaker
Kann ich mir das so vereinfacht vorstellen?
00:06:15
Speaker
Ja, also das ist quasi ein weiterer Schritt, den die Suchmaschine macht, auf den du jetzt ansprichst, dass halt die Suchanfragen vorverarbeitet werden.
00:06:26
Speaker
Also man gibt halt eben eine Suchanfrage ein und dann wird halt eben mit dieser Suchanfrage was Bestimmtes gemacht, zum Beispiel halt eben in einzelne Wörter oder Terme zerlegt, wobei Terme nicht unbedingt Wörtern entsprechen müssen, sondern...

Nutzen von Filtern in Suchmaschinen

00:06:41
Speaker
Terme vielleicht noch vereinfacht werden.
00:06:44
Speaker
Eventuell ist halt eben gar nicht die Groß- und Kleinschreibung relevant.
00:06:47
Speaker
Das heißt halt eben die Suchanfrage, die ich eingebe, wird zum Beispiel halt eben in Kleinschreibungen dann umgewandelt, um halt eben alle Dokumente zu finden, in denen es groß oder klein geschrieben ist, dieser Term.
00:07:00
Speaker
Das heißt, nachdem ich etwas eingegeben habe, gibt es gewisse Verfahren, die aus meinem eingegebenen Wort einen Term machen, das Umwandeln, irgendwas damit rumbasteln und damit klappt dann das Finden schneller?
00:07:14
Speaker
Genau, ich glaube, wir haben uns schon so sehr daran gewöhnt, einfach in Kleinschreibungen einzugeben, dass aber ein großes L nicht gleich ein kleines L ist.
00:07:26
Speaker
Da müssen ja eben Filter angewendet werden im Hintergrund sozusagen,
00:07:30
Speaker
die das erstmal machen, dass man eben nach einem, also dass man quasi diesen Lowercase-Filter anwendet im Hintergrund, damit man eben sowohl Klein- als auch Großbuchstaben finden

Auswirkungen von Filtern auf Präzision und Recall

00:07:42
Speaker
kann.
00:07:42
Speaker
Und dann gibt es noch viele weitere Filter, die eben im Hintergrund dafür sorgen, dass ich mit meiner Suchanfrage eben nicht ganz so spezifisch sein muss, wie zum Beispiel der Umlautfilter oder so, der dann auch diakritische Zeichen normalisiert, sowas.
00:07:59
Speaker
Jetzt erklärt sich für mich auch, dass ich manchmal Dinge finde, obwohl ich mich komplett verschrieben habe.
00:08:04
Speaker
Aber jetzt noch Butter bei die Fische.
00:08:06
Speaker
Jetzt habe ich euch beiden als SpezialistInnen da.
00:08:09
Speaker
Was passiert denn hinter diesem Suchschlitz genau?
00:08:11
Speaker
Also welche Filter können bei Suchmaschinen im Einsatz sein?
00:08:15
Speaker
Und wie wird meine Zeichenkette eigentlich verändert, bevor es ans Suchen geht?
00:08:18
Speaker
Also was passiert mit meinem Term?
00:08:21
Speaker
Und wieso finde ich manchmal Dinge, die ich nicht gesucht habe?
00:08:26
Speaker
Theoretisch kann man, man gibt ja eine Zeichenkette ein und der Rechner kann natürlich alles mit dieser Zeichenkette machen.
00:08:33
Speaker
Das heißt, man kann sich jeden Filter, den man sich ausdenken kann, kann man auch in eine Suchmaschine implementieren.
00:08:39
Speaker
Normalerweise wird halt tatsächlich sowas gemacht, wie eben die Großbuchstaben auf Kleinbuchstaben zurückgeführt werden.
00:08:48
Speaker
Was auch oft gemacht wird, ist, dass Wörter auf ihre Stammformen zurückgeführt werden, dass man halt eben nicht nur, wenn man Hund sucht, zum Beispiel, also irgendwas, wo ein Hund drin vorkommt, dass man halt eben auch Dokumente zurückbekommt oder Suchergebnisse zurückbekommt, wo Hunde suchen.
00:09:08
Speaker
drinstehen, aber nicht der Hund selbst.
00:09:10
Speaker
Es wird halt eben dann tatsächlich auf die Stammform zurückgeführt.
00:09:13
Speaker
Das muss man dann natürlich halt eben in der Suchanfrage als auch im Index machen.
00:09:17
Speaker
Ansonsten findet man die Dinge nicht mehr.
00:09:21
Speaker
Was du auch richtig gesagt hast, ist, dass teilweise Schreibfehler korrigiert werden.
00:09:25
Speaker
Dass dahinter halt eben eine Art von Rechtschreibprüfung läuft, die dann bei besonders wild aussehenden Suchanfragen halt eben versucht, das auf Begriffe zurückzuführen, die die Suchmaschine auch kennt.

Balance zwischen Präzision und Recall

00:09:38
Speaker
Und damit halt eben Rechtschreibkorrektur macht.
00:09:40
Speaker
Das kennen wir auch aus anderen Programmen, eben aus Textverarbeitung oder aus Autovervollständigung, wenn ich Kurznachrichten auf dem Handy schreibe und so weiter.
00:09:53
Speaker
Und was natürlich halt eben auch gemacht werden muss, ist, dass halt Suchterme, die ich tatsächlich suche, unterschieden werden von Operatoren.
00:10:01
Speaker
Also wenn ich halt eben Metainformationen drin habe, wenn ich zum Beispiel, wie ich gerade eben schon gesagt habe, mit Bullschen Operatoren meine Suchergebnisse verknüpfe, weil ich Hund und Katze suche oder Hund oder Katze suche, dann muss halt eben dieses Und und Oder nicht im Index gefunden werden, sondern muss halt eben interpretiert werden als dieser Bullsche Operator.
00:10:22
Speaker
Es gibt ja auch Filter oder Verfahren, die integriert werden, die wir bei Prometheus zum Beispiel gar nicht anwenden, wie zum Beispiel der phonetische Tokenfilter, der zum Beispiel Namen, Schreibweisen korrigiert, also Maya mit Y, Maya mit I oder so.
00:10:39
Speaker
Und da wir aber so spezifische KünstlerInnen-Namen haben, haben wir diesen Filter zum Beispiel nicht eingebaut, genauso wenig wie so Stoppwortlisten, dass man eben Artikel oder so, also das oder ein oder so,
00:10:52
Speaker
gar nicht berücksichtigt bei der Suche.
00:10:54
Speaker
Das ist in unserem Fall aber teilweise wichtig, wenn wir uns irgendwie der Schrei oder so angucken.
00:11:01
Speaker
Da ist das der entscheidend als Titelwort.

Nutzerverhalten und Suchmaschinenstandards

00:11:05
Speaker
Und deswegen haben wir keine solche Stoppwortliste integriert.
00:11:09
Speaker
Also das heißt, dass die Verfahren, die dahinter stehen, nicht immer zu einem besseren Suchergebnis führen?
00:11:14
Speaker
Ganz genau, ja.
00:11:15
Speaker
Oder beziehungsweise, also wenn wir uns mal vielleicht die beiden Messgrößen angucken für
00:11:20
Speaker
Information Retrieval Systeme, also Precision und Recall, muss ich immer ausbalancieren zwischen diesen beiden.
00:11:26
Speaker
Also will ich möglichst präzise suchen, dann darf ich keine Filter einbauen, weil ich dann natürlich durchaus weitere oder mehrere Suchbegriffe bekomme.
00:11:40
Speaker
Also das Ziel ist, bei der Entwicklung einer Suche genau diese Suchmodalitäten so zu entwickeln, dass man am Ende nicht zu viele und nicht zu wenige Ergebnisse bekommt.
00:11:49
Speaker
Ist es das, was du mit dem Verhältnis von Precision und Recall, also der Genauigkeit und der Trefferquote meinst?
00:11:56
Speaker
Genau, denn irgendwie muss ja eine gewisse Unschärfe bei der Suche sein, weil sonst ist der Recall eben zu schlecht.
00:12:03
Speaker
Also wenn ich mir einfach mal das Beispiel angucke, Raphael, den gibt es in
00:12:10
Speaker
Ja, sage ich mal drei verschiedenen Schreibweisen, vielleicht noch mehr, aber ich nehme mal die drei gängigen, Raffaello, die italienische Schreibweise, Raphael mit PH die englische und unsere deutsche.
00:12:20
Speaker
Wenn wir die Daten nicht anreichern würden mit weiteren Varianten des Namens, des Künstlernamens, dann würden wir nur einen Teil der relevanten Dokumente finden.
00:12:34
Speaker
Oh, das kenne ich nur zu gut.
00:12:36
Speaker
Und es macht mich manchmal total verrückt.
00:12:38
Speaker
Bei der Recherche habe ich mir zum Beispiel angewöhnt, am Anfang immer so ein paar Testfragen zu machen, um herauszufinden, wie die Suche in einer Datenbank funktioniert.
00:12:46
Speaker
Ich frage dann in unterschiedlichen Schreibweisen den Namen ab.
00:12:49
Speaker
Also mal Bartholomeus mit Ä, mal mit EU geschrieben oder auch den Titel in unterschiedlichen Sprachen, mal Auferstehung, dann Resurrection.
00:12:58
Speaker
Diese Kontrollfragen helfen mir dann zum Beispiel zu verstehen, welche Mechanismen und Filter hinter diesem Suchschlitz eingebaut sind.
00:13:06
Speaker
Genau, das führt aber eben auch dazu, dass die Precision darunter leiden kann.
00:13:10
Speaker
Wenn jetzt zum Beispiel Peter Cornelius, der hat quasi eine Variante seines Namens, ist eben Raphael.
00:13:19
Speaker
Und wenn das dann auch mitindexiert wird, dann findet natürlich meine Suche nach Raphael auch Datensätze von Peter Cornelius.
00:13:29
Speaker
Das heißt, mein Recall ist in Bezug auf Raphael viel besser, weil ich eben alle verschiedenen Schreibweisen finde, aber gleichzeitig leidet die Precision darunter, weil ich auch Datensätze finde, möglicherweise, die ich gar nicht suchen wollte.
00:13:41
Speaker
Jede Entscheidung für oder gegen einen Filter oder Operatoren hat Auswirkungen auf das Verhältnis von Precision und Recall.
00:13:49
Speaker
Das sind ja wichtige Vorüberlegungen, die Auswirkungen auf den Umgang mit den Daten haben.
00:13:56
Speaker
Das bedeutet ja auch im Umkehrschluss, dass man das Suchverhalten der NutzerInnen recht gut kennen muss.
00:14:03
Speaker
Was wird gesucht, wie wird gesucht, wird mehrsprachig gesucht und wenn ja, in welchen Sprachen?

Einfluss von Google auf die Suchergebnisse

00:14:09
Speaker
Das hängt ja da auch von der Beschaffenheit der Daten ab.
00:14:12
Speaker
Es können natürlich nur Informationen gefunden werden, wenn sie auch in den Daten abgelegt sind.
00:14:17
Speaker
Kann man trotzdem sagen, dass es gewisse Standards für Suchmaschinen gibt?
00:14:21
Speaker
Oder andersherum gefragt, hat sich für wissenschaftliche Datenbanken oder Repositorien ein Minimalanspruch herauskristallisiert?
00:14:30
Speaker
Manchmal liest man ja auch in den Beschreibungen von Datenbanken, dass Elasticsearch verwendet wird zum Beispiel.
00:14:36
Speaker
Oder macht man zuerst eine Zielgruppenanalyse?
00:14:39
Speaker
Ja, ich glaube, da läuft auch so ein bisschen voran, was Nutzer und Nutzerinnen halt kennen.
00:14:46
Speaker
Und die kennen natürlich halt eben die Suchmaschinen aus dem Internet und die wissen inzwischen, wie die funktionieren.
00:14:51
Speaker
Die gab es ja quasi seit Entstehung des Internets, brauchte man halt irgendwie eine Maschinerie, um die Dinge zu finden in diesem riesigen verzweigten Netz, die einen interessieren.
00:15:05
Speaker
Und das heißt, da setzen natürlich solche Suchmaschinen dann auch ein bisschen Standards, weil Nutzer und Nutzerinnen kennen die schon vorher und kommen dann halt eben auf spezifische Suchmaschinen, wie halt zum Beispiel Prometheus.
00:15:18
Speaker
Weil du nach Elasticsearch gefragt hast, das ist ja quasi nur eine Open-Source-Software, die man verwenden kann, um eine Suchmaschine zu bauen.
00:15:27
Speaker
Also es ist halt eben eine Software, die man einsetzen kann, die halt eben sehr gut skaliert, die sehr schnell ist, die auf verschiedene Server verteilbar ist und so und vor allem, wenn man halt eben viel und große Datenmengen hat, dann bietet die
00:15:41
Speaker
halt eine sehr effiziente Methode, da eine Suchmaschine inklusive Indexierung und so weiter darauf aufzusetzen.
00:15:49
Speaker
Da gibt es aber auch Konkurrenzprodukte, wo Elasticsearch ist halt eben Open-Source und es wird beständig weiterentwickelt.
00:15:58
Speaker
Manchmal sieht man ja auch beim Suchen innerhalb einer Homepage oder Datenbank, dass die Google-Suche in die Homepage eingebaut ist.
00:16:06
Speaker
Ist es dann auch okay?
00:16:08
Speaker
Läuft das unter dem Motto, ja, kann man machen, das kennen die Leute, die kennen sich damit eh aus?
00:16:13
Speaker
Oder gibt es auch Probleme mit der Verwendung des Suchmaschinen-Riesen?
00:16:17
Speaker
Die kann es halt auch.
00:16:20
Speaker
Die Uni Köln jetzt zum Beispiel lässt auf ihrer Seite auch auf die internen auch die Google-Suche laufen.
00:16:28
Speaker
da weiß man halt, dass man eben von einem großen Marktteilnehmer bedient wird.
00:16:36
Speaker
Und das meiste, also wie gesagt, was man kennt, das nutzt man ja auch gerne.
00:16:41
Speaker
Das ist halt eben auch so meine Erfahrung in der Wissenschaft.
00:16:45
Speaker
Wir machen ja Digital Humanities und machen halt immer wieder Tools für GeisteswissenschaftlerInnen.
00:16:53
Speaker
Ist...
00:16:54
Speaker
Es ist halt schwer, Neues zu etablieren, weil sich die Leute darauf einlassen müssen.
00:16:58
Speaker
Deswegen muss man die tatsächlich am besten immer an der Hand nehmen, was sie halt eben schon kennen und das irgendwie weiter ausbauen.
00:17:06
Speaker
Genau, und ich denke, dass Google zum Beispiel auch andere Relevanzkriterien zugrunde legt.
00:17:13
Speaker
Also jetzt zum Beispiel Prometheus, das ist ja völlig klar auch.
00:17:16
Speaker
Und da geht es dann, also ich weiß gar nicht, ob die so offengelegt sind, diese Kriterien.
00:17:21
Speaker
Vielleicht kann Jürgen

Wie wird Relevanz in Suchergebnissen bestimmt?

00:17:22
Speaker
dazu mehr sagen, aber
00:17:23
Speaker
Man weiß ja zumindest, dass Aktualität der Themen, Standorte, persönliche Einstellungen, Links, die auf die Seiten verweisen und so weiter und wissenschaftliche Seiten oder so höher gerankt werden.
00:17:35
Speaker
Ja, und bezahlte Positionierung.
00:17:37
Speaker
Also das Ranking des Suchalgorithmus ist ja dann auch möglich.
00:17:40
Speaker
Mir ist es letztens aufgefallen bei der Suche nach einem Kunstwerk in einem kleinen verschlafenen Nest in Südböhm.
00:17:46
Speaker
Ich habe die ersten zwei Google-Seiten erstmal durchgeklickt.
00:17:49
Speaker
Die waren nämlich voll mit Reiseempfehlungen und Hotels, bis ich dann erst auf der dritten Seite das historische Gebäude gefunden hatte, nachdem ich eigentlich gesucht hatte.
00:17:57
Speaker
Also so relevant sind dann die Ergebnisse auch gar nicht mehr.
00:18:01
Speaker
Ja, es kommt natürlich darauf an, also wie Google beziehungsweise halt eben die Maschinerie dahinter das als relevant einstuft.
00:18:10
Speaker
Weil dieser das ja kurz aufgeworfen hat, was da genau hinter steht, also was im Groben dahinter steht, weiß man, wie der Ranking-Algorithmus im Genauen funktioniert, das weiß man nicht.
00:18:24
Speaker
Das liegt halt eben auch daran, dass das natürlich auch ausgenutzt wird.
00:18:28
Speaker
Also wie du gerade eben gesagt hast, auch
00:18:31
Speaker
Jacqueline, dass man halt eben die quasi bezahlte Angebote beziehungsweise halt eben Werbungsangebote da die ersten paar Seiten verstopfen.
00:18:40
Speaker
Es liegt halt eben auch daran, dass halt die Leute, die die Seiten erstellt haben, halt wussten, wie man besonders hoch in Google gerankt wird.
00:18:47
Speaker
Das ist halt eben so ein Katz-und-Maus-Spiel.
00:18:49
Speaker
Google dreht irgendwie was am Algorithmus, um halt eben die tatsächlichen werbefreien Informationen nach oben zu kriegen und dann
00:18:59
Speaker
Auf der anderen Seite macht halt eben die Werbeindustrie bzw.
00:19:02
Speaker
die SEO-Industrie genau das Gegenteil und versucht halt eben da wieder gegen anzukommen und halt eben die eigenen Inhalte oder die eigenen Mechanismen da halt eben höher einzuspielen.
00:19:13
Speaker
Also es gibt, wenn wir den kleinen Exkurs machen wollen, was alles hinter dem Ranking-Algorithmus steht, ist am historisch ältesten der Ansatz, dass man halt die Relevanz von Suchtermen für bestimmte Dokumente, die man zurückliefert, ermittelt.
00:19:31
Speaker
Man schaut halt eben, wie oft kommt Term X in Dokument Y und in Dokument Z vor.
00:19:37
Speaker
Und wenn es in Dokument Y häufiger vorkommt, dann ist das halt eben wichtiger als Dokument Z.
00:19:42
Speaker
Oder dass man halt eben schaut, ob es in bestimmten, ob es in Überschriften vorkommt oder in Metadatenfeldern und so weiter.
00:19:51
Speaker
Das wird dann halt eben auch höher gerankt.
00:19:54
Speaker
Oder dass halt eben geschaut wird, wie wichtig ist die relative Anwendung.
00:19:59
Speaker
Häufigkeit.
00:20:00
Speaker
Das ist der sogenannte TF-IDF-Wert, Term Frequency, Inverse Document Frequency, also das Produkt daraus.
00:20:08
Speaker
Je öfter ein bestimmter Term in einem Dokument vorkommt, aber je weniger oft er in anderen Dokumenten vorkommt, desto sprechender erscheint er für das entsprechende Dokument zu sein.
00:20:20
Speaker
Genau, und ein Suchbegriff zum Beispiel, der im Titel vorkommt, der hat eben auch mehr Gewicht als ein Suchbegriff in einer langen Beschreibung.
00:20:28
Speaker
Aber da sprechen wir ja was total Spannendes an, worüber wir wirklich diskutieren müssen.
00:20:33
Speaker
Was ist denn eigentlich Relevanz?
00:20:35
Speaker
Jürgen, was du jetzt aufgezählt hast, ist eine Relevanz, die sich metrisch bestimmen lässt.
00:20:40
Speaker
Was kommt wie häufig vor?
00:20:42
Speaker
Und Lisa, du machst jetzt eine neue Dimension auf, wenn du sagst, Relevanz kann auch gewichtet werden.
00:20:48
Speaker
Nennungen im Titel, in der Literaturangabe gehen mehr ins Gewicht als ein Auffinden des Terms im Fließtext.
00:20:55
Speaker
Naja, das ist ja erstmal nur eine Annahme.
00:20:58
Speaker
Ich nehme an, dass der Datensatz relevanter

Subjektive vs. objektive Relevanz

00:21:02
Speaker
ist, wo das Titelwort oder wo der Suchbegriff eben im Titel enthalten ist, als ein anderer Datensatz, wo das Wort, was man eingegeben hat, eben in den Beschreibungstext vorkommt.
00:21:14
Speaker
Das nehme ich ja erstmal nur an.
00:21:16
Speaker
Und ich muss ja irgendwelche Gewichtungen zugrunde legen, um zu ranken.
00:21:20
Speaker
Das ist für den Nutzer, die Nutzerin ja ganz wichtig.
00:21:22
Speaker
Bei Prometheus zum Beispiel ranken wir auch nach Bildqualität.
00:21:26
Speaker
Wenn die NutzerInnen eben die Bildqualität bewertet haben von den Bildern, wird das mit hinzugezogen, damit die Bilder mit der besseren Qualität eben höher gerankt werden.
00:21:37
Speaker
Ja, und jetzt komme ich noch mit meiner Suchanfrage und habe ganz andere Dinge als relevant im Kopf.
00:21:42
Speaker
Das passt dann oft gar nicht zu der Gewichtung, die die Suchmaschine mir als Ergebnisse vorgibt.
00:21:47
Speaker
Genau, deswegen gibt es eine subjektive Relevanz und eine objektive Relevanz.
00:21:52
Speaker
Für die Suchmaschine sind die Treffer schon relevant, auch wenn du denkst, das ist ja hier nur Mist, was mir zurückgeliefert wird.
00:22:00
Speaker
Aber die Suchmaschine hat eben Kriterien, nach denen sie dann eben rankt.
00:22:04
Speaker
Und wenn ich...
00:22:05
Speaker
da noch ganz kurz das eine Beispiel bringen kann.
00:22:08
Speaker
Und zwar, wenn ich nach der Kathedrale in Worms suche und mir werden Datensätze mit Würmern zurückgegeben, dann habe ich die wahrscheinlich nicht gesucht oder die erscheinen mir nicht relevant, aber für die Suchmaschine sind sie eben deswegen relevant, weil wir eben ein englisches Wörterbuch integriert haben und die Terme quasi anreichern mit den englischen Suchtermen.
00:22:34
Speaker
Das ist halt eine sehr wichtige Frage nach der Relevanz beziehungsweise halt eben nach der Unterscheidung, was hält jetzt der Nutzer oder die Nutzerin für relevant und was hält die Suchmaschine für relevant.

Vertrauenswürdigkeit in Googles PageRank

00:22:44
Speaker
Das muss halt irgendwie zusammengebracht werden.
00:22:47
Speaker
Und wichtig dabei ist halt, das muss alles irgendwie, du hast jetzt gesagt, das kann man irgendwie messen oder berechnen.
00:22:54
Speaker
Das muss natürlich alles irgendwie gemessen oder berechnet werden können.
00:22:57
Speaker
Aber wir halt eben hier mit Computern arbeiten und diese Computer müssen,
00:23:03
Speaker
halt irgendwie operationalisieren, Relevanz operationalisieren, nenne ich das jetzt mal.
00:23:08
Speaker
Das war halt eben nur der erste Ansatz, dieses halt eben zu schauen, wie verhält sich der Term in den bestimmten Dokumenten oder was Nisa gesagt hat, wie verhält er sich im Dokument selbst, in den Überschriften, in den Metadaten und so weiter.
00:23:25
Speaker
Was zweites, womit halt eben Google auch in den letzten 25 Jahren halt sehr reich geworden ist oder sehr mächtig geworden ist, ist, dass sie ein weiteres Kriterium mit einbezogen haben, nämlich wie vertrauenswürdig oder maßgeblich oder kompetent sind die Dokumente, die ich finde.
00:23:43
Speaker
Die finde ich halt eben auf bestimmten Webseiten.
00:23:45
Speaker
Webseiten sind verlinkt und Google
00:23:49
Speaker
Das war eben das Geschäftsmodell, was wir vor 25 Jahren aufgesetzt haben.
00:23:53
Speaker
Google nimmt halt eben diese Verlinkung als Relevanzkriterium für Dokumente.
00:23:59
Speaker
Das heißt, je mehr externe Links auf meine Webseite oder auf eine bestimmte Webseite, auf ein bestimmtes Dokument gehen und je vertrauenswürdiger die wiederum sind, desto vertrauenswürdiger wird halt eben mein Dokument auf meiner Webseite.
00:24:14
Speaker
Das ist halt eben damals der PageRank-Algorithmus, der auch immer noch halt einen großen Teil ausmacht in diesen Relevanzkriterien und hat Google halt eben zu dem gemacht, was es heute ist.
00:24:29
Speaker
Aber die Entwicklung ist natürlich auch nicht stehen geblieben, sondern jetzt wird natürlich auch versucht,
00:24:34
Speaker
besser zu erraten, was Nutzer beziehungsweise Nutzerinnen halt tatsächlich wollen.

Können Sprachmodelle die Suche verbessern?

00:24:39
Speaker
Da sind wir halt eben bei den sogenannten Sprachmodellen, wo halt eben versucht wird, über einen relativ kurzen Prompt oder eine Sucheingabe versucht wird zu erraten,
00:24:50
Speaker
Was will denn Nutzer oder Nutzerin jetzt wirklich?
00:24:54
Speaker
Und das ist natürlich auch schon seit längerem in die Google-Suche eingebaut.
00:24:59
Speaker
Das finden wir jetzt aber halt eben noch sehr viel mehr in den gerade sehr heiß besprochenen Chat-Systemen.
00:25:06
Speaker
KI-Programm, also Chat-GPT beziehungsweise Bing-Suche oder Google wird demnächst mit oder ist schon teilweise mit Bart rausgekommen.
00:25:16
Speaker
Das wird auch so wahrscheinlich die nächste, also sobald man das heute beurteilen kann, die nächste Stufe der Suchmaschinen wird.
00:25:24
Speaker
Das ist dann halt, da muss ich mir ja gar nicht mehr so viel Gedanken darüber machen, wie suche ich denn jetzt am besten, sondern ich formuliere halt einfach freisprachlich, ich will jetzt das und das, liefer mir das bitte.
00:25:36
Speaker
Ja genau, weil im Moment ist es ja oft so, dass jeder seine eigenen Suchmechanismen hat oder so gewisse Suchstrategien, die man sich im Laufe der Zeit erarbeitet hat.
00:25:46
Speaker
Ich suche ja auf Google auch ganz anders als in den Museumsdatenbanken, vor allem wenn ich die ganz gut kenne.
00:25:51
Speaker
Ich habe ja vorhin schon so meine Suchstrategien erklärt.
00:25:55
Speaker
Jetzt muss ich aber auch mal ehrlich sein.
00:25:57
Speaker
Diese Expertensuche, also das Spezifizieren meiner Suchanfrage, verwende ich wirklich selten.
00:26:03
Speaker
Ich versuche beim Suchen eher möglichst viele Treffer zu generieren, also einen höheren Recall zu bekommen.
00:26:09
Speaker
Das mache ich vor allem dann, wenn ich nicht genau weiß, was ich suche oder wenn ich auch die Datensammlung noch nicht gut kenne, also nicht weiß, was da drin steckt.
00:26:18
Speaker
Ich will mir also erstmal einen Überblick verschaffen.
00:26:20
Speaker
In der Kunstgeschichte geht es ja auch oft um Vergleichswerke oder man hat mal was gesehen, weiß nicht genau, von wem das ist oder wo das nochmal war.
00:26:29
Speaker
Die Genauigkeit der Ergebnisse, die Precision und die Relevanz der Ergebnisse vernachlässige ich oft und klicke mich dann durch die Suchergebnisse.
00:26:38
Speaker
Das ist vom Zeitmanagement her eine ziemlich schlechte Suchstrategie.

Einsatz von Suchstrategien und Sprachmodellen

00:26:43
Speaker
Kann man denn suchen lernen oder besser suchen, wenn man nicht genau weiß, was man suchen kann?
00:26:49
Speaker
Aber ich glaube, das ist in deinem Fall die genau richtige Suchstrategie.
00:26:52
Speaker
Wenn du noch gar nicht genau weißt, was du suchst, eher breiter zu suchen und dann dich durchzuklicken, ist in deinem Fall, glaube ich, dann genau richtig.
00:27:01
Speaker
Wenn du präziser suchen möchtest, dann würdest du es ja tun.
00:27:06
Speaker
Kann es sein, dass die von Sprachmodellen unterstützten Suchen, also Stichwort ChatGPT oder Bert, das Suchen erleichtern und zu besseren Ergebnissen führen?
00:27:16
Speaker
Also ich könnte ja da einen ganzen Satz eingeben und das mit Bedingungen verknüpfen.
00:27:21
Speaker
Ich interessiere mich für Mariendarstellungen mit grünem Mantel in der frühen Neuzeit, aber nur Gemaltes, lass bitte die Zeichnungen weg.
00:27:28
Speaker
Also wie vielversprechend wäre denn der Einsatz dieser Systeme für wissenschaftliche Datenbanken oder ist das schon testweise im Einsatz?
00:27:37
Speaker
Bin ich jetzt überfragt.
00:27:40
Speaker
Also die Modelle, die Sprachmodelle, die jetzt gerade auf dem Markt sind oder die gerade frei zugänglich sind, die
00:27:48
Speaker
operieren ja quasi noch auf allem, halt eben auf sehr vielen, halt eben auf Milliarden von Dokumenten, die da bis 2021 jetzt im Fall von ChatGPT eingespeist wurden, die können sicherlich halt eben auch mit spezifischen Datenbanken gekoppelt werden und aber natürlich halt mein
00:28:09
Speaker
hat das auch eine Gefahr.
00:28:10
Speaker
Es ist halt eben nicht nur so toll, es geht dann alles besser und ich kriege viel schneller geliefert, was ich eigentlich suche.
00:28:17
Speaker
Man wird natürlich auch mehr geleitet.
00:28:19
Speaker
Also dadurch sieht man halt eben jetzt schon, man kann sich natürlich halt eben wissenschaftliche Abstracts oder so verfassen lassen mit Literaturangaben und so weiter.
00:28:29
Speaker
Aber die Literaturangaben gibt es halt nicht.
00:28:32
Speaker
Auf den ersten Blick sieht das halt gut aus.
00:28:34
Speaker
Ist aber halt eben, wenn man
00:28:36
Speaker
die Kompetenz hat, um den Output zu beurteilen, halt manchmal sehr fragwürdig.
00:28:41
Speaker
Und das ist natürlich halt die Gefahr, weil je weiter ich halt, also jetzt mit deiner Suchstrategie, die hast du halt eben etabliert, das ist halt, du siehst halt eben, was dabei rauskommt und kannst es halt eben weiter verfeinern, leitest dich dabei aber halt größtenteils auch selbst.
00:28:59
Speaker
Natürlich
00:29:01
Speaker
den Rückgriff auf das, was die Suchmaschine dir bereitstellt.
00:29:05
Speaker
Wenn du halt eben jetzt nur noch eine Frage stellst und nimmst dann halt eben das, was zurückkommt, als gegeben an, dann gibst du halt eben einen Großteil der Kontrolle auch aus der Hand.
00:29:15
Speaker
Deswegen ist es halt zumindest ein zweischneidiges Schwert.
00:29:19
Speaker
Ja, und vielleicht auch noch ganz kurz zu der Frage, wie kann ich besser suchen lernen?
00:29:23
Speaker
Man hat ja selber auch Möglichkeiten,
00:29:26
Speaker
die Anfrage zu beeinflussen durch eine gewisse Suchsyntax.
00:29:30
Speaker
Da hatten wir auch schon ein paar Mal drüber gesprochen.
00:29:32
Speaker
Das sind die bullschen Operatoren.
00:29:34
Speaker
Ich kann mit und verknüpfen.
00:29:35
Speaker
Das ist so der Standard.
00:29:37
Speaker
Und dann kann ich aber auch eben mit and not oder or verknüpfen.
00:29:41
Speaker
Und ich könnte

Herausforderungen präziser Suchergebnisse

00:29:42
Speaker
zum Beispiel dann suchen nach Madonna oder Maria, weil ich nicht weiß, ob der Künstler, ob die Datenbank das als Maria bezeichnet hat oder als Madonna bezeichnet hat.
00:29:53
Speaker
Von daher habe ich auch selber Möglichkeiten, das Suchergebnis noch anders zu beeinflussen.
00:29:58
Speaker
Ich kann zum Beispiel auch unscharf suchen.
00:30:00
Speaker
Das bedeutet, man hängt eine Tilde hinter meinen Suchterm und dann wird mit Hilfe, glaube ich, der Lebenstein des Tanzes, kann Jürgen wahrscheinlich viel besser erklären als ich, wird eben bei komplizierten Namen,
00:30:17
Speaker
wie zum Beispiel Giacometti, wo ich die Schreibweise nicht kenne oder so eben unscharf gesucht, dass da eben mehrere Möglichkeiten in Frage kommen.
00:30:24
Speaker
So habe ich eben auch die Möglichkeit, die Suche noch zu beeinflussen.
00:30:29
Speaker
Ja, dazu gibt es mehrere Möglichkeiten.
00:30:31
Speaker
Das kann man halt eben mit der Levenstein-Distanz machen oder mit Needle beim Wunsch.
00:30:35
Speaker
Oder es gibt halt eben verschiedene Algorithmen, die einfach die Übereinstimmung von Zeichenketten oder die Distanz von Zeichenketten berechnen können.
00:30:44
Speaker
Und da kann man dann einfach ein Distanzmaß angeben und sagt, wenn ein Buchstabe ausgetauscht ist oder fehlt oder umgestellt ist oder so, dann liefere mir das zurück.
00:30:53
Speaker
Oder auch das halt, je nach Länge des Wortes, dürfen dann auch mehr auftauchen oder so.
00:30:58
Speaker
Damit kriegt man dann natürlich halt eben sehr viel mehr Ergebnisse.
00:31:01
Speaker
Das ist halt eben auch schwieriger zu implementieren in der Suche, weil halt eben dann das nicht auf einem normalen Index operieren kann, sondern man da halt eben dann auch die Vorverarbeitung machen muss.
00:31:10
Speaker
Aber das sind halt Dinge, die man
00:31:12
Speaker
einsetzen kann und die man halt eben teilweise auch braucht.
00:31:17
Speaker
Jetzt kommen wir mal von den großen Suchmaschinen und dem potenziellen Nutzen der Sprachmodelle zurück zu unserem kunsthistorischen Alltag.
00:31:24
Speaker
Ich gehe mal von einem Szenario für das Suchen aus.
00:31:26
Speaker
Ich habe ein paar Einstellungen vorgenommen, mittels Bolschen Operationen die Suche verfeinert, präzisiert und bekomme die Ergebnisse meiner Suche ausgespielt.
00:31:36
Speaker
Meistens werde ich aber das Gefühl nicht los, dass es da noch mehr gibt.
00:31:40
Speaker
Es bleibt immer so eine Unsicherheit, auch so eine Unklarheit, ob meine Strategie des Suchens auch die richtige gewesen ist.
00:31:47
Speaker
Und naja, ich weiß jetzt nicht, ob das daran liegt, dass ich solchen intransparenten Abläufen erstmal grundsätzlich misstraue oder woher weiß ich eigentlich gar nicht.
00:31:58
Speaker
das ich richtig gesucht habe?
00:32:00
Speaker
Wie finde ich heraus, ob ich alles gefunden habe, was in der Datenbank liegt?
00:32:05
Speaker
Wie findet man als BenutzerIn heraus, ob es eine gute Suche gewesen ist?
00:32:10
Speaker
Ja, das ist natürlich sehr schwierig.
00:32:12
Speaker
Ich glaube, du hattest im Vorfeld die Frage gestellt, wie kann ich denn, also ich hatte das Beispiel, glaube ich, irgendwie, wenn ich weiß, 1000 Dürer sind in der Datenbank, wie kann ich denn feststellen, wenn ich gesucht habe, dass ich wirklich alle gefunden habe?
00:32:27
Speaker
Und das kannst du natürlich überhaupt nicht, weil wenn nur ein Datensatz falsch bezeichnet ist oder der Name anders geschrieben ist, dann wird er eben nicht gefunden.
00:32:35
Speaker
und der Recall ist dann eben nicht bei 100 Prozent.
00:32:37
Speaker
Und das wirst du nicht feststellen können, das werde ich auch nicht feststellen können, bei drei Millionen Datensätzen.
00:32:43
Speaker
Das kann man vielleicht noch bei 50 einmal durchgehen, aber das kann man nicht bei drei Millionen Datensätzen, die bei Prometheus integriert sind.
00:32:50
Speaker
Und wir machen natürlich systematische Abfragen, um bestimmte Features zu testen, eben wie sowas wie die Integration der KünstlerInnen-Namen-Varianten,
00:33:04
Speaker
ob das alles so passt.
00:33:06
Speaker
Wir versuchen auch weitere mit hinzuzunehmen, die neu hinzukommen.
00:33:11
Speaker
Und natürlich gibt es systematische Abfragen, aber ich glaube nicht, dass man dem Ganzen wirklich komplett auf den Grund gehen kann.
00:33:19
Speaker
Heißt das, dass eine Suche nur so gut ist, wie die Daten auf denen gesucht wird?
00:33:25
Speaker
wie die Daten, wie die Anreicherung, wie die Filter, wie die Gewichtung, also all diese Faktoren, die wir eben eigentlich alle gerade schon besprochen haben, spielen da natürlich eine Rolle.
00:33:37
Speaker
Und ich habe ja nicht schlecht gesucht, wenn ich nach Worms gesucht habe, wie gesagt, und dann Datensätze zurückbekomme, die ich gar nicht zurückbekommen wollte.
00:33:47
Speaker
Das heißt ja nicht, dass meine Suche schlecht ist,
00:33:49
Speaker
sondern dass eben Parameter zugrunde gelegt werden oder Daten angeeichert wurden im Hintergrund, die dazu führen, dass eben Dokumente als relevant betrachtet werden, die ich eben nicht als relevant
00:34:02
Speaker
Ja, und einfach zu schnell sagt man dann, oder zumindest ich, was für eine blöde Suchmaschine, die hat nicht begriffen, was ich gesucht habe.
00:34:09
Speaker
Ich anthropomorphisiere oft, auch wenn ich es eigentlich besser wissen sollte.
00:34:14
Speaker
So oft habe ich schon Suchfelder verteufelt, weil ich mit meiner Suchanfrage nichts gefunden habe, obwohl ich wusste, dass das da in den Daten drinsteckt.
00:34:22
Speaker
Wenn zum Beispiel Inventarnummern in der Forschungsliteratur oder bei Ausstellungskatalogen ein anderes Format haben als in der Museumsdatenbank, das macht mich wahnsinnig.
00:34:32
Speaker
Aber unabhängig davon weiß die Maschine natürlich nicht, was ich mit meinen eingegebenen Zeichen intendiert habe.
00:34:38
Speaker
Das ist ja nicht semantische Suche.
00:34:41
Speaker
Genau.
00:34:41
Speaker
Ich glaube, es ist wichtig, dass NutzerInnen die Möglichkeit haben, möglichst viele Dinge auch selbst einzustellen, dass sie eben ausschalten können.

Alternative Darstellungen von Suchergebnissen

00:34:50
Speaker
dass die englische Suche mitverwendet wird.
00:34:53
Speaker
Das haben wir aktuell noch nicht integriert, aber das soll passieren in naher Zukunft.
00:35:00
Speaker
Oder eben aber auch die ganzen Schlagwörter, die von Artigo bei Prometheus integriert sind, die von ganz vielen NutzerInnen eben eingegeben wurden, dass man die auch an- und ausschalten kann sozusagen.
00:35:12
Speaker
Manchmal kann diese Anreicherung sinnvoll und wichtig sein, wenn man zum Beispiel sich
00:35:17
Speaker
von David Bonaparte überquert den großen St.
00:35:21
Speaker
Bernhard anguckt und dann haben Nutzer in Napoleon verschlagwortet, dann finde ich eben diesen Datensatz auch, wenn ich nach Napoleon suche.
00:35:30
Speaker
Aber die Schlagwörter, die sind ja manchmal auch relativ ausufernd bei Artigo.
00:35:35
Speaker
Dann kann es auch sinnvoll sein, dass man auch das ausschalten kann.
00:35:38
Speaker
Also solche Mechanismen einzubauen, um dem Nutzer da auch einen gewissen Spielraum zu geben.
00:35:44
Speaker
Also dann im Prinzip weggehen von diesem einen Suchschlitz, weil der dann auch nicht ausreicht, um eine kontrollierte Suche aus der Perspektive von BenutzerInnen zu machen.
00:35:54
Speaker
Das bedeutet, wir müssen auch generell Suche wahrscheinlich transparenter gestalten.
00:35:59
Speaker
Es wäre schön, wenn ich selbst entscheiden könnte, welcher dieser Filter und Verfahren, also wie Groß-Kleinschreibungen, Delimiter, Umlordfilter eingesetzt wird, oder?
00:36:07
Speaker
Gibt es eine Möglichkeit herauszufinden, welche Automatismen eingesetzt werden?
00:36:12
Speaker
Wird das transparent gemacht, was da so im Hintergrund passiert?
00:36:16
Speaker
Also wir versuchen das tatsächlich so transparent wie möglich zu machen.
00:36:20
Speaker
Wir haben da eben, man kann sich informieren, wenn man möchte.
00:36:23
Speaker
Wir haben auch eine Hilfeseite für Suchanfragen, also Suchsyntax, wie setze ich die eben sinnvoll ein?
00:36:30
Speaker
Das gibt es schon.
00:36:32
Speaker
Allerdings würde ich sagen, alle Filter komplett auszuschalten, würde wahrscheinlich auch nicht zu einem guten Ergebnis führen.
00:36:43
Speaker
Aber vielleicht hat Jürgen da auch eine Einschätzung zu.
00:36:47
Speaker
Das ist halt datenbankspezifisch beziehungsweise nutzungsspezifisch.
00:36:51
Speaker
Das kann man, glaube ich, nicht sagen, dass man jetzt Filter ein- oder ausschalten sollte.
00:36:56
Speaker
Jetzt auch wieder aus Google-Perspektive oder aus Suchmaschinen-Perspektive.
00:37:00
Speaker
Ich weiß es jetzt aber nur bei Google, da kann man halt tatsächlich wortwörtlich suchen.
00:37:04
Speaker
Ja, weil ansonsten wird halt eben alles Mögliche mit der Suchanfrage gemacht.
00:37:08
Speaker
was ich ja gerade eben auch gesagt habe in der Vorverarbeitung, das kann man halt alles ausschalten und genau das suchen, was man halt eben da eingibt und dann werden halt eben aus dieser Suchanfrage halt die an den Lehrstellen die Terme extrahiert und die werden gesucht und fertig.
00:37:25
Speaker
Das macht aber kaum einer.
00:37:26
Speaker
Das ist halt eben nicht die Default-Einstellung, das kann man halt oben, wo man
00:37:29
Speaker
eben Suchfilter einstellen kann nach beliebiger Zeit und nach beliebiger Sprache oder auch Ort oder so, kann man das halt eben auch als wortwörtlich einstellen.
00:37:40
Speaker
Ich mache das sehr selten, eigentlich fast nie.
00:37:42
Speaker
Ich weiß nicht, ob andere das machen, aber es ist halt nicht die, die Forteinstellung.
00:37:46
Speaker
Also das heißt, man kann suchen lernen.
00:37:48
Speaker
Das sind ja schon mal gute Neuigkeiten.
00:37:50
Speaker
Man kann sich informieren, was für Verfahren hinter diesem Suchmechanismus stecken, um dann auch die eigene Suche zu verbessern, zu optimieren oder zumindest begreifbarer zu machen, was aus dem Wort, dem Term passiert, den ich da eingebe.
00:38:04
Speaker
Kommen wir doch mal auf das experimentelle Suchen zurück.
00:38:06
Speaker
Also wenn ich nicht weiß, was ich genau suche, wenn ich meine Suchergebnisse vielleicht auch ein bisschen anders anschauen möchte oder wenn ich eine Datensammlung explorieren möchte.
00:38:17
Speaker
Ich fange mal mit diesem zweiten an.
00:38:19
Speaker
Im Moment ist das Suchen ja so gestaltet, dass die Ergebnisse in Listen kommen, in Kacheln ausgegeben werden.
00:38:26
Speaker
Bei Bildsuchen hat sich das irgendwie als Standard etabliert.
00:38:29
Speaker
Da kann man dann durch die Kacheln durchscrollen, kennt man ja auch von Shopping-Seiten.
00:38:34
Speaker
Gibt es auch andere experimentelle Ansätze vielleicht, wie man die Suchergebnisse sich anzeigen lassen kann?
00:38:40
Speaker
Also ich denke da an Darstellungsverfahren wie dem Clustering, mit dem man Gruppen und Haufen, also Bildhaufen bilden kann.
00:38:48
Speaker
Das wäre weniger linear und könnte mehrere Dimensionen abbilden, als es eine Listenansicht könnte.
00:38:53
Speaker
Gibt es da Ansätze, einen anderen visuellen Zugang zu den Suchergebnissen zu gestalten?
00:38:59
Speaker
Ich glaube, es gibt da auf jeden Fall, also ich finde das spannend, das Thema,
00:39:03
Speaker
Und es gibt ja auch verschiedene Projekte, wie zum Beispiel das Vicos-Projekt, das eben versucht, durch Visualisierung bestimmte Datenbestände anders darzustellen.
00:39:13
Speaker
Bei den klassischen Bild-Suchmaschinen ist das, glaube ich, noch nicht der Fall.
00:39:17
Speaker
Was wir bei Prometheus jetzt integriert haben, was auch schon ganz viele andere Museumsdatenbanken integriert haben, ist die Anzeige der Größe zum Beispiel.
00:39:26
Speaker
Also dass man eben, sonst hat man immer die gleichen Kacheln und weiß eigentlich gar nicht,
00:39:30
Speaker
wie groß sind die Bilder wirklich und dass wir da eben das mittlerweile anzeigen.

Komplexität der visuellen Suche

00:39:35
Speaker
Aber du hast natürlich völlig recht, so eine Visualisierung zeigt dir eben auf den ersten Blick bestimmte Dinge.
00:39:42
Speaker
Also wenn du jetzt sagst Relevanz oder so, möchtest du sehen.
00:39:46
Speaker
dann kannst du das natürlich auf einen Blick sehen, was ein spannender Ansatz ist, auf jeden Fall.
00:39:52
Speaker
Ja, lass uns da ein Projekt draus machen.
00:39:53
Speaker
Ja, können wir gerne machen.
00:39:55
Speaker
Ich habe auch nur ganz spontan daran gedacht, ist vielleicht auch nur ein Hirngespinst.
00:40:00
Speaker
Ich fände es halt ganz spannend, wie bei einer realen Bildersammlung einfach durch solche Haufen durchzublättern oder im Zettelkasten nochmal schnell durchzusuchen und zu gucken, was das ist.
00:40:11
Speaker
Ja, das kann man natürlich machen, aber auch da muss man halt eben wissen, was man reingibt, weil diese Cluster, im besten Fall hat man dann auf einen Blick...
00:40:22
Speaker
kann man dann direkt erahnen, wie das Ganze strukturiert ist, aber die entstehen ja nicht aus dem Nichts, sondern halt da muss man dann irgendwie die Ähnlichkeit, muss man auch wieder operationalisieren, was ich halt vorhin schon gesagt habe.
00:40:34
Speaker
Man muss halt irgendwie den Rechner dazu bringen, bestimmte Dinge näher zueinander zu kopieren.
00:40:40
Speaker
Das kann man halt eben über viele verschiedene Merkmale oder Features, nennt man das, machen, also
00:40:47
Speaker
verschiedene Metadaten, irgendwie im Künstler-Künstlerinnen-Feld steht das Gleiche oder der Titel ist gleich oder es ist in der gleichen Zeit oder am gleichen Ort entstanden, das Kunstwerk oder hängt im gleichen Museum.
00:41:02
Speaker
Das sind ja alles halt eben so
00:41:05
Speaker
unterschiedliche Merkmale, die ich halt eben in diese Cluster-Analyse mit reinbringen kann.
00:41:11
Speaker
Und je nachdem, was man da nimmt, sieht dann halt eben, dass das sehen dann die Cluster am Ende auch anders aus oder die Visualisierung am Ende auch anders aus.
00:41:20
Speaker
Und wenn man halt eben dabei Fehler macht, dann hat man vielleicht irgendwie Zusammenhänge zwischen Dingen, die halt gar nicht zusammenhängen, sondern die halt Artefakte in den Metadaten sind oder so.
00:41:30
Speaker
Aber man könnte jetzt zumindest zu einer Suchanfrage tatsächlich nach Relevanz eben das Bildmaterial visualisieren.
00:41:38
Speaker
Das wäre ganz spannend, weil den Rankings-Score hat man ja.
00:41:42
Speaker
Ja, aber nach Relevanz, das ist ja eigentlich eine lineare Funktion.
00:41:46
Speaker
Irgendwas ist relevanter oder weniger relevant.
00:41:47
Speaker
Da gibt es ja keine, oder gibt es Relevanzverzweigung.
00:41:51
Speaker
Also das macht ja das, was Cluster ausmacht.
00:41:53
Speaker
Oder halt eben so, wenn das halt in mehrere Dimensionen sich verzweigt.
00:41:58
Speaker
Weil in der Liste hat man halt immer nur eine Dimension.
00:42:01
Speaker
Die fängt halt oben an und die hört unten auf.
00:42:02
Speaker
Da hat man halt eben eine ganz klare eindimensionale Sache.
00:42:07
Speaker
Das Spannende bei Clustern oder halt eben bei
00:42:09
Speaker
So mehrdimensionalen Darstellungen ist halt, dass man dann da verschiedene Formen der Nähe visualisieren kann.
00:42:17
Speaker
Naja, da ist wohl gerade ein Dominostein angestoßen worden.
00:42:19
Speaker
Mal schauen, was sich daran noch entwickelt oder damit noch entwickelt.
00:42:24
Speaker
Jetzt sprechen wir zwar über Bilddatenbanken, auch im Fall von Prometheus, aber das, was wir in der Kunstgeschichte eigentlich suchen, sind Kunstwerke.
00:42:32
Speaker
Man hat das irgendwie vor ihrem Auge, man sucht eine Vergleichsabbildung, hat Darstellungsarten und versucht es dann irgendwie in den Text zu bringen, das man suchen kann.
00:42:41
Speaker
Oder man weiß, es hängt in einem Museum, irgendwie in der Ecke und versucht es dann über den Standort zu finden.
00:42:47
Speaker
Also irgendwie wie selbstverständlich, wenn wir über Suchmaschinen und Suchen gesprochen haben, haben wir eigentlich ignoriert, dass wir etwas suchen, was wir sehen.
00:42:57
Speaker
In den Suchmaschinen suchen wir aber nach Texten, also nach den Metadaten.
00:43:01
Speaker
Jetzt haben wir da über diese ganzen Verfahren gesprochen.
00:43:04
Speaker
Es ist dann auch klar geworden, warum linguistische Verfahren so wichtig sind, um das Suchen zu erleichtern.
00:43:11
Speaker
Aber, jetzt muss man mal ganz ehrlich fragen, sind wir da nicht so ein bisschen lost in translation, weil wir immer das, was wir vor dem inneren Auge sehen, übersetzen müssen?
00:43:20
Speaker
Kommt drauf an.
00:43:22
Speaker
Also wir, so Bildähnlichkeiten, also Bildschutzmaschinen sind wahnsinnig spannend, aber halt auch sehr viel schwerer, ähm, äh,
00:43:34
Speaker
zu erfassen und auch zu implementieren.
00:43:36
Speaker
Das liegt vielleicht halt eben auch ein bisschen daran, dass wir uns halt eben größtenteils über Sprache verständigen.
00:43:42
Speaker
Das ist auch nochmal vielleicht so ein kurzer
00:43:46
Speaker
kurzer Seitenhieb, es gibt ja halt eben mit Dolly und mit ChatGPT halt zwei Systeme, die gerade KI einsetzen, um Dinge zu, ja doch auch zu schaffen, aber halt eben Dolly macht das mit Bild und ChatGPT macht das mit Text und bei Dolly hat jetzt niemand gesagt, das ist ein intelligentes Ding oder so und bei ChatGPT streiten sich die Geister gerade, also versteht das und
00:44:16
Speaker
ist das vielleicht sogar eine tatsächliche künstliche Intelligenz und so weiter.
00:44:20
Speaker
Das hat sich bei Dolly jetzt tatsächlich keiner Gedanken darüber gemacht.
00:44:23
Speaker
Das liegt halt eben daran, dass Text irgendwie viel näher ist.
00:44:27
Speaker
Und halt eben auch, wenn wir Bilder suchen, suchen wir Bilder von Künstler, Künstlerin X oder Y oder halt eben mit bestimmten Titeln oder halt eben in bestimmten Landschaften und so weiter.
00:44:37
Speaker
Oder tatsächlich auch, welche Elemente vorkommen.
00:44:40
Speaker
Aber halt eben diese Bildähnlichkeit zu untersuchen, das wird ja auch gemacht und das kommt ja auch demnächst dran.
00:44:46
Speaker
Vor allen Dingen muss man ja erstmal definieren, was man unter Ähnlichkeit versteht.
00:44:50
Speaker
Das ist ja auch schwierig.
00:44:51
Speaker
Also wenn du sagst, du weißt genau, da ist ein Bild in einem Museum und das will ich finden, dann kannst du es ja in erster Linie nur mit Text finden, weil wie willst du, du hast ja das Bild nicht, dann musst du es ja mit Text finden.

Wie unterstützt Ekphrasis genaue Suchen?

00:45:04
Speaker
Aber wenn ich das Bild habe, was will ich dann eigentlich suchen?
00:45:07
Speaker
Möchte ich dann die gleichen Bilder, also Dubletten finden, also digitale Abbildungen von dem Bild?
00:45:14
Speaker
Möchte ich Bilder mit dem gleichen Motiv finden, mit den gleichen Farben oder mit ähnlichen Farben und so weiter?
00:45:21
Speaker
Also das muss ich ja irgendwie auch erstmal definieren.
00:45:24
Speaker
Ja, deswegen lernen wir da Kunstgeschichte auch die Eckphrasis, also der Umschreibung von dem, was wir sehen und die Beschreibung des Visuellen.
00:45:33
Speaker
Also nicht nur, um suchen und zu finden, sondern dass wir auch ganz genau sagen, was wir vor dem inneren Auge haben.
00:45:40
Speaker
Genau, ich würde ganz kurz nur eine Anekdote, und zwar wurde ich tatsächlich bei meinem letzten Vortrag auch gefragt, in einem Seminar von bei Studierenden,

Abschluss und Danksagungen

00:45:52
Speaker
ob es möglich wäre, in Prometheus einfach was zu zeichnen und dann würde man die Bilder finden, weil eben genau das, was du eben angesprochen hast, man hat irgendwie eine Vorstellung davon, man hat ein Bild vor Augen, weiß aber den Künstler, die Künstlerin nicht mehr und den Titel nicht und das finde ich eine spannende Frage, wäre auf jeden Fall ein interessantes Tool, das einzusetzen.
00:46:14
Speaker
Aber wenn es dann um Vergleichsabbildungen von Kompositionen geht oder ich ein Pendant suche, eine ähnliche Darstellungsart mit unterschiedlichen Hintergründen, dann wäre so eine visuelle Suche doch ganz spannend.
00:46:30
Speaker
Auf jeden Fall.
00:46:31
Speaker
Aber da brauchen wir, glaube ich, eine eigene Folge dafür.
00:46:36
Speaker
Da ist das Thema zu komplex.
00:46:39
Speaker
Danke euch auf jeden Fall, dass ihr uns einen Einblick gegeben habt, was hinter diesem kleinen Suchschlitz passiert.
00:46:47
Speaker
Ich glaube, die Expertensuche wird mein neuer Freund.
00:46:50
Speaker
Ja, vielen Dank.
00:46:51
Speaker
Es hat mir auch sehr viel Spaß gemacht.
00:46:53
Speaker
Ja, danke Jacqueline.
00:47:02
Speaker
Diese Folge wurde von Jacqueline Klosig-Eckardt produziert im Auftrag des Arbeitskreises Digitale Kunstgeschichte.
00:47:08
Speaker
Unterstützt wird sie dabei von der Redaktion der Arbeitskreismitglieder Peter Bell, Lisa Diekmann, Peggy Große, Waltraud von Pippich und Holger Siemann.
00:47:17
Speaker
Finanziert wird AdHistocast, der Podcast zur digitalen Kunstgeschichte von NFDI for Culture, dem Konsortium in der nationalen Forschungsdateninfrastruktur, das sich mit Forschungsdaten zu materiellen und immateriellen Kulturgütern befasst.
00:47:32
Speaker
Unterstützt wird AdHistocast durch den Deutschen Verband für Kunstgeschichte.
00:47:38
Speaker
Du hast noch eine Frage oder Anregungen?
00:47:40
Speaker
Kontaktiere uns einfach unter podcast.digitale-kunstgeschichte.de