blog.arthistoricum.net

Wörter zählen

Google hat ein neues Feature vorgestellt, mit dem die Häufigkeit von bestimmten Wörtern in den im google books project digitalisierten Büchern zu bestimmen ist: Books Ngram Viewer. Ich hab's mal mit der mich schon eine Weile interessierenden Frühgeschichte der Lithographie versucht und die Suche auf französische Bücher und die Zeit von 1800 bis 1850 eingeschränkt. Herausgekommen ist folgender Graph:

 

<a href="http://194.95.145.75/wp-content/uploads/2010/12/ngram4.jpg" />

 

 

Zwei Phänomene scheinen mir interessant: Der Anfang um 1800 mit der zunächst abfallenden Linie und der deutliche peak um 1834. Ich erkläre mir das so: Die Erfindung kurz vor der Jahrhundertwende führt zu häufigen Erwähnungen, die dann erst mal wieder nachlassen. 1834 ist die Hochzeit der politischen Wirksamkeit der lithographischen Karikatur in Frankreich, die dann einigermaßen abrupt mit dem Verbot der Zeitschrift "La Caricature" endet. Das dürfte zu massierter Berichterstattung geführt haben.

 

Die Einschränkungen der Nutzbarkeit liegen auf der Hand: Scanfehler und vor allem die bislang niedrige Digitalisierungsrate von nur einem Bruchteil der buchhistorischen Überlieferung reduzieren die Bedeutung der Ergebnisse. Beides wird sich allerdings sehr schnell ändern. Und es ist auch darauf hinzuweisen, dass schon Millionen von Büchern in ngram ausgewertet werden, die bislang aus urheberrechtlichen Gründen nicht komplett im Internet gezeigt werden.

 

Arbeitsweisen wie die hier ermöglichten erfordern vom klassischen Geisteswissenschaftler ein Umdenken: Gängige qualitative Verfahren werden durch quantitative ergänzt. Letztere könnten aber Qualitäten näher bestimmen, und man sollte daher nicht einfach rundweg auf sie verzichten. Zudem zeigt das Projekt, dass die Buchdigitalisierung nicht einfach nur eine bequeme Zugänglichkeit der Vorlagen ermöglicht, sondern auch analytisch  vollkommen neue Verfahren.

 

5 Kommentar(e)

  • Hubertus Kohle
    03.04.2011 10:18

    ich nehme das mal als aufforderung, in zukunft mehr links einzubauen.

  • downloaden
    02.04.2011 08:47

    Im Grunde genommen ein cooler Beitrag, nur kannst du beim nächsten Mal nicht ein bisschen detaillierter sein? Das wäre in der Tat genial

  • Martin Höppl
    21.12.2010 13:43

    Höhepunkt von "google" um 1900:
    http://ngrams.googlelabs.com/graph?content=google&year_start=1800&year_end=2000&corpus=0&smoothing=3

  • Ich bin für Statistik nur schwer zu begeistern, aber das Wort "pastel" zeigt zwischen 1699 und 1730 einen glaubwürdigen Verlauf. Leider ist das nur bei den englischen Büchern so. Aber vielleicht ziehen die anderen nach... :)

  • Martin Höppl
    20.12.2010 11:08

    Für viele Begriffe liefert der Google Ngram Viewer gar keine Ergebnisse. Viele Kurven zeigen ab dem 18. Jh. rückwärts sehr komische Verläufe: Offensichtliche Berechnungsfehler. Sehr schöne Kurven gibts z. B. zu "nervös", "abstrakt" und "spatial turn".

    P.S. Den screen shot kann man nicht lesen, weil er zu klein ist - auch wenn man ihn in einem Extrafenster öffnet.

Kommentar

Kontakt

Kommentar

Absenden