Kiedy obraz przestaje być fotografią?

W marcu tego roku hiszpański artysta konceptualny i fotograf Joan Fontcuberta opublikował we Włoszech nową książkę zatytułowaną Immagini Latenti. Jej końcowy rozdział poświęcony jest sztucznej inteligencji i fotografii — a konkretnie debatom, które rozgorzały wokół dwóch głośnych wydarzeń. Pierwsze z nich to zgłoszenie przez Borisa Eldagsena obrazu wygenerowanego przez AI do Sony World Photography Awards w 2023 roku. Drugie to udział Milesa Astraya w konkursie dla obrazów AI w 2024 roku — ze zdjęciem wykonanym prawdziwym aparatem.

Gdy otrzymaliśmy egzemplarze książki, uderzyło nas, w jakim kontekście pojawiły się nasze prace. Fontcuberta nazywa obrazy generowane przez AI „Fotografią Drugiej Generacji" i proponuje termin „Fotografia Algorytmiczna". Od dwóch i pół roku regularnie spotykamy podobne rozumowanie. Jest ono nie tylko logicznie niespójne — jest też szkodliwe, zarówno dla fotografii, jak i dla demokratycznych społeczeństw. Z tego powodu uważamy, że konieczna jest wspólna odpowiedź na to, co uznajemy za teorię rudymentarną.

Poniżej zestawiamy fragmenty książki (cytowane za zgodą autora) z naszą własną perspektywą. Oryginalny tekst włoski został przetłumaczony na angielski przy użyciu narzędzi AI (ChatGPT, Gemini, DeepL), a następnie przełożony na język polski.

I. Problem nazewnictwa

Joan Fontcuberta:

Gdy się żeniłem, przyjaciele podarowali mi drzewko cytrynowe […] Posadziliśmy je i rosło szczęśliwie. […] Po dwudziestu pięciu latach […] drzewko zaczęło rodzić pomarańcze. […] Przyjaciel znający się na owocach cytrusowych […] dał mi przekonujące wyjaśnienie: nasze drzewko cytrynowe zostało najprawdopodobniej zaszczepione na gałęzi pomarańczy i z biegiem czasu zaczęło ujawniać swoją prawdziwą hybrydową naturę — niebinarną i ambiwalentną.

Osobiście wolałem myśleć, że drzewo znalazło odwagę, by wyjść z szafy. Tym bardziej, że wydawało mi się wspaniałą metaforą tego, co dziś dzieje się z fotografią, która również przechodzi fazę, w której jest gotowa się ujawnić.

Pozwólcie, że wyjaśnię. Przez dwa wieki przypisywaliśmy fotografii opisową dokładność rzeczywistości, gwarantującą absolutną wierność dokumentalną. Teraz jednak fotografia algorytmiczna miesza się z fotografią optyczną i nie wiemy już, w którą stronę się obrócić.

Od razu napotykamy problem semantyczny i terminologiczny. Istnieją obrazy fotograficzne produkowane przez aparaty i optyczne systemy rejestracji. I istnieją inne — pozornie fotograficzne — wytwarzane przez generatywne systemy wizualizacji AI. Pierwsze są dziećmi chemii i światła; drugie — obliczeń i ciemności. Musimy zatem zacząć decydować, czy oba typy obrazów należy uznać za fotograficzne.

Jeśli skupimy się na procesach, oczywiste jest, że są to różne rodzaje obrazów. Jednak trudność ze znalezieniem słowa zdolnego sklasyfikować fotorealistyczne przedstawienia algorytmicznego pochodzenia osłabia stanowczość tej odpowiedzi. Są to obrazy bez realnego referenta — to, co moglibyśmy nazwać nemotypami.

Niektórzy zaproponowali termin „promptografia", gdyż obrazy te powstają z promptu — czyli instrukcji w języku naturalnym. Były też inne próby, jak „syntografia", ale żadna z nich nie przyjęła się powszechnie.

Gdy fotografia została wstrząśnięta przez nadejście technologii cyfrowej, konieczne stało się wskazanie, że istniała wcześniejsza forma, do której dodano teraz przymiotnik odróżniający: mieliśmy fotografię analogową — czyli fotochemiczną — w przeciwieństwie do fotografii cyfrowej. Nie trzeba było wówczas wymyślać nowej nazwy i nic katastrofalnego się nie wydarzyło. Moglibyśmy zatem postąpić podobnie teraz i nadal doskonale się rozumieć.

Boris Eldagsen:

Fontcuberta wyraźnie dostrzega różnicę między obrazami z aparatu a obrazami generowanymi przez AI na poziomie procesu — po czym argumentuje, że ta różnica ostatecznie nie ma znaczenia.

Problem polega na tym, że ma znaczenie. I to ogromne.

Fotografia powstaje, gdy światło odbija się od rzeczywistego obiektu i trafia na matrycę. Obraz AI powstaje, gdy komputer oblicza, jak powinien wyglądać wiarygodny obraz — na podstawie wzorców wyuczonych z milionów wcześniejszych przykładów. Wyniki mogą wyglądać identycznie na ekranie, ale wyłaniają się z zasadniczo różnych procesów. I właśnie ten proces nadaje fotografii autorytet jako dowodom.

Nazywanie obrazów AI „Fotografią Algorytmiczną" traktuje to jak drobną aktualizację: drzewko cytrynowe produkujące po prostu pomarańcze. Ale nawet w metaforze Fontcuberty cytryna pozostaje cytryną, a pomarańcza pomarańczą. Szczepienie nie zmienia tego, czym jest owoc. Dwa zupełnie różne rodzaje obrazów otrzymują tę samą nazwę — a ta pomyłka ma realne konsekwencje.

Zgodnie z tą logiką fotorealistyczny obraz malarski stałby się „Fotografią Akrylową". Ale nadal nazywamy go malarstwem, bo proces ma znaczenie — powstaje na płótnie, pędzlami i farbą.

Argument, że brak odpowiedniego terminu dla „fotorealistycznych przedstawień algorytmicznego pochodzenia" uzasadnia włączenie obrazów AI do fotografii, jest słaby. Z jednej strony — nadanie nazwy nowemu medium wymaga czasu. Z drugiej — Fontcuberta pozostaje uwięziony w fotograficznym myśleniu i nie dostrzega, czym to nowe medium naprawdę jest: PRZESTRZENIĄ LATENTNĄ.

Składają się na nią dane treningowe modelu AI, w których wszystkie media są zakodowane jako wektory. W przestrzeni latentnej różne formy sztuki nie są już oddzielnymi materiałami — stają się różnymi projekcjami tej samej struktury bazowej. Melodia może przekształcić się w obraz. Opis tekstowy może wygenerować wideo. Szkic może stać się rzeźbą. Przestrzeń latentna to meta-medium.

Właśnie dlatego prompty stały się multimodalne. Prompt to interfejs kontrolny do przestrzeni latentnej, nawigujący prawdopodobieństwem. I właśnie dlatego zaproponowałem termin „promptografia" — obejmuje wszystko, co powstaje z promptu: tekst, dźwięk, wideo, a nie tylko obrazy przypominające fotografię.

Ponieważ Fontcuberta ogranicza swoją analizę do „fotorealistycznych przedstawień", zawęża dyskusję do wąskiego podzbioru efektów — i w konsekwencji boryka się z argumentami, które pojawiają się dalej.

Miles Astray:

Cytryna to zdradliwy owoc — językowo rzecz biorąc — i to niezależnie od alegorii Fontcuberty. W jego ojczyźnie, Hiszpanii, cytryna to „limón", podczas gdy w Ameryce Łacińskiej „limón" oznacza limonkę. Cytryny, limonki, pomarańcze — wszystkie są owocami cytrusowymi, ale porównywanie ich nie różni się zbytnio od zestawiania jabłek z pomarańczami.

Rzecz jest prosta, bez owijania w bawełnę: nie chodzi tu o mgliste lingwistyczne interpretacje obrazów i sztuki, lecz o twardy fakt naukowy. Fotografia jest pisana światłem; obraz AI jest pisany kodem. Pierwsza uchwytuje realny świat, drugi przywołuje światy wyobrażone.

Językowy spór o terminologię nie przekłada się na naukową debatę wokół faktycznej różnicy między procesami tworzenia obrazów — od malarstwa przez fotografię po obrazy AI. W sztuce jest nauka, i tkwi ona właśnie w procesie.

Różnicę między fotografią analogową a cyfrową można było łatwo oddać za pomocą przedrostka, bo podstawowy proces fotograficzny (rejestrowanie światła) nie zmienił się — zmieniły się jedynie środki jego uchwycenia i przechowywania. Natomiast, aby dotrzeć do obrazu AI, trzeba obrać zupełnie inną drogę proceduralną — która zasługuje na zupełnie inną nazwę.

Bagatelizowanie ogromnej różnicy proceduralnej między dwoma mediami po to, by uniknąć wymyślenia jednego słowa opisującego nową właściwość, jest nieproporcjonalne i chybione. To tak, jakby każdy owoc, który pojawił się po bananie — który istniał długo przed pomarańczami i cytrynami — również nazywać bananem. A to byłoby po prostu bananowe.

II. Problem DNA

Joan Fontcuberta:

[…] Ale debata sięga głębiej: czy mamy do czynienia z obrazami należącymi do różnych klas, czy też po prostu z fotografiami różnej rangi?

[…] Łatwo wyobrazić sobie, że wszyscy marzyli o wynalezieniu techniki zdolnej tworzyć wierne przedstawienia niezależne od ludzkiego talentu — jakby natura mogła przedstawiać siebie bez pośrednictwa ołówka czy pędzla. Aparat fotograficzny wypełnił tę rolę, produkując rygorystyczne i szczegółowe zapisy wizualne. Od tamtej pory powstały miliardy zdjęć, a te obrazy stanowią teraz materiał służący do trenowania generatywnych sieci neuronowych.

AI działa jak ogr zmuszony do pożerania ogromnych ilości obrazów, by produkować wiarygodne efekty. Dlatego algorytmiczne obrazy fotograficzne, choć wywodzące się z wizualnego dziedzictwa całej historii fotografii, noszą niezaprzeczalne fotograficzne DNA. Z tego powodu można by je zasadnie uznać za fotografie drugiej generacji.

Roland Barthes pisał niegdyś, że każda fotografia oczekuje tekstu. Teraz sytuacja jest odwrócona: to tekst generuje fotografię.

Boris Eldagsen:

„Odwrócenie Barthesa" zaproponowane przez Fontcubertę jest retorycznie atrakcyjne, ale koncepcyjnie płytkie. W Świetle obrazu Roland Barthes argumentuje, że fotografie są niestabilne bez języka. Podpis stabilizuje fotografię. To samo zdjęcie zmienia znaczenie pod wpływem różnych podpisów.

Fontcuberta pomija jednak kluczowy fakt: prompty to nie podpisy. Są to instrukcje dla systemu probabilistycznego. Co więcej, to już dawno nie jest po prostu „tekst" generujący obrazy — multimodalne promptowanie jest standardem od lat. Dowolna modalność wejściowa może generować dowolną modalność wyjściową w przestrzeni latentnej. To właśnie tam załamują się kategorie mediów.

Argument „Fotografii Drugiej Generacji" jest elegancki, ale opiera się na błędzie logicznym. Prawda, że modele AI są trenowane na milionach fotografii. Ale to nie sprawia, że ich efekty są fotografią. To, co model dziedziczy, to styl wizualny — zestaw wzorców statystycznych. Nie dziedziczy tego, co definiuje fotografię: bezpośredniej fizycznej relacji między światłem, prawdziwym zdarzeniem a matrycą.

Miles Astray:

Odwracając przykład Fontcuberty i podążając za jego argumentem, który przedkłada rangę nad klasę, fotografie obrazów „można by zasadnie uznać" za malarstwo drugiej generacji. Ale gdybyśmy zaczęli nazywać tę kupioną za grosze w sklepie z upominkami reprodukcję Van Gogha obrazem, „można by nas zasadnie uznać" za szaleńców gorszych od samego holenderskiego mistrza.

Ciekawe artykuły:
Jak prosta lista zadań może zmniejszyć uczucie przytłoczenia w ciągu dnia
Jak rozpoznać, że twoje zmęczenie wynika z codziennych nawyków, a nie tylko z braku snu
Nowa linia Maisons du Monde proponuje nigdy wcześniej niewidziane kolory, które nadadzą domowi egzotyczny charakter

Gdy Microsoft kazał AI wyhalucynować „Następnego Rembrandta", a drukarka 3D naśladowała fakturę oleju na płótnie, rezultatu nie dało się nazwać „obrazem" bez cudzysłowu. To nie jest prawdziwy obraz. Podobnie fotorealistyczny obraz AI nie staje się fotografią — tak jak fotorealistyczne malarstwo nie staje się fotografią.

By zatrzymać ten czysto dialektyczny karuzel wokół rangi i klasy, wystarczy zdrowy rozsądek: intuicyjnie wiemy, co jest czym. Malarstwo jest malarstwem, fotografia jest fotografią, a obrazy AI są obrazami AI — bo wywodzą się z zasadniczo różnych procesów i intencji.

III. Problem walidacji

Joan Fontcuberta:

Ta kwestia terminologiczna — kryjąca za sobą głębsze pytanie ontologiczne — trafiła do mediów, gdy praca The Electrician z serii Pseudomnesia niemieckiego fotografa Borisa Eldagsena zdobyła nagrodę Sony World Photography Award 2023 w kategorii „Creative". […] Kanadyjski fotograf Miles Astray, specjalizujący się w fotografii przyrodniczej i podróżniczej, odwrócił logikę działania Eldagsena: zgłosił prawdziwe zdjęcie do nowopowstałej kategorii obrazów AI innego prestiżowego konkursu, Color Photography Awards. […]

Oba przypadki uwypuklają niewygodną, ale nieuchronną rzeczywistość: granica między twórczością ludzką a tą generowaną przez sztuczną inteligencję szybko się zaciera — jeśli nie zniknęła już całkowicie. […] Zamiarem było ujawnienie zawodności systemów walidacji w tego rodzaju konkursach. Mogły to być drobne wykroczenia, ale wskazywały na o wiele bardziej kluczową kwestię: określenie statusu i oznaczenia obrazów, ich pochodzenia, ich rodowodu.

Obie inicjatywy mogą wydawać się prowokacjami, ale w rzeczywistości oferowały niezbędną krytykę: jeśli zdjęcie wykonane aparatem można pomylić z obrazem wygenerowanym przez maszynę — lub odwrotnie — musimy przemyśleć, jak definiujemy granice między obrazami, a także pojęcia autorstwa, kreatywności i wizualnej prawdy.

Boris Eldagsen:

To, co te dwa incydenty naprawdę ujawniły, to fakt, że instytucje oceniające obrazy nie miały spójnych ram pozwalających je od siebie odróżnić.

Jeśli te przypadki czegoś nas uczą, to tego: wiarygodność obrazu nie może już rezydować w samym obrazie. Musi rezydować w procesie — kto go stworzył, w jaki sposób i w jakich warunkach odpowiedzialności. Autorytet dokumentalny nie znika; on migruje. Staje się proceduralny.

I właśnie dlatego lekceważenie procesu przez Fontcubertę jest tak problematyczne.

Miles Astray:

Prostowanie wszystkich fałszywych informacji zawartych w tym fragmencie — od mojej specjalizacji fotograficznej i intencji mojego eksperymentu po nazwę konkursu, w którym brałem udział — wykraczałoby poza zakres tej repliki. Ważne jest jednak zaznaczenie, że tekst jest pełen błędnych informacji. Fakty nadal mają znaczenie — niezależnie od tego, czy są uchwycone w obrazach, czy w słowach. W tej postprawdziwej epoce mają znaczenie bardziej niż kiedykolwiek.

Pojęcie prawdy może być z natury mgliste. Prawdy powszechne są trudne do znalezienia, a prawdy osobiste — powiązane z opiniami — są w nadmiarze. Hybrydowe drzewo Fontcuberty jest jednocześnie cytryną i pomarańczą, zależnie od punktu widzenia. Przeciwstawne perspektywy mogą współistnieć. Pojęcie rzeczywistości jest nieco twardsze niż prawda, gdy je ściśniesz — niemniej pozostaje przede wszystkim konceptem.

Jednak gdy wracamy z tych metarealm do naszego ludzkiego wymiaru, pragmatyzm jest niezbędny. Społeczeństwo rozpada się, gdy nie możemy zgodzić się na wspólną tkaninę, która je spaja. Jeśli nie możemy uzgodnić pewnych faktów, rzeczywistość staje się opcjonalna — z realnymi konsekwencjami. Napędzany przez media społecznościowe i doładowany przez AI, wykładniczy wzrost dezinformacji już zaczyna erodować demokracje i spójność społeczną na całym świecie.

IV. Problem wątpliwości

Joan Fontcuberta:

Mimo wszystko fundamentalna kwestia, która niepokoi zarówno specjalistów, jak i opinię publiczną, dotyczy wiarygodności obrazów. Niektórzy zastanawiają się, czy zdjęcie wygenerowane przez prompt pewnego dnia zdobędzie nagrodę World Press Photo. Ale być może pytanie jest źle sformułowane. To, co naprawdę należy zakwestionować, to czy konkursy takie jak World Press Photo nadal mają sens.

Żyjemy teraz w wizualnym reżimie, w którym obrazy coraz bardziej konstruują świat, zamiast go po prostu przedstawiać. […] Być może powinniśmy być nawet wdzięczni za ich proliferację, bo przypominają nam o konieczności wątpienia. Fotografia algorytmiczna wzmacnia przekonanie, że każdy obraz jest nieuchronnie iluzją, i zmusza nas do ponownego rozważenia zaufania, jakie pokładamy w obrazach.

[…] Fotografia nigdy tak naprawdę nie była obiektywna; po prostu wybraliśmy wiarę, że jest. Dziś, z AI działającą jako nowy demiurg, fotografia dokumentalna po cichu prześlizguje się między historyczną narracją a sfabrykowaną ilustracją. Technologie deepfake otworzyły Puszkę Pandory ikonografii. Nie patrzymy już, by rozumieć — patrzymy, by wątpić.

[…] To, czego jesteśmy świadkami, to przejście od realizmu optycznego do realizmu informacyjnego — syntetycznego realizmu przywoływanego przez polecenia, teksty i ciągi kodu.

Boris Eldagsen:

Twierdzenie, że „każdy obraz zawsze był fikcją", jest tylko w połowie prawdziwe — a półprawdy są niebezpieczne w dyskursie publicznym.

Każde zdjęcie jest kadrowane, selekcjonowane, obrabiane — to niepodważalne. Ale zdjęcie z aparatu wciąż zaczyna się od czegoś realnego: światła z prawdziwego zdarzenia, zarejestrowanego przez matrycę. Wygenerowany obraz zaczyna się od statystycznych wniosków wyciągniętych z bazy poprzednich obrazów. To nie jest ten sam akt.

Traktowanie ich jako równoważnych nie wyostrza naszego krytycznego myślenia. Eliminowanie instytucji takich jak World Press Photo nie rozwiązuje problemu. Prawdziwym zadaniem jest obrona rozliczalności: skąd pochodzi obraz, kto go stworzył i w jakich warunkach.

Zaufanie przesuwa się — od obrazu do procesu. Proweniencja, metadane, redakcyjne łańcuchy odpowiedzialności i przejrzyste źródła stają się centralne. Obraz nie jest już dowodem. Dowodem jest proces.

Uderzające jest, że Fontcuberta nie odnosi się w tym rozdziale do demokratycznych implikacji tej zmiany. Dyskurs publiczny zależy od wizualnych dowodów. Gdy wszystkie obrazy stają się jednakowo podejrzane, społeczeństwa tracą kluczowe narzędzie epistemiczne. Wątpliwość w umiarze jest produktywna. W nadmiarze staje się dezorientująca — a dezorientacja jest łatwo wykorzystywana.

Jeśli dowolny obraz może symulować dowody zdarzeń, które nigdy nie miały miejsca, ci, którzy na tym zyskują najbardziej, to właśnie ci, którym najmniej należy ufać. Zacieranie granicy między fotograficznym uchwyceniem a syntetyczną generacją nie wyzwala nas z naiwności — zapewnia osłonę dla manipulacji.

Miles Astray:

AI jako nowy wizualny nurt nie zmyje solidnych instytucji takich jak World Press Photo. Mówi się wprost: world. press. photo. Trzy filary, których AI nigdy nie zachwieje. Nie może tworzyć prawdziwych zdjęć prawdziwego świata dla prawdziwych artykułów prasowych.

Oczywiście prawdą jest, że fotografia „nigdy tak naprawdę nie była obiektywna". Wybory fotografa — co zostaje pominięte w kadrze, a więc i w wizualnej narracji — zawsze sprawiały, że dokładność była jedynie przybliżeniem. Właśnie dlatego podpisy muszą dawać kontekst obrazom dokumentalnym prezentowanym przez World Press Photo.

To naturalne ograniczenia, które w rzeczywistości zwiększają ambicję fotografa dążącego do dokumentalnej dokładności. Powątpiewając w dalszą aktualność fotografii prasowej, Fontcuberta umniejsza te wysiłki, machając ręką na ważne rozróżnienia w tworzeniu obrazów i zrównując fotograficzny dowód z ilustracyjną exemplifikacją.

Choć fotografia jest ograniczona w dokładności, AI jest technologicznie całkowicie niezdolna do rejestrowania rzeczywistych zdarzeń. Nie ma żadnego związku z tego rodzaju nagrodami fotograficznymi — z wyjątkiem udziału w ugruntowaniu przekonania, że są one bardziej aktualne niż kiedykolwiek.

Stwierdzenie „nie patrzymy już, by rozumieć — patrzymy, by wątpić" brzmi chwytliwie. Niestety, trzeźwe fakty mogą wyglądać dość nudno obok takich efektownych bon motów — i właśnie dlatego prasa zmaga się z rywalizacją o uwagę z wirusowymi kontami w mediach społecznościowych. Nudna prawda jest taka, że wciąż patrzymy, by rozumieć. Co się zmieniło, to że musimy teraz wątpić bardziej.

Historycznie wiarygodność obrazów była stosunkowo łatwa do ustalenia. Manipulacja fotografiami była żmudnym procesem w ciemni, wymagającym czasu i umiejętności. Niewielu opanowało tę sztukę, wielu potrafiło ją zdemaskować. Ta równowaga przesunęła się wraz z cyfrowym oprogramowaniem do postprodukcji, a całkowicie się odwróciła wraz z AI. Bez względu na to, ilu krytycznych myślicieli wychowamy, samymi krytycznymi myślami nie powstrzymasz niekontrolowanej powodzi AI-slop. Instytucjonalne zabezpieczenia i etyka przedsiębiorcza muszą służyć społeczeństwu obywatelskiemu w takim samym stopniu, w jakim rozliczamy rządy i sektor prywatny naszymi decyzjami wyborczymi i zakupowymi.

Jeśli te podmioty będą działać wspólnie, „syntetyczny realizm" Fontcuberty pozostanie jedynie chwytliwą frazą, która próbuje skurczyć eony wizualnej historii — od malowideł jaskiniowych po obrazkowe przesłania lecące przez kosmos na pokładach sond — ściskając je w jedną binarną współczesną epokę obrazów zunifikowanych.

Przedstawianie różnorodnych ludzkich narzędzi i metod wizualnego tworzenia jako kulminujących w sztucznym koktajlu to błędna reprezentacja ich ewolucji. Fotografia nie jest ewolucyjną kontynuacją malarstwa, które zastąpiło swojego poprzednika — i AI nie zastępuje aparatów. Te media, narzędzia i procesy współistnieją i będą nadal współistnieć jako ewoluujące formy wyrazu — tak samo jak cytryny i pomarańcze współistnieją, będąc następcami wspólnego cytrusowego przodka.

O autorach: Boris Eldagsen to berlińsko osadzony artysta fotograficzny i wideo, badający nieświadomość. W poszukiwaniu ponadczasowości jego poetyka wizualna łączy wzniosłość z niesamowitością.

Miles Astray to artysta-aktywista łączący pisarstwo i fotografię, inspirowany powolną podróżą.