Šta sve znamo do sada o – navodnom tonskom zapisu Damira Zobenice

Tim Istinomera 8. 12. 2024.

Tonski zapis koji je Marinika Tepić na svom X profilu predstavila kao autentičan snimak glasa Damira Zobenice, potpredsednika Skupštine AP Vojvodine, izazvao je burne reakcije i pitanja o njegovoj verodostojnosti. Forenzička analiza sprovedena korišćenjem više alata za audio i digitalnu forenziku ukazuje na visoku izvesnost autentičnosti, iako nijedan od njih nije u mogućnosti da pruži stoprocentnu procenu. Takođe, stručnjaci ocenjuju da bi izrada deepfake snimka ovakvog kvaliteta i preciznosti, u ovom momentu, zahtevala ogromne resurse, što otežava teze o manipulaciji veštačkom inteligencijom.

Damir Zobenica snimak analiza

U audio snimku koi je Marinika Tepić, potpredsednica Stranke slobode i pravde, objavila na društvenoj mreži X, Damir Zobenica, potpredsednik Skupštine Autonomne pokrajine Vojvodina, navodno, daje instrukcije za, aktiviste Srpske napredne stranke tokom nedavnih blokada u Novom Sadu.

U snimku se može čuti kako na lokacijama koje su predviđene za blokadu, aktivisti imaju „zadatak od velike važnosti“ koji se sastoji od „obezbeđivanja ljudi koji nisu prepoznatljivi, koji nisu funkcioneri“ do „kreativnog“ vređanja prisutnih opozicionih lidera. U snimku Zobenica navodno naglašava kako „sve to mora da se snimi“ i pošalje njemu „kako bi on dalje mogao da prosleđuje medijima“.

Međutim, šta sve znamo o poreklu spornog snimka? Da li se radi o „veštačkoj inteligenciji”?

Prve reakcije na sporni snimak stigle su u iste večeri sa nacionalnih frekvencija — u prvom redu, u gostovanju predsednika Srbije Aleksandra Vučića u Nacionalnom Dnevniku TV Pink.
Vučić je bio kratak i naglasio je da mu je (Zobenica) „poslao poruku da je to veštačka inteligencija, ne znam šta“. „Baš me briga“, ogradio se Vučić u gostovanju na Pinku.
Ni predsednik, ni Damir Zobenica nisu nam odgovorili na pitanja i molbu da nam dostave dokaz za tvrdnje da je snimak produkt veštačke inteligencije.

Koje je poreklo snimka koje je Marinika Tepić plasirala u javnost?

Do sada, Marinika Tepić nije otkrila uslove pod kojima je došla u posed snimka koji je predočila javnosti, uz tvrdnje da je reč o Damiru Zobenici.
Tokom svog gostovanja u emisiji “Utisak nedelje” na televiziji Nova, na pitanje o poreklu snimka koji je objavila, potpredsednca SSP-a, odgovorila je kratkim: „Sada me pitate isto ono što bi Srpska napredna stranka želela da zna“, ali je potvrdila da snimak stigao iz SNS-a — „logično“.

Šta kaže audio forenzika objavljenog snimka?

Tim Istinomera izvršio je inicijalnu analizu snimka objavljenog na društvenoj mreži X. Kako bismo sproveli detaljniju i precizniju analizu, zatražili smo od Marinike Tepić snimak u izvornom obliku, međutim, sadržaj nismo dobili.
Dobijeni rezultati se, dakle, odnose na snimak koji je javnosti dostupan, preuzet sa X naloga Marinike Tepić, te se mogu, u određenoj meri, razlikovati od izvornog.
U slučajevima kada su materijali nastali snimanjem ekrana telefona (screen recording) i distribuirani putem aplikacija poput WhatsApp-a, Vibera ili Signala, proces kompresije može značajno uticati na kvalitet snimka, što otežava detaljnu analizu. Takođe, forenzička procena sadržaja preuzetog s društvenih mreža može se razlikovati od analize materijala u njegovom izvornom obliku.
Metapodaci, koji bi omogućili detekciju uređaja, vremena i lokacije snimanja, kao i tragove potencijalne audio manipulacije, montaže ili primene softvera za veštačku inteligenciju, nam, stoga, nisu bili dostupni ovom prilikom.
Spektoralna analiza, izvedena alatima poput Audacity i Sonic Visualizer, pokazala je izostanak neprirodnih obrazaca ili anomalija (gličeva) karakterističnih za deepfake audio zapise, koji obično imaju „glatke“ i „ravne“ frekvencijske komponente.
Tačnije, na spektogramu nisu uočljivi neprirodni obrasci ili anomalije (gličevi) karakteristični za deepfake audio zapise koji su uglavnom „glatki“ i „ravni“.
Poređenje spektograma spornog zapisa preuzetog sa X naloga Marinike Tepić, sa Zobeničinim snimkom preuzetim sa YouTube-a dodatno podržava tezu o visokoj izvesnosti autentičnosti audio materijala.

Youtube snimak Zobenice, spektogram Audacity

Spektogram spornog snimka, spektoralni prikaz Visualizer alatka

Do istog zaključka došli smo i detaljnijom analizom zvuka korišćenjem alata Praat. Pored spektrograma, analizirali smo intenzitet glasa, intonaciju i posebno karakteristične suglasnike (formante). Uočen je kontinuitet mikrovarijacija u glasu, bez naznaka manipulacije ili sinteze zvuka.

Dodatno, koristili smo i alate za detekciju sadržaja generisanog uz pomoć veštačke inteligencije.
Rezultat korišćenja alatke Hive Moderation je u više navrata pokazao 0 odsto prisustva zvuka kreiranog veštačkom inteligencijom.

Hive Moderation analiza Zobeničnin snimak

Poređenja radi, audio deepfake Dragana Đilasa preko iste alatke pokazuje čak 95,8 odsto šanse da zapis nije verodostojan, odnosno da je proizvod veštačke inteligencije.

Hive Moderation, deepfake, Izvor: Republika

Detektor deepfake sadržaja koji bi mogao biti kreiran pomoću alata ElevenLabs, pokazuje da je „veoma mala šansa“, odnosno svega 3,7 odsto mogućnosti da se za kreiranje spornog zapisa koristio upravo ovaj softver ili da je audio uopšte manipulisan na takav način.

Slične rezultate dale su i analize uz pomoć Deepware alata za detekciju deepfake audio-vizuelnog sadržaja, tj. zapisa kreiranih uz pomoć veštačke inteligencije.

Naglašavamo da, u ovom trenutku, nijedan alat nije u mogućnosti da pruži stoprocentnu procenu o (ne)autentičnosti audio ili video sadržaja, iako može ukazivati na određene indikatore manipulacije. Ovo je posebno važno uzeti u obzir kada se radi o materijalu koji je nastao snimanjem ekrana telefona i/ili prilikom distribuiranja preko različitih komunikacionih platformi poput WhatsApp-a, Vibera ili Signala, mogao proći kroz kompresiju.
Kompresija smanjuje veličinu datoteke uklanjanjem „manje važnih” podataka, što može rezultirati gubitkom detalja u zvuku ili promenama u spektralnim karakteristikama. Ove promene mogu otežati otkrivanje manipulacije ili autentifikaciju, ali ne eliminišu sve tragove potencijalne obrade.
Dakle, korišćeni alati ukazuju na verovatnoću manipulacije ili autentičnosti, međutim, nisu nepogrešivi.

Šta su rekli stručnjaci za produkciju i dizajn zvuka?

Biometrijska analiza desetine autentičnih audio zapisa Damira Zobenice, dostupnih na platformama poput YouTube-a, Instagrama i Facebook-a iz prethodnih godina, ukazuje na značajno podudaranje tonaliteta, boje glasa, intonacije i naglaska sa glasom sa spornog audio snimka. Na osnovu ovih parametara, koji su karakteristični za prirodan govor Zobenice, može se zaključiti da glas na tonskom zapisu odgovara njegovom.
Iako zvuci kreirani uz pomoć veštačke inteligencije mogu delovati realistično, karakteristike poput „ravne“ ili robotizovane intonacije, lišene emotivnih nijansi, često ih odaju — kao što je bio slučaj sa primerom deepfake snimka Dragana Đilasa objavljenog na portalu Republika. Ove osobine su naročito uočljive na manjim jezicima poput srpskog. Međutim, na analiziranom snimku takvi neprirodni obrasci intonacije nisu primećeni.
Sa druge strane, u spornom snimku se u više navrata jasno čuju različite nijanse takozvane „emotivne refleksije“, koje mogu ukazivati na autentičnost zapisa. Na primer, u 00:10 sekundi snimka, Zobenica menja intonaciju i jasno naglašava deo rečenice: „sem Železničke stanice,“ dok u 00:56 sekundi akcentuje frazu: „snimanje svega toga.“ Ovi suptilni glasovni prelazi, karakteristični za prirodan govor, dodatno doprinose verodostojnosti snimka.
Autentičnost audio snimka Zobenice (odnosno spornih audio poruka sa Signala) može se dodatno potkrepiti izostankom monotonije u glasu, prisustvom poštapalica, nepravilnostima u disanju, kao i zvučnom detekcijom udaha i izdaha tokom govora. Takođe, zabeležen je izostanak repeticije spoljašnje ili ambijentalne buke, što je karakteristično za veštački generisane audio zapise.
Posebno značajan detalj je šum koji nastaje pri izgovaranju određenih suglasnika (B, P, D, T, Ž) kada su previše blizu mikrofona telefona, što je primetno u prvom delu snimka. Ove suptilne audio karakteristike dodatno podržavaju tezu o prirodnosti i autentičnosti snimka.
Dejan Tomka, inženjer zvuka i audio producent, ističe za Istinomer da se u njegovom dosadašnjem iskustvu rada sa text-to-speech (TTS) alatima nije susreo sa toliko naprednim alatom koji bi verno simulirao govorni jezik.
U ovom momentu, ističe Tomka, svi alati usmereni su ka tome da se glas (stvoren uz pomoć AI softvera) koristi za audio knjige, reklame, replika u filmu kao korekcije i slično, da bi to na kraju zvučalo kao glumac koji datu rečenicu kvalitetno, narativno pročita.
„Svi elementi koji se mogu čuti u govornom jeziku, zbunjivanje, poštapalice, momenti u kojima čovek krene da izgovara jednu reč, pa se ispravi ponavljajući je iz početka — veštačka inteligencija, u ovom trenutku, ne može da reprodukuje“, kaže Tomka.
„Stvar na koju obraćam pažnju kada radim editing teksta (koji bi se primenio na zvuk) je ritam izdaha i udaha, gde, na nekom psihološkom nivou, slušalac može da stvori gotovo klaustrofobičan osećaj ukoliko razgovor ne prati ritam izdaha i udaha u nekom dužem tekstu — navikli smo da čujemo prirodan zvuk disanja, što veštačka inteligencija ne može da simulira u ovom trenutku, već samo reči i njihov izgovor.”
„U ovom snimku se čuje kako čovek u nekom trenutku zaista ima potrebu da udahne, menja se boja tona glasa u zavisnosti od kapaciteta pluća, odnosno da li je reč usledila na početku udaha ili izdaha“, zaključuje Tomka.
Međutim, naš sagovornik ističe da teoretski postoji mogućnost da se u prethodnim mesecima vežbao neki custom model veštačke inteligencije (LLM, large language model) sa gomilom, ukoliko postoje, Zobeničinih audio izjava.
U tom slučaju, naglašava Tomka, govorili bismo o projektu koji bi zahtevao ogromne vremenske i finasijske resurse, koji, čak i sa toliko detaljno napravljenim modelom, ne bi garantovao verodostojnost govora na srpskom jeziku, pogotovo ne vojvođanskog naglaska.

Izvori:
Skupstina AP Vojvodina
X
YouTube
N1
TV Nova
Republika
ScienceDirect.com
Audacity
Sonic Visualizer
Praat
Hive Moderation
ElevenLabs
Deepware
TruthMedia
DeepFake-o-Meter