Transframer

Da poco ho provato DALL-E: un tool di generazione immagini che ha dell’incredibile. Le immagini che ho generato per l’articolo mi hanno emozionato.

Oggi leggo un nuovo tassello verso l’immaginazione dell’AI: stavolta proviene da Google Deepmind e si chiama Transframer.

Leggiamo insieme la descrizione del modello:

Abstract

Presentiamo un modello generico per la modellazione delle immagini basate sulle attività di visione e la previsione probabilistica dei fotogrammi.

Il nostro approccio unifica una vasta gamma di compiti, dalla segmentazione delle immagini, alla sintesi di nuove viste e all’interpolazione video.

Accoppiamo questo framework con un’architettura che chiamiamo Transframer, che utilizza componenti U-Net e Transformer per condizionare i fotogrammi di contesto annotati e produce sequenze di immagini sparse e compresse.

Transframer è all’avanguardia su una varietà di benchmark di generazione video, è competitivo con i modelli più forti sulla sintesi della vista a pochi scatti e può generare video coerenti di 30 secondi da una singola immagine senza alcuna informazione geometrica esplicita.

Un singolo transframer generalista produce contemporaneamente risultati promettenti su 8 attività, tra cui la segmentazione semantica, la classificazione delle immagini e la previsione del flusso ottico senza componenti architettonici specifici per attività, dimostrando che la visione artificiale multi-task può essere affrontata utilizzando modelli di immagine probabilistici.

Il nostro approccio può in linea di principio essere applicato a una vasta gamma di applicazioni che richiedono l’apprendimento della struttura condizionale dei dati formattati con immagini annotate.

Tutto molto bello, ma funziona?

Sul sito di riferimento ci sono alcuni video a bassa risoluzione ed un po’ deludenti, ma che lasciano intravedere un futuro radioso: presto unendo le forze dei generatori di immagine e dei Transframer potremo dare in pasto direttamente le sceneggiature, lo stile, e vedere il film.

Okay: ci vorrà un po’ di tempo.

deleyCON 3,0m Cavo Patch CAT6 - S/FTP PIMF Schermatura - CAT-6 RJ45 Cavo di Rete Ethernet LAN Router DSL Switch Router Modem - Arancione

(4658364)

8,61 € (a partire da 18 Ottobre 2025 17:17 GMT +02:00 - )

Samsung Galaxy Tab A9+, Display 11.0" TFT LCD PLS, WiFi, RAM 8GB, 256GB, 7.040 mAh, Qualcomm SM6375, Android 15, Dark Blue [Versione italiana]

(46577)

245,48 € (a partire da 21 Ottobre 2025 17:21 GMT +02:00 - )

Cuffie Bluetooth, Auricolari Bluetooth 5.3 Wireless, 5-7 h per tre volte Cuffiette Hi-Fi Senza Fili, Auricolare USB C CVC Cancellazione Rumore Senza Filo for iOS Galaxy Xiaomi OPPO Android

(44515831)

11,99 € (a partire da 21 Ottobre 2025 17:21 GMT +02:00 - )

acer Lettore di schede SD USB C, Adattatore Schede di Memoria MicroSD USB C 5Gbps, Lettura e Scrittura Simultanea per SDHC/SDXC/MMC, Compatibile con iPhone 16 Plus Pro Max iPad Macbook Pro Air

(465642)

11,99 € (a partire da 21 Ottobre 2025 17:21 GMT +02:00 - )

Corsair VENGEANCE LPX DDR4 RAM 32GB (2x16GB) 3200MHz CL16 Intel XMP 2.0 Memoria per computer - Nero (CMK32GX4M2E3200C16)

(485114254)

133,99 € (a partire da 18 Ottobre 2025 17:17 GMT +02:00 - )

Ago, 2022

deleyCON 3,0m Cavo Patch CAT6 - S/FTP PIMF Schermatura - CAT-6 RJ45 Cavo di Rete Ethernet LAN Router DSL Switch Router Modem - Arancione

Samsung Galaxy Tab A9+, Display 11.0" TFT LCD PLS, WiFi, RAM 8GB, 256GB, 7.040 mAh, Qualcomm SM6375, Android 15, Dark Blue [Versione italiana]

Cuffie Bluetooth, Auricolari Bluetooth 5.3 Wireless, 5-7 h per tre volte Cuffiette Hi-Fi Senza Fili, Auricolare USB C CVC Cancellazione Rumore Senza Filo for iOS Galaxy Xiaomi OPPO Android

acer Lettore di schede SD USB C, Adattatore Schede di Memoria MicroSD USB C 5Gbps, Lettura e Scrittura Simultanea per SDHC/SDXC/MMC, Compatibile con iPhone 16 Plus Pro Max iPad Macbook Pro Air

Corsair VENGEANCE LPX DDR4 RAM 32GB (2x16GB) 3200MHz CL16 Intel XMP 2.0 Memoria per computer - Nero (CMK32GX4M2E3200C16)

Lascia un commento Annulla risposta