Κάπως έτσι, το τμήμα Microsoft Research του Αμερικανού tech κολοσσού ήρθε τώρα να πάρει τη σκυτάλη και να σοκάρει τα social media με το VASA-1 μοντέλο.
Τι είναι το VASA-1; Τα αρχικά σημαίνουν Visual Affective Skills Audio και πρόκειται για ένα artificial intelligence framework που φιλοδοξεί να αλλάξει τις ψηφιακές επικοινωνίες. Τι μπορεί να κάνει; Η εξαιρετικά προηγμένη τεχνητή νοημοσύνη παράγει απίστευτα ρεαλιστικά deep fake βίντεο, για τα οποία χρειάζεται μόνο μια φωτογραφία ενός ανθρώπου και μια μόνο σύντομη ηχογράφηση της φωνής του.
Τα αποτελέσματα είναι τόσο πιστευτά που σχεδόν περνιούνται για πραγματικά βίντεο και προφανώς…τρομάζουν. Η ικανότητα του μοντέλου να μιμείται τις φυσικές κινήσεις του κεφαλιού και ένα ευρύ φάσμα συναισθημάτων είναι απαράμιλλη και σηματοδοτεί ένα πολύ σημαντικό άλμα προς τα εμπρός όσον αφορά το animation με τεχνητή νοημοσύνη.
Η τεχνολογία μπορεί μελλοντικά να φέρει τα πάνω κάτω όχι μόνο στις επικοινωνίες, αλλά και σε βιομηχανίες όπως το gaming και ο κινηματογράφος. Τα social media ήδη έχουν σοκαριστεί με τις δυνατότητές του VASA-1, το οποίο πέρα από φωτογραφίες πραγματικών ανθρώπων, μπορεί να ζωντανέψει μέχρι και πίνακες.
Είναι από τις περιπτώσεις που τα πολλά λόγια περισσεύουν, οπότε σας αφήνουμε να παρακολουθήσετε μερικά από τα παραδείγματα χρήσης του μοντέλου που δόθηκαν στα φώτα της δημοσιότητας, παρουσιάζοντας τις προηγμένες του δυνατότητες. Το αποκορύφωμα είναι η Mona Lisa να…ραπάρει:
Πηγή: unboxholics.com
Microsoft just dropped VASA-1.
— Min Choi (@minchoi) April 18, 2024
This AI can make single image sing and talk from audio reference expressively. Similar to EMO from Alibaba
10 wild examples:
1. Mona Lisa rapping Paparazzi pic.twitter.com/LSGF3mMVnD
2. Realism and liveliness - example 1 pic.twitter.com/Kz0Bm2NRNy
— Min Choi (@minchoi) April 18, 2024
3. Realism and liveliness - example 2 pic.twitter.com/7nVrTtDUmM
— Min Choi (@minchoi) April 18, 2024
6. Controllability of generation 2
— Min Choi (@minchoi) April 18, 2024
Example of different emotion offsets pic.twitter.com/vusoSAPgb4