μάθετε τα πάντα για την τεχνητή νοημοσύνη που δημιουργεί βίντεο από κείμενο

Το Sora είναι το μοντέλο τεχνητής νοημοσύνης του OpenAI ικανό να μετατρέψει ένα μήνυμα κειμένου σε βίντεο. Δυνητικά μια επανάσταση στην καλλιτεχνική δημιουργία, ο Sora εγείρει πολλά ερωτήματα, τα οποία προσπαθούμε να απαντήσουμε εδώ.

βίντεο που δημιουργήθηκε από τον Sora
Πίστωση: OpenAI

Αφού δημιούργησε απαράμιλλο ενθουσιασμό με τη γεννήτρια κειμένου ChatGPT και τη δημιουργία εικόνων DALL-E, η OpenAI παρουσίασε τη Sora, τη γεννήτρια βίντεο της. Όπως και με τις άλλες πλατφόρμες του, είναι ένα εργαλείο που βασίζεται στην τεχνητή νοημοσύνη, ικανό να δημιουργεί περιεχόμενο από μια προτροπή σε μορφή κειμένου. Η Sora υπόσχεται να φέρει επανάσταση σε πολλές δημιουργικές χρήσεις στο διαδίκτυο και σε άλλους τομείς. Ορίστε τι πρέπει να γνωρίζετε για αυτό.

Πώς λειτουργεί το Sora;

Το Sora βασίζεται, όπως τα μοντέλα GPT, σε ένα αρχιτεκτονική μετασχηματιστή. Σε ένα νευρωνικό δίκτυο, ένας μετασχηματιστής θα χρησιμοποιήσει το πεδίο μελέτης του για να δημιουργήσει σχέσεις μεταξύ των στοιχείων μιας ακολουθίας, επιτρέποντάς του στη συνέχεια να τροποποιήσει μια ακολουθία εισόδου σε μια ακολουθία εξόδου και να δημιουργήσει μια απόκριση σε μια προτροπή. Αυτό το σύστημα κάνει να φαίνεται ότι η τεχνητή νοημοσύνη καταλαβαίνει την ερώτηση και σκέφτεται να δημιουργήσει μια σχετική απάντηση, αλλά στην πραγματικότητα δεν εμπλέκονται συλλογιστικές δεξιότητες. Αυτοί είναι αλγόριθμοι που χρησιμοποιούν μαθηματικές αναπαραστάσεις για να συσχετίσουν τις έννοιες μεταξύ τους.

Όταν τα μοντέλα μεγάλων γλωσσών (LLM) χρησιμοποιούν διακριτικά στη λειτουργία τους, το Sora χρησιμοποιεί αυτό που το OpenAI αποκαλεί tokens. “μπαλώματα” (οπτικές διορθώσεις). Αυτή η τεχνική έχει ήδη αποδειχθεί στον τομέα της οπτικοποίησης δεδομένων. Τα βίντεο μετατρέπονται σε ενημερώσεις κώδικα με συμπίεση και στη συνέχεια αυτές οι ενημερώσεις κώδικα λειτουργούν ως διακριτικά. Μπορούν να χρησιμοποιηθούν για την ανακατασκευή ενός βίντεο (ή μιας εικόνας) χρησιμοποιώντας τον μετασχηματιστή.

Μπαλώματα SoraΜπαλώματα Sora
Πίστωση: OpenAI

“Το Sora είναι ένα μοντέλο ροής που δημιουργεί ένα βίντεο ξεκινώντας με ένα βίντεο που μοιάζει με στατικό θόρυβο και το μεταμορφώνει σταδιακά αφαιρώντας το θόρυβο σε πολλά βήματα”, εξηγεί το OpenAI. Είναι δυνατό να δημιουργήσετε ένα βίντεο με μία κίνηση από ένα μόνο μήνυμα προτροπής ή να χρησιμοποιήσετε πολλές προτροπές για να επιμηκύνετε ή να διορθώνετε το βίντεο καθώς προχωράτε.

Θόρυβος SoraΘόρυβος Sora
Πίστωση: OpenAI

Το μοντέλο χρησιμοποιεί το ίδιο τεχνική ανακεφαλαίωσης Χρησιμοποιείται από το DALL-E 3. Αυτό συνίσταται στη δημιουργία πολύ λεπτομερών και περιγραφικών μύθων για την ανάπτυξη μιας πλούσιας βάσης δεδομένων οπτικής εκπαίδευσης. Το μοντέλο μπορεί έτσι να αντλήσει από αυτήν τη βάση δεδομένων για να συμμορφωθεί πιο πιστά με τις οδηγίες κειμένου του χρήστη στο βίντεο που δημιουργείται.

Εκτός από μια προτροπή κειμένου, το Sora υποστηρίζει οδηγίες επεξεργασίας που περιέχουν μια ακίνητη εικόνα. Στη συνέχεια δημιουργεί ένα κινούμενο σχέδιο με βάση το περιεχόμενο αυτής της εικόνας. Η προτροπή μπορεί ακόμη και να προτείνει ένα βίντεο, το οποίο η Sora θα μπορεί να επεκτείνει ή στο οποίο μπορεί να προσθέσει σκηνές που λείπουν.

Πόσο διαρκεί ένα βίντεο που δημιουργείται από τον Sora;

Προς το παρόν, η Sora μπορεί να δημιουργήσει βίντεο διάρκειας έως και ενός λεπτού. Αυτό το όριο οφείλεται στον αριθμό των πόρων που απαιτούνται για τη δημιουργία ενός βίντεο που σέβεται αυστηρά τις οδηγίες του χρήστη και το επιθυμητό οπτικό στυλ. Το OpenAI δεν έχει επικοινωνήσει σχετικά με τον χρόνο επεξεργασίας που απαιτείται για τη δημιουργία ενός βίντεο. Τα σχόλια από τους πρώτους χρήστες φαίνεται να δείχνουν ότι χρειάζεται περίπου μία ώρα για να δημιουργηθεί ένα βίντεο ενός λεπτού με τη Sora. Μια τέτοια καθυστέρηση αντιπροσωπεύει μια μεγάλη αδυναμία για την υπηρεσία, εμποδίζοντας τους χρήστες να διορθώσουν αποτελεσματικά τα βίντεό τους με νέες προτροπές για να τα βελτιστοποιήσουν και να λάβουν πιο σχετικά αποτελέσματα.

Πόσο καλή είναι η ποιότητα της εικόνας του Sora;

Η Sora δημιουργεί βίντεο ευκρίνεια έως 1920 x 1080p, δηλαδή Full HD. Μπορεί επίσης να παράγει βίντεο σε κάθετη μορφή έως 1080 x 1920p και να προσαρμόζεται σε οποιαδήποτε αναλογία. Σε αντίθεση με άλλες υπηρεσίες αυτού του τύπου, ο αριθμός των καρέ ανά δευτερόλεπτο των βίντεο δεν είναι γνωστός.

Η Σόρα είναι σε θέση να δημιουργήσει εξαιρετικά ρεαλιστικές αποδόσεις, αλλά και πιο αφηρημένες σκηνές, σύμφωνα με τα αιτήματα που εξηγούνται στην προτροπή. Μπορεί να εμφανιστούν τεχνάσματα και εκτροπές στην εικόνα και μπορεί να παρατηρήσουμε ένα φαινόμενο παραισθήσεων, όπως με τη δημιουργία εικόνων με το DALL-E. Μπορούν επίσης να προκύψουν σφάλματα στις κινήσεις, καθώς και στις αλληλεπιδράσεις μεταξύ χαρακτήρων ή με τη ρύθμιση και τα αντικείμενα. Αλλά τα πρώτα παραδείγματα που δημοσιεύονται από το OpenAI είναι εντυπωσιακά και μπορούμε να σκεφτούμε ότι ο Sora θα μπορούσε ήδη να είναι έτοιμος να δημιουργήσει διαφημιστικά σποτ που μεταδίδονται στο διαδίκτυο ή στην τηλεόραση.

Κατά την παραδοχή του ίδιου του OpenAI, ο Sora χρειάζεται ακόμα βελτίωση. «Μπορεί να δυσκολεύεται να προσομοιώσει με ακρίβεια τη φυσική μιας περίπλοκης σκηνής και μπορεί να μην κατανοήσει συγκεκριμένες περιπτώσεις αιτίας και αποτελέσματος», παραδέχεται η εταιρεία. Για παράδειγμα, εάν ένα άτομο δαγκώσει ένα μπισκότο, μπορεί να μην έχει σημάδι δαγκώματος. Η διαχείριση του σπασμένου γυαλιού είναι επίσης μια δυσκολία που αντιμετωπίζει το OpenAI. Το μοτίβο μπορεί να μπερδευτεί στις χωρικές οδηγίες μιας προτροπής, αναμειγνύοντας για παράδειγμα αριστερά και δεξιά. Μπορεί επίσης να είναι δύσκολο να ακολουθήσετε οδηγίες κατεύθυνσης για μια σκηνή, όπως μια συγκεκριμένη τροχιά ή γωνία κάμερας.

Ο Sora, από την άλλη, είναι ικανός να δημιουργεί σκηνές με ακριβείς λεπτομέρειες του θέματος και του φόντου, να εκφράζει συναισθήματα, να σέβεται ένα οπτικό στυλ, να αλλάζει πλάνα πολλές φορές σε ένα μόνο βίντεο ή ακόμη και να υιοθετεί ένα συγκεκριμένο φορμά ταινίας. όπως 35 χλστ. Η 3D συνέπεια έχει ήδη κατακτηθεί. Το Sora μπορεί να δημιουργήσει βίντεο με δυναμική κίνηση της κάμερας. «Καθώς η κάμερα κινείται και περιστρέφεται, οι άνθρωποι και τα στοιχεία της σκηνής κινούνται με συνέπεια σε τρισδιάστατο χώρο»μαθαίνουμε.

Ομοίως, το OpenAI είναι ευχαριστημένο με την απόδοση του Sora όσον αφορά τη χρονική συνοχή σε όλη τη διάρκεια ενός βίντεο και της μονιμότητας του αντικειμένου. «Το μοντέλο μας μπορεί να διατηρήσει ανθρώπους, ζώα και αντικείμενα ακόμα και όταν είναι κρυμμένα ή φεύγουν από το πλαίσιο. Μπορεί να δημιουργήσει πολλές λήψεις του ίδιου χαρακτήρα σε ένα μόνο δείγμα, διατηρώντας την εμφάνισή τους σε όλο το βίντεο».λέει η εταιρεία.

Πώς να δοκιμάσετε το Sora;

Το Sora είναι προσβάσιμο μόνο σε μέλη τουOpenAI Red Teaming Network. Αυτή είναι μια προσεκτικά επιλεγμένη ομάδα χρηστών των οποίων η αποστολή είναι να δοκιμάσουν τις δυνατότητες του εργαλείου. Ο στόχος είναι να αναφέρετε τεχνικά, νομικά ή ηθικά προβλήματα στο OpenAI, ώστε να μπορούν να επιλυθούν πριν από μια ευρύτερη κυκλοφορία. Το ζήτημα των deepfakes ανησυχεί ιδιαίτερα τους εκδότες λύσεων δημιουργίας βίντεο. Πρέπει να τεθούν εμπόδια ως προς αυτό. Ο σεβασμός των πνευματικών δικαιωμάτων είναι ένα άλλο σημαντικό ζήτημα που πρέπει να ληφθεί υπόψη.

«Παρέχουμε επίσης πρόσβαση σε αρκετούς καλλιτέχνες, σχεδιαστές και κινηματογραφιστές για ανατροφοδότηση σχετικά με τον τρόπο προώθησης του μοντέλου, ώστε να είναι όσο το δυνατόν πιο χρήσιμο σε δημιουργικούς επαγγελματίες»., αναφέρει επίσης το OpenAI. Η εταιρεία μοιράζεται την πρόοδό της και ανοίγει την πόρτα του Sora σε λίγα άτομα εκτός του OpenAI αυτή τη στιγμή για να λάβει όσο το δυνατόν περισσότερα σχόλια και να βελτιώσει το εργαλείο της. Δεν γνωρίζουμε ακόμη πότε ο Sora θα είναι διαθέσιμος στο ευρύ κοινό ή με ποια μορφή.

Θα ενσωματωθεί το Sora στο ChatGPT;

Προς το παρόν δεν γνωρίζουμε πώς το OpenAI σκοπεύει να διανείμει το Sora στο ευρύ κοινό. Αν βασιστούμε σε πρόσφατες στρατηγικές αποφάσεις που έλαβε η εταιρεία, δεν είναι σίγουρο ότι το εργαλείο έχει τη δική του πλατφόρμα χρηστών. Το DALL-E 2 δεν δέχεται πλέον νέους πελάτες στη δική του διεπαφή, ενώ πρέπει να περάσετε από μια πληρωμένη έκδοση ή έκδοση προγραμματιστή του ChatGPT για να αποκτήσετε πρόσβαση στο DALL-E 3. Μπορούμε επομένως να φανταστούμε ότι όταν κυκλοφορήσει, το Sora θα ενσωματωθεί απευθείας στο ChatGPT Plus. Δεν είναι βέβαιο ότι η δωρεάν διαθεσιμότητα, έστω και περιορισμένη, του Sora θα προσφέρεται κατά την κυκλοφορία του.

ChatGPTChatGPT
Πίστωση: 123RF

Ποια μέτρα ασφαλείας έχουν ενσωματωθεί στο Sora;

Προτού το Sora διατεθεί στο ευρύ κοινό, το OpenAI έχει ήδη ανακοινώσει μια σειρά μέτρων για τη μείωση των κινδύνων κατάχρησης αυτού του ισχυρού εργαλείου. Αυτή τη στιγμή η εταιρεία αναπτύσσει εργαλεία “για να βοηθήσει στον εντοπισμό παραπλανητικού περιεχομένου”, αναφέροντας ειδικότερα ένα σύστημα ταξινόμησης για να καταστεί δυνατός ο εντοπισμός ενός βίντεο που δημιουργήθηκε από τον Sora. Διευκρινίζεται επίσης ότι εάν το μοντέλο ενσωματωθεί σε ένα προϊόν OpenAI στο μέλλον, οι ομάδες σχεδιάζουν να συμπεριλάβουν το Μεταδεδομένα C2PA. Αυτό το ανοιχτό πρότυπο, που χρησιμοποιείται ήδη για εικόνες που δημιουργούνται από το DALL-E 3, καθιστά δυνατό τον εντοπισμό της προέλευσης του περιεχομένου για να γνωρίζουμε εάν δημιουργήθηκε ή όχι από AI.

Η Sora θα επωφεληθεί επίσης από χαρακτηριστικά ασφαλείας που έχουν ήδη εφαρμοστεί σε άλλες υπηρεσίες της. Προγραμματίζεται α ταξινομητής κειμένου του οποίου ο ρόλος είναι να ελέγχει και να απορρίπτει μηνύματα που παραβιάζουν τις πολιτικές χρήσης του OpenAI. Απαγορεύονται τα μηνύματα που ζητούν περιεχόμενο που εμφανίζει ακραία βία, σεξουαλικό περιεχόμενο, εικόνες μίσους, ομοιότητα με διασημότητα ή διεύθυνση IP τρίτου μέρους. Επιπλέον, οι ταξινομητές εικόνων θα εξετάσουν τις εικόνες κάθε βίντεο που δημιουργείται, για να διασφαλίσουν ότι κανένα βίντεο δεν παραβιάζει αυτές τις περίφημες πολιτικές χρήσης.

Ποιοι είναι οι ανταγωνιστές του Sora;

Μετά τα μοντέλα δημιουργίας κειμένου και εικόνων, οι σημαντικότεροι παίκτες στον τομέα της τεχνητής νοημοσύνης των γενεών εργάζονται σοβαρά για την ανάπτυξη μοντέλων παραγωγής βίντεο. Η Google είναι ένας από τους κυριότερους ανταγωνιστές του ChatGPT και του GPT-4 με τους Gemini, αλλά και ως σκληρός αντίπαλος στον τομέα της δημιουργίας βίντεο με το Lumiere. Το Google Lumiere, το οποίο επίσης δεν είναι προσβάσιμο στο ευρύ κοινό, περιορίζεται επί του παρόντος σε βίντεο πέντε δευτερολέπτων. Η προτροπή μπορεί να περιέχει μια εικόνα, όχι μόνο κείμενο.

Μεταξύ των ψηφιακών βαρέων βαρών, ο Meta ενδιαφέρεται επίσης για το θέμα, κυρίως με Emu Βίντεο, το οποίο σας επιτρέπει να δημιουργείτε βίντεο από μια προτροπή μόνο κειμένου, μια προτροπή μόνο για εικόνα ή έναν συνδυασμό και των δύο. Μπορούμε να αναφέρουμε το Gen-2, από το Runway, το οποίο είναι ικανό να δημιουργεί βίντεο όχι μόνο από κείμενο ή εικόνες, αλλά και από άλλο βίντεο. Η Stable Video Diffusion και η Pika είναι επίσης σοβαροί υποψήφιοι σε αυτήν την αγορά.

Leave a Reply

Your email address will not be published. Required fields are marked *