Per orientarsi

Non solo ChatGPT: ecco la nostra guida alle migliori app di intelligenza artificiale

Testi, video, immagini e dialoghi: ecco come trarre il meglio dai diversi servizi disponibili in rete

di Stefano Silvestri 31 Gennaio 2023 11:45

Questa volta crediamo di poterci sbilanciare: la rivoluzione è alle porte e il mondo si appresta ad affrontare una svolta epocale come, in tempi recenti, lo sono stati l’avvento di Internet o degli smartphone. Ci riferiamo alle intelligenze artificiali che cambieranno il modo in cui vivremo, lavoreremo e ci divertiremo. E che, inevitabilmente, muteranno il tessuto sociale così come lo conosciamo ora. Molti impieghi diverranno ridondanti e non è facile capire oggi quali ripercussioni vi saranno per l’occupazione. I nostri figli studieranno in modo diverso e, così come oggi nessuno si scandalizza se usano la calcolatrice per i compiti di matematica, probabilmente diverrà abitudine vederli interrogare l’IA (Intelligenza Artificiale) per impostare un tema, un riassunto o fare una ricerca. Cambieranno infine le aziende, le cui intelligenze artificiali saranno in grado di comprendere il linguaggio umano e di fornire risposte rapide e accurate grazie alla loro capacità di risoluzione dei problemi tecnici, alla fornitura di informazioni in tempo reale e alla generazione di contenuti. Questo, allo stato attuale delle cose; un domani, invece, le IA avranno un impatto ancora più significativo sulla nostra vita quotidiana e saranno in grado di aiutarci in molte altre aree. Senza alcuna pretesa di esaustività, vi illustriamo i modi in cui già oggi è possibile affidarsi alle intelligenze artificiali.

CHATGPT

ChatGPT è stato reso pubblico a novembre del 2022 ed è, tra le tante intelligenze artificiali oggi presenti sul mercato, quella più popolare, al punto che spesso è difficoltoso accedervi a causa delle troppe richieste. D’altronde, pochi giorni dopo il lancio aveva già superato il milione di utenti e c’è già chi ipotizza una valutazione da non meno di 30 miliardi dollari. Sviluppato da OpenAI, fa parte dei modelli GPT-3, ossia Generative Pre-trained Transformer basati sul machine learning non supervisionato, che funzionano utilizzando una tecnica che consiste nell’utilizzare una rete neurale per analizzare e comprendere il significato di un testo. Il software, al momento gratuito e accessibile anche da mobile, può erroneamente sembrare una versione più intelligente di Alexa ma in realtà gli si può chiedere di tutto come scrivere il proprio curriculum vitae, una lettera di dimissioni, lo script per un video di YouTube, un articolo o interi blocchi di codice. Con potenzialità ancora tutte da esplorare: ad esempio, c’è chi afferma di stare guadagnando soldi in automatico con Chat GPT. Come? Chiedendogli “scrivi del codice per il trading che incorpori le bande di Bollinger e il rintracciamento di Fibonacci” con una redditività, stando a chi ci ha pensato, del 1400% sugli investimenti iniziali. Nel maggio del 2019 OpenAI ha ricevuto un investimento da 1 miliardo di dollari da Microsoft, ora salito a 10 miliardi di dollari con l’obiettivo di arrivare a controllare il 49% di OpenAI. Un impegno lungimirante da parte di Satya Nadella se è vero che ChatGPT potrebbe esser presto integrato in Bing, il che potrebbe ridisegnare le attuali gerarchie dei motori di ricerca.

SPARROW

Google ovviamente non poteva restare a guardare e la risposta a ChatGPT sarà Sparrow, la cui realizzazione è affidata a Demis Hassabis (che iniziò la propria carriera nei videogiochi) e alla sua DeepMind, società dedita allo studio delle IA che fa capo ad Alphabet. Stando al suo creatore, Sparrow sarà un chatbot in grado di fare tutto ciò che è possibile oggi con ChatGPT ma con migliori doti conversazionali e l’abilità di citare le fonti. Sebbene Google avesse accennato a Sparrow già nel 2020 in un suo whitepaper pubblico, è proprio grazie al clamore destato da ChatGPT e OpenAI che l’intelligenza artificiale di Google sta balzando ora agli onori della cronaca. Secondo Hassabis, Sparrow rispetto alla proposta di OpenAI darà risposte più accurate e potrà imparare dai propri errori grazie al reinforcement learning, senza quindi che debba essere un umano a dire all’IA se una risposta sia giusta o sbagliata. Essendo poi integrato in Google, Sparrow avrà accesso al suo database, potendo così vantare aggiornamenti istantanei. Difficile sbilanciarsi ora sull’integrazione o meno con Google Search (sulla quale ci sentiremmo comunque di scommettere) ma è chiaro come la lotta tra Google e Microsoft sia destinata in futuro a combattersi sul terreno delle intelligenze artificiali.

SYNTHESIA

Fondata nel 2017 da un team di ricercatori nell’ambito dell’IA provenienti da UCL, Stanford, TUM e Cambridge, Synthesia è uno dei migliori esponenti nell’ambito dei Synthetic Media, termine col quale si descrivono contenuti video, immagini, testi e voci parzialmente se non interamente generate dai computer.
Synthesia si focalizza sui contenuti audiovisivi ed è un software che, a soli 30 dollari al mese, permette di creare video con 85 attori a scelta che recitano il copione loro fornito in (al momento) 65 lingue. L’intelligenza artificiale entra in gioco nel far sì che il loro labiale sia sempre perfettamente sincronizzato col testo che forniamo, e che la loro intonazione non sia quella piatta dei vecchi software di sintetizzazione vocale ma, anzi, quasi realistica. È possibile perfino impostare il loro accento. A cosa potrebbe servire, vi domanderete? Beh, immaginate il nuovo step evolutivo dei chatbot, grazie al quale ad esempio poter rispondere in video alle domande dei clienti in qualsiasi momento della giornata, senza però alcun operatore. I testi verrebbero generati da ChatGPT e poi passati a Synthesia, che in tempo reale farebbe pronunciare all’operatore le risposte restituendo l’illusione di stare realmente interagendo con qualcuno.

WELLSAID

Avete presente le voci pre-registrate che spesso ci perseguitano al telefono proponendoci le iniziative di marketing più improbabili? Ebbene, tra poco sembrerà di parlare con operatori in carne ed ossa grazie a Wellsaid, che permette di ottenere doppiaggi text-to-speech che, a un orecchio non allenato, possono sembrare simili al vero. Mentre Synthesia offre doppiatori predefiniti, Wellsaid si concentra unicamente sul parlato ma in compenso consente di preimpostare lo stile, il pitch e la personalità della voce desiderata, così da dare un’impronta inconfondibile ai propri avatar. Con qualche ora di registrazioni Wellsaid può creare avatar vocali dalle persone reali, un principio grazie al quale alcuni doppiatori stanno già registrando il proprio “DNA vocale” per darlo in affitto alle società di localizzazione. I primi guadagnano meno ma di fatto non devono neppure più recarsi allo studio di registrazione, le seconde risparmiano perché non devono rimborsare le ore passate in studio, le spese di trasporto e gli extra del caso. Anche in questo caso, immaginatelo “incrociato” con testi generati da ChatGPT e capirete perché il futuro sembra sempre più quello distopico immaginato nel film diretto da Spike Jonze.

MIDJOURNEY

Midjourney è un altro programma basato sull’intelligenza artificiale che sta spopolando di questi tempi. Serve però a creare immagini e tutto quello che si deve fare è impartire le descrizioni testuali e aspettare che l’IA dia i suoi frutti. Come sempre, quando si parla di intelligenza artificiale, il risultato finale varia a seconda della precisione delle istruzioni impartite. Non è l’unico nel suo genere, si pensi a DALL-E di OpenAI o a Imagen di Google, ma in questo momento pare essere il migliore per i risultati garantiti. Usarlo è semplice: si descrive la scena che si vuole visualizzare attraverso del testo nell’apposito campo di input (preferibilmente in lingua inglese), si invia la richiesta e il sistema restituisce quattro immagini di prova, eventualmente rielaborabili fino ad arrivare al risultato desiderato. Ciò avviene perché l’IA di Midjourney è addestrata ad analizzare miliardi di immagini e di testi per restituire i risultati artistici desiderati.

LEXICA

Similarmente a Midjourney, Lexica è un programma che mette l’intelligenza artificiale al servizio della grafica. Si basa sulla Stable Diffusion AI, un’intelligenza artificiale anch’essa open source e capace di generare in pochi secondi immagini realistiche partendo da un testo. Visto il taglio dato a questo articolo, abbiamo pensato bene di chiedere a ChatGPT di spiegarci l’applicazione della Stable Diffusion nella grafica. E siccome la prima risposta ci era parsa un po’ troppo tecnica, abbiamo chiesto di spiegarlo in parole semplici: “La Stable Diffusion è un metodo utilizzato nella grafica per simulare l'effetto della luce che si diffonde in un ambiente 3D. Ciò significa che può essere utilizzato per creare immagini realistiche di ombre e luci, come quelle create da una finestra o da una lampada. In generale, l'algoritmo utilizza una griglia di piccoli cubi per rappresentare l'ambiente 3D e calcola quanto la luce si diffonde in ogni cubo. La luce viene quindi proiettata sulla scena utilizzando una tecnica di rendering per creare l'effetto di diffusione”. Il grande vantaggio di lavorare con uno strumento basato sulla Stable Diffusion come Lexica è che non c’è sempre bisogno di generare nuove immagini, poiché spesso basta usare quelle già indicizzate, il che comporta un grande risparmio computazionale.

RUNWAY

Avete appena girato un video per una campagna pubblicitaria della vostra azienda, lo guardate e capite che dovete cambiarne alcuni particolari. Una volta avreste dovuto pagare una nuova uscita della produzione, con tutti i costi connessi, oggi invece basta rivolgersi all’intelligenza artificiale che, nel caso di Runway, viene applicata per ottenere risultati prima appannaggio degli studi cinematografici. Video-editing, inpainting, green screen e motion tracking permettono rispettivamente di montare i video con effetti speciali, riformattarli e correggerli cromaticamente. Potete poi rimuovere oggetti da filmati già girati e sostituirli con altri grazie all’IA, che si occuperà di inserirli coerentemente nella scena. Potrete togliere il fondale a qualsiasi video già girato anche qui con due click del mouse, e sostituirlo con una di vostra scelta. Infine, col mouse potete selezionare un oggetto in movimento e fare in modo che loghi, grafiche o testi si muovano attorno ad esso con risultati estremamente dinamici.

WRITESONIC

ChatGPT, dicevamo, è ottimo anche per creare testi, purtroppo però il suo database è fermo al 2020 e non ha un collegamento diretto col web. Come fare se volete creare dei comunicati stampa aggiornati, o fare ricerche che includano notizie aggiornate? Potete usare Writesonic, uno strumento di copywriting alimentato dall’intelligenza artificiale che aiuta gli autori a creare contenuti in modo rapido e semplice. Utilizza l’elaborazione del linguaggio naturale (NLP) per comprendere il testo che si sta scrivendo e suggerire immagini pertinenti per accompagnarlo. Writesonic offre anche una serie di altre funzioni, tra cui il controllo ortografico in tempo reale, il controllo grammaticale e l’ottimizzazione delle parole chiave. Non solo aiuta a creare contenuti in modo rapido ma anche a ottimizzare la scrittura per i motori di ricerca, così che i contenuti siano SEO-friendly e raggiungano un pubblico più ampio. Al momento di scrivere un articolo si deve scegliere l’argomento, le parole chiave, il tono da tenere (entusiasta, professionale, divertente, sagace, divertente, ironico, ecc.), la persona (prima, seconda, terza – manca il plurale maiestatis) e il linguaggio, poi si attende la creazione del testo che sarà limitata dal piano tariffario adottato.

LUCI E OMBRE

Con l’intelligenza artificiale il futuro sta bussando alle nostre porte, e non potremo fare altro che aprire. Ma sia chiaro che nei prossimi anni ci avventureremo in terreni sconosciuti, che porranno nuove sfide non solo al mondo del lavoro ma anche ai legislatori, un po’ com’è accaduto in tempi recenti con AirBnb, Uber o Deliveroo, novità ormai metabolizzate della nostra società ma che hanno delineato quadri normativi inediti. Ad esempio, mentre Stability AI (dietro Stable Diffusion) ha appena vinto un round di finanziamenti per 101 milioni di dollari per lo sviluppo di IA open-source, degli artisti americani hanno intentato una class action in California contro Stability AI, Midjourney e il sito portfolio DeviantArt. Se è vero che l’IA di questi programmi analizza le creazioni umane per imparare come generare opere d’arte sempre più rispondenti alle richieste, gli artisti dichiarano che queste stesse creazioni sono protette da copyright e che non possono essere liberamente usate addestrare le IA. I risultati di questa azione legale faranno plausibilmente scuola in ambito normativo.

C’è poi il caso di Neuro-sama, una VTuber (termine che sta per Virtual Youtuber) che ha riscosso un successo sempre maggiore nelle ultime settimane grazie alla sua possibilità di giocare in tempo reale con gli utenti al rythm-game Osu! in diretta su Twitch, rispondendo al contempo alle domande più disparate grazie a ChatGPT. Recentemente aveva anche iniziato a giocare a Minecraft ma decine di migliaia di persone che parlano con un’IA possono mettere alla corda qualsiasi algoritmo, col risultato che Neuro-sama ha risposto “non sono sicura se crederci” alla domanda sull’esistenza all’Olocausto. Di conseguenza è scattato il ban da Twitch, il primo nella storia per un’intelligenza artificiale e l’esempio di ciò che può accadere coi virtual influencer.

Il che ci porta a parlare dell’uso distorto che già oggi è possibile fare già oggi delle intelligenze artificiali: nonostante ChatGPT cerchi di rispondere sempre in modo veritiero, un’indagine di Newsguard ha dimostrato che fornendo al chatbot una serie di istruzioni tendenziose, dopo alcuni tentativi è possibile indurre il chatbot a dare informazioni errate. Sebbene OpenAI abbia garantito che le prossime versioni di ChatGPT saranno più “attente”, è facile immaginarsi come le stesse realtà che oggi si occupano di fare disinformazione sui social, presto sposteranno la loro attenzione alle IA.

C’è poi una questione di costi: buona parte dei servizi appena elencati sono accessibili previo il pagamento di un canone periodico e per il solo ChatGPT, secondo il sito The Verge, si prospetta un canone di 42 dollari al mese per l’accesso alla sua versione Pro, non appena finirà la fase di testing. Quanto dovremo spendere per godere dei benefici delle intelligenze artificiali? E quali divari si verranno creare, a livello non solo aziendale ma anche sociale, tra chi potrà permettersi l’ausilio delle IA e chi invece no? È difficile dirlo ora ma la sensazione è che il futuro sarà ben diverso dal presente che conosciamo…

Read more:

Trending