Tilbage til toppen
Søndag den 14. juli 2024
HjemKunstig intelligensDen magiske konvertering af Kyutai Moshi Chat: Fra tekst til tale

Den magiske konvertering af Kyutai Moshi Chat: Fra tekst til tale


Το Kyutai, ένα μη κερδοσκοπικό εργαστήριο αφιερωμένο στην προώθηση της ανοιχτής έρευνας στην τεχνητή νοημοσύνη (AI), έχει κάνει σημαντικά βήματα με την τελευταία του καινοτομία, το . Αυτό το υπερσύγχρονο εγγενές πολυτροπικό μοντέλο θεμελίωσης σε πραγματικό χρόνο αντιπροσωπεύει ένα αξιοσημείωτο επίτευγμα στην τεχνολογία AI. Η εισαγωγή του Moshi Chat από το Kyutai έχει συγκεντρώσει την προσοχή για τις εντυπωσιακές του ικανότητες, ιδιαίτερα στους τομείς της ταυτόχρονης ακρόασης και ομιλίας. Σε αντίθεση με τα παραδοσιακά μοντέλα AI, το Moshi Chat έχει σχεδιαστεί για να κατανοεί και να φράζει συναισθήματα, κάνοντας τις αλληλεπιδράσεις μαζί του πιο φυσικές και ελκυστικές.

Με τα μοναδικά του και τη διαθεσιμότητα ανοιχτού κώδικα, το Moshi Chat ξεχωρίζει ως πρωτοπόρος στην ανάπτυξη της AI.

Udviklingen af ​​Moshi Chat er et bevis på Kyutais forpligtelse til gennemsigtighed og kollaborativ innovation. Modellens evne til at håndtere to lydstreams samtidigt-lytning og tale i realtid - adskiller den fra andre AI-modeller.

Denne evne understøttes af en robust fælles fortræningsproces på en kombination af tekst- og lyddata, ved hjælp af syntetiske tekstdata fra Helium, en 7 milliarder parameter sprogmodel udviklet af Kyutai. Sådanne fremskridt inden for AI-teknologi er resultatet af streng forskning og forfining, rettet mod at opnå problemfri og effektiv ydeevne.

Kyutai Moshi Chat-teknologi

Det kendetegn ved Moshi Chat er dette evne til at interagere i realtid, som giver ham mulighed for at lytte og reagere på samme tid. Dette opnås gennem fælles fortræning på en kombination af tekst- og lyddata, hvilket sikrer, at modellen kan opretholde et jævnt flow af tekst- og lydinformation. Grundlaget for Moshi Chats talebehandlingsmuligheder er Helium-modellen, en sprogmodel på 7 milliarder parametre, der fungerer som rygraden for denne innovative teknologi.

Ifølge Kyutai Moshi Chat YouTube Keynoteforfiningsprocessen for Moshi Chat involverede en omfattende datasæt med 100.000 syntetiske "talte" samtaler.. Disse samtaler blev konverteret ved hjælp af Text-to-Speech (TTS) teknologi, der ligner Murf AI, hvilket gør det muligt for modellen at producere og forstå tale med bemærkelsesværdig nøjagtighed. TTS-motoren, som understøtter 70 forskellige følelser og stilarter, blev forbedret ved hjælp af 20 timers lyd optaget af autoriseret stemmetalent. Denne omhyggelige tilgang til uddannelse har resulteret i en model, der den forstår ikke kun talesprog, men formidler også følelser og nuancergør interaktioner mere naturlige og engagerende.

Kyutais forpligtelse til ansvarlig brug af AI er tydelig i inkorporeringen af ​​vandmærke for at identificere AI-genereret lyd. Denne funktion, som stadig er under udvikling, fremhæver vigtigheden af ​​etiske kriterier i udviklingen af ​​kunstig intelligens. Derudover understreger beslutningen om at frigive Moshi Chat som et open source-projekt Kyutais dedikation til at promovere en miljø ς εντός της κοινότητας AI.

Moshi Chat forstår og udtrykker følelser, hvilket gør interaktioner mere naturlige (Billedkredit)

Moshi AI-trænings- og forfiningsproces

Udviklingen af ​​Moshi Chat involverede en streng trænings- og forfiningsproces for at sikre dets høje præstationsniveau. Modellen blev trænet fra bunden ved hjælp af den grundlæggende Helium 7B tekstsprogmodel, som derefter blev trænet sammen med tekst- og lydkodere.

Talekoderen, der er baseret på Kyutais interne Mimi-model, kan prale af en 300x kompressionsforholdhvilket er afgørende for at bevare lydkvaliteten og samtidig reducere datastørrelsen.

Forfiningsprocessen for Moshi Chat involverede kommentarer 100.000 meget detaljerede transskriptioner med følelser og stil. Disse annoteringer giver modellen mulighed for at forstå og formidle en bred vifte af følelser, hvilket gør interaktionen med den mere livlig og engagerende. Tekst-til-tale-motoren, som understøtter 70 forskellige følelser og stilarter, var perfektioneret ved hjælp af 20 timers lyd optaget af en licenseret stemmetalent ved navn Alice.

Kyutais fokus på tilpasningsevne er tydeligt i Moshi Chat perfektion med mindre end 30 minutters lyd. Denne funktion giver brugerne mulighed for at tilpasse modellen, så den passer til specifikke behov, hvad enten det er til forskning, sprogindlæring eller andre applikationer. Udviklingen af ​​modellen viser dens effektivitet og fleksibilitet, håndtere to batchstørrelser på 24 GB VRAM og understøtter flere backends. Optimeringer af slutningskoden, såsom forbedret KV-caching og kommando-caching, forventes at forbedre ydeevnen af ​​Moshi Chat yderligere.

Kyutai Moshi Chat tekst til tale
Moshi Chat er baseret på Helium-sprogmodellen, en 7 milliarder parametermodel udviklet af Kyutai (Billedkredit)

Teknologi for alle fra Kyutai Labs

Moshi Chat er ikke kun et teknologisk vidunder, men også ekstremt overkommelig. Kyutai har udviklet en mindre variant af modellen, der kan køre på MacBooks eller GPU'er i forbrugerstørrelse, hvilket gør den tilgængelig for en bredere vifte af brugere.

Effektiviteten af ​​modellen er yderligere demonstreret ved dens udrulning på platforme som Scaleway og Omfavnet ansigthvor den håndterer to batchstørrelser på 24 GB VRAM, der understøtter forskellige backends inklusive CUDA, Metal og CPU.

Modelstemmen, trænet på syntetiske data genereret af en separat TTS-model, opnår en imponerende ende-til-ende-latens på 200 millisekunder. Denne lave latenstid er afgørende for interaktioner i realtid, hvilket gør det muligt for Moshi Chat at reagere næsten øjeblikkeligt på brugerinput. Kombinationen af ​​avancerede træningsteknikker og optimeret inferenskode, udviklet ved hjælp af Rust, bidrager til modellens overlegne ydeevne. Forbedret KV-caching og direkte caching forventes også at forbedre modellens ydeevne yderligere.

Demoen indsendt af Jan LeCun viser, hvor godt denne nye AI-model fungerer.

Κοιτάζοντας το μέλλον, το Kyutai έχει φιλόδοξα σχέδια για το Moshi Chat. Η ομάδα σκοπεύει να κυκλοφορήσει μια ολοκληρωμένη τεχνική αναφορά και να ανοίξει εκδόσεις μοντέλων, συμπεριλαμβανομένης της βάσης κωδικών συμπερασμάτων, του μοντέλου 7B, του κωδικοποιητή ήχου και της πλήρους βελτιστοποιημένης στοίβας. Οι μελλοντικές επαναλήψεις του Moshi Chat, όπως οι εκδόσεις 1.1, 1. και 2.0, θα ενσωματώνουν τα σχόλια των χρηστών για να βελτιώσουν και να βελτιώσουν τις δυνατότητες του μοντέλου.

Kyutais tilladelige licenser har til formål at tilskynde til udbredt adoption og innovation og sikre, at fordelene ved Moshi Chat er tilgængelige for et mangfoldigt publikum.

Sådan bruger du Moshi Chat

Brugere kan og opfordres til at prøv Moshi Chat online gennem Kyutai-webstedet. En gang der:

  1. Udfyld din e-mail
  2. Klik på "Tilmeld dig kø"
  3. Begynd at tale

Uanset om de diskuterer dagligdags emner eller udforsker mere komplekse emner, kan brugere engagere sig i Moshi Chat naturligt og drage fordel af avanceret talegenkendelse og syntesefunktioner.


Udvalgt billedkredit: Kyutai/YouTube





VIA: DataConomy.com

Marizas Dimitris
Marizas Dimitrishttps://www.techwar.gr
Dimitris er en dedikeret fan af Samsung-mobiltelefoner og har udviklet et særligt forhold til virksomhedens produkter og værdsætter det design, ydeevne og innovation, de tilbyder. At skrive og læse tekniske nyheder fra hele verden.
RELATEREDE ARTIKLER

EFTERLAD ET SVAR

indtast din kommentar!
indtast venligst dit navn her

Mest Populære

Sidste artikler