Kaip veikia DI balso technologija: 3 žingsnių paaiškinimas

Trumpai

DI balso technologija veikia per tris žingsnius: Klausymas (STT) - Jūsų balsas paverčiamas tekstu, Mąstymas (LLM) - tekstas suprantamas ir sugeneruojamas atsakymas, Kalbėjimas (TTS) - atsakymas paverčiamas natūraliu balsu. Visas ciklas trunka mažiau nei 500 milisekundžių. Lietuvių kalba yra viena sudėtingiausių kalbų DI dėl mažo duomenų kiekio, sudėtingos morfologijos ir unikalių garsų.

<500ms

Atsakymo vėlinimas

Proceso žingsniai

95%+

Kalbos atpažinimo tikslumas

24/7

Veikimo laikas

Paskambinate verslui, ir atsako ne žmogus, o DI. Pokalbis vyksta natūraliai - klausiate, gaunate atsakymą, užsiregistruojate vizitui. Bet kas iš tikrųjų vyksta, kai kalbatės su DI balso agentu?

Šiame straipsnyje išskaidome DI balso technologiją į tris paprastus žingsnius. Nereikia jokių techninių žinių - jei suprantate, kaip veikia telefono skambutis, suprasite ir tai. Žinodami, kaip veikia technologija, galėsite geriau vertinti DI balso agentus savo verslui.

Kodėl verslo savininkui verta tai suprasti

Jums nereikia tapti inžinieriumi, kad naudotumėte DI. Bet bazinis supratimas, kaip veikia technologija, padeda:

Vertinti tiekėjus sąžiningai. Kai pardavėjas sako, kad jo sistema turi "pažangiausią kalbos atpažinimą", žinosite, kokį klausimą užduoti: koks tikslumas lietuvių kalboje?
Diagnozuoti problemas. Jei DI nesupranta skambintojų - tai klausymo problema. Jei supranta, bet atsako neteisingai - mąstymo problema. Jei skamba robotiškai - kalbėjimo problema.
Turėti realistiškus lūkesčius. Suprasite, kodėl triukšmas mažina tikslumą, kodėl kai kurie pokalbiai reikalauja žmogaus ir kodėl lietuvių kalba yra sunkesnė nei anglų.

3 žingsniai: kaip DI kalba su Jūsų klientais

Kiekvienas DI balso agentas - nepriklausomai nuo tiekėjo ar kalbos - veikia pagal tą pačią trijų žingsnių schemą. Šie trys žingsniai vyksta vienas po kito per mažiau nei pusę sekundės:

Klausymas (STT - Speech-to-Text)

DI paverčia Jūsų ištartus žodžius tekstu. Kalbos atpažinimo variklis analizuoja garso srautą realiuoju laiku, identifikuoja atskirus garsus ir sukuria tekstinę to, ką pasakėte, transkripciją. Tai vyksta greičiau nei Jūs baigiate sakinį.

Mąstymas (LLM - Large Language Model)

Didelis kalbos modelis gauna tekstą iš pirmo žingsnio, supranta, ko norite, patikrina verslo žinių bazę ir sugeneruoja tekstinį atsakymą. Čia gyvena intelektas - DI nusprendžia, ką atsakyti, atsižvelgdamas į pokalbio kontekstą.

Kalbėjimas (TTS - Text-to-Speech)

Kalbos sintezės variklis paverčia tekstinį atsakymą natūraliai skambančiu balsu su tinkama intonacija, pauzėmis ir tempu. Garsas transliuojamas tiesiai į telefoną - skambintojas girdi natūralų atsakymą.

Štai ir viskas. Trys žingsniai, kurie kartojasi kiekvienoje pokalbio replikoje. Panašiai kaip žmogus - klausai, pagalvoji, atsakai. Tik DI tai daro per milisekundes.

1. Klausymas (STT) - kaip DI Jus girdi

Kai kalbate į telefoną, Jūsų balsas pasiekia DI kaip garso duomenų srautas. Kalbos atpažinimo variklis (STT - Speech-to-Text) turi transformuoti šį signalą į prasminius žodžius.

Kaip tai veikia

Garso paruošimas. Neapdorotas garsas išvalomas - sumažinamas foninis triukšmas, normalizuojamas garsumas, signalas suskaidomas į mažus kadrus po 20-30 milisekundžių.
Požymių išgavimas. Kiekvienas kadras paverčiamas matematiniu garso savybių atvaizdu.
Neuroninio tinklo apdorojimas. Gilus neuroninis tinklas susieja akustinius modelius su kalbos vienetais, atsižvelgdamas ne tik į atskirus garsus, bet ir į aplinkinį kontekstą.
Dekodavimas. Neuroninio tinklo rezultatas dekoduojamas į žodžių seką, naudojant kalbos modelį dviprasmybėms išspręsti.

Tikslumo skaičiai

Modernūs STT varikliai pasiekia 95-98% tikslumą aiškioje kalboje gerai palaikomose kalbose. Mažesnėms kalboms, kaip lietuvių, tikslumas svyruoja nuo 88 iki 95%. Likusios klaidos dažniausiai pasitaiko su tikriniais daiktavardžiais ir retais žodžiais.

Kas gali sumažinti tikslumą

Foninis triukšmas. Statybų aikštelė, triukšmingas baras, vairavimas su atidarytais langais. Modernūs varikliai turi triukšmo slopinimą, bet yra fizinės ribos.
Stiprus akcentas ar tarmė. Jei mokymo duomenyse buvo mažai konkretaus akcento pavyzdžių, tikslumas bus mažesnis.
Keli kalbėtojai vienu metu. Du žmonės kalba šalia telefono - variklis gali sumaišyti tekstą.
Prasta ryšio kokybė. Bloga telefono linija ar stipriai suspaustas VoIP garsas sumažina prieinamą informaciją.

2. Mąstymas (LLM) - kaip DI supranta ir atsako

Kai STT variklis pagamina tekstą, prasideda tikrasis intelektas. Didelis kalbos modelis (LLM - Large Language Model) turi vienu metu atlikti kelias užduotis:

Ką daro LLM

Ketinimo atpažinimas. Nustato, ko norite. Klausia apie darbo laiką? Nori užsiregistruoti? Skundžiasi? Kiekviena situacija reikalauja kitokio atsakymo.
Konteksto integracija. Atsižvelgia į visą pokalbio istoriją. Jei prieš tris replikas sakėte, kad norite vizito antradienį, o dabar sakote "geriau ketvirtadienį" - DI supranta, kad kalbate apie tą patį vizitą.
Žinių paieška. Patikrina verslo žinių bazę - darbo laiką, kainas, laisvus laikus, DUK atsakymus. Tai ne bendrosios žinios, o konkrečiai Jūsų verslui sukonfigūruoti duomenys.
Atsakymo generavimas. Sugeneruoja natūralų atsakymą, tinkamą konkrečiam pokalbiui. Tai ne šablonai - modelis kuria atsakymą kiekvieną kartą iš naujo.
Veiksmų vykdymas. Jei reikia - užregistruoja vizitą kalendoriuje, siunčia SMS patvirtinimą ar perduoda pokalbį žmogui.

Kokybės skirtumai yra čia

Didžiausi kokybės skirtumai tarp DI balso agentų slypi būtent mąstymo žingsnyje. STT ir TTS komponentai yra gana standartizuoti, bet tai, kaip gerai DI supranta sudėtingas užklausas ir vengia klaidų, skiriasi milžiniškai tarp tiekėjų. Jei lyginate DI sprendimus, vertinkite būtent šį sluoksnį. Mūsų DI balso agentų reitingas Lietuvoje padės palyginti.

Kas gali nepavykti

Haliucinacija. LLM kartais generuoja įtikinamai skambančią, bet neteisingą informaciją. Gali užtikrintai teigti, kad klinika dirba sekmadieniais, nors nedirba. Verslo duomenimis paremtas modelis tai sumažina, bet rizika išlieka.
Dviprasmybės. Gerai suderintas DI užduoda tikslinančius klausimus, blogai - spėja ir klysta.
Sudėtingos daugiažingsnės užklausos. Kai skambintojas prašo užregistruoti du vizitus skirtingomis dienomis su sąlygomis - mažiau pajėgūs modeliai klumpa.

3. Kalbėjimas (TTS) - kaip DI atsako balsu

Paskutinis žingsnis paverčia tekstinį atsakymą garsu. Moderni neuroninė kalbos sintezė (TTS - Text-to-Speech) pasiekė tokį lygį, kad geriausi balsai beveik neatskiriami nuo žmogaus.

Kaip tai veikia

Teksto analizė. Variklis nustato tarimą, kirčiavimą ir tempą. Santrumpos virsta pilnais žodžiais, skaičiai - natūralia kalba (15:30 virsta "penkiolika trisdešimt" arba "pusė keturių").
Prozodijos generavimas. Nustatoma intonacija - kur tonas kyla, kur krenta, kur eina pauzės. Gera prozodija daro kalbą panašią į žmogaus.
Garso generavimas. Neuroninis tinklas sukuria garso bangos formą. Modernūs neuroniniai vokoderiai generuoja kokybę, kuri kontroliuojamomis sąlygomis beveik neatskiriama nuo įrašyto žmogaus balso.
Srautinis transliavimas. Garsas transliuojamas generuojant - skambintojas pradeda girdėti atsakymą, kol vėlesnės dalys dar sintetizuojamos. Tai sumažina suvokiamą vėlinimą.

Kas gali nepavykti

Tikrinių daiktavardžių tarimas. Vardai, gatvės, įmonės - ypač mažesnėse kalbose - yra dažniausios klaidos. Gedimino prospektas gali būti ištartas netinkamai.
Nenatūrali prozodija. Žodžiai teisingi, bet ritmas ne tas. Klausimas skamba kaip teiginys.
Vėlinimo šuoliai. Jei sintezė per ilgai generuoja garsą, atsiranda nejauki tyla, nutraukianti pokalbio srautą.

Kodėl lietuvių kalba sunki DI balso technologijai

Ne visos kalbos yra vienodai sudėtingos DI. Lietuvių kalba kelia specifinių iššūkių kiekviename žingsnyje, kurių nėra tokiose kalbose kaip anglų. Teiginys "palaikome 50 kalbų" nereiškia vienodos kokybės visose jose.

Žingsnis	Anglų kalba	Lietuvių kalba
STT mokymo duomenys	Milijonai valandų garso įrašų	Eilėmis mažiau duomenų
Morfologija	Paprasta - mažai žodžių formų	Sudėtinga - 7 linksniai, asmenuotės, giminės
Žodžių tvarka	Fiksuota (subjektas-veiksmažodis-objektas)	Lanksti - keičiasi pagal kontekstą
Unikalūs garsai	Standartiniai, gerai dokumentuoti	Minkšti/kieti priebalsiai, balsių ilgumas
Tikriniai daiktavardžiai	Daugiausiai angliški, gerai atpažįstami	Lietuviški pavadinimai retai mokymo duomenyse
Bazinis tikslumas	95-98%	88-95% (priklauso nuo derinimo)

Konkrečiai kiekviename žingsnyje

Klausymas (STT): Mažiau lietuviškų mokymo duomenų reiškia mažiau akcentų variacijų, mažiau kalbėjimo stilių ir mažesnį bazinį tikslumą. Specializuotas derinimas būtinas.
Mąstymas (LLM): Septyni linksniai, veiksmažodžių asmenuotė ir lanksti žodžių tvarka sukuria kombinatorinę sudėtingumą. Sakinys "norėčiau užsiregistruoti dviem dantų valymams ketvirtadienį" reikalauja linksnio derinimo per kelis žodžius.
Kalbėjimas (TTS): Lietuvių garsai - minkšto ir kieto L skirtumas, balsių ilgumai, kintantys kirčio modeliai - reikalauja specifinio derinimo. Generinis daugiakalbis variklis sukuria suprantamą, bet iš karto atpažįstamą kaip dirbtinę kalbą.

Kaip patikrinti lietuviško DI kokybę

Nepasitikėkite funkcijų sąrašais. Paskambinkite demo linijai ir pasikalbėkite lietuviškai. Paklauskite apie vizitų laikus (apima skaitvardžius su linksniavimo deriniu), paminėkite gatvės adresą ir pabandykite perjungti formalų ir neformalų registrą. Jei DI viską apdoroja natūraliai - tiekėjas atliko darbą. Išbandykite patys: +370 5 200 2620.

Realūs pavyzdžiai: kaip 3 žingsniai veikia praktikoje

Pažiūrėkime, kaip trys žingsniai veikia konkrečiose situacijose, su kuriomis susiduria Lietuvos verslai:

Odontologijos klinika

Skambintojas sako: "Sveiki, norėčiau užsiregistruoti dantų valymui kitai savaitei, geriausia ryte."

STT: Atpažįsta žodžius, teisingai transkribuoja "dantų valymui" ir "kitai savaitei".
LLM: Supranta ketinimą (registracija), paslaugą (dantų valymas), laiką (kita savaitė, rytas). Patikrina kalendorių ir randa laisvus laikus.
TTS: Atsako: "Žinoma! Kitos savaitės ryte turime laisvų laikų antradienį 9:00 ir ketvirtadienį 10:30. Kuris Jums tiktų?"

Autoservisas

Skambintojas sako: "Man reikia pakeisti padangas, turiu Volkswagen Golf, 2019 metų."

STT: Atpažįsta techninę terminologiją - "padangas", "Volkswagen Golf", "2019 metų".
LLM: Supranta paslaugą ir automobilio duomenis. Patikrina laisvus laikus padangų keitimui. Žino, kiek laiko užtrunka ši procedūra.
TTS: Pasiūlo konkrečius laikus ir informuoja apie trukmę bei kainą iš žinių bazės.

Grožio salonas

Skambutis 22:30 vakare: "Ar galėčiau užsiregistruoti plaukų dažymui šį penktadienį?"

STT: Atpažįsta natūralią kalbą, nors skambutis vyksta vėlai vakare (DI dirba 24/7).
LLM: Žino, kad plaukų dažymas trunka ilgiau nei kirpimas. Patikrina penktadienio grafiką, randa laisvą langą.
TTS: Patvirtina registraciją ir primena, kad atvyktų su švariais plaukais.

Visi šie pavyzdžiai iliustruoja tą patį principą: trys žingsniai kartojasi kiekvienoje replikoje, ir kiekvienas žingsnis turi būti kokybiškas, kad rezultatas būtų geras. Daugiau apie tai, kaip DI tvarko skambučius po darbo valandų, rasite straipsnyje kaip DI registratūra dirba naktį.

Sąžiningi apribojimai: ko DI balso technologija dar negali

Svarbu žinoti ne tik tai, ką DI gali, bet ir ko dar negali:

Stiprus foninis triukšmas. Statybvietė, triukšmingas baras, motociklas - bet kuris kalbos atpažinimo variklis kentės. Triukšmo slopinimas pagerėjo, bet fizika nustato ribas.
Emocinis intelektas. DI gali aptikti bazinę nuotaiką, bet negali patikimai atpažinti sarkazmo ar nusivylimo lygio. Emociškai sudėtingiems pokalbiams žmogaus eskalavimas išlieka būtinas.
Kūrybinis problemų sprendimas. Jei užklausa nepatenka į sukonfigūruotų žinių ribas, DI perduos pokalbį žmogui arba pripažins savo ribotumą.
Kalbų maišymas viename sakinyje. Skambintojas, kuris perjungia lietuvių ir rusų kalbas vieno sakinio viduje, gali patirti mažesnį tikslumą.

Šie apribojimai yra realūs, bet juos reikia vertinti alternatyvos kontekste: praleisti skambučiai, vienas skambutis vienu metu, nedarbingumo dienos ir 24/7 žmogiškojo personalo kaina. Detalesniam kaštų palyginimui skaitykite DI ir žmogaus registratūroje kaštų analizę.

Dažnai užduodami klausimai

Modernūs DI balso agentai atsako per mažiau nei 500 milisekundžių - tai laikas nuo momento, kai baigiate kalbėti, iki momento, kai pradedate girdėti atsakymą. Geriausios sistemos pasiekia 300-400ms, kas beveik toks pat greitis kaip žmogaus pokalbio partnerio. Garsas transliuojamas srautiniu būdu, todėl atsakymas pradedamas girdėti dar jo nebaigus generuoti.

Labai priklauso nuo tiekėjo. Generinės platformos, kurioms lietuvių kalba yra viena iš daugelio, sukuria suprantamą, bet dirbtinai skambantį rezultatą. Tiekėjai, kurie specifiškai derina savo sistemas lietuvių kalbai su lietuviškais mokymo duomenimis ir gramatikos optimizavimu, pasiekia daug geresnių rezultatų. Geriausias būdas patikrinti - paskambinti ir pasikalbėti.

Gerai sukonfigūruotas DI balso agentas turi kelis atsarginius scenarijus. Pirma, užduoda tikslinantį klausimą natūralia kalba. Jei vis tiek nesupranta - pasiūlo perduoti pokalbį žmogui arba palieka struktūruotą žinutę komandai. DI niekada neturėtų tiesiog nutraukti pokalbio.

Ne. DI balso agentas veikia per esamą telefono liniją. Jums nereikia keisti telefono sistemos, pirkti naujos įrangos ar diegti programinės įrangos. Skambintojas skambina tuo pačiu numeriu kaip ir anksčiau, tiesiog atsako DI vietoj žmogaus.

IVR sistemos veikia raktažodžių atpažinimu ir iš anksto nustatytais keliais - spauskite 1 tam, spauskite 2 tam. Modernūs STT/LLM/TTS agentai veda laisvą pokalbį, supranta kontekstą, atsimena ankstesnes replikas ir kalba natūralia kalba. Tai kaip lyginti SMS žinutę su gyvų pokalbiu.

Taip. Tai vienas didžiausių DI privalumų. Žmogus gali kalbėti tik su vienu skambintoju vienu metu. DI balso agentas gali aptarnauti neribotą skaičių lygiagrečių skambučių, kiekvienas su pilnu dėmesiu ir vienoda kokybe. Niekada nėra laukimo eilės.

Justas Butkus

AInora steigėjas ir vadovas

Kuriu AI skaitmeninius administratorius, kurie pakeičia registratūros darbuotojus paslaugų verslams visoje Europoje. Anksčiau kūriau balso AI sistemas odontologijos klinikoms, viešbučiams ir restoranams.

Visi straipsniai

Pasiruošę išbandyti AI savo verslui?

Išgirskite, kaip AInora skamba tvarkydama tikrą verslo skambutį. Išbandykite balso demo arba užsirezervuokite konsultaciją.

Išbandyti Demo Rezervuoti konsultaciją

Kaip veikia DI balso technologija: 3 žingsnių paaiškinimas

Kodėl verslo savininkui verta tai suprasti

3 žingsniai: kaip DI kalba su Jūsų klientais

Klausymas (STT - Speech-to-Text)

Mąstymas (LLM - Large Language Model)

Kalbėjimas (TTS - Text-to-Speech)

1. Klausymas (STT) - kaip DI Jus girdi

Kaip tai veikia

Kas gali sumažinti tikslumą

2. Mąstymas (LLM) - kaip DI supranta ir atsako

Ką daro LLM

Kas gali nepavykti

3. Kalbėjimas (TTS) - kaip DI atsako balsu

Kaip tai veikia

Kas gali nepavykti

Kodėl lietuvių kalba sunki DI balso technologijai

Konkrečiai kiekviename žingsnyje

Realūs pavyzdžiai: kaip 3 žingsniai veikia praktikoje

Odontologijos klinika

Autoservisas

Grožio salonas

Sąžiningi apribojimai: ko DI balso technologija dar negali

Dažnai užduodami klausimai

Pasiruošę išbandyti AI savo verslui?

Susiję straipsniai

Kas yra DI balso agentas? Pilnas vadovas verslui

DI balso agentas Lietuvoje: kaip veikia ir kam tinka

DI vs IVR: kuo skiriasi

Skambučių automatizavimas su DI: pilnas vadovas