---
title: "Kaip veikia DI balso technologija: 3 žingsnių paaiškinimas"
description: "Kaip DI balso technologija veikia per 3 paprastus žingsnius: klausymas (STT), mąstymas (LLM), kalbėjimas (TTS). Kodėl lietuvių kalba sudėtinga DI ir realūs pavyzdžiai."
url: "https://ainora.lt/lt/blogas/kaip-veikia-ai-balso-technologija-3-zingsniai"
---

[Grįžti į blogą](/lt/blogas)
# Kaip veikia DI balso technologija: 3 žingsnių paaiškinimas

Paskambinate verslui, ir atsako ne žmogus, o DI. Pokalbis vyksta natūraliai - klausiate, gaunate atsakymą, užsiregistruojate vizitui. Bet kas iš tikrųjų vyksta, kai kalbatės su DI balso agentu?

Šiame straipsnyje išskaidome DI balso technologiją į tris paprastus žingsnius. Nereikia jokių techninių žinių - jei suprantate, kaip veikia telefono skambutis, suprasite ir tai. Žinodami, kaip veikia technologija, galėsite geriau vertinti [DI balso agentus](/lt/blogas/kas-yra-ai-balso-agentas) savo verslui.

## Kodėl verslo savininkui verta tai suprasti

Jums nereikia tapti inžinieriumi, kad naudotumėte DI. Bet bazinis supratimas, kaip veikia technologija, padeda:

- **Vertinti tiekėjus sąžiningai.** Kai pardavėjas sako, kad jo sistema turi "pažangiausią kalbos atpažinimą", žinosite, kokį klausimą užduoti: koks tikslumas lietuvių kalboje?
- **Diagnozuoti problemas.** Jei DI nesupranta skambintojų - tai klausymo problema. Jei supranta, bet atsako neteisingai - mąstymo problema. Jei skamba robotiškai - kalbėjimo problema.
- **Turėti realistiškus lūkesčius.** Suprasite, kodėl triukšmas mažina tikslumą, kodėl kai kurie pokalbiai reikalauja žmogaus ir kodėl lietuvių kalba yra sunkesnė nei anglų.

## 3 žingsniai: kaip DI kalba su Jūsų klientais

Kiekvienas DI balso agentas - nepriklausomai nuo tiekėjo ar kalbos - veikia pagal tą pačią trijų žingsnių schemą. Šie trys žingsniai vyksta vienas po kito per mažiau nei pusę sekundės:

Štai ir viskas. Trys žingsniai, kurie kartojasi kiekvienoje pokalbio replikoje. Panašiai kaip žmogus - klausai, pagalvoji, atsakai. Tik DI tai daro per milisekundes.

## 1. Klausymas (STT) - kaip DI Jus girdi

Kai kalbate į telefoną, Jūsų balsas pasiekia DI kaip garso duomenų srautas. Kalbos atpažinimo variklis (STT - Speech-to-Text) turi transformuoti šį signalą į prasminius žodžius.

### Kaip tai veikia

1. **Garso paruošimas.** Neapdorotas garsas išvalomas - sumažinamas foninis triukšmas, normalizuojamas garsumas, signalas suskaidomas į mažus kadrus po 20-30 milisekundžių.
2. **Požymių išgavimas.** Kiekvienas kadras paverčiamas matematiniu garso savybių atvaizdu.
3. **Neuroninio tinklo apdorojimas.** Gilus neuroninis tinklas susieja akustinius modelius su kalbos vienetais, atsižvelgdamas ne tik į atskirus garsus, bet ir į aplinkinį kontekstą.
4. **Dekodavimas.** Neuroninio tinklo rezultatas dekoduojamas į žodžių seką, naudojant kalbos modelį dviprasmybėms išspręsti.

### Kas gali sumažinti tikslumą

- **Foninis triukšmas.** Statybų aikštelė, triukšmingas baras, vairavimas su atidarytais langais. Modernūs varikliai turi triukšmo slopinimą, bet yra fizinės ribos.
- **Stiprus akcentas ar tarmė.** Jei mokymo duomenyse buvo mažai konkretaus akcento pavyzdžių, tikslumas bus mažesnis.
- **Keli kalbėtojai vienu metu.** Du žmonės kalba šalia telefono - variklis gali sumaišyti tekstą.
- **Prasta ryšio kokybė.** Bloga telefono linija ar stipriai suspaustas VoIP garsas sumažina prieinamą informaciją.

## 2. Mąstymas (LLM) - kaip DI supranta ir atsako

Kai STT variklis pagamina tekstą, prasideda tikrasis intelektas. Didelis kalbos modelis (LLM - Large Language Model) turi vienu metu atlikti kelias užduotis:

### Ką daro LLM

1. **Ketinimo atpažinimas.** Nustato, ko norite. Klausia apie darbo laiką? Nori užsiregistruoti? Skundžiasi? Kiekviena situacija reikalauja kitokio atsakymo.
2. **Konteksto integracija.** Atsižvelgia į visą pokalbio istoriją. Jei prieš tris replikas sakėte, kad norite vizito antradienį, o dabar sakote "geriau ketvirtadienį" - DI supranta, kad kalbate apie tą patį vizitą.
3. **Žinių paieška.** Patikrina verslo žinių bazę - darbo laiką, kainas, laisvus laikus, DUK atsakymus. Tai ne bendrosios žinios, o konkrečiai Jūsų verslui sukonfigūruoti duomenys.
4. **Atsakymo generavimas.** Sugeneruoja natūralų atsakymą, tinkamą konkrečiam pokalbiui. Tai ne šablonai - modelis kuria atsakymą kiekvieną kartą iš naujo.
5. **Veiksmų vykdymas.** Jei reikia - užregistruoja vizitą kalendoriuje, siunčia SMS patvirtinimą ar perduoda pokalbį žmogui.

### Kas gali nepavykti

- **Haliucinacija.** LLM kartais generuoja įtikinamai skambančią, bet neteisingą informaciją. Gali užtikrintai teigti, kad klinika dirba sekmadieniais, nors nedirba. Verslo duomenimis paremtas modelis tai sumažina, bet rizika išlieka.
- **Dviprasmybės.** Gerai suderintas DI užduoda tikslinančius klausimus, blogai - spėja ir klysta.
- **Sudėtingos daugiažingsnės užklausos.** Kai skambintojas prašo užregistruoti du vizitus skirtingomis dienomis su sąlygomis - mažiau pajėgūs modeliai klumpa.

## 3. Kalbėjimas (TTS) - kaip DI atsako balsu

Paskutinis žingsnis paverčia tekstinį atsakymą garsu. Moderni neuroninė kalbos sintezė (TTS - Text-to-Speech) pasiekė tokį lygį, kad geriausi balsai beveik neatskiriami nuo žmogaus.

### Kaip tai veikia

1. **Teksto analizė.** Variklis nustato tarimą, kirčiavimą ir tempą. Santrumpos virsta pilnais žodžiais, skaičiai - natūralia kalba (15:30 virsta "penkiolika trisdešimt" arba "pusė keturių").
2. **Prozodijos generavimas.** Nustatoma intonacija - kur tonas kyla, kur krenta, kur eina pauzės. Gera prozodija daro kalbą panašią į žmogaus.
3. **Garso generavimas.** Neuroninis tinklas sukuria garso bangos formą. Modernūs neuroniniai vokoderiai generuoja kokybę, kuri kontroliuojamomis sąlygomis beveik neatskiriama nuo įrašyto žmogaus balso.
4. **Srautinis transliavimas.** Garsas transliuojamas generuojant - skambintojas pradeda girdėti atsakymą, kol vėlesnės dalys dar sintetizuojamos. Tai sumažina suvokiamą vėlinimą.

### Kas gali nepavykti

- **Tikrinių daiktavardžių tarimas.** Vardai, gatvės, įmonės - ypač mažesnėse kalbose - yra dažniausios klaidos. Gedimino prospektas gali būti ištartas netinkamai.
- **Nenatūrali prozodija.** Žodžiai teisingi, bet ritmas ne tas. Klausimas skamba kaip teiginys.
- **Vėlinimo šuoliai.** Jei sintezė per ilgai generuoja garsą, atsiranda nejauki tyla, nutraukianti pokalbio srautą.

## Kodėl lietuvių kalba sunki DI balso technologijai

Ne visos kalbos yra vienodai sudėtingos DI. Lietuvių kalba kelia specifinių iššūkių kiekviename žingsnyje, kurių nėra tokiose kalbose kaip anglų. Teiginys "palaikome 50 kalbų" nereiškia vienodos kokybės visose jose.

### Konkrečiai kiekviename žingsnyje

- **Klausymas (STT):** Mažiau lietuviškų mokymo duomenų reiškia mažiau akcentų variacijų, mažiau kalbėjimo stilių ir mažesnį bazinį tikslumą. Specializuotas derinimas būtinas.
- **Mąstymas (LLM):** Septyni linksniai, veiksmažodžių asmenuotė ir lanksti žodžių tvarka sukuria kombinatorinę sudėtingumą. Sakinys "norėčiau užsiregistruoti dviem dantų valymams ketvirtadienį" reikalauja linksnio derinimo per kelis žodžius.
- **Kalbėjimas (TTS):** Lietuvių garsai - minkšto ir kieto L skirtumas, balsių ilgumai, kintantys kirčio modeliai - reikalauja specifinio derinimo. Generinis daugiakalbis variklis sukuria suprantamą, bet iš karto atpažįstamą kaip dirbtinę kalbą.

## Realūs pavyzdžiai: kaip 3 žingsniai veikia praktikoje

Pažiūrėkime, kaip trys žingsniai veikia konkrečiose situacijose, su kuriomis susiduria Lietuvos verslai:

### Odontologijos klinika

Skambintojas sako: "Sveiki, norėčiau užsiregistruoti dantų valymui kitai savaitei, geriausia ryte."

- **STT:** Atpažįsta žodžius, teisingai transkribuoja "dantų valymui" ir "kitai savaitei".
- **LLM:** Supranta ketinimą (registracija), paslaugą (dantų valymas), laiką (kita savaitė, rytas). Patikrina kalendorių ir randa laisvus laikus.
- **TTS:** Atsako: "Žinoma! Kitos savaitės ryte turime laisvų laikų antradienį 9:00 ir ketvirtadienį 10:30. Kuris Jums tiktų?"

### Autoservisas

Skambintojas sako: "Man reikia pakeisti padangas, turiu Volkswagen Golf, 2019 metų."

- **STT:** Atpažįsta techninę terminologiją - "padangas", "Volkswagen Golf", "2019 metų".
- **LLM:** Supranta paslaugą ir automobilio duomenis. Patikrina laisvus laikus padangų keitimui. Žino, kiek laiko užtrunka ši procedūra.
- **TTS:** Pasiūlo konkrečius laikus ir informuoja apie trukmę bei kainą iš žinių bazės.

### Grožio salonas

Skambutis 22:30 vakare: "Ar galėčiau užsiregistruoti plaukų dažymui šį penktadienį?"

- **STT:** Atpažįsta natūralią kalbą, nors skambutis vyksta vėlai vakare (DI dirba 24/7).
- **LLM:** Žino, kad plaukų dažymas trunka ilgiau nei kirpimas. Patikrina penktadienio grafiką, randa laisvą langą.
- **TTS:** Patvirtina registraciją ir primena, kad atvyktų su švariais plaukais.

Visi šie pavyzdžiai iliustruoja tą patį principą: trys žingsniai kartojasi kiekvienoje replikoje, ir kiekvienas žingsnis turi būti kokybiškas, kad rezultatas būtų geras. Daugiau apie tai, kaip DI tvarko skambučius po darbo valandų, rasite straipsnyje [kaip DI registratūra dirba naktį](/lt/blogas/kaip-ai-registratura-dirba-nakti).

## Sąžiningi apribojimai: ko DI balso technologija dar negali

Svarbu žinoti ne tik tai, ką DI gali, bet ir ko dar negali:

- **Stiprus foninis triukšmas.** Statybvietė, triukšmingas baras, motociklas - bet kuris kalbos atpažinimo variklis kentės. Triukšmo slopinimas pagerėjo, bet fizika nustato ribas.
- **Emocinis intelektas.** DI gali aptikti bazinę nuotaiką, bet negali patikimai atpažinti sarkazmo ar nusivylimo lygio. Emociškai sudėtingiems pokalbiams žmogaus eskalavimas išlieka būtinas.
- **Kūrybinis problemų sprendimas.** Jei užklausa nepatenka į sukonfigūruotų žinių ribas, DI perduos pokalbį žmogui arba pripažins savo ribotumą.
- **Kalbų maišymas viename sakinyje.** Skambintojas, kuris perjungia lietuvių ir rusų kalbas vieno sakinio viduje, gali patirti mažesnį tikslumą.

Šie apribojimai yra realūs, bet juos reikia vertinti alternatyvos kontekste: praleisti skambučiai, vienas skambutis vienu metu, nedarbingumo dienos ir 24/7 žmogiškojo personalo kaina. Detalesniam kaštų palyginimui skaitykite [DI ir žmogaus registratūroje kaštų analizę](/lt/blogas/ai-priesz-zmogu-registraturoje-kainu-palyginimas).

Daugiau apie Ainora

Platformos ir srities puslapiai, susiję su šiuo straipsniu.

- [AINORA balso agentasPlatformos apžvalga](/lt/di-balso-agentas)
- [KainosPlanai ir įtrauktos minutės](/lt/kainos)
- [Kaip veikiaDiegimas ir integracijos](/lt/kaip-veikia)
- [DUKDažniausi klausimai](/lt/duk)
