Nesto mi nije skorije trebalo na naski pa nisam ni gledao. Koristio sam jedino audio to text skripte u pajtonu za strane jezike. Ima ih sto rade na lokalnoj masini, bez ogranicenja, tj toliko da procesor i ram mogu da nose. Meni je radilo po 5min snimanja live sa radija pa ispisivanje u txt. Ima i obratno da radi sigurno. Ako ti to nije tezina, baci pogled na huggingface text to speech modele.