Si es para generación de audios ocasional, casi todos los proveedores cloud "grandes" tienen capas de uso gratuitas que son más que suficientes, no recuerdo exacto pero algo asi como 500 mil palabras al mes sin cargo. Algunas voces son muy buenas, personalmente me suenan más natural y se generan más rápido las de Microsoft Azure. Google y Amazon pueden demorar varios segundos más en generar, Azure siempre respondió casi instantáneo por lo que incluso usándolo con el módulo TTS en beta la demora es casi imperceptible, con lo que se pueden generar diálogos fluídos.
Les recomiendo se den una vuelta por dichos portales, quizás la curva de aprendizaje sea un poco más alta, pero los resultados serán óptimos.