Was ist Amazon Polly?
Amazon Polly ist ein Text-to-Speech-Service, der Text in natürlich klingende Sprache umwandelt. Der Service bietet über 60 Stimmen in mehr als 30 Sprachen und eignet sich für Anwendungen, Accessibility-Features und Content-Erstellung.
Polly nutzt Deep Learning für Neural Text-to-Speech (NTTS) mit besonders natürlich klingenden Stimmen. Die einfache API ermöglicht Integration in Minuten.
Kernfunktionen
- Neuronale Stimmen: Natürlich klingende Sprache mit NTTS-Technologie
- 30+ Sprachen: Deutsch, Englisch, Französisch, Spanisch und viele weitere
- SSML-Support: Feinsteuerung von Aussprache, Pausen und Betonung
- Speech Marks: Timing-Informationen für Lip-Sync und Texthervorhebung
- Lexicons: Benutzerdefinierte Aussprachewörterbücher
Typische Anwendungsfälle
Voice Assistants: Sprachausgabe für Chatbots, IVR-Systeme und Smart Home Devices. Neuronale Stimmen sorgen für natürliche Konversationen.
Accessibility: Vorlesen von Web-Inhalten, Dokumenten und Apps für sehbehinderte Nutzer. WCAG-Compliance durch Audio-Alternativen.
Content-Erstellung: Audio-Versionen von Artikeln, E-Learning-Inhalten und Podcasts. Automatisierte Produktion spart Zeit und Kosten.
Vorteile
- Natürlich klingende Sprache mit Neural TTS
- Pay-per-Character ohne Mindestgebühren
- Einfache REST-API für schnelle Integration
- Unterstützung für deutsche Stimmen
Integration mit innFactory
Als AWS Reseller unterstützt innFactory Sie bei Amazon Polly: Wir helfen bei der Integration in Ihre Anwendungen, der Optimierung der Sprachqualität mit SSML und der Kombination mit anderen AWS-Services wie Lex und Connect.
Typische Anwendungsfälle
Häufig gestellte Fragen
Was ist Amazon Polly?
Amazon Polly ist ein Text-to-Speech-Service, der Text in natürlich klingende Sprache umwandelt. Er bietet über 60 Stimmen in mehr als 30 Sprachen, einschließlich neuronaler Stimmen mit hoher Sprachqualität.
Was sind neuronale Stimmen?
Neural Text-to-Speech (NTTS) nutzt Deep Learning für natürlichere Sprachsynthese. Die Stimmen klingen menschenähnlicher mit besserer Intonation und Betonung als Standard-Stimmen.
Welche Ausgabeformate werden unterstützt?
MP3, OGG Vorbis, PCM und JSON mit Speech Marks. Speech Marks liefern Timing-Informationen für Lip-Sync oder Texthervorhebung.
Wie kann ich die Aussprache anpassen?
SSML-Tags ermöglichen Kontrolle über Pausen, Betonung, Aussprache und Sprechgeschwindigkeit. Lexicons speichern benutzerdefinierte Aussprachewörterbücher.