Meetings, Kundengespräche, Projektbesprechungen – im KMU-Alltag entsteht viel gesprochenes Wissen, das dokumentiert werden muss. Voice-to-Text-Tools versprechen Zeitersparnis und strukturierte Protokolle. Doch der Markt ist unübersichtlich: Welche Lösung passt zu Schweizer Betrieben? Dieser Leitfaden zeigt die wichtigsten Entscheidungskriterien und ordnet das Angebot ein.

Dialekt-Support: Zentrale Frage für den DACH-Raum
Schweizerdeutsch, Berndeutsch, Züridütsch – in vielen Betrieben wird im Dialekt gearbeitet. Nicht jedes Tool versteht ihn. Internationale Anbieter wie ElevenLabs Speech-to-Text oder Tucan.ai bieten exzellente Transkription für Hochdeutsch und internationale Sprachen, unterstützen jedoch keine regionalen Dialekte.
Für Schweizer KMU ist der Dialekt-Support ein entscheidender Differentiator. Anbieter wie töggl und Swiss Transcript haben sich darauf spezialisiert: Sie bieten native Unterstützung für Züridütsch, Berndeutsch, Baseldütsch und weitere Mundarten. aibox positioniert sich ebenfalls als Swiss-German-Leader mit Referenzkunden aus Schweizer Medien.
Wer österreichisches Deutsch transkribieren muss, findet bei scryp ein eigenes KI-Modell, das auf österreichisches Deutsch optimiert wurde. KARLI Voice wirbt mit Unterstützung für über 50 Sprachen inklusive DACH-Dialekte, richtet sich jedoch primär an Grossunternehmen und kritische Infrastruktur.
Faustregel: Wird im Team häufig Dialekt gesprochen, sollte die Transkriptionsqualität vorab mit Testaufnahmen geprüft werden. Viele Anbieter bieten kostenlose Trials an.
Datenschutz und Hosting-Standort: DSGVO allein reicht nicht
Datenschutz ist für Schweizer KMU nicht verhandelbar – gerade bei sensiblen Kunden- oder Patientendaten. Die meisten Anbieter werben mit DSGVO-Konformität. Doch wo stehen die Server, und wer hat Zugriff auf die Daten?
Swiss Transcript setzt auf 100-prozentiges Swiss Hosting ohne Nutzung von GAFAM-Cloud-Diensten (Google, Amazon, Facebook, Apple, Microsoft). Quelldateien werden nach der Transkription automatisch gelöscht, und vertraglich ist garantiert, dass Nutzerdaten nicht für KI-Training verwendet werden.
scryp geht noch einen Schritt weiter: Die clientseitige AES-256-GCM-Verschlüsselung erfolgt direkt im Browser – auf den Servern liegen nur verschlüsselte Daten. Kein Mitarbeiter hat Zugriff auf Klartexte. Das Rechenzentrum steht in Österreich.
Tucan.ai hostet ausschliesslich in Deutschland und setzt auf DSGVO-Compliance mit optionaler On-Premise-Lösung für Enterprise-Kunden. KARLI Voice bietet DACH-Hosting in Österreich, Deutschland und der Schweiz.
Faustregel: Prüfen Sie, wo die Daten gespeichert werden, ob Subunternehmer (z. B. OpenAI, Google) involviert sind und ob ein Datenverarbeitungsvertrag (DPA) verfügbar ist.
Pricing-Modelle: Von Pay-per-Minute bis Unlimited
Die Preisspanne für Voice-to-Text-Tools ist gross. Drei Modelle dominieren:
1. Pay-per-Minute
Ideal für sporadische Nutzung – wobei „günstig“ hier genau geprüft werden sollte. töggl rechnet mit Credits: Für Schweizerdeutsch (Textausgabe Schriftdeutsch) wird 1 Credit pro Minute benötigt, und ein Credit kostet regulär CHF 1.00 – also CHF 1.00 pro Minute. Erst der Mengenrabatt ab 120 Credits senkt den Credit-Preis schrittweise auf bis zu CHF 0.13, womit Schweizerdeutsch im grossen Paket noch rund CHF 0.13 pro Minute kostet. Swiss Transcript berechnet CHF 0.17 pro Minute (Pay-as-you-go, entspricht CHF 10 pro Stunde). ElevenLabs Speech-to-Text rechnet sein Scribe-Modell hingegen pro Stunde ab – ab rund $0.22 bis $0.40 pro Stunde Audio, nicht pro Minute.
2. Subscription mit Minuten-Kontingent
Viele Anbieter bündeln Minuten in monatlichen Abos. Beispiel Tucan.ai: Laut externer Reviews kostet der Team Plan rund €34 pro Monat mit Unlimited Transcription.
3. Unlimited-Modelle
scryp bietet Unlimited Transcription und Storage bereits ab €9.90 pro Monat (Nano-Plan). Fathom geht einen Schritt weiter: Free Forever mit unlimitierten Aufnahmen und Transkriptionen.
Faustregel: Für regelmässige Nutzung (>10 Stunden/Monat) lohnt sich ein Unlimited-Modell. Bei schwankendem Bedarf ist Pay-per-Minute flexibler.
File-Upload oder Meeting-Bot? Zwei Workflows, zwei Welten
Voice-to-Text-Tools lassen sich in zwei Kategorien einteilen:
File-Upload-Tools
Nutzer laden Audio- oder Videodateien hoch, das Tool transkribiert offline. Typisch für töggl, Swiss Transcript, scryp und aibox. Vorteil: Hohe Kontrolle, keine Bot-Teilnahme in Meetings, geeignet für vertrauliche Gespräche oder Interviews.
Meeting-Bots
Automatische Teilnahme an Zoom, Teams oder Google Meet. Der Bot nimmt auf, transkribiert und erstellt Zusammenfassungen. Tucan.ai ist der einzige DACH-Anbieter mit Meeting-Bot-Funktion, der zusätzlich benutzerdefinierte Meeting-Summaries (Custom Prompts) anbietet. Fathom und Notta setzen ebenfalls auf Meeting-Bots, allerdings ohne DACH-Dialekt-Support.
Faustregel: File-Upload ist diskreter und Privacy-First. Meeting-Bots sind komfortabel für wiederkehrende Meetings, können jedoch bei Kunden oder externen Partnern als aufdringlich wahrgenommen werden.
Enterprise-Features: Wann braucht ein KMU mehr als Transkription?
Ab einer gewissen Teamgrösse oder bei spezialisierten Use-Cases (z. B. Sales, HR, Compliance) werden erweiterte Funktionen relevant:
- CRM-Integration: Automatisches Logging von Call-Notizen in Salesforce oder HubSpot (Tucan.ai, Notta).
- Conversation Intelligence: Sentiment-Analyse, Keyword-Tracking, Coaching-Scorecards (Sembly AI, Krisp).
- Multi-Meeting-Analyse: Aggregierte Insights über mehrere Meetings hinweg (Tucan.ai, tl;dv).
- SSO & Audit-Logs: Single Sign-On und Audit-Trails für Compliance (Notta, KARLI Voice).
Swiss Transcript inkludiert bis zu drei strukturierte Meeting-Reports pro Transkription in allen Plänen – ein klarer Differentiator für Business-Anwender.
Faustregel: Startups und kleine Teams (< 5 Personen) benötigen selten Enterprise-Features. Ab 10+ Nutzern lohnt sich ein Blick auf Team-Dashboards, Berechtigungskonzepte und API-Anbindungen.
Fazit: Keine One-Size-Fits-All-Lösung
Die Wahl des richtigen Voice-to-Text-Tools hängt von vier Faktoren ab:
- Dialekt-Anforderung: Wird Schweizerdeutsch gesprochen? Dann sind töggl, Swiss Transcript oder aibox erste Wahl. Für Hochdeutsch genügen auch Tucan.ai oder internationale Anbieter.
- Datenschutz-Level: Bei sensiblen Daten (Gesundheit, Recht, Finanzen) ist Swiss Hosting (Swiss Transcript) oder clientseitige Verschlüsselung (scryp) unerlässlich.
- Nutzungsfrequenz: Sporadische Nutzung rechtfertigt Pay-per-Minute (töggl). Tägliche Meetings profitieren von Unlimited-Modellen (scryp, Fathom).
- Workflow: File-Upload für maximale Kontrolle, Meeting-Bot für Komfort bei wiederkehrenden Online-Meetings.
Kein Anbieter im DACH-Raum kombiniert derzeit alle vier Kriterien perfekt. Schweizer KMU sollten daher vor der Entscheidung kostenlose Trials nutzen und mit echten Testaufnahmen (inklusive Dialekt, Hintergrundgeräuschen und typischen Gesprächssituationen) die Qualität prüfen.
Die Tool-Landschaft entwickelt sich schnell – was heute fehlt, kann morgen Standard sein. Wichtig ist, heute die richtige Balance zwischen Funktionsumfang, Datenschutz und Budget zu finden.
Unsere Einschätzung
Offenlegung: Dieser Abschnitt ist eine redaktionelle Einschätzung von sprichmal.ch — eine Meinung, die die oben belegten Fakten einordnet, aber keine neuen Fakten oder Zahlen einführt. sprichmal.ch ist selbst Anbieter in diesem Markt; wir vergleichen offen und fair, statt Wettbewerber schlechtzureden.
Aus unserer Sicht führt der Vergleich von Minuten- oder Stundenpreisen schnell in die Irre. Entscheidend ist nicht, welches Tool auf dem Papier am günstigsten wirkt, sondern wie gut es zu eurem tatsächlichen Arbeitsalltag passt: Wie oft transkribiert ihr? Geht es um Schweizerdeutsch oder Hochdeutsch? Braucht ihr nur den Text oder auch Zusammenfassungen, Suche und ein Archiv? Wer nur sporadisch ein Gespräch festhält, ist mit einem Pay-as-you-go-Modell gut bedient; wer regelmässig arbeitet, fährt mit einer Flatrate meist ruhiger und planbarer. Beim Schweizerdeutsch trennt sich die Spreu vom Weizen — und genau hier sollte man die Versprechen der Anbieter nüchtern an einer eigenen, realistischen Testaufnahme messen statt an Marketing-Seiten. Ehrlich gesagt halten wir den Datenschutz (Serverstandort, Verarbeitung der Aufnahmen) für mindestens so wichtig wie den Preis: Bei sensiblen Gesprächen ist die Frage „wo landen meine Daten?" oft die teurere, wenn man sie ignoriert. Wir sind selbst Anbieter und deshalb voreingenommen — das gehört offen gesagt. Unsere Empfehlung bleibt trotzdem neutral im Vorgehen: Erst die eigenen Anforderungen klären, dann zwei, drei Kandidaten mit echtem Material testen, und die Wahl an Qualität, Datenschutz und Gesamtaufwand festmachen — nicht allein am tiefsten Preis.