וויספר (Whisper) היא מערכת לזיהוי דיבור (ASR: Automatic Speech Recognition) מבית OpenAI הזמינה לציבור הרחב בקוד פתוח. מערכת זו אומנה על יותר מ-680 אלף שעות של אודיו באנגלית ובשפות רבות אחרות – בהן גם עברית וערבית. מטרת מחברות אלו היא להנגיש את יכולות התמלול של המערכת לציבור הרחב בצורה אינטואיטיבית ונוחה.
על אף שוויספר מיועדת בעיקר לתמלול קבצי אודיו, המערכת יכולה לעבוד גם עם סוגים אחרים של קלט דיבור, כגון נתוני וידאו המכילים דיבור. באופן כללי, המערכת יכולה לקבל כל סוג של קלט אודיו או דיבור בפורמט דיגיטלי שנתמך על ידי ספריית ffmpeg4, ובכלל זה קבצים בפורמט WAV, MP3, MP4 ו-MOV.
כדי להשתמש במחברות יש להיעזר ב-Google Colab, כלי שמאפשר לנו לצפות ולהריץ את המחברות שהכנו עבורכם מראש. כדי לפתוח מחברת בסביבת Google Colab יש ללחוץ על הכפתור הבא שנמצא בראשית כל מחברת:
מאגר (Repository) זה מכיל מחברות לשימושים שונים:
2. Whisper_Video.ipynb: מחברת זו מאפשרת לתמלל קבצי וידאו תוך חילוץ שכבת האודיו. לאחר מכן ניתן להשוות את איכות הפלט אל מול המקור.
3. Whisper_from_Youtube.ipynb: מחברת זו מאפשרת להוריד ולתמלל סרטונים מ-Yotube.
4. Whisper_Speaker_Diarization.ipynb: מחברת לתמלול ראיונות וזיהוי דוברים.