transformers
torch
datasets
torchaudio
openai
open_clip_torch
librosa
numpy
soundfile
samplerate
resampy
sentencepiece
gradio== 3.36.1 
pydantic