syvai
/

hviske-v2

Safetensors

Danish

whisper

Model card Files Files and versions Community

mhenrichsen commited on 10 days ago

Commit

914da87

•

1 Parent(s): 85fadab

Create README.md

Browse files

Files changed (1) hide show

README.md +76 -0

README.md ADDED Viewed

	@@ -0,0 +1,76 @@

+---
+license: openrail
+datasets:
+- alexandrainst/coral
+- mozilla-foundation/common_voice_17_0
+language:
+- da
+base_model:
+- mhenrichsen/hviske
+---
+# Hviske v2
+Hviske v2 er en "state of the art" dansk transskriptionsmodel der er trænet af [syv.ai](https://syv.ai). Modellen er gratis at bruge, men sørg for at være opmærksom på at brugen falder indenfor licensen.
+Hviske v2 er en yderligere finetunet version af v1, med Coral & common voice datasæt.
+Modellen er trænet over 10 dage med et enkelt Nvidia A100.
+## Sådan kommer du i gang
+Installér transformers:
+`pip install transformers`
+Kør koden:
+```python
+import torch
+from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
+from datasets import load_dataset
+device = "cuda:0" if torch.cuda.is_available() else "cpu"
+torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
+model_id = "syvai/hviske-v2"
+model = AutoModelForSpeechSeq2Seq.from_pretrained(
+    model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True, use_safetensors=True
+)
+model.to(device)
+processor = AutoProcessor.from_pretrained(model_id)
+pipe = pipeline(
+    "automatic-speech-recognition",
+    model=model,
+    tokenizer=processor.tokenizer,
+    feature_extractor=processor.feature_extractor,
+    torch_dtype=torch_dtype,
+    device=device,
+)
+dataset = load_dataset("alexandrainst/coral", split="test")
+sample = dataset[0]["audio"]
+result = pipe(sample)
+print(result["text"])
+```
+## Resultater
+| Model                                 | Antal parametre      | CoRal CER          | CoRal WER          |
+|---------------------------------------|----------------------|--------------------|--------------------|
+| syvai/hviske-v2                       | 1540M                | **4.7% ± 0.07%**   | **11.8% ± 0.3%**   |
+| alexandrainst/roest-315               | 315M                 | 6.6% ± 0.2%        | 17.0% ± 0.4%       |
+| chcaa/xls-r-300m-danish-nst-cv9       | 315M                 | 14.4% ± 0.3%       | 36.5% ± 0.6%       |
+| mhenrichsen/hviske                    | 1540M                | 14.2% ± 0.5%       | 33.2% ± 0.7%       |
+| openai/whisper-large-v3               | 1540M                | 11.4% ± 0.3%       | 28.3% ± 0.6%       |
+Hviske-v2 er ca. 30% bedre målt på WER end roest og ca. 64& bedre end Hviske-v1.
+## Tak til
+[Innovationsfonden](https://innovationsfonden.dk/da) og alle de parter der har været med til at lave CoRal datasættet. Det er virkelig et fantastisk stykke arbejde.
+## Skal din virksomhed have hjælp?
+[syv.ai](https://syv.ai) er Danmarks mest nørdede AI konsulenthus. Vi laver alt fra rådgivning af mindre virksomheder til AI udvikling hos verdens største virksomheder.