Safetensors
Danish
whisper
mhenrichsen commited on
Commit
914da87
1 Parent(s): 85fadab

Create README.md

Browse files
Files changed (1) hide show
  1. README.md +76 -0
README.md ADDED
@@ -0,0 +1,76 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: openrail
3
+ datasets:
4
+ - alexandrainst/coral
5
+ - mozilla-foundation/common_voice_17_0
6
+ language:
7
+ - da
8
+ base_model:
9
+ - mhenrichsen/hviske
10
+ ---
11
+
12
+ # Hviske v2
13
+ Hviske v2 er en "state of the art" dansk transskriptionsmodel der er trænet af [syv.ai](https://syv.ai). Modellen er gratis at bruge, men sørg for at være opmærksom på at brugen falder indenfor licensen.
14
+
15
+ Hviske v2 er en yderligere finetunet version af v1, med Coral & common voice datasæt.
16
+
17
+ Modellen er trænet over 10 dage med et enkelt Nvidia A100.
18
+
19
+ ## Sådan kommer du i gang
20
+
21
+ Installér transformers:
22
+ `pip install transformers`
23
+
24
+ Kør koden:
25
+ ```python
26
+ import torch
27
+ from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
28
+ from datasets import load_dataset
29
+
30
+
31
+ device = "cuda:0" if torch.cuda.is_available() else "cpu"
32
+ torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
33
+
34
+ model_id = "syvai/hviske-v2"
35
+
36
+ model = AutoModelForSpeechSeq2Seq.from_pretrained(
37
+ model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True, use_safetensors=True
38
+ )
39
+ model.to(device)
40
+
41
+ processor = AutoProcessor.from_pretrained(model_id)
42
+
43
+ pipe = pipeline(
44
+ "automatic-speech-recognition",
45
+ model=model,
46
+ tokenizer=processor.tokenizer,
47
+ feature_extractor=processor.feature_extractor,
48
+ torch_dtype=torch_dtype,
49
+ device=device,
50
+ )
51
+
52
+ dataset = load_dataset("alexandrainst/coral", split="test")
53
+ sample = dataset[0]["audio"]
54
+
55
+ result = pipe(sample)
56
+ print(result["text"])
57
+ ```
58
+
59
+ ## Resultater
60
+
61
+ | Model | Antal parametre | CoRal CER | CoRal WER |
62
+ |---------------------------------------|----------------------|--------------------|--------------------|
63
+ | syvai/hviske-v2 | 1540M | **4.7% ± 0.07%** | **11.8% ± 0.3%** |
64
+ | alexandrainst/roest-315 | 315M | 6.6% ± 0.2% | 17.0% ± 0.4% |
65
+ | chcaa/xls-r-300m-danish-nst-cv9 | 315M | 14.4% ± 0.3% | 36.5% ± 0.6% |
66
+ | mhenrichsen/hviske | 1540M | 14.2% ± 0.5% | 33.2% ± 0.7% |
67
+ | openai/whisper-large-v3 | 1540M | 11.4% ± 0.3% | 28.3% ± 0.6% |
68
+
69
+ Hviske-v2 er ca. 30% bedre målt på WER end roest og ca. 64& bedre end Hviske-v1.
70
+
71
+ ## Tak til
72
+ [Innovationsfonden](https://innovationsfonden.dk/da) og alle de parter der har været med til at lave CoRal datasættet. Det er virkelig et fantastisk stykke arbejde.
73
+
74
+
75
+ ## Skal din virksomhed have hjælp?
76
+ [syv.ai](https://syv.ai) er Danmarks mest nørdede AI konsulenthus. Vi laver alt fra rådgivning af mindre virksomheder til AI udvikling hos verdens største virksomheder.