mhenrichsen commited on
Commit
780ea00
1 Parent(s): 25397c3

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +45 -0
README.md CHANGED
@@ -18,6 +18,51 @@ It returns a dict with the keys:
18
  - splits: list[str]
19
  - topic: str
20
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
21
  Example:
22
  ```
23
  ### Instruction:
 
18
  - splits: list[str]
19
  - topic: str
20
 
21
+
22
+ ## Code example
23
+ ```python
24
+ from transformers import AutoTokenizer, TextStreamer, AutoModelForCausalLM
25
+
26
+ model = AutoModelForCausalLM.from_pretrained("mhenrichsen/context-aware-splitter-1b")
27
+ tokenizer = AutoTokenizer.from_pretrained("mhenrichsen/context-aware-splitter-1b")
28
+ streamer = TextStreamer(tokenizer, skip_special_tokens=True)
29
+
30
+ WORD_SPLIT_COUNT = 50
31
+
32
+ prompt_template = """### Instruction:
33
+ Din opgave er at segmentere en given tekst i separate dele, så hver del giver mening og kan læses uafhængigt af de andre. Hvis det giver mening, må der kan være et overlap mellem delene. Hver del skal ideelt indeholde {word_count} ord.
34
+
35
+ ### Input:
36
+ {text}
37
+
38
+ ### Response:
39
+ """
40
+
41
+ artikel = """Kina er stærkt utilfreds med, at Tysklands udenrigsminister, Annalena Baerbock, har omtalt den kinesiske præsident Xi Jinping som en diktator.
42
+
43
+ - Bemærkningerne fra Tyskland er ekstremt absurde, krænker Kinas politiske værdighed alvorligt og er en åben politisk provokation, udtalte talsperson fra det kinesiske udenrigsministerium Mao Ning i går ifølge CNN.
44
+
45
+ Bemærkningen fra udenrigsminister Annalena Baerbock faldt i et interview om krigen i Ukraine med Fox News i sidste uge.
46
+
47
+ - Hvis Putin skulle vinde denne krig, hvilket signal ville det så sende til andre diktatorer i verden, som Xi, som den kinesiske præsident?, sagde hun.
48
+
49
+ Tysklands ambassadør i Kina, Patricia Flor, har som konsekvens af udtalelsen været til en kammeratlig samtale, oplyser det tyske udenrigsministerium til CNN."""
50
+
51
+ tokens = tokenizer(
52
+ prompt_template.format(text=artikel, word_count=WORD_SPLIT_COUNT),
53
+ return_tensors='pt'
54
+ )['input_ids']
55
+
56
+ # Generate output
57
+ generation_output = model.generate(
58
+ tokens,
59
+ streamer=streamer,
60
+ max_length = 8194,
61
+ eos_token_id = 29913
62
+ )
63
+ ```
64
+
65
+
66
  Example:
67
  ```
68
  ### Instruction: