mhenrichsen
commited on
Commit
•
780ea00
1
Parent(s):
25397c3
Update README.md
Browse files
README.md
CHANGED
@@ -18,6 +18,51 @@ It returns a dict with the keys:
|
|
18 |
- splits: list[str]
|
19 |
- topic: str
|
20 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
21 |
Example:
|
22 |
```
|
23 |
### Instruction:
|
|
|
18 |
- splits: list[str]
|
19 |
- topic: str
|
20 |
|
21 |
+
|
22 |
+
## Code example
|
23 |
+
```python
|
24 |
+
from transformers import AutoTokenizer, TextStreamer, AutoModelForCausalLM
|
25 |
+
|
26 |
+
model = AutoModelForCausalLM.from_pretrained("mhenrichsen/context-aware-splitter-1b")
|
27 |
+
tokenizer = AutoTokenizer.from_pretrained("mhenrichsen/context-aware-splitter-1b")
|
28 |
+
streamer = TextStreamer(tokenizer, skip_special_tokens=True)
|
29 |
+
|
30 |
+
WORD_SPLIT_COUNT = 50
|
31 |
+
|
32 |
+
prompt_template = """### Instruction:
|
33 |
+
Din opgave er at segmentere en given tekst i separate dele, så hver del giver mening og kan læses uafhængigt af de andre. Hvis det giver mening, må der kan være et overlap mellem delene. Hver del skal ideelt indeholde {word_count} ord.
|
34 |
+
|
35 |
+
### Input:
|
36 |
+
{text}
|
37 |
+
|
38 |
+
### Response:
|
39 |
+
"""
|
40 |
+
|
41 |
+
artikel = """Kina er stærkt utilfreds med, at Tysklands udenrigsminister, Annalena Baerbock, har omtalt den kinesiske præsident Xi Jinping som en diktator.
|
42 |
+
|
43 |
+
- Bemærkningerne fra Tyskland er ekstremt absurde, krænker Kinas politiske værdighed alvorligt og er en åben politisk provokation, udtalte talsperson fra det kinesiske udenrigsministerium Mao Ning i går ifølge CNN.
|
44 |
+
|
45 |
+
Bemærkningen fra udenrigsminister Annalena Baerbock faldt i et interview om krigen i Ukraine med Fox News i sidste uge.
|
46 |
+
|
47 |
+
- Hvis Putin skulle vinde denne krig, hvilket signal ville det så sende til andre diktatorer i verden, som Xi, som den kinesiske præsident?, sagde hun.
|
48 |
+
|
49 |
+
Tysklands ambassadør i Kina, Patricia Flor, har som konsekvens af udtalelsen været til en kammeratlig samtale, oplyser det tyske udenrigsministerium til CNN."""
|
50 |
+
|
51 |
+
tokens = tokenizer(
|
52 |
+
prompt_template.format(text=artikel, word_count=WORD_SPLIT_COUNT),
|
53 |
+
return_tensors='pt'
|
54 |
+
)['input_ids']
|
55 |
+
|
56 |
+
# Generate output
|
57 |
+
generation_output = model.generate(
|
58 |
+
tokens,
|
59 |
+
streamer=streamer,
|
60 |
+
max_length = 8194,
|
61 |
+
eos_token_id = 29913
|
62 |
+
)
|
63 |
+
```
|
64 |
+
|
65 |
+
|
66 |
Example:
|
67 |
```
|
68 |
### Instruction:
|