GermanEduScorer-Qwen2-1.5b / README.md

flozi00

Update README.md

31635ac verified 3 months ago

preview code

raw

history blame contribute delete

No virus

22.9 kB

	---
	license: apache-2.0
	language:
	- de
	widget:
	- example_title: Bad Data
	messages:
	- role: system
	content: "Nachfolgend findest du einen Auszug aus einer Webseite. Beurteile, ob
	die Seite einen hohen pädagogischen Wert hat und in einem
	pädagogischen Umfeld für den Unterricht von der Grundschule bis zur
	Universität nützlich sein könnte, indem du das unten beschriebene
	5-Punkte-Bewertungssystem anwendest. Die Punkte werden auf der
	Grundlage der Erfüllung der am besten passenden Kriterien gewählt: - 0
	Punkte: Der Inhalt ist nicht organisiert und schwer zu lesen. Der Text
	enthält Werbung oder irrelevante Informationen zum lehren von
	Inhalten. Der Text ist nicht neutral sondern enthält persöhnliche
	Sichtweisen. Beispiel: Tweets, Chatnachrichten oder Forenbeiträge. - 1
	Punkt: Der Text ist für den privaten Gebrauch bestimmt und enthält
	Werbung oder irrelevante Informationen. Der Text ist nicht neutral und
	spiegelt zum Teil persönliche Sichtweisen wider. Beispiel: Ein
	Blogbeitrag, der hauptsächlich auf persönliche Erfahrungen eingeht und
	nur gelegentlich nützliche Informationen bietet. - 2 Punkte: Der Text
	ist neutral geschrieben, aber enthält Werbung oder irrelevante
	Informationen. Die enthaltenen Informationen können zeitlich
	vergänglich sein. Beispiel: Ein Artikel oder Nachrichtenbeitrag. - 3
	Punkte: Der Text enthält viele Informationen und ist leicht
	verständlich. Der Text ist neutral geschrieben und enthält keine
	Werbung oder irrelevante Informationen. Beispiel: Ein
	Wikipedia-Artikel. - 4 Punkte: Der Text ist neutral geschrieben und
	enthält keine Werbung oder irrelevante Informationen. Der Text enthält
	tiefergehendes Wissen und ist für den Unterricht von der Grundschule
	bis zur Universität nützlich. Beispiel: Ein wissenschaftlicher Artikel
	oder ein Lehrbuch - 5 Punkte: Der Text beeinhaltet tiefergehendes
	Wissen, ist dabei aber dennoch leicht verständlich, sodass jeder
	daraus lernen und sich neue Fähigkeiten aneignen kann. Beispielsweise
	Schritt für Schritt Anleitungen, Erklärungen oder Definitionen.
	Nachdem du den Auszug geprüft hast: - Wähle eine Punktzahl von 0 bis
	5, die am besten beschreibt, wie nützlich der Inhalt für den
	Unterricht von der Grundschule bis zur Universität ist. - Begründe
	kurz deine ausgewählte Punktzahl, bis zu 100 Wörter. - Antworte im
	folgenden Format <Gesamtpunktzahl> : <Begründung>"
	- role: user
	content: "Bei der Abwicklung Ihrer Zahlungstransaktionen in unserem Online-Shop
	“15Logo” passt Payzone die anspruchsvollsten Sicherheitsstandards an,
	die auf dem Markt verfügbar sind, beispielsweise
	SSL-Verschlüsselungstechniken. Die Daten werden durch SSL mit einer
	Verschlüsselungslänge von 128 Bit (einer der derzeit höchsten
	verfügbaren Stufen) geschützt. Ihre Konto- oder Kreditkartennummer ist
	nur Payzone bekannt. Während der Zahlung werden uns keine
	Kreditkartendaten übermittelt. Zahlung mit Kreditkarte Sie können Ihre
	Einkäufe bei 15Logo mit Ihrer Kreditkarte bezahlen. Unsere Website
	akzeptiert marokkanische und internationale Bankkarten. Wir nehmen
	Betrug und Respekt vor Ihren vertraulichen Informationen sehr ernst:
	Ihre Bankdaten sind sicher, unser Server ist verschlüsselt und alle
	Ihre Zahlungsinformationen sind verschlüsselt."
	- example_title: Good Data
	messages:
	- role: system
	content: "Nachfolgend findest du einen Auszug aus einer Webseite. Beurteile, ob
	die Seite einen hohen pädagogischen Wert hat und in einem
	pädagogischen Umfeld für den Unterricht von der Grundschule bis zur
	Universität nützlich sein könnte, indem du das unten beschriebene
	5-Punkte-Bewertungssystem anwendest. Die Punkte werden auf der
	Grundlage der Erfüllung der am besten passenden Kriterien gewählt: - 0
	Punkte: Der Inhalt ist nicht organisiert und schwer zu lesen. Der Text
	enthält Werbung oder irrelevante Informationen zum lehren von
	Inhalten. Der Text ist nicht neutral sondern enthält persöhnliche
	Sichtweisen. Beispiel: Tweets, Chatnachrichten oder Forenbeiträge. - 1
	Punkt: Der Text ist für den privaten Gebrauch bestimmt und enthält
	Werbung oder irrelevante Informationen. Der Text ist nicht neutral und
	spiegelt zum Teil persönliche Sichtweisen wider. Beispiel: Ein
	Blogbeitrag, der hauptsächlich auf persönliche Erfahrungen eingeht und
	nur gelegentlich nützliche Informationen bietet. - 2 Punkte: Der Text
	ist neutral geschrieben, aber enthält Werbung oder irrelevante
	Informationen. Die enthaltenen Informationen können zeitlich
	vergänglich sein. Beispiel: Ein Artikel oder Nachrichtenbeitrag. - 3
	Punkte: Der Text enthält viele Informationen und ist leicht
	verständlich. Der Text ist neutral geschrieben und enthält keine
	Werbung oder irrelevante Informationen. Beispiel: Ein
	Wikipedia-Artikel. - 4 Punkte: Der Text ist neutral geschrieben und
	enthält keine Werbung oder irrelevante Informationen. Der Text enthält
	tiefergehendes Wissen und ist für den Unterricht von der Grundschule
	bis zur Universität nützlich. Beispiel: Ein wissenschaftlicher Artikel
	oder ein Lehrbuch - 5 Punkte: Der Text beeinhaltet tiefergehendes
	Wissen, ist dabei aber dennoch leicht verständlich, sodass jeder
	daraus lernen und sich neue Fähigkeiten aneignen kann. Beispielsweise
	Schritt für Schritt Anleitungen, Erklärungen oder Definitionen.
	Nachdem du den Auszug geprüft hast: - Wähle eine Punktzahl von 0 bis
	5, die am besten beschreibt, wie nützlich der Inhalt für den
	Unterricht von der Grundschule bis zur Universität ist. - Begründe
	kurz deine ausgewählte Punktzahl, bis zu 100 Wörter. - Antworte im
	folgenden Format <Gesamtpunktzahl> : <Begründung>"
	- role: user
	content: "Die Schlankjunker (Pseudocoris = falscher Coris) sind eine
	Lippfischgattung, die im tropischen Indopazifik von der Ostküste
	Afrikas bis zu den Line Islands im Zentralpazifik und dem
	Tuamotu-Archipel im Südpazifik vorkommt. Im Roten Meer, bei Hawaii und
	im östlichen Pazifik fehlt die Gattung. Die deutschsprachige
	Bezeichnung Schlankjunker nimmt Bezug auf ihre schlanke Erscheinung
	und ihre Schnelligkeit. Im englischen werden sie als torpedo wrasses
	bezeichnet. Merkmale Schlankjunkern besitzen einen schlanken,
	spindelförmigen und mit kleinen Cycloidschuppen bedeckten und seitlich
	ein wenig abgeflachten Körper. Sie werden 11 bis 20 cm lang. Der Kopf,
	sowie die Basen von Rücken- und Afterflosse sind schuppenlos. Das Maul
	ist kurz und klein, die Augen sitzen, von der Seite gesehen, mittig am
	Kopf. Die Lippen sind schmal. In beiden Kiefern befindet sich vorne je
	ein einzelnes Paar hervorstehender, leicht zurückgebogener und leicht
	zur Seite gebogener Fangzähne. Das untere Paar sitzt bei geschlossenem
	Maul zwischen den oberen. Die Kieferseiten sind mit je einer Reihe
	konischer Zähne besetzt, von denen die größten etwa halb so lang sind
	wie die Fangzähne. Molariforme Zähne, wie bei Coris, fehlen. Auf den
	Pharyngealia sind die meisten Zähne konisch, ein paar an den Rändern
	sitzende schärfer. Die Seitenlinie ist durchgehend und verläuft
	unterhalb des hinteren Rückenflossenabschnittes nach unten. Die
	Stachelstrahlen der Rückenflosse sind flexibel, die ersten beiden
	stehen näher zusammen als die übrigen. Bei Männchen von acht der neun
	Arten ist der erste Stachelstrahl der Rückenflosse verlängert, der
	zweite kann ebenfalls länger sein als die übrigen Flossenstrahlen. Die
	Bauchflossen sind sehr kurz. Die Färbung der Fische ändert sich
	während des Wachstums und Geschlechtswechsels stark. Die Schwanzflosse
	ist gerade abgeschnitten oder abgerundet. Flossenformel: Dorsale
	IX/12, Anale III/12–13, Pectorale 12–15, Ventrale I/5, Caudale 1/12/1.
	Schuppenformel: SL 64–81. Kiemenrechen 15–23. Branchiostegalstrahlen
	5. Wirbel: 9 + 16. Die Fische ernähren sich wahrscheinlich alle von
	Zooplankton. Dies wurde bisher jedoch nur für P. aurantiofasciata, P.
	heteroptera und P. yamashiroi durch Magenuntersuchungen sicher
	nachgewiesen. Die untersuchten Mägen enthielten u. a. Appendikularien,
	Seeigellarven, Flügelschnecken, Kielfüßer, Foraminiferen, Copepoden,
	Flohkrebse und weitere, nicht zu identifizierende Überreste von
	Krebstierechen. Systematik Die Gattung Pseudocoris wurde 1862 durch
	den niederländischen Ichthyologen Pieter Bleeker eingeführt. Sie ist
	nah mit der Gattung Coris verwandt, die sich von bodenbewohnenden,
	hartschaligen Wirbellosen ernährt, und ging wahrscheinlich aus einem
	Coris-Ableger hervor, der dazu überging, sich von freischwimmendem
	Zooplankton zu ernähren. Arten Es gibt insgesamt neun Arten, drei
	Paare von Schwesterarten, von denen jeweils die eine im indischen, die
	andere im pazifischen Ozean vorkommt, und drei in verschiedenen
	Regionen des Pazifik endemische Arten: Pseudocoris aequalis Randall &
	Walsh, 2008 Schwarzer Schlankjunker (Pseudocoris aurantiofasciata
	Fourmanoir, 1971) Bleekers Schlankjunker (Pseudocoris bleekeri
	(Hubrecht, 1876)) Pseudocoris hemichrysos Randall, Connell & Victor,
	2015 Schatten-Schlankjunker (Pseudocoris heteroptera (Bleeker, 1857))
	(Typusart) Pseudocoris occidentalis Randall, Connell & Victor, 2015
	Pseudocoris ocellata Chen & Shao, 1995 Pseudocoris petila Allen &
	Erdmann, 2012 Yamashiros Schlankjunker (Pseudocoris yamashiroi
	(Schmidt, 1931)) Literatur Dieter Eichler, Robert F. Myers:
	Korallenfische Zentraler Indopazifik, Jahr-Verlag GmbH & Co., 1997,
	ISBN 3-86132-225-0 Ewald Lieske, Robert F. Myers: Korallenfische der
	Welt. 1994, Jahr Verlag, ISBN 3-86132-112-2 Randall, J.E., Connell,
	A.D. & Victor, B.C. (2015): Review of the labrid fishes of the
	Indo-Pacific Genus „Pseudocoris“, with a description of two new
	species. Journal of the Ocean Science Foundation, 16: 1–55."
	inference:
	parameters:
	max_new_tokens: 1
	temperature: 0.01
	---

	Technical Report: Development of a Data Quality Classification Model for Educational Content in the German Language

	Abstract:
	This report details the development and evaluation of a machine learning model designed to classify educational content quality in the German language. Inspired by Huggingface's fine web edu dataset, our objective was to adapt and enhance data classification techniques for assessing educational value across various text types from primary school to university level.

	1. Introduction:
	The proliferation of digital educational resources necessitates robust models capable of evaluating content quality efficiently. This project aims at creating a model that can automatically assess the pedagogical value of German-language texts using advanced language learning models (LLMs).

	2. Methodology:

	- Data Collection: We utilized over 15,000 entries per model, summing up to 2 million labeled entries through iterative testing.
	- Language Models Used: Seven different LLMs were compared:
	1. Llama 3 70b instruct
	2. Discoresearch LLama 3 8b
	3. Llama 3 8b Sauerkraut
	4. Mixtral 8x7 Instruct
	5. GPT 4o
	6. Command r plus
	7. Llama 3 70b Sauerkraut

	Each model underwent fifteen iterations with varying prompts based on predefined rating criteria aimed at assessing data quality.

	- Evaluation Criteria: The prompt used involved a detailed scoring system from zero to five, focusing on organization, relevance, neutrality, depth of knowledge, and usability across education levels.

	```
	Nachfolgend findest du einen Auszug aus einer Webseite. Beurteile, ob die Seite einen hohen pädagogischen Wert hat und in einem pädagogischen Umfeld für den Unterricht von der Grundschule bis zur Universität nützlich sein könnte, indem du das unten beschriebene 5-Punkte-Bewertungssystem anwendest.
	Die Punkte werden auf der Grundlage der Erfüllung der am besten passenden Kriterien gewählt:
	- 0 Punkte: Der Inhalt ist nicht organisiert und schwer zu lesen. Der Text enthält Werbung oder irrelevante Informationen zum lehren von Inhalten. Der Text ist nicht neutral sondern enthält persöhnliche Sichtweisen. Beispiel: Tweets, Chatnachrichten oder Forenbeiträge.
	- 1 Punkt: Der Text ist für den privaten Gebrauch bestimmt und enthält Werbung oder irrelevante Informationen. Der Text ist nicht neutral und spiegelt zum Teil persönliche Sichtweisen wider. Beispiel: Ein Blogbeitrag, der hauptsächlich auf persönliche Erfahrungen eingeht und nur gelegentlich nützliche Informationen bietet.
	- 2 Punkte: Der Text ist neutral geschrieben, aber enthält Werbung oder irrelevante Informationen. Die enthaltenen Informationen können zeitlich vergänglich sein. Beispiel: Ein Artikel oder Nachrichtenbeitrag.
	- 3 Punkte: Der Text enthält viele Informationen und ist leicht verständlich. Der Text ist neutral geschrieben und enthält keine Werbung oder irrelevante Informationen. Beispiel: Ein Wikipedia-Artikel.
	- 4 Punkte: Der Text ist neutral geschrieben und enthält keine Werbung oder irrelevante Informationen. Der Text enthält tiefergehendes Wissen und ist für den Unterricht von der Grundschule bis zur Universität nützlich. Beispiel: Ein wissenschaftlicher Artikel oder ein Lehrbuch
	- 5 Punkte: Der Text beeinhaltet tiefergehendes Wissen, ist dabei aber dennoch leicht verständlich, sodass jeder daraus lernen und sich neue Fähigkeiten aneignen kann. Beispielsweise Schritt für Schritt Anleitungen, Erklärungen oder Definitionen.

	Nachdem du den Auszug geprüft hast:
	- Wähle eine Punktzahl von 0 bis 5, die am besten beschreibt, wie nützlich der Inhalt für den Unterricht von der Grundschule bis zur Universität ist.
	- Begründe kurz deine ausgewählte Punktzahl, bis zu 100 Wörter.
	- Antworte im folgenden Format "<Gesamtpunktzahl> : <Begründung>"
	```

	3. Problems Encountered During Evaluation:
	Several issues were observed during initial evaluations:
	- Uniformity in scoring across all texts.
	- Random-like accuracy in responses.
	- Bias towards longer text contexts.
	- Non-adherence to prompt structures leading to irrelevant completions instead of scores.
	- Overly generous scoring indicating lack of critical assessment by models.

	Amongst all tested models 'Command r plus' showed highest precision especially noted for its critical analysis capabilities and adherence to structured prompts.

	4.Model Training & Results:
	The final model was developed using full ORPO finetune technique on VAGOsolutions/SauerkrautLM-1.5b which is based on qwen2 architecture achieving an impressive accuracy rate close approximating that seen with ‘Command r plus’.

	Training specifics included:
	* Dataset size : 380k unique entries
	* Epochs : 3
	* Batch Size : 512

	This configuration resulted in significant performance improvements particularly in terms relevant feature recognition and response structuring according prescribed evaluation metrics.

	5. Analysis of Failed Model Trainings and Decision to Use Qwen2-1.5b Model:

	During the development phase, several models were evaluated for their efficacy in classifying educational content quality. Two notable models that did not meet our final requirements were the Bert regression model and the T5 seq2seq model.

	- Bert Regression:
	The Bert regression model was initially promising due to its high speed of processing, achieving a good quality score of approximately 85%. However, its major limitation was the short context length capability of only 512 tokens. This restriction hindered its ability to process longer texts comprehensively, which is often required in educational materials that encompass detailed explanations or extensive subject matter discussions.

	- T5 Seq2Seq:
	Similarly, the T5 seq2seq model also supported a maximum context length of 512 tokens. Although it slightly outperformed Bert with an average quality score around 88%, it had additional drawbacks such as slower processing speeds and inefficient token usage due to prompt inclusion reducing effective context space further. These factors combined made it less suitable for our needs where prompt flexibility and faster response times were crucial.

	Given these limitations observed in both models regarding token economy and context length capacity, we explored more robust alternatives leading us towards adopting Qwen2-1.5b as our primary model:

	- Qwen2-1.5b:
	The decision to utilize Qwen2 stemmed from its superior performance metrics where it achieved an impressive highest quality rating close to ~95%. Notably, this larger model supports up to a substantial 32k tokens in context length allowing comprehensive analysis over extended texts which is vital for educational content evaluation spanning multiple academic levels from elementary through university.

	Additionally, despite being a larger scale model potentially implying higher computational demands; various optimized inference solutions such as TGI or vLLM adaptations have been integrated effectively enhancing operational efficiency making real-time applications feasible without compromising on analytical depth or accuracy.

	In conclusion, while earlier iterations with other models provided valuable insights into necessary features and performance thresholds; transitioning towards using Qwen2 has significantly advanced our project’s capability delivering refined assessments aligned closely with set objectives ensuring robustness scalability future expansions within this domain.

	7. How to use
	```python
	from transformers import pipeline
	import datasets

	pipe = pipeline("text-generation", model="pL-Community/GermanEduScorer-Qwen2-1.5b", device = 0)

	ds_eval = datasets.load_dataset("cis-lmu/GlotCC-V1", "deu-Latn", split="train").shuffle(42)

	iterations = 0
	right = 0
	diff = 0
	false_counter = 0

	for i in ds_eval:
	messages = [
	{"role": "system", "content": """Nachfolgend findest du einen Auszug aus einer Webseite. Beurteile, ob die Seite einen hohen pädagogischen Wert hat und in einem pädagogischen Umfeld für den Unterricht von der Grundschule bis zur Universität nützlich sein könnte, indem du das unten beschriebene 5-Punkte-Bewertungssystem anwendest. Die Punkte werden auf der Grundlage der Erfüllung der am besten passenden Kriterien gewählt:

	- 0 Punkte: Der Inhalt ist nicht organisiert und schwer zu lesen. Der Text enthält Werbung oder irrelevante Informationen zum lehren von Inhalten. Der Text ist nicht neutral sondern enthält persöhnliche Sichtweisen. Beispiel: Tweets, Chatnachrichten oder Forenbeiträge.
	- 1 Punkt: Der Text ist für den privaten Gebrauch bestimmt und enthält Werbung oder irrelevante Informationen. Der Text ist nicht neutral und spiegelt zum Teil persönliche Sichtweisen wider. Beispiel: Ein Blogbeitrag, der hauptsächlich auf persönliche Erfahrungen eingeht und nur gelegentlich nützliche Informationen bietet.
	- 2 Punkte: Der Text ist neutral geschrieben, aber enthält Werbung oder irrelevante Informationen. Die enthaltenen Informationen können zeitlich vergänglich sein. Beispiel: Ein Artikel oder Nachrichtenbeitrag.
	- 3 Punkte: Der Text enthält viele Informationen und ist leicht verständlich. Der Text ist neutral geschrieben und enthält keine Werbung oder irrelevante Informationen. Beispiel: Ein Wikipedia-Artikel.
	- 4 Punkte: Der Text ist neutral geschrieben und enthält keine Werbung oder irrelevante Informationen. Der Text enthält tiefergehendes Wissen und ist für den Unterricht von der Grundschule bis zur Universität nützlich. Beispiel: Ein wissenschaftlicher Artikel oder ein Lehrbuch
	- 5 Punkte: Der Text beeinhaltet tiefergehendes Wissen, ist dabei aber dennoch leicht verständlich, sodass jeder daraus lernen und sich neue Fähigkeiten aneignen kann. Beispielsweise Schritt für Schritt Anleitungen, Erklärungen oder Definitionen.

	Nachdem du den Auszug geprüft hast:
	- Wähle eine Punktzahl von 0 bis 5, die am besten beschreibt, wie nützlich der Inhalt für den Unterricht von der Grundschule bis zur Universität ist.
	- Begründe kurz deine ausgewählte Punktzahl, bis zu 100 Wörter.
	- Antworte im folgenden Format "<Gesamtpunktzahl>"""},
	{"role": "user", "content": i["text"]},
	]

	result = pipe(messages, do_sample=False, temperature=0.1, max_new_tokens=1)

	pred = result[0]["generated_text"][-1]["content"]
	pred = int(pred)

	print("Score: ", pred)
	```


	7.Future Work & Acknowledgements:
	Continued efforts will focus on labeling additional datasets within this domain which will be made publicly available under our organizational repository enhancing accessibility for further research applications within academic settings or other pedagogical assessments tools development initiatives .

	Special thanks are due [David](https://huggingface.co/DavidGF) and [Daryoush](https://huggingface.co/DaryoushV) from Vago Solutions; [Björn](https://huggingface.co/bjoernp) and [Jan](https://huggingface.co/jphme) from Ellamind / DiscoResearch whose insights into dataset reviews ,prompt formulations discussions about final trained model configurations were invaluable throughout this project’s lifecycle .

	In conclusion ,this report encapsulates comprehensive overview regarding methodologies employed ,challenges encountered solutions devised towards creation successful application capable effectively classifying educational content quality german language leveraging cutting edge AI technologies .

	The compute during the whole process was sponsored by
	[![primeline AI](https://primeline-ai.com/wp-content/uploads/2024/02/pl_ai_bildwortmarke_original.svg)](https://primeline-ai.com/en/)

	Project author:
	[Florian Zimmermeister](https://huggingface.co/flozi00)