In deze aflevering vertellen we alles over project Leesplank, dat we samen met UWV en de KU Leuven hebben gedaan. Leesplank is een open source Large Language Model (LLM) voor de door de overheid, geïnspireerd door Aap, Noot en Mies. Het geeft een begrijpelijke uitleg van het project maar ook diepere technische details.
Meer informatie over de Open source LLM vind je in de volgende links.
UWV wikipedia sets:
https://huggingface.co/datasets/UWV/Leesplank_NL_wikipedia_simplifications
https://huggingface.co/datasets/UWV/veringewikkelderingen (deze is onaf)
Bram datasets
https://huggingface.co/datasets/BramVanroy/ultra_feedback_dutch
https://huggingface.co/datasets/BramVanroy/ultrachat_200k_dutch
https://huggingface.co/datasets/BramVanroy/orca_dpo_pairs_dutch
Bram verrijkte GEITje
https://huggingface.co/BramVanroy/GEITje-7B-ultra
Oorspronkelijke GEITje van Edwin Rijgersberg:
https://huggingface.co/Rijgersberg/GEITje-7B (waar Leesplank dus niets aan heeft gedaan)
Bram oude versie van vereenvoudigingsmodel, maar staat op sleep mode en is nog niet verrijkt met onze data om op alinea niveau te werken; kan nu alleen op zinsniveau:
https://huggingface.co/spaces/BramVanroy/mai-simplification-nl-2023-demo
Scandeval GPT 4 1106 resultaten gedaan i.s.m. UWV
https://scandeval.com/dutch-nlg/
https://scandeval.com/dutch-nlu/
en hier staan onze credits (bij special thanks): https://github.com/ScandEval/ScandEval
Tot slot hier de oerversie die Aap geïnspireerd heeft, die dus nog op illegale data getraind is, maar wel een aardig beeld geeft van hoe het zou kunnen:
https://huggingface.co/spaces/jbilcke-hf/ai-comic-factory
Meer informatie over de deelnemers:
Bram - https://www.linkedin.com/in/bramvanroy/
Michiel - https://www.linkedin.com/in/mbuisman/
Maarten - https://www.linkedin.com/in/lensfitzgerald/