Thomas Langer
Stellvertretender Bereichsleiter
Das deutschsprachige NLP-Textkorpus des Leitlinienprogramms Onkologie - GGPONC basiert auf den semistrukturierten Daten der onkologischen S3-Leitlinien. Hierdurch stehen Fachtexte in einer sehr hohen Datenqualität zur Verfügung. Neben den reinen Textdaten stellen wir zusätzlich auch umfangreiche Metadaten, beispielsweise zu Evidenzleveln und Literaturverweisen, zur Verfügung. Alle Texte wurden manuell von medizinischen Expertinnen und Experten mit den Entitätsklassen Befund, Substanz und Prozedur (angelehnt an das SNOMED-CT-Konzeptmodell) annotiert. Hierdurch stehen über 200.000 komplexe Entitätsannotationen zur Verfügung, die zum Training von ML-Modellen verwendet werden können. Basismodelle werden von uns zusammen mit den Daten zur Verfügung gestellt.
Thomas Langer
Stellvertretender Bereichsleiter