GGPONC

German Guideline Program in Oncology - NLP Corpus

Das deutschsprachige NLP-Textkorpus des Leitlinienprogramms Onkologie - GGPONC basiert auf den semistrukturierten Daten der onkologischen S3-Leitlinien. Hierdurch stehen Fachtexte in einer sehr hohen Datenqualität zur Verfügung. Neben den reinen Textdaten stellen wir zusätzlich auch umfangreiche Metadaten, beispielsweise zu Evidenzleveln und Literaturverweisen, zur Verfügung. Alle Texte wurden manuell von medizinischen Expertinnen und Experten mit den Entitätsklassen Befund, Substanz und Prozedur (angelehnt an das SNOMED-CT-Konzeptmodell) annotiert. Hierdurch stehen über 200.000 komplexe Entitätsannotationen zur Verfügung, die zum Training von ML-Modellen verwendet werden können. Basismodelle werden von uns zusammen mit den Daten zur Verfügung gestellt.

Mehr über das Projekt

Beteiligungen

Einrichtungen

  • Hasso-Plattner-Institut für Digital Engineering gGmbH
  • JULIE Lab der Friedrich-Schiller-Universität Jena

Mitarbeitende

Thomas Langer

Thomas Langer

Stellvertretender Bereichsleiter