You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Right now, the Postprocessing done by JSBD is hardcoded, as well as an abbrevation lexicon.
The postprocessing steps were probably fitted to "biomedical english abstracts". This results in some issues with "medical german discharge summaries etc."
At least the abbrevation lexicon should be "outsourced".
The text was updated successfully, but these errors were encountered:
AbbreviationsMedical wird nur im Postprocessing eingesetzt.
Abstract2UnitPipe nutzt explizit AbbreviationsBiomed. Sollte der Teil
auch umgestellt werden können?
Oh, das muss mir entgangen sein; glaub ich. Ja, sollte er.
Und meintest Du mit "outsourced" einen
generellen Lademechanismus und wie würdest Du ihn Dir vorstellen?
Ja, ich hatte selber leider keine Zeit und musste deshalb schnell diesen "dirty hack" einfügen. Im Grunde wäre es schön, wenn man per "descriptor parameter" eine Datei angeben kann, die entsprechende Abkürzungen enthält. Im Moment wird der Parameter "Postprocessing" dafür benutzt, der aber nur zwischen "medical" und "biomed" (bzw. kein PP) wechseln kann. Hier könnte dann entsprechend der Pfad zu dem Abk.-Lexikon rein oder so.
Mir ist aufgefallen, dass in dem LOW String in Abstract2UnitPipe das
kleine 'ß' fehlt.
Stimmt, so tief bin ich in den Code gar nicht eingestiegen, als dass mir das für die Verarbeitung deutscher Texte aufgefallen wäre; JSBD war ja nur für englische Texte konzipiert.
Sollte man generell auf Unicode (\p{Ll} für Letter
Lowercase und \p{Lu} für Letter Uppercase) umstellen?
Wenn das umstandslos klappt und die gleichen Ergebnisse bringt, gerne :)
Right now, the Postprocessing done by JSBD is hardcoded, as well as an abbrevation lexicon.
The postprocessing steps were probably fitted to "biomedical english abstracts". This results in some issues with "medical german discharge summaries etc."
At least the abbrevation lexicon should be "outsourced".
The text was updated successfully, but these errors were encountered: