×

Serwis używa ciasteczek ("cookies") i podobnych technologii m.in. do utrzymania sesji i w celach statystycznych. • Ustawienia przeglądarki dotyczące obsługi ciasteczek można swobodnie zmieniać. • Całkowite zablokowanie zapisu ciasteczek na dysku komputera uniemożliwi logowanie się do serwisu. • Więcej informacji: Polityka cookies OPI PIB

×

Regulamin korzystania z serwisu PBN znajduję się pod adresem: Regulamin serwisu

Szukaj wśród:
Dane publikacji

CERMINE: automatic extraction of structured metadata from scientific literature

Artykuł
Czasopismo : International Journal on Document Analysis and Recognition   Tom: 18, Zeszyt: 4, Strony: 317-335
Dominika Tkaczyk [1] , Paweł Szostek [1] , Mateusz Piotr Fedoryszak [1] , Piotr Dendek [1] , Łukasz Bolikowski [1]
2015 angielski
Link do publicznie dostępnego pełnego tekstu
Identyfikatory
-
Cechy publikacji
-
  • Oryginalny artykuł naukowy
  • Zrecenzowana naukowo
Dyscypliny naukowe
-
Informatyka – dziedzina nauk technicznych
Abstrakty ( angielski )
-
CERMINE is a comprehensive open-source system for extracting structured metadata from scientific articles in a born-digital form. The system is based on a modular workflow, whose loosely coupled architecture allows for individual component evaluation and adjustment, enables effortless improvements and replacements of independent parts of the algorithm and facilitates future architecture expanding. The implementations of most steps are based on supervised and unsupervised machine learning techniques, which simplifies the procedure of adapting the system to new document layouts and styles. The evaluation of the extraction workflow carried out with the use of a large dataset showed good performance for most metadata types, with the average F score of 77.5 %. CERMINE system is available under an open-source licence and can be accessed at http://cermine.ceon.pl. In this paper, we outline the overall workflow architecture and provide details about individual steps implementations. We also thoroughly compare CERMINE to similar solutions, describe evaluation methodology and finally report its results.
Zacytuj dokument
-