×

Serwis używa ciasteczek ("cookies") i podobnych technologii m.in. do utrzymania sesji i w celach statystycznych. • Ustawienia przeglądarki dotyczące obsługi ciasteczek można swobodnie zmieniać. • Całkowite zablokowanie zapisu ciasteczek na dysku komputera uniemożliwi logowanie się do serwisu. • Więcej informacji: Polityka cookies OPI PIB

×

Regulamin korzystania z serwisu PBN znajduję się pod adresem: Regulamin serwisu

Szukaj wśród:
Dane publikacji

GROTOAP2 — The Methodology of Creating a Large Ground Truth Dataset of Scientific Articles

Artykuł
Czasopismo : D-Lib Magazine   Tom: 20, Zeszyt: 11/12, Strony: 1
2014-11 angielski
Link do publicznie dostępnego pełnego tekstu
Identyfikatory
-
Cechy publikacji
-
  • Oryginalny artykuł naukowy
  • Zrecenzowana naukowo
  • Konferencyjna
Słowa kluczowe
-
Dane konferencji
-
  1. WOSP 2014 3rd International Workshop on Mining Scientific Publications 2014
  2. 2014-09-12
  3. London, Wielka Brytania
Abstrakty ( angielski )
-
Scientific literature analysis improves knowledge propagation and plays a key role in understanding and assessment of scholarly communication in scientific world. In recent years many tools and services for analysing the content of scientific articles have been developed. One of the most important tasks in this research area is understanding the roles of different parts of the document. It is impossible to build effective solutions for problems related to document fragments classification and evaluate their performance without a reliable test set, that contains both input documents and the expected results of classification. In this paper we present GROTOAP2 — a large dataset of ground truth files containing labelled fragments of scientific articles in PDF format, useful for training and evaluation of document content analysis-related solutions. GROTOAP2 was successfully used for training CERMINE — our system for extracting metadata and content from scientific articles. The dataset is based on articles from PubMed Central Open Access Subset. GROTOAP2 is published under Open Access license. The semi-automatic method used to construct GROTOAP2 is scalable and can be adjusted for building large datasets from other data sources. The article presents the content of GROTOAP2, describes the entire creation process and reports the evaluation methodology and results.
Zacytuj dokument
-