×

Serwis używa ciasteczek ("cookies") i podobnych technologii m.in. do utrzymania sesji i w celach statystycznych. • Ustawienia przeglądarki dotyczące obsługi ciasteczek można swobodnie zmieniać. • Całkowite zablokowanie zapisu ciasteczek na dysku komputera uniemożliwi logowanie się do serwisu. • Więcej informacji: Polityka cookies OPI PIB

×

Regulamin korzystania z serwisu PBN znajduję się pod adresem: Regulamin serwisu

Szukaj wśród:
Dane publikacji

Efficient Blocking Method for a Large Scale Citation Matching

Artykuł
Czasopismo : D-Lib Magazine   Tom: 20, Zeszyt: 11/12, Strony: 1
2014-11 angielski
Link do publicznie dostępnego pełnego tekstu
Identyfikatory
-
Cechy publikacji
-
  • Oryginalny artykuł naukowy
  • Zrecenzowana naukowo
  • Konferencyjna
Słowa kluczowe
-
Dane konferencji
-
  1. WOSP 2014 3rd International Workshop on Mining Scientific Publications 2014
  2. 2014-09-12
  3. London, Wielka Brytania
Abstrakty ( angielski )
-
Most commonly the first part of record deduplication is blocking. During this phase, roughly similar entities are grouped into blocks where more exact clustering is performed. We present a blocking method for citation matching based on hash functions. A blocking workflow implemented in Apache Hadoop is outlined. A few hash functions are proposed and compared with a particular concern about feasibility of their usage with big data. The possibility of combining various hash functions is investigated. Finally, some technical details related to full citation matching workflow implementation are revealed.
Zacytuj dokument
-