A Workflow Application for Parallel Processing of Big Data from an Internet Portal
PBN-AR
Instytucja
Wydział Elektroniki, Telekomunikacji i Informatyki (Politechnika Gdańska)
Informacje podstawowe
Główny język publikacji
ENG
Czasopismo
Procedia Computer Science, vol. 29
ISSN
1877-0509
EISSN
Wydawca
DOI
URL
Rok publikacji
2014
Numer zeszytu
Strony od-do
499-508
Numer tomu
29
Identyfikator DOI
Liczba arkuszy
Autorzy
(liczba autorów: 1)
Słowa kluczowe
PARALLEL DATA PROCESSING, PARALLEL PERFORMANCE, INTERNET, PARALLEL WORKFLOW APPLICATION
Konferencja
Indeksowana w Scopus
nie
Indeksowana w Web of Science Core Collection
tak
Liczba cytowań z Web of Science Core Collection
Nazwa konferencji (skrócona)
Nazwa konferencji
2014 International Conference on Computational Science
Początek konferencji
2014-06-10
Koniec konferencji
2014-06-12
Lokalizacja konferencji
Cairns, Australia
Kraj konferencji
NL
Lista innych baz czasopism i abstraktów w których była indeksowana
Streszczenia
Język
Treść
The paper presents a workflow application for efficient parallel processing of data downloaded from an Internet portal. The workflow partitions input files into subdirectories which are further split for parallel processing by services installed on distinct computer nodes. This way, analysis of the first ready subdirectories can start fast and is handled by services implemented as parallel multithreaded applications using multiple cores of modern CPUs. The goal is to assess achievable speed-ups and determine which factors influence scalability and to what degree. Data processing services were implemented for assessment of context (positive or negative) in which the given keyword appears in a document. The testbed application used these services to determine how a particular brand was recognized by either authors of articles or readers in comments in a specific Internet portal focused on new technologies. Obtained execution times as well as speed-ups are presented for data sets of various sizes along with discussion on how factors such as load imbalance and memory/disk bottlenecks limit performance
Inne
System-identifier
129826
CrossrefMetadata from Crossref logo
Cytowania
Liczba prac cytujących tę pracę
Brak danych
Referencje
Liczba prac cytowanych przez tę pracę
Brak danych