Profilowanie, oczyszczanie i zapobieganie powstawaniu dirty data
PBN-AR
Instytucja
Wydział Zarządzania (Uniwersytet Gdański)
Informacje podstawowe
Główny język publikacji
pl
Czasopismo
Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu (10pkt w roku publikacji)
ISSN
1899-3192
EISSN
2392-0041
Wydawca
Wydawnictwo Uniwersytetu Ekonomicznego we Wrocawiu
DOI
URL
Rok publikacji
2018
Numer zeszytu
508
Strony od-do
146-156
Numer tomu
Identyfikator DOI
Liczba arkuszy
0.5
Autorzy
Słowa kluczowe
pl
Big Data
dirty data
profilowanie danych
oczyszczanie danych
zapobieganie powstawaniu zanieczyszczeń w danych
en
Big Data
dirty data
profiling data
data cleansing
defect prevention
Open access
Tryb otwartego dostępu
Inne
Wersja tekstu w otwartym dostępie
Wersja opublikowana
Licencja otwartego dostępu
Creative Commons — Uznanie autorstwa-Niekomercyjne-Bez utworów zależnych
Czas opublikowania w otwartym dostępie
Razem z publikacją
Data udostępnienia w sposób otwarty
Streszczenia
Język
pl
Treść
Zbiory Big Data oferują dostęp do niemal nieograniczonej liczby danych, dając nadzieję na szybszy, tańszy, bardziej precyzyjny i wszechstronny opis świata. Jednocześnie w takich zbiorach poza danymi o odpowiedniej jakości (clear data) znaczny udział mają dane nieprawdziwe, nieaktualne, zaszumione, często zwielokrotnione, niepełne lub błędne (dirty data), a także dane o nieznanej jakości czy użyteczności (dark data). Znaczący udział dirty i dark data ma szereg negatywnych konsekwencji w analizie zbioru Big Data. Celem prezentowanych badań jest przegląd i systemowe ujęcie procedur minimalizowania negatywnych efektów dirty data w analizie Big Data. W konstrukcji systemu oczyszczania zbioru danych uwzględniono najważniejsze procedury profilowania (profiling data), oczyszczania (cleansing data) i zapobiegania (defect prevention) powstawaniu dirty data w procesie budowy i analizy zbioru Big Data.
Język
en
Treść
There are almost unlimited sources of large streams of information now being referred to as Big Data. Because of it we hope for a faster, cheaper, more precise and versatile description in the world around us. At the same time, in such data sets, apart from data of a proper quality (clear data), significant share is false, outdated, noisy data, often multiplied, incomplete or incorrect (dirty data), as well as data of unknown quality or usefulness (dark data). A significant share of dirty data and dark data causes a number of negative consequences in the analysis of Big Data sets. The aim of this article is to review and systemically capture the procedures for minimizing the negative effects of dirty data in the analysis of Big Data. The design of the data collection system includes the most important profiling procedures (profiling data), cleansing data and defect prevention of dirty data in the process of building and analyzing the Big Data sets.
Inne
System-identifier
UOGc975b7862a304d2e9453aad385fc79ef
CrossrefMetadata from Crossref logo
Cytowania
Liczba prac cytujących tę pracę
Brak danych
Referencje
Liczba prac cytowanych przez tę pracę
Brak danych