Dane nieustrukturyzowane (lub informacje nieustrukturyzowane ) to informacje, które nie mają wstępnie zdefiniowanego modelu danych lub nie są zorganizowane we wstępnie zdefiniowany sposób. Informacje nieustrukturyzowane zazwyczaj zawierają dużo tekstu , ale mogą również zawierać dane, takie jak daty, liczby i fakty. Skutkuje to nieprawidłowościami i niejasnościami, które utrudniają zrozumienie przy użyciu tradycyjnych programów w porównaniu z danymi przechowywanymi w postaci polowej w bazach danych lub opatrzonymi adnotacjami ( otagowanymi semantycznie ) w dokumentach.
W 1998 roku Merrill Lynch powiedział, że „nieustrukturyzowane dane stanowią zdecydowaną większość danych znalezionych w organizacji, niektóre szacunki sięgają nawet 80%”. [1] Nie jest jasne, skąd pochodzi ta liczba, ale mimo to niektórzy ją akceptują. [2] Inne źródła podają podobny lub wyższy odsetek danych nieustrukturyzowanych. [3] [4] [5]
Od 2012 r. IDC i Dell EMC przewidują, że dane wzrosną do 40 zetabajtów do 2020 r., co spowoduje 50-krotny wzrost od początku 2010 r. [6] Niedawno IDC i Seagate przewidują, że globalna sfera danych wzrośnie do 163 zettabajtów do 2025 [7], a większość z nich będzie nieustrukturyzowana. The Computer World Magazine stwierdza, że nieuporządkowane informacje mogą stanowić więcej niż 70-80% wszystkich danych w organizacji. [1]
Najwcześniejsze badania nad analizą biznesową koncentrowały się na nieustrukturyzowanych danych tekstowych, a nie na danych liczbowych. [8] Już w 1958 r. badacze informatyki, tacy jak HP Luhn, byli szczególnie zainteresowani wyodrębnianiem i klasyfikacją tekstu nieustrukturyzowanego. [8] Jednak dopiero od przełomu wieków technologia dogoniła zainteresowania badawcze. W 2004 roku SAS Institute opracował SAS Text Miner, który korzysta Singular Value dekompozycji (SVD) w celu zmniejszenia hiper-wymiarowej tekstową przestrzeń na mniejsze wymiary dla znacznie bardziej wydajna maszyna analizy. [9]Postęp matematyczny i technologiczny zapoczątkowany przez maszynową analizę tekstu skłonił wiele firm do badania aplikacji, co doprowadziło do rozwoju takich dziedzin, jak analiza sentymentu , eksploracja głosu klienta i optymalizacja call center. [10] Pojawienie się Big Data pod koniec 2000 roku doprowadziło do zwiększonego zainteresowania zastosowaniami analizy danych nieustrukturyzowanych we współczesnych dziedzinach, takich jak analityka predykcyjna i analiza przyczyn źródłowych . [11]
Techniki, takie jak eksploracja danych , przetwarzanie języka naturalnego (NLP) i analiza tekstu, zapewniają różne metody wyszukiwania wzorców lub innej interpretacji tych informacji. Typowe techniki strukturyzacji tekstu obejmują zwykle ręczne tagowanie za pomocą metadanych lub tagowanie części mowy w celu dalszej strukturyzacji opartej na eksploracji tekstu . Standard Unstructured Information Management Architecture (UIMA) zapewnił wspólne ramy przetwarzania tych informacji w celu wyodrębnienia znaczenia i utworzenia uporządkowanych danych o informacjach. [12]