Dane nieustrukturyzowane

Dane nieustrukturyzowane (lub informacje nieustrukturyzowane ) to informacje, które nie mają wstępnie zdefiniowanego modelu danych lub nie są zorganizowane we wstępnie zdefiniowany sposób. Informacje nieustrukturyzowane zazwyczaj zawierają dużo tekstu , ale mogą również zawierać dane, takie jak daty, liczby i fakty. Skutkuje to nieprawidłowościami i niejasnościami, które utrudniają zrozumienie przy użyciu tradycyjnych programów w porównaniu z danymi przechowywanymi w postaci polowej w bazach danych lub opatrzonymi adnotacjami ( otagowanymi semantycznie ) w dokumentach.

W 1998 roku Merrill Lynch powiedział, że „nieustrukturyzowane dane stanowią zdecydowaną większość danych znalezionych w organizacji, niektóre szacunki sięgają nawet 80%”. ^[1] Nie jest jasne, skąd pochodzi ta liczba, ale mimo to niektórzy ją akceptują. ^[2] Inne źródła podają podobny lub wyższy odsetek danych nieustrukturyzowanych. ^[3]^[4]^[5]

Od 2012 r. IDC i Dell EMC przewidują, że dane wzrosną do 40 zetabajtów do 2020 r., co spowoduje 50-krotny wzrost od początku 2010 r. ^[6] Niedawno IDC i Seagate przewidują, że globalna sfera danych wzrośnie do 163 zettabajtów do 2025 ^[7], a większość z nich będzie nieustrukturyzowana. The Computer World Magazine stwierdza, że nieuporządkowane informacje mogą stanowić więcej niż 70-80% wszystkich danych w organizacji. ^[1]

Najwcześniejsze badania nad analizą biznesową koncentrowały się na nieustrukturyzowanych danych tekstowych, a nie na danych liczbowych. ^[8] Już w 1958 r. badacze informatyki, tacy jak HP Luhn, byli szczególnie zainteresowani wyodrębnianiem i klasyfikacją tekstu nieustrukturyzowanego. ^[8] Jednak dopiero od przełomu wieków technologia dogoniła zainteresowania badawcze. W 2004 roku SAS Institute opracował SAS Text Miner, który korzysta Singular Value dekompozycji (SVD) w celu zmniejszenia hiper-wymiarowej tekstową przestrzeń na mniejsze wymiary dla znacznie bardziej wydajna maszyna analizy. ^[9]Postęp matematyczny i technologiczny zapoczątkowany przez maszynową analizę tekstu skłonił wiele firm do badania aplikacji, co doprowadziło do rozwoju takich dziedzin, jak analiza sentymentu , eksploracja głosu klienta i optymalizacja call center. ^[10] Pojawienie się Big Data pod koniec 2000 roku doprowadziło do zwiększonego zainteresowania zastosowaniami analizy danych nieustrukturyzowanych we współczesnych dziedzinach, takich jak analityka predykcyjna i analiza przyczyn źródłowych . ^[11]

Techniki, takie jak eksploracja danych , przetwarzanie języka naturalnego (NLP) i analiza tekstu, zapewniają różne metody wyszukiwania wzorców lub innej interpretacji tych informacji. Typowe techniki strukturyzacji tekstu obejmują zwykle ręczne tagowanie za pomocą metadanych lub tagowanie części mowy w celu dalszej strukturyzacji opartej na eksploracji tekstu . Standard Unstructured Information Management Architecture (UIMA) zapewnił wspólne ramy przetwarzania tych informacji w celu wyodrębnienia znaczenia i utworzenia uporządkowanych danych o informacjach. ^[12]

P	W	Ś	C	P	S	N
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

Bez kategorii

by root • 23 sierpnia 2023 • 0 Comments

Dodaj komentarz Anuluj pisanie odpowiedzi

Bez kategorii

Dane nieustrukturyzowane

by root • 23 sierpnia 2023 • 0 Comments

Post navigation

Dodaj komentarz Anuluj pisanie odpowiedzi