{"id":2488,"date":"2023-08-23T13:28:43","date_gmt":"2023-08-23T11:28:43","guid":{"rendered":"http:\/\/jakisproblem.pl\/?p=2488"},"modified":"2023-08-23T13:44:10","modified_gmt":"2023-08-23T11:44:10","slug":"dane-nieustrukturyzowane","status":"publish","type":"post","link":"http:\/\/u239160.webh.me\/jakisproblem.pl\/index.php\/2023\/08\/23\/dane-nieustrukturyzowane\/","title":{"rendered":"Dane nieustrukturyzowane"},"content":{"rendered":"\n<p><strong>Dane nieustrukturyzowane<\/strong>&nbsp;(lub&nbsp;<strong>informacje nieustrukturyzowane<\/strong>&nbsp;) to informacje, kt\u00f3re nie maj\u0105 wst\u0119pnie zdefiniowanego&nbsp;<a href=\"https:\/\/hmn.wiki\/pl\/Data_model\">modelu danych<\/a>&nbsp;lub nie s\u0105 zorganizowane we wst\u0119pnie zdefiniowany spos\u00f3b.&nbsp;Informacje nieustrukturyzowane zazwyczaj&nbsp;<a href=\"https:\/\/hmn.wiki\/pl\/Plain_text\">zawieraj\u0105<\/a>&nbsp;du\u017co&nbsp;<a href=\"https:\/\/hmn.wiki\/pl\/Plain_text\">tekstu<\/a>&nbsp;, ale mog\u0105 r\u00f3wnie\u017c zawiera\u0107 dane, takie jak daty, liczby i fakty.&nbsp;Skutkuje to nieprawid\u0142owo\u015bciami i&nbsp;<a href=\"https:\/\/hmn.wiki\/pl\/Ambiguities\">niejasno\u015bciami,<\/a>&nbsp;kt\u00f3re utrudniaj\u0105 zrozumienie przy u\u017cyciu tradycyjnych program\u00f3w w por\u00f3wnaniu z danymi przechowywanymi w postaci polowej w bazach danych lub&nbsp;<a href=\"https:\/\/hmn.wiki\/pl\/Annotation\">opatrzonymi adnotacjami<\/a>&nbsp;(&nbsp;<a href=\"https:\/\/hmn.wiki\/pl\/Tag_(metadata)\">otagowanymi semantycznie<\/a>&nbsp;) w dokumentach.<\/p>\n\n\n\n<p>W 1998 roku&nbsp;<a href=\"https:\/\/hmn.wiki\/pl\/Merrill_Lynch\">Merrill Lynch<\/a>&nbsp;powiedzia\u0142, \u017ce \u201enieustrukturyzowane dane stanowi\u0105 zdecydowan\u0105 wi\u0119kszo\u015b\u0107 danych znalezionych w organizacji, niekt\u00f3re szacunki si\u0119gaj\u0105 nawet 80%\u201d.&nbsp;<sup><a href=\"https:\/\/hmn.wiki\/pl\/Unstructured_data#cite_note-1\">[1]<\/a><\/sup>&nbsp;Nie jest jasne, sk\u0105d pochodzi ta liczba, ale mimo to niekt\u00f3rzy j\u0105 akceptuj\u0105.&nbsp;<sup><a href=\"https:\/\/hmn.wiki\/pl\/Unstructured_data#cite_note-Clarabridge-2\">[2]<\/a><\/sup>&nbsp;Inne \u017ar\u00f3d\u0142a podaj\u0105 podobny lub wy\u017cszy odsetek danych nieustrukturyzowanych.&nbsp;<sup><a href=\"https:\/\/hmn.wiki\/pl\/Unstructured_data#cite_note-3\">[3]&nbsp;<\/a><\/sup><sup><a href=\"https:\/\/hmn.wiki\/pl\/Unstructured_data#cite_note-4\">[4]&nbsp;<\/a><\/sup><sup><a href=\"https:\/\/hmn.wiki\/pl\/Unstructured_data#cite_note-5\">[5]<\/a><\/sup><\/p>\n\n\n\n<p>Od 2012&nbsp;r.&nbsp;<a href=\"https:\/\/hmn.wiki\/pl\/International_Data_Corporation\">IDC<\/a>&nbsp;i&nbsp;<a href=\"https:\/\/hmn.wiki\/pl\/Dell_EMC\">Dell EMC<\/a>&nbsp;przewiduj\u0105, \u017ce dane wzrosn\u0105 do 40&nbsp;<a href=\"https:\/\/hmn.wiki\/pl\/Zettabytes\">zetabajt\u00f3w<\/a>&nbsp;do 2020 r., co spowoduje 50-krotny wzrost od pocz\u0105tku 2010 r.&nbsp;<sup><a href=\"https:\/\/hmn.wiki\/pl\/Unstructured_data#cite_note-idc-6\">[6]<\/a><\/sup>&nbsp;Niedawno IDC i&nbsp;<a href=\"https:\/\/hmn.wiki\/pl\/Seagate_Technology\">Seagate<\/a>&nbsp;przewiduj\u0105, \u017ce globalna sfera danych wzro\u015bnie do 163 zettabajt\u00f3w do 2025&nbsp;<sup><a href=\"https:\/\/hmn.wiki\/pl\/Unstructured_data#cite_note-7\">[7],<\/a><\/sup>&nbsp;a wi\u0119kszo\u015b\u0107 z nich b\u0119dzie nieustrukturyzowana. The&nbsp;<a href=\"https:\/\/hmn.wiki\/pl\/Computerworld\">Computer World Magazine<\/a>&nbsp;stwierdza, \u017ce nieuporz\u0105dkowane informacje mog\u0105 stanowi\u0107 wi\u0119cej ni\u017c 70-80% wszystkich danych w organizacji.&nbsp;<sup><a href=\"https:\/\/hmn.wiki\/pl\/Unstructured_data#hmn\">[1]<\/a><\/sup><\/p>\n\n\n\n<p>Najwcze\u015bniejsze badania&nbsp;nad analiz\u0105&nbsp;<a href=\"https:\/\/hmn.wiki\/pl\/Business_intelligence\">biznesow\u0105<\/a>&nbsp;koncentrowa\u0142y si\u0119 na nieustrukturyzowanych danych tekstowych, a nie na danych liczbowych.&nbsp;<sup><a href=\"https:\/\/hmn.wiki\/pl\/Unstructured_data#cite_note-History-8\">[8]<\/a><\/sup>&nbsp;Ju\u017c w 1958 r.&nbsp;badacze&nbsp;<a href=\"https:\/\/hmn.wiki\/pl\/Computer_science\">informatyki,<\/a>&nbsp;tacy jak&nbsp;<a href=\"https:\/\/hmn.wiki\/pl\/Hans_Peter_Luhn\">HP Luhn,<\/a>&nbsp;byli szczeg\u00f3lnie zainteresowani wyodr\u0119bnianiem i klasyfikacj\u0105 tekstu nieustrukturyzowanego.&nbsp;<sup><a href=\"https:\/\/hmn.wiki\/pl\/Unstructured_data#cite_note-History-8\">[8]<\/a><\/sup>&nbsp;Jednak dopiero od prze\u0142omu wiek\u00f3w technologia dogoni\u0142a zainteresowania badawcze. W 2004 roku&nbsp;<a href=\"https:\/\/hmn.wiki\/pl\/SAS_(software)\">SAS<\/a>&nbsp;Institute opracowa\u0142 SAS Text Miner, kt\u00f3ry korzysta&nbsp;<a href=\"https:\/\/hmn.wiki\/pl\/Singular_Value_Decomposition\">Singular Value dekompozycji<\/a>&nbsp;(SVD) w celu zmniejszenia&nbsp;<a href=\"https:\/\/hmn.wiki\/pl\/Dimensional_Analysis\">hiper-wymiarowej<\/a>&nbsp;tekstow\u0105&nbsp;<a href=\"https:\/\/hmn.wiki\/pl\/Space_(mathematics)\">przestrze\u0144<\/a>&nbsp;na mniejsze wymiary dla znacznie bardziej wydajna maszyna analizy.&nbsp;<sup><a href=\"https:\/\/hmn.wiki\/pl\/Unstructured_data#cite_note-SVD-9\">[9]<\/a><\/sup>Post\u0119p matematyczny i technologiczny zapocz\u0105tkowany przez&nbsp;<a href=\"https:\/\/hmn.wiki\/pl\/Machine_learning\">maszynow\u0105<\/a>&nbsp;analiz\u0119 tekstu sk\u0142oni\u0142 wiele firm do badania aplikacji, co doprowadzi\u0142o do rozwoju takich dziedzin, jak&nbsp;<a href=\"https:\/\/hmn.wiki\/pl\/Sentiment_analysis\">analiza sentymentu<\/a>&nbsp;,&nbsp;eksploracja&nbsp;<a href=\"https:\/\/hmn.wiki\/pl\/Voice_of_the_customer\">g\u0142osu klienta<\/a>&nbsp;i optymalizacja call center.&nbsp;<sup><a href=\"https:\/\/hmn.wiki\/pl\/Unstructured_data#cite_note-Applications-10\">[10]<\/a><\/sup>&nbsp;Pojawienie si\u0119&nbsp;<a href=\"https:\/\/hmn.wiki\/pl\/Big_Data\">Big Data<\/a>&nbsp;pod koniec 2000 roku doprowadzi\u0142o do zwi\u0119kszonego zainteresowania zastosowaniami analizy danych nieustrukturyzowanych we wsp\u00f3\u0142czesnych dziedzinach, takich jak&nbsp;<a href=\"https:\/\/hmn.wiki\/pl\/Predictive_analytics\">analityka predykcyjna<\/a>&nbsp;i&nbsp;<a href=\"https:\/\/hmn.wiki\/pl\/Root_cause_analysis\">analiza przyczyn \u017ar\u00f3d\u0142owych<\/a>&nbsp;.&nbsp;<sup><a href=\"https:\/\/hmn.wiki\/pl\/Unstructured_data#cite_note-11\">[11]<\/a><\/sup><\/p>\n\n\n\n<p>Techniki, takie jak&nbsp;<a href=\"https:\/\/hmn.wiki\/pl\/Data_mining\">eksploracja danych<\/a>&nbsp;,&nbsp;<a href=\"https:\/\/hmn.wiki\/pl\/Natural_language_processing\">przetwarzanie j\u0119zyka naturalnego<\/a>&nbsp;(NLP) i&nbsp;<a href=\"https:\/\/hmn.wiki\/pl\/Text_analytics\">analiza tekstu,<\/a>&nbsp;zapewniaj\u0105 r\u00f3\u017cne metody&nbsp;<a href=\"https:\/\/hmn.wiki\/pl\/Pattern_recognition\">wyszukiwania wzorc\u00f3w<\/a>&nbsp;lub innej interpretacji tych informacji.&nbsp;Typowe techniki strukturyzacji tekstu obejmuj\u0105 zwykle r\u0119czne&nbsp;<a href=\"https:\/\/hmn.wiki\/pl\/Tag_(metadata)\">tagowanie za pomoc\u0105 metadanych<\/a>&nbsp;lub&nbsp;<a href=\"https:\/\/hmn.wiki\/pl\/Tag_(metadata)\">tagowanie&nbsp;<\/a><a href=\"https:\/\/hmn.wiki\/pl\/Part-of-speech_tagging\">cz\u0119\u015bci mowy w<\/a>&nbsp;celu dalszej&nbsp;strukturyzacji opartej na&nbsp;<a href=\"https:\/\/hmn.wiki\/pl\/Text_mining\">eksploracji tekstu<\/a>&nbsp;.&nbsp;Standard&nbsp;<a href=\"https:\/\/hmn.wiki\/pl\/UIMA\">Unstructured Information Management Architecture<\/a>&nbsp;(UIMA) zapewni\u0142 wsp\u00f3lne ramy przetwarzania tych informacji w celu wyodr\u0119bnienia znaczenia i utworzenia uporz\u0105dkowanych danych o informacjach.&nbsp;<sup><a href=\"https:\/\/hmn.wiki\/pl\/Unstructured_data#cite_note-IBMContentAnalytics-12\">[12]<\/a><\/sup><\/p>\n","protected":false},"excerpt":{"rendered":"<p class=\"excerpt\">Dane nieustrukturyzowane&nbsp;(lub&nbsp;informacje nieustrukturyzowane&nbsp;) to informacje, kt\u00f3re nie maj\u0105 wst\u0119pnie zdefiniowanego&nbsp;modelu danych&nbsp;lub nie s\u0105 zorganizowane we wst\u0119pnie zdefiniowany spos\u00f3b.&nbsp;Informacje nieustrukturyzowane zazwyczaj&nbsp;zawieraj\u0105&nbsp;du\u017co&nbsp;tekstu&nbsp;, ale mog\u0105 r\u00f3wnie\u017c zawiera\u0107 dane, takie jak daty, liczby i fakty.&nbsp;Skutkuje to nieprawid\u0142owo\u015bciami i&nbsp;niejasno\u015bciami,&nbsp;kt\u00f3re utrudniaj\u0105 zrozumienie przy u\u017cyciu tradycyjnych program\u00f3w w por\u00f3wnaniu z danymi przechowywanymi w postaci polowej w bazach danych lub&nbsp;opatrzonymi adnotacjami&nbsp;(&nbsp;otagowanymi semantycznie&nbsp;) w&hellip;<\/p>\n<p class=\"more-link-p\"><a class=\"more-link\" href=\"http:\/\/u239160.webh.me\/jakisproblem.pl\/index.php\/2023\/08\/23\/dane-nieustrukturyzowane\/\">Read more &rarr;<\/a><\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1],"tags":[135],"class_list":["post-2488","post","type-post","status-publish","format-standard","hentry","category-bez-kategorii","tag-big-data"],"_links":{"self":[{"href":"http:\/\/u239160.webh.me\/jakisproblem.pl\/index.php\/wp-json\/wp\/v2\/posts\/2488","targetHints":{"allow":["GET"]}}],"collection":[{"href":"http:\/\/u239160.webh.me\/jakisproblem.pl\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"http:\/\/u239160.webh.me\/jakisproblem.pl\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"http:\/\/u239160.webh.me\/jakisproblem.pl\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"http:\/\/u239160.webh.me\/jakisproblem.pl\/index.php\/wp-json\/wp\/v2\/comments?post=2488"}],"version-history":[{"count":1,"href":"http:\/\/u239160.webh.me\/jakisproblem.pl\/index.php\/wp-json\/wp\/v2\/posts\/2488\/revisions"}],"predecessor-version":[{"id":2489,"href":"http:\/\/u239160.webh.me\/jakisproblem.pl\/index.php\/wp-json\/wp\/v2\/posts\/2488\/revisions\/2489"}],"wp:attachment":[{"href":"http:\/\/u239160.webh.me\/jakisproblem.pl\/index.php\/wp-json\/wp\/v2\/media?parent=2488"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"http:\/\/u239160.webh.me\/jakisproblem.pl\/index.php\/wp-json\/wp\/v2\/categories?post=2488"},{"taxonomy":"post_tag","embeddable":true,"href":"http:\/\/u239160.webh.me\/jakisproblem.pl\/index.php\/wp-json\/wp\/v2\/tags?post=2488"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}