Подходи и специфични техники за работа с традиционни данни

Четене между редовете на публикувана икономическа информация“

„Работа с данните“ е  много широко понятие.  Може да се  отнася, както до първично събиране на  сурови факти; до тяхната тяхната обработка  и/или  графична визуализация.

Сурови данни се  наричани още сурови факти или първични данни.   Това са  данни, които са събрани например чрез:

  • проведени анкети (хората да оценят колко харесват или не харесват продукт/услуга или опит по скала от 1 до 10) или
  • са натрупани автоматично и съхранени на сървър. „Бисквитките“ са често срещан пример за това. Те предоставят на фирмите подробна информация за активността на потребителя в даден уебсайт или онлайн магазин.

ПЪРВИ ЕТАП :

Събирането на сурови данни е първата стъпка в процеса  на анализ на данни се нарича  – събиране на данни.

ВТОРИ ЕТАП :

След като съберете достатъчно първични данни се преминава на  следващият етап : предварителна обработка на данни. Това е група от операции, които основно ще конвертират сурови данни във формат, който е по-разбираем и следователно полезен за по-нататъшна обработка. В този етап се опитва да реши проблемите, които неизбежно могат да възникнат при събиране на данни. 

Например, в рамките на някои данни за клиентите, които са събрани може да имате лице, регистрирано като 932-годишна възраст или да видите , че име на град или държава  е маркирано като име на човек. Очевидно е, че тези данни са неправилни.

Преди да се пристъпи към какъвто и да е вид анализ, тези данни трябва да бъдат маркирани, като невалидни или да бъдат коригирани.

Ако,  съхранявате броя на стоките продавани ежедневно и искате да проследите числовите стойности и да анализирате средния брой продадени стоки на ден или месец. Тези стойности  са числа, които могат да бъдат манипулирани. Тези данни обаче трябва  преминали  през предварителна етикетирането на класове и видове стоки .

Друга специфика е когато има липсващи данните от проведена анкетата вклюква само информация ( професията или мястото на раждане на дадено лице).  Не всички клиенти ще ви дадат данните, които искате. Това, което често се случва, е, че клиентът ще ви даде името и професията си, но не и възрастта му, например.

ТРЕТИ ЕТАП  :  Почистване на данни или пречистване на данни.

Изчистването на данните и справянето с липсващите стойности са проблеми, които трябва да бъде решени, преди да можете да се обработват данните по-нататък.

Целта на изчистването на данните е да се справят с непоследователни данни или липсващите стойности използвайки различни техники :

  • техники за балансиране- Представете си, че сте съставили анкета за събиране на данни за навиците за пазаруване на мъжете и жените.Искате да установите кой харчи повече пари, през уикенда? например.

Когато анализирате  събраните данни, забелязвате, че 80% от анкетираните са жени и само 20% мъже. Тенденциите, които може да забележите, няма да бъдат към мъжете ,толкова, колкото и за жените. За да се противодейства на този проблем,  се прилагането на техники за балансиране би било най-доброто нещо, което може да се направи, като например вземане на равен брой респонденти от всяка група, така че съотношението е 50/50. 

  • Друг често срещан подход е разбъркването на данни. Разбъркването на данни е техника, което
  1. подобрява прогнозната производителност и
  2. помага да се избегнат подвеждащи резултати.

Например искаме да вземем изватка за 100 наблюдения от голям набора от данни.

За да сме сигурни извадката  на случаен принцип и по-вероятно  представителни, преди взема 100 последователни записа първо данните се разбъркват . 

ЧЕТВЪРТИ последният ЕТАП  при работа с данни е Визуализация,  чрез системи за управление на релационни бази данни.

Две често свързани визуализации с бази данни, съдържащи традиционни данни са: 

  • Първи модел е диаграма на релация между обекти (ER диаграма). Това е сложен теоретичен начин  за илюстриране  архитектура на база данни. Специалистите го обичат по-лесният начин, като определя начина по който са свързани таблиците в база данни.

  • Вторият модел  е релационна схема. Тук всеки правоъгълник представлява отделна таблица с данни в редовете и показват кои таблици са свързани и които не са.

При интерес за изпълнение на такъв проект, пишете ни на електронната поща office@stoic11.com за първоначална безплатна консултация.

0%