Ordbok | Cegal

Data Mining

Skriven av Redaktionen | 2022-feb-16 12:01:47
Vad är Data Mining? 

Data Mining är en process, medan datavetenskap är ett område. Målet med Data Mining är att göra data mer användbara, medan datavetenskapens mål är att bygga datacentrerade produkter för en organisation.

Data Mining är en aktivitet som ingår i en bredare kunskapsupptäckt i databaser (KDD), medan Data Science är ett fält precis som tillämpad matematik eller informatik.

Data Mining är processen att hitta avvikelser, mönster och korrelationer i stora datamängder för att förutsäga resultat. Genom att använda ett brett spektrum av tekniker kan du använda denna information för att sänka kostnaderna, öka intäkterna, förbättra kundrelationer eller minska risken.

Grunden består av tre vetenskapliga discipliner: statistik, artificiell intelligens och maskininlärning. Maskininlärning inom datautvinning används mer i mönsterigenkänning medan det inom datavetenskap har en mer allmän användning.

Många av algoritmerna uppfanns för många år sedan, men med det senaste decenniets framsteg inom processorkraft och hastighet – är det nu möjligt att automatisera mycket som krävde manuell bearbetning tidigare. Ju mer komplexa datauppsättningarna är, desto större är potentialen för att hitta relevanta insikter.

De viktigaste stegen i en Data Mining-process är:

  • Packa upp, omvandla och ladda data till ett datalager
  • Lagra och hantera data i flerdimensionella databaser
  • Ge dataåtkomst till affärsanalytiker som använder applikationer
  • Presentera analyserad data i lättförståeliga former, till exempel diagram
Cegal och Data Mining:

I Cegals AI- och analysprojekt är Data Mining ett grundläggande element för att utvinna insikt från data. Till exempel i ett av de energiprojekt vi har arbetat med – data från flera sensorer från olika vattenkraftstationer. I det här fallet är det lätt att förstå de olika stegen i datautvinning:

  • Kombinera de olika datakällorna från olika vattenkraftstationer och system till en
  • Hantera dessa data som samlas in live
  • Det är viktigt att välja vilka data som ska användas – och att tvätta dem. Inte all tillgänglig data är intressant, det beror på projektet och vad behovet är. Här ville vi upptäcka avvikelser vid uppstart av en turbin i samband med ett vattenkraftverk.