26.3.2024

Big data a GDPR

Začiatkom novembra sme mali vo firme školenie o GDPR. Áno, jedná sa o toľko pretriasané nariadenie Európskeho parlamentu o ochrane osobných údajov (OU) - skratka znamená General Data Protection Regulation. Toto nariadenie bol prijaté 24.5.2016 a bude uplatňované od 25. mája 2018, takže už za niekoľko mesiacov.

 

gdpr.jpg

 

Cieľov má GDPR niekoľko:

  • Zjednotiť pravidlá ochrany osobných údajov v členských štátoch (čo môže napr. uľahčiť vývoj SW používaného vo viacerých štátoch EU).
  • Zadefinovať presnejšie, čo sú to osobné údaje (OU) a zaviesť tzv. Osobitnú kategóriu OU.
  • Zadefinovať povinnosti prevádzkovateľa (kto spracúva OU) a sprostredkovateľa (kto spracúva OU namiesto prevádzkovateľa - napr. firma, ktorá vám robí účtovníctvo a daňové priznania pre vašich zamestnancov, alebo poskytovateľ cloudu, kde máte aj OU zákazníkov či zamestnancov).

 

GDPR definuje rôzne práva dotknutých osôb (to sú tí, ktorým OU patria). Medzi inými:

  • Transparentná komunikácia - informovanie osôb o spracovaných OU a postupoch.
  • Právo na prístup - sprístupnenie OU, ktoré prevádzkovateľ o osobe zberá.
  • Právo byť zabudnutý - vymazanie všetkých OU na žiadosť osoby.
  • Právo na prenos údajov (od prevádzkovateľa osobe, prípadne k inému prevádzkovateľovi).

 

GDPR má niekoľko cieľov, budem citovať zo školenia:

  • Minimalizácia dát (zber iba tých OU, ktoré sú nevyhnutné).
  • Dostupnosť, integrita a utajenie (dôvernosť dát).
  • Neprepojiteľnosť, transparentnosť, uplatnenie práv (uvedených vyššie).
  • Autentickosť, revidovateľnosť (postupy aktualizácie pri zmene a notifikácie).

 

Chcel by som sa zamyslieť nad niektorými z cieľov. Dôvernosť, integrita a dostupnosť (anglicky Confidentiality, Integrity a Availability, tj. CIA :) sú v poriadku - to sú základné princípy informačnej bezpečnosti (štandardy ISO 27000). Aj s transparentnosťou (informovanie osôb, čo všetko o nich spracovateľ zberá a ukladá a nutnosťou dať explicitný súhlas na spracovanie OU) je to v poriadku.

 

Ale čo minimalizácia dát, ktorá bola uvedená ako prvá v poradí? Keďže sa pohybujem v oblasti automatizácie a riadiacich systémov, vnímam užitočnosť zberu dát v podnikoch a ich následného využitia v oblasti SCADA a MES systémov.

 

Kedysi dávno som sa spýtal staršieho kolegu, ako obmedzujú prístup uživateľov k technickým dátam v MES systémoch. Zasmial sa a povedal, že cieľom nie je obmedziť prístup, ale naopak, údaje ľuďom sprístupniť. A že akonáhle sa tak stane a ľudia údaje začnú vidieť a rozumieť im, budú žiadať ďalšie a hľadať medzi nimi väzby a súvislosti a používať ich na lepšie riadenie a optimalizáciu procesov. Príkladom môže byť zavedenie sledovania nepodarkovosti až na úrovni jednotlivých strojov a následná kontrola a prediktívna údržba tých, ktoré vybočujú z priemeru. Alebo sledovanie produktivity jednotlivých zamestnancov a odhaľovanie zlých návykov a postupov u tých s podpriemernou produktivitou.

 

V posledných rokoch sa skloňujú Big data - zber veľkého množstva štruktúrovaných aj neštruktúrovaných údajov a ich následné použitie na prediktívnu analýzu, analýzu chovania užívateľov a ďalšie účely. Príkladom z ne-priemyselnej oblasti je aplikácia Waze analyzujúca na základe údajov o polohe (získaných z mobilov používateľov - vodičov) premávku a informujúca o dopravných zápchach a spomaleniach. Ďalším podobným je analýza pohybu ľudí na základe údajov mobilných operátorov (napr. informácie, koľko ľudí a z akých oblastí dochádza denne alebo týždenne do jednotlivých častí veľkého mesta, môže pomôcť pri plánovaní výstavby nových ciest).

Keď sú k dispozícii dáta, je možné sa na ne pozerať rôznymi analytickými a grafickými nástrojmi a hľadať v nich súvislosti a korelácie a objavovať nové znalosti (hĺbková analýza dát alebo data mining). Tieto činnosti môžu okrem ľudí vykonávať aj umelé inteligencie.

 

Takže postupy používané v automatizácii a priemysle (v skratke zozberaj čo najviac údajov a následne ich využi na získavanie nových znalostí) sú v úplnom protiklade k jednému z cieľov GDPR - minimalizácii dát.

 

 Za osobné údaje sa považujú aj údaje o veku, počte detí, občianstve, IP adrese, adrese trvalého a prechodného pobytu, rase, etnickej príslušnosti, náboženstve, politických názoroch, filozofickom vyznaní, zdravotné údaje, sexuálnej orientácii, trestných deliktoch, odsúdeniach, lokalizačné údaje a genetické faktory.

 

Získavanie nových znalostí, ktoré zahŕňajú tieto údaje bude teda komplikované a náročné. Namiesto položenia správneho dotazu (napr. databázam zdravotných poisťovní alebo policajným databázam a podobným “veľkým hráčom”) a získania rýchlej odpovede (ktorá - a to chcem zdôrazniť - sama neobsahuje osobné údaje, lebo je agregovaná - iba využíva zdrojové dáta obsahujúca aj OU) bude nutné, aby vedci údaje namáhavo získavali (od stoviek či tisícov dobrovoľníkov) v rôznych dotazníkových prieskumoch. Ak pokiaľ budú chcieť zistiť koreláciu iných údajov, bude nutné prieskumy namáhavo zopakovať. A na mnohé netriviálne veci sa nemusí ani prísť, pretože výskumníkov ani nenapadne zaoberať sa možnosťou korelácie dáta (alebo nebudú schopní na takýto výskum získať sponzora či grant). Prípadne urobia výskum v jednom regióne a nebude jasné, či je platný aj pre iný región (krajinu, kontinent).

 

Ak majú (teraz si vymýšľam) modrookí blondiaci z oblasti stredného Slovenska výrazný talent na techniku - prečo to nevyužiť a neposunúť ich týmto smerom (na prospech ich aj spoločnosti)?

 

Ak sú (podľa abstraktu štúdie dostupného na  https://link.springer.com/article/10.1007%2Fs10461-016-1388-8 ) sexuálna orientácia a správanie zodpovedné za až 20-násobne vyššie riziko nákazy vírusom HIV, tak je to znalosť, ktorá môže byť priam životne dôležitá a to nielen pre ‘dotknuté osoby’. V abstrakte pritom autori explicitne spomínajú nízku kvalitu dát - “while data quality tends to be poorer, the best estimates collectively suggest...”.

Platia tieto výsledky aj pre Európu? Alebo pre Bratislavu? Alebo ako je to s platnosťou v čase – o rok, päť, desať ...?

 

A právo byť zabudnutý? Rozumel by som právu nebyť obťažovaný (napr. nevyžiadanou reklamou či telefonátmi ponúkajúcimi produkty alebo zmenu telefónneho operátora).

 

“Tí, čo sa nepamätajú na minulosť, sú odsúdení na to, aby ju znova prežili.” (G. Santayana)

Pokiaľ má firma problematického zákazníka (oneskorenie platieb, časté reklamácie a podobne), stačí, aby požiadal o vymazanie OU a v budúcnosti príde ako nový zákazník s čistým štítom? Pokiaľ sa jedná o väčšiu firmu a bude jednať s inými ľuďmi ako predtým, tak firmu nič nevaruje a problémy si môže - v súlade s citátom vyššie - prežiť znovu. Nemala by mať aj organizácia právo si pamätať - a nielen informácie uložené v hlavách ľudí, ale aj zhromaždené v elektronickej forme? Banky a sporiteľne na Slovensku tieto informácie medzi sebou aj zdieľajú prostredníctvom “Spoločného registra bankových informácií” - údaje o meškajúcich splátkach, nepovolených čerpaniach a pod. Budú nútené "zabudnúť"?

 

Čo je viac ako nepríjemné, GDPR nariadenie zavádza drakonické až likvidačné pokuty za porušenie povinností prevádzkovateľa alebo sprostredkovateľa. Maximálna pokuta je 20 miliónov Eur alebo 4% ročného obratu firmy - podľa toho, ktorá čiastka je väčšia. Ruku na srdce - koľko slovenských firiem by takáto suma nezničila?Koľko dôležitých a užitočných výskumov firmy radšej z obavy pred sankciami a komplikovanými pravidlami, ktoré bude potrebné dodržať, vzdajú?

 

Som zvedavý, aké odpovede na vyššie položené otázky budúcnosť prinesie - a či snaha EU o vytrhanie kúkoľa nespôsobí aj zničenie pšenice, v ktorej kúkoľ rastie.

 

11.12.2017, Ing. Peter Humaj, www.ipesoft.com

Iné blogy