Commit f2f0781c authored by npedot's avatar npedot
Browse files

updates 19 08 2019

parent a89d95dc
......@@ -7,7 +7,58 @@
## Problema della pulizia del dato
In Data Science i primi passaggi di elaborazione del dato per estrarre informazione uno dei primi riguarda la pulizia del dato raccolto.
In Data Science la preparazione del dato e' tra i primi passaggi di elaborazione del dato ed uno dei piu' costosi in termini di tempo impiegato [] in quanto difficilmente automatizzabili e/o ad algoritmi noti computazionalmente onerosi.
Una tipica filiera di preparazione del dato prevede diversi stadi [] tra i piu' importanti:
costruzione del catalogo con diritti di accesso e scelta della strategia di accesso;
pulizia dei valori errati come il completamento di mancanti e taglio di dati che non contribuiscano agli stati successivi;
assemblaggio di viste che rendano efficiente l'aggancio dei servizi che seguono nella catena di fruizione.
Nel seguito di questo documento ci concentreremo nella pulizia del dato raccolto.
Vi sono diverse tipologie di sporcizia e attività di pulizia applicabili, come ad esempio: [http://wp.sigmod.org/?p=2288] :
* valori mancanti per ignoranza
* valori fuori scala per errato input
* violazione di vincoli di integrità per unione di più schemi
* entità duplicate per merge di due tabelle a pari schema
* entità frammentate, identificazione dell'unità
Questi errori possono anche interferire congiuntamente in modalità non triviali. Come indicato in [http://www.vldb.org/pvldb/vol9/p993-abedjan.pdf]
non esiste un ordine migliore per risolvere i problemi.
Tre strade sono generalmente praticabili
individuazione e pulizia manuale di tutti i casi
preparazione di un filtro per l'individuazione ed segnalazione dei dati potenzialmente sporchi
preparazione di un filtro per l'individuazione ed eliminazione dei dati sporchi
Cosa sia errore o valore di interesse e' dipendente dal dominio va perfezionato caso caso e spesso non esistono regole assolute di filtro bianco/nero per questo spesso il costo in termini di tempo e di persone e' elevato. L'intervento umano e' necessario quando non sia possibile definire un criterio di decisione di valutazione o meno costoso di una sua descrizione formale si distinguono strategie
Questo passo rimane critico per una corretta esposizione di dati da cui poter trarre le corrette informazioni e non va preso alla leggera.
Alcuni esempi di insidie che si nascono in un processo troppo superficiale di pulizia del dato sono:
La scelta di rimozione di singoli valori in quanto "persi" puo' non essere ammessa
La scelta di rimozione di interi record parziali puo' implicare una perdita di informazione significativa
La scelta di riempimento di valori mancanti
La scelta di correggere con valori sostitutivi va fatta con attenzione errori poi non introdurre una informazione artificiale
La scelta di normalizzare i valori anormali puo' tagliare l'informazione piu' utile
Ricordiamo poi l'effetto a catena in quanto questi errori possono anche interferire congiuntamente in modalità non triviali[] . Come indicato in [http://www.vldb.org/pvldb/vol9/p993-abedjan.pdf] non esiste un ordine migliore per risolvere i problemi.
Strumenti di supporto di tipo statistico sono stati sviluppati come OpenRefine[]
Gli scenari moderni con grandi moli di dati o flussi di dati in arrivo od entrambe le situazioni rendono sempre piu' impraticabilie la prima via. Diverse ricerche sono state svolte per semi-automatizzare e rendere piu' snella questa attivita' a favore di una esposizione di risultati in tempi piu' rapidi. Si rende necessario uno studio approfondito di tecniche di automazione.
Per percorrere la seconda e terza via si dovra' istruire un algoritmo semi-automatico per la segnalazione e/o correzione dei valori problematici.
Alcune vie sono state percorse [HoloClean]
funzionano con assunzione di disponibilita' di una buona base di informazione corretta.
La scelta di rimozione di record ad esempio puo' portare a situazioni di campionamento che forniscono un punto di vista falso. [Simpson]
oltre a ridurre il campione di informazione corretta sotto soglia di significativita'.
--------------------
Si intende qui per dato pulito, come antitesi di dato sporco, ovvero del dato che falsifica la realtà.
Un dato come misura di una caratteristica della realtà, in letteratura indicata come feature.
Necessario trattare il dato in ingresso per poter applicare con successo le trasformazioni per fornire una visione ed interpretazione corretta.
......@@ -42,6 +93,7 @@ Soluzioni proposte [https://sites.google.com/site/anhaidgroup/projects/magellan]
La chiave sta nel raccogliere tutti segnali del modello dei dati in modo da permettere di predire per sostituire o completare dati errati o mancanti.
Segnali espressi dal relazioni tra dati disponibili.
## terminologia
https://elitedatascience.com/birds-eye-view
......
# SemInt Overall
# SemInt Overview
## Spaghetti Infrastructure Problem
Nei processi di espansione di aziende che incorporano altre aziende, nella nascita di nuove startup che crescono cercando di intercettare e rispondere ai bisogni utente e nell'evoluzione degli archivi di dati dei loro schemi, l'integrazione di nuove sorgenti dati diventa parte essenziale di una strategia aziendale di successo e spesso prerequisito alla sua stessa sopravvivenza.
"The average corporation has bought a portal system, has bought an enterprise application integration system, has bought an ETL (Extraction, Transformation, and Loading) system, has bought an application server, maybe has bought a federated data system. All of these are big pieces of system infrastructure that run in the middle tier; they have high overlap in functionality, and are complicated, and require system administrators. The average enterprise has more than one of all of these things, and so they have this spaghetti environment of middleware, big pieces of moving parts that are expensive to maintain and expensive to use. "
Anche la normale storia evolutiva di una singola azienda che voglia rispondere alle sfide del mercato implica spesso un complicato e costoso accesso alle sorgenti ed alla loro gestione per:
* infrastruttura a spaghetti
* sfide 3V
* normative di securezza e audit
* debito tecnico
- Dr. Michael Stonebraker
L'attivita' evolutiva e' un insieme di scelte di compromesso ed equilibrio eseguite al fine di mantenere lo schema dei dati quano piu' efficente e leggibile, ossia cercando di:
1. tenere al minimo il debito tecnico consentendo un evoluzione rapida delle applicazioni che vi accedono
2. offrire massima efficenza di accesso e manipolazione dei dati a chi debba e possa accedervi
3. offrire massima rapida' e corretta interpretazione dei dati a tutti i ruoli che ne possano beneficiare
requisiti che spesso lottano tra loro.
## First Response
In this paper we will focus on keeping low the technical debs and we present a curated selection of steps to help this evolution as Ontology-based Data Integration (OBDI) of structured datasources like relational databases.
The great concentration in all-inclusive app servers, Non-modular monoliths, does not scale enough and is not flexible enough to meet market needs.
La metodologia qui proposta ha caratteristiche interatattive e iterative.
Iterativa perche' offre un approccio pay-as-you-go[] che consente di frammentare il costo e beneficiare in tempi piu' rapidi del lavoro svolto, in opposizione all'evoluzione a singolo passo.
## Accademy and Market
Interattiva perche' la proposta vede nella centralita' decisionale del progettista la soluzione ai diversi problemi di scelta non automatizzabili.
The academic world has a role in using public funds to tackle research topics and develop prototypes.
Development of a prototype that focuses on demonstrating the feasibility of a product and omits the complementary aspects.
The company uses private funds to make the prototype a product.
Steps:
1. for each datasource reverse engineer from database to conceptual level with semantic enrichment
2. map and integrate from many conceptual diagrams to a single overall conceptual model gaining semantic services
3. map from the conceptual model to physical structured datasources
4. SQL query on virtual or materialized new datasources
5. repeat from step 1 for each new datasource to integrate
"I would encourage academics to pay attention to the real world, at least in those fields where the ultimate arbiter is real-world applications."
The goal of this process is to gain:
* a progressive integration
* a live sharable documentation in sync
* no intermediary for low level access
- Dr. Michael Stonebraker
Per la descrizione del modello concettuale si usera' Object Role Modeling[] in quanto notazione amichevole sia al progettista che all'esperto di dominio in virtu' della sua proprieta' di verbalizzazione[], offrendo nel contempo una semanica formale ben fondata dalla quale sara' possibile estrarre una descrizione OWL2[] per usufuire di servizi di verifica della consistenza e l'esplicitazione di regole che altrimenti rimarrebbero implicite, efficentare servizi di pulizia del dato esportando i vincoli concettuali di dominio [HoloClean].
Ogni passaggio e' stato studiato per ridurre al minimo le frizioni di perdita di informazione dovute alla poverta' semantica dei livelli fisici rispetto alla ricchezza di quelli concettuali, evidenziando i necessari compromessi pratici.
### Lession 1: INGRESS Success
"And, in retrospect, we made a bunch of very lucky accidental decisions.
I think another factor in our success was that we stumbled onto the dictum: If you get it wrong, just throw it away and rewrite it.”
## ORM
- Dr. Michael Stonebraker
In ORM, the knowledge is structured into:
* Facts, A fact is a statement, or assertion, about some piece of information within the
application domain. (Professor works as Employee for Departement)
* Predicates, is a verb, or verb phrase, that connects the object types in a fact, with one role each. (e.g. ... works for ...)
* Roles, Each role in a predicate is expressed by a role label and is played by one object type (e.g. Employee).
* Object Types, categorizes data into different kinds of meaningful sets (e.g Professor).
* Constraints, restricting the set of value for a role.
The knowledge about the domain is the stated by means of set of facts.
These facts may be verbalized using sample data, named as fact instances.
eg.
Instructor works for Department (fact type)
Instructor 100 works for Department “CS” (fact instance)
### Lession 2: OODB Unsuccess
For a detailed guide [Guide to FORML]
"OODBs are a deep tangent in the sense that it was interesting stuff that nobodywanted; and the fact that nobody wanted itwas, I thought, fairly obvious up front. "
- Dr. Michael Stonebraker
## Reverse
[Nony]
Root problem: an absence of standards, not enough vendor push to cross the chasm of early adopters.
## Merge
https://en.wikipedia.org/wiki/Crossing_the_Chasm
As with pay as you go[] we may have At the center of the
methodology are a set of prioritized business questions that need to be answered. The
business questions serve as competency questions and as a success metric.
Business questions are anwsered via ORM facts.
* Deduplicate Instances, distinct entities by artificial key same attribute values
* Namespaces, same type name distinct domains
* Domain Ranges, subtypes, same value constraints
* Rendundancy, distinct types names same constraints
* Derivable, empty types
difficult to automate
over hundread or thousand entity attributes
no direct mapping
## Future: Federated BD
"I mean, sooner or later, again it seems inevitable that federated database technology will have to be commercially important. "
"But I think in the commercial market, timing is everything. "
Roles:
Business Expert giving business value to data
Knowledge Scientist, design ontology competence
IT Dev, to data access
- Dr. Michael Stonebraker [1]
## Map from conceptual
[Halpine]
## Query
Via standard SQL query.
## Present Analytics Challenge: Prediction Bias, Privacy
The trouble with predictive models is that they are built by humans and humans by nature are prone to bias.
-------------------------------------
## APPENDICI
## Present ETL Challege: Spaghetti Infrastructure Problem
"The average corporation has bought a portal system, has bought an enterprise application integration system, has bought an ETL (Extraction, Transformation, and Loading) system, has bought an application server, maybe has bought a federated data system. All of these are big pieces of system infrastructure that run in the middle tier; they have high overlap in functionality, and are complicated, and require system administrators. The average enterprise has more than one of all of these things, and so they have this spaghetti environment of middleware, big pieces of moving parts that are expensive to maintain and expensive to use. "
- Dr. Michael Stonebraker
## Present Analytics Challenge: Prediction Bias, Privacy
The trouble with predictive models is that they are built by humans, and humans by nature are prone to bias.
We have to protect and give access only to authorized people. The right amonut of data, no more, no less.
## Present BigData challenge: Volume, Velocity, Variety
"From my point of view, there are three potential problems with Big Data. These can be broken into the three “V’s.” It can be a volume problem, meaning you have too much data; the data is coming at you too fast and it’s a velocity problem; or there is data coming at you from too many sources and it’s a variety problem."
......@@ -64,9 +117,39 @@ The trouble with predictive models is that they are built by humans and humans b
- Dr. Michael Stonebraker [2]
## Present DB challenge1: Distributed DB
## Present DB Distibution Challenge: Distributed DB & Microservice
Spezzare il monolite in frammenti aumenta i costi di gestione e richiede disciplina nella sua evoluzione, un forte supporto di automatismo del monitoraggio e manutenzione.
## Present DB Quality Challenge2: Database Decay [4]
"DBAs appear to attempt to minimize
application maintenance (and hence schema changes) instead
of maximizing schema quality. This leads to schemas which
quickly diverge from E-R or UML models and actual database
semantics tend to drift farther and farther from 3rd normal
form. We term this divergence of reality from 3rd normal form
principles database decay."
## Risposte alle esigenze di mercato
## First Response: Vertical Scaling
Crescita verticale, potenziando il motore di calcolo espandendo in storage e potenza di calcolo.
The great concentration in all-inclusive app servers, Non-modular monoliths, does not scale enough and is not flexible enough to meet market needs.
## Second Response: Horizontal Scaling, Federated BD
### VoltDB
### NewSQL: VoltDB
The database is partitioned into disjoint subsets each assigned to a single-threaded execution engine assigned to one core on one node. Each engine has exclusive access to all of the data in its partition.
......@@ -83,6 +166,38 @@ Spanner is Google's scalable, multi-version, globally-distributed, and synchrono
This globally-distributed multi-model database is built for low latency, elastic scalability, high availability.
## Third Response: Hybrid Cloud Architectures
Usare la capacita' di calcolo per la quantita' ed per il tempo che serve sfruttando l'elasticita' dei servizi di rete Internet.
Serve un accordo con fonitore di accesso ai servizi cloud. Serve poter esportare dall'azienda i dati nel rispetto della legilazione esistente.
## Proposta
Reverse
from single DB extract
Map
Le sorgenti dati sono molte e cambiano nel tempo. Serve un catalogo di veloce gestione.
Il dialogo tra progettisti, esperti di dominio e clienti deve essere fluido. Serve un vocabolario piu' possibile condiviso.
I sistemi da mettere in dialogo sono molteplici. Serve una mappatura delle interfacce dati tra sistemi.
## Limiti
* Valocita' della iterazione deve essere realizzata nei tempi consoni per rispondere ai volumi e richieste di mercato
* Il progettista e' un essere umano se paragonato ad un'automazione risulta: lento , inaffidabile, inconsistente
----------------------------------------------------------
## Present DB Challenge2: Database Decay [4]
"DBAs appear to attempt to minimize
......@@ -203,11 +318,11 @@ L'importanza della velocità di evoluzione per sopravvivere alla competizione.
## Clean
L'importanza della pulizia come asset competitivo.
L'importanza della pulizia come asset competitivo per l'evoluzione.
Dato pulito, chiara semantica
Architettura pulita, chiara modularità
Codice pulito, chiara lettura
Codice pulito, chiara lettura
## Steps per avere UNA visione dominio dei dati
......@@ -223,4 +338,46 @@ Codice pulito, chiara lettura
3. [Michael Stonebraker at the 6th Heidelberg Laureate Forum, September 2018](https://tomgeller.com/accomplishment/stonebraker-interview/)
4. [Database Decay and How to Avoid It - Conference: 2016 IEEE International Conference on Big Data](https://www.researchgate.net/publication/311584152_Database_Decay_and_How_to_Avoid_It)
\ No newline at end of file
4. [Database Decay and How to Avoid It - Conference: 2016 IEEE International Conference on Big Data](https://www.researchgate.net/publication/311584152_Database_Decay_and_How_to_Avoid_It)
-------------------
## Accademy and Market
The academic world has a role in using public funds to tackle research topics and develop prototypes.
Development of a prototype that focuses on demonstrating the feasibility of a product and omits the complementary aspects.
The company uses private funds to make the prototype a product.
"I would encourage academics to pay attention to the real world, at least in those fields where the ultimate arbiter is real-world applications."
- Dr. Michael Stonebraker
### Lession 1: INGRESS Success
"And, in retrospect, we made a bunch of very lucky accidental decisions.
I think another factor in our success was that we stumbled onto the dictum: If you get it wrong, just throw it away and rewrite it.”
- Dr. Michael Stonebraker
### Lession 2: OODB Unsuccess
"OODBs are a deep tangent in the sense that it was interesting stuff that nobody wanted; and the fact that nobody wanted it was, I thought, fairly obvious up front. "
- Dr. Michael Stonebraker
Root problem: an absence of standards, not enough vendor push to cross the chasm of early adopters.
https://en.wikipedia.org/wiki/Crossing_the_Chasm
### Federated DB
"I mean, sooner or later, again it seems inevitable that federated database technology will have to be commercially important. "
"But I think in the commercial market, timing is everything. "
- Dr. Michael Stonebraker [1]
Supports Markdown
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment