White box e black box

by user

on 06 июля 2016

Category: Documents

>> Downloads: 7

views

Report

Comments

Description

Download White box e black box

Transcript

White box e black box

PORTAFOGLIO
White box
e black box
Tecnologie e meccanismi di data mining applicate all'asset allocation
È
diffusa e difficile da
estirpare la convinzione che le decisioni prese direttamente
dall’uomo abbiano la
capacità di proteggere da certe tipologie
di errori più dei meccanismi automatizzati. In qualche modo le scelte umane sono collegate a prese di posizione
più sagge e sicure. In altre parole, si ritiene (forse) inconsciamente che la discrezionalità dell’uomo protegga dalla
temuta e temibile scatola nera associata di diritto alla macchina e ai suoi derivati. Condivisa pare essere l’idea che
l’uomo, dal canto suo, sia certamente
più trasparente nelle scelte che compie.
Si fa molta meno fatica a fidarsi delle
sue valutazioni e a considerarle accettabili, a prescindere dalla logica assente, omessa o esplicita sottostante a esse.
Forse perché scatta un immediato e
rassicurante senso di affinità fra uomo
e uomo, un feeling che invece con la
Luglio - Settembre 2014
macchina si trasforma in un distacco
automatico perché quest’ultima è identificata come un’entità complicata, diversa per definizione e quindi ostile e
incomprensibile?
Ma non è proprio l’uomo a determinare e a strutturare ciò che la macchina
meramente esegue?
Forse conviene fare un po’ di chiarezza sul significato che in questo contesto deve essere attribuito al concetto di
black box. Per black box si intende un
software su cui eseguire test del quale
non si conosce l’implementazione ma
che mostra soltanto input e output. È
ritenuta di conseguenza una “scatola
nera” di cui non si conosce il contenuto e su cui non è possibile intervenire
in alcun modo.
Al contrario, la white box (anche conosciuta come transparent box testing
e structural testing) è un metodo che
testa le strutture interne di lavoro di
un’applicazione, fino al livello di codice
Eugenio De Vito
Laureato in Economia e Commercio a Torino, ha maturato una lunga esperienza nel gruppo Deutsche
Bank, come financial advisor e, successivamente, formatore professionale nell’ambito dell’asset allocation. È partner di 4Timing Financial Advisory in cui
ricopre la carica di Head of Marketing, Business Development e Financial Advisory. Docente Efpa.
DIFFICOLTÀ
TEMPO
SPECIALISTICO
20 MINUTI
Sara Giugiario
Laureata in Economia Aziendale e Finanza Aziendale e Mercati
Finanziari all’Università di Torino. Attraverso la tesi Specialistica sui Sistemi di Trading Quantitativi, ha approfondito tematiche
sulla Finanza Comportamentale e costruzione di
sistemi d’investimento. È Financial Quantitative
Analyst presso 4Timing.
27
My
RIVISTA DI FORMAZIONE FINANZIARIA
Tutte le analisi
che vengono
effettuate
con i programmi
di data mining
sono frutto degli input
che i ricercatori
decidono di inserire
e del mondo in cui
sono stati impostati
dall’uomo
sorgente. Implica una conoscenza approfondita del codice che si sta testando
e la capacità di metterlo alla prova. La
sua essenza è l’accurata analisi del processo al fine di prevenire ogni tipo di errore nascosto. Serve dunque per creare
un ambiente privo di errori esaminando
ogni aspetto debole del codice.
Ci chiediamo a questo punto perché
dovrebbe essere più razionale fidarsi
della mente pura di un gestore, seppur
senza alcuna garanzia sulle sue azioni se
Molti settori
si affidano
al data mining
per affinare
le loro ricerche
e migliorare
i loro business.
Anche colossi
del web
come Google,
Facebook
e Amazon
li usano
28
non i suoi risultati passati, risultati che
in fin dei conti si possono considerare come dei semplici output, e non di
come lo stesso ipotetico gestore si occupi di strutturare e testare un programma che, una volta superate tutte le prove del caso, resta uguale a sé stesso con
un metodo, per giunta, ripetibile. Da
questo ragionamento a noi pare evidente che la convinzione culturale ormai
radicata secondo cui i meccanismi automatizzati siano tutti immediatamente associabili a delle black box sia totalmente da rivedere. La vera black box è
la discrezionalità della mente umana del
gestore in cui non ci si può addentrare e
da cui derivano decisioni non sottoponibili a falsificazione.
I meccanismi di data mining, invece,
possono essere considerate delle white box a tutti gli effetti: non in tutti i
casi, ma laddove l’uomo resta centrale.
Il punto è fidarsi della capacità umana
di gestire, dirigere e controllare criticamente le operazioni computerizzate. È
indispensabile l’esperienza, l’intraprendenza e l’ingegno propri dell’uomo. Sosteniamo dunque con convinzione il
beneficio che può derivare dal connubio fra la mente umana e i mezzi computerizzati di data mining.
tità di dati attraverso meccanismi computazionali, al fine di estrarne informazioni significative sotto forma di regole
e configurazioni (pattern). In altri termini, si tratta di un processo complesso
di identificazione di tendenze nei dati,
con lo scopo di cercare modelli o trend
potenzialmente utili e comprensibili e
tali da consentire all’utente di prendere
decisioni cruciali in modo ragionevole.
Dunque, tutte le analisi che vengono
effettuate con questi programmi sono
innanzitutto frutto degli input che i ricercatori decidono di inserire e di non
inserire, di impostare in un certo modo
piuttosto che in un altro.
Molti settori si affidano a questo strumento per affinare le loro ricerche e
migliorare i loro business. Il settore sanitario, per esempio, lo impiega diffu-
DATA MINING
È l'insieme di tecniche e metodologie
che hanno per oggetto l'estrazione di un
sapere o di una conoscenza a partire da
grandi quantità di dati (attraverso metodi
automatici o semi-automatici) e l'utilizzo
scientifico, industriale o operativo di questo
sapere.
Cosa si intende per data mining? Si
tratta dell’elaborazione di ingenti quanLuglio - Settembre 2014
PORTAFOGLIO
WHITE BOX
Anche conosciuta come transparent box
testing e structural testing, è un metodo
che testa le strutture interne di lavoro
di un’applicazione, fino al livello di
codice sorgente. Implica una conoscenza
approfondita del codice che si sta testando
e la capacità di metterlo alla prova.
samente sia per la valutazione dell’efficacia di nuovi trattamenti terapeutici,
sia a livello assicurativo per prevenire
frodi e abusi. Infatti, il campo medico
oggi genera un enorme ammontare di
dati complessi relativi a pazienti, alle risorse ospedaliere, alla diagnosi di malattie, alle cartelle cliniche, ai dispositivi
medici, ecc. Tutti questi dati, una volta processati e analizzati, costituiscono
una risorsa chiave per l’estrapolazione
di conoscenza, essenziale per potenziare
l’efficienza a livello di costi (in tal modo
i pazienti possono ricevere cure migliori
ad un prezzo inferiore) e per indirizzare
le decisioni dei medici.
Le tecniche di data mining vengono
diffusamente applicate ai dati presenti
sul web, da colossi come Google, Facebook, Amazon, eccetera.
Google si affida al data mining sia per le ricerche sia
per la pubblicità. Infatti,
l’uso di algoritmi di apprendimento più semplici e standard è diventato non più sufficiente a far fronte ai
continui cambiamenti che interessano i
dati e al loro crescente e inesauribile volume. Ogni singola azione eseguita sul
web e in particolare sui social network
viene memorizzata all’interno di un’immensa base di dati e lì viene incrociata
con altre informazioni contenute su altre basi di dati, attraverso raffinati algoritmi di tipo matematico statistico.
Facebook calcola quali post visualizza un utente, quanto è vicino questo
utente al creatore del post,
quanto è importante il contenuto (soprattutto attraverso le foto considerate
più significative e attraverso il testo) e
per quanto tempo è stato utilizzato quel
post. Pesando questi vari fattori, l’algoritmo decide cosa mostrare, aggiornandosi e migliorandosi periodicamente.
Amazon, invece, suggerisce quali libri potrebbero
piacere agli utenti, sulla
base degli acquisti effettuati da utenti considerati con caratteristiche affini.
BLACK BOX
Si intende un software su cui eseguire test
del quale non si conosce l’implementazione
ma che mostra soltanto input e output. È
ritenuta di conseguenza una “scatola nera”
di cui non si conosce il contenuto e su cui
non è possibile intervenire in alcun modo.
Non c’è dubbio che il futuro del web
appartenga a chi dispone delle più sofisticate tecniche di estrazione dei dati.
Addirittura, i due campi appena citati si sono incrociati grazie al Data Mining in un episodio singolare che riportiamo. Cinque anni fa, Google è stato
capace di tracciare la diffusione dell’influenza negli Stati Uniti senza bisogno
di un solo check up medico. Non solo,
ha analizzato l’epidemia in modo più
rapido ed economico rispetto al Centro
di Controllo e Prevenzione delle Malattie (CDC), attraverso un algoritmo in
grado di individuare la correlazione tra
ciò che la gente cercava online e i sintomi dell’influenza. Questa vicenda è utile per spiegare quanto l’uso incontrollato dei big data senza una mente possa
portare a ottenere degli esiti imprevedibili. Infatti, dopo aver fornito accura-
Le tecniche di data mining applicate ai dati presenti sul web
Luglio - Settembre 2014
29
My
RIVISTA DI FORMAZIONE FINANZIARIA
Grafico 1. Modello in grado di simulare l'indice S&P 500
tamente per anni i dati sullo sviluppo
dell’influenza, il quarto anno la previsione algoritmica di Google si è rivelata sbagliata. Il problema è concentrato
sul fatto che Google non conosceva la
relazione tra i termini di ricerca utilizzati e lo sviluppo della malattia, in altri
termini non era interessato a comprendere “cosa era la causa di cosa”. Si focalizzava più sulle correlazioni in sé che
sulle cause. Questa è la prova di quanto
sostenuto sopra: la totale assenza della
componente umana nel dirigere attivamente e tessere le fila fra l’ammontare
grezzo di dati rende l’algoritmo inevitabilmente fragile.
Passiamo ora, invece, all’industria immobiliare. I sistemi di analisi di Big
Data consentono di effettuare previsioni di risultati e comportamenti fondamentali per determinare il successo, ad
esempio, di piani di valorizzazione e riposizionamento di immobili. L’utilizzo
su larga scala di basi informative geore-
30
ferenziate offre inoltre un prezioso supporto alla valutazione della capacità di
attrazione del territorio e alla definizione del pricing delle case. Supponiamo
di conoscere le caratteristiche e i prezzi di un campione di case. Tramite la
costruzione di un modello computazionale è possibile calcolare rapidamente il
prezzo a cui è congruo vendere un’abitazione.
Con la stessa logica, abbiamo sviluppato un esempio collegando l’andamento
dello S&P 500 con i dati sul tasso di
disoccupazione americana, sull’acquisto di nuove abitazioni, sui redditi e sui
tassi della Fed. Grazie ai meccanismi di
elaborazione di Big Data, è stato creato
un modello in grado di simulare l’indice S&P 500 sfruttando i dati macro sopra citati in modo del tutto sistematico.
In maniera altrettanto speculare si potrebbe costruire un sistema da utilizzare per la scelta dei titoli societari da tenere in portafoglio basandosi sul price
earning e su altri dati fondamentali societari oppure su valori legati all’analisi
macro-fondamentale.
Diversi soggetti oggi applicano scienza e tecnologia al mondo della gestione degil investimenti, come per esempio Winton Capital, che ha una lunga
tradizione nell’approccio al mondo finanziario attraverso la lente della scienza. Per realizzare ciò, il processo è disciplinato, le decisioni sono sistematizzate
seguendo una serie di regole codificate
dal computer.
Appurato che è l’uomo a influenzare e
determinare le scelte in base alle proprie
conoscenze e alle sue idee, la macchina non solo è un valido supporto per la
loro implementazione, ma è fondamentale per incrementarne il grado di solidità. In altri termini, la convinzione che
i mezzi computerizzati siano meno affidabili delle decisioni umane, per noi è
totalmente ribaltata. La vera black box
Luglio - Settembre 2014
PORTAFOGLIO
Grafico 2. Risultati della strategia Winton Capital Management Diversified dal 1997 ad oggi
Account & Fees
Type
Managed Account
Minimum Investment
$ 50,000k
Trading Level Incremental
Increase
$ 0k
CTA Max Funding Factor
Management Fee
1.00%
Performance Fee
20.00%
Average Commission
$0
Available to US Investors
Yes
è l’approccio discrezionale. L’effettiva
trasparenza la può trasmettere solo un
approccio strutturato attraverso un rigoroso Metodo Scientifico.
Sinteticamente:
1) i dati storici sono elaborati attraverso
strumenti matematico-statistico;
2) le previsioni devono essere falsificabili e verificabili;
3) i risultati devono essere ripetibili.
Infatti, solo attraverso un atteggiamento
critico sostenuto da un’opportuna stru-
Luglio - Settembre 2014
Subscriptions
High Water Mark
Yes
Subscription Frequency
1-7 Days
Redemption Frequency
1-7 Days
Investor Requirements
Qualified Eligible
Persons (QEP)
Lock-up Period
0
mentazione possiamo renderci conto
di quanto un sistema che all’apparenza
sembra portare a dei risultati ineccepibili, si possa facilmente e rapidamente rompere. La macchina, quindi, rende
tangibilmente consapevoli della fragilità di certe convinzioni. Una volta definite le regole che la strategia deve rispettare in modo chiaro e sequenziale e
implementato l’algoritmo, un sistema
viene sottoposto alle migliaia di prove
differenti che i programmi in questione
consentono di eseguire. Paradossalmente, a catalizzare tempo e risorse, non è
tanto la mera ricerca di strategie, quanto la fase di stress test, proprio per la
consapevolezza dei limiti e dei pericoli
in cui si può incorrere: è quella la chiave
di robustezza del procedimento.
31