...

2-Internet - Home Struttura Dipartimentale di Matematica e Fisica di

by user

on
Category: Documents
8

views

Report

Comments

Transcript

2-Internet - Home Struttura Dipartimentale di Matematica e Fisica di
SISTEMI INFORMATICI
Internet
Introduzione



Internet è una rete di computer mondiale ad accesso pubblico
attualmente rappresentante anche uno dei principali mezzi di
comunicazione di massa.
Chiunque infatti disponga di un computer e degli opportuni software,
appoggiandosi ad un fornitore di servizi internet (ISP, internet
services provider) che gli fornisce un accesso a Internet attraverso
una linea di telecomunicazioni dedicata (ADSL, HDSL, VDSL, GPRS,
ecc.) o una linea telefonica della Rete Telefonica Generale (POTS,
ISDN, GSM, UMTS, ecc.), può accedere a Internet ed utilizzare i suoi
servizi.
Ciò è reso possibile da una suite di protocolli di rete chiamata
"TCP/IP" dal nome dei due principali, il TCP e l'IP, la "lingua" comune
con cui i computer di Internet si interconnettono e comunicano tra loro
indipendentemente dalla loro architettura hardware e software.
Introduzione



Costituita da alcune centinaia di milioni di computer collegati tra
loro con i più svariati mezzi trasmissivi, Internet è anche la più
grande rete di computer attualmente esistente, motivo per cui è
definita "rete delle reti" o "rete globale".
In quanto rete di telecomunicazioni (una rete di computer è una
tipologia di rete di telecomunicazioni) è invece seconda alla
Rete Telefonica Generale, anch'essa mondiale e ad accesso
pubblico, che però copre il pianeta in modo più capillare di
Internet.
Per questo motivo è stata ed è ancora largamente utilizzata per
l'accesso alla rete degli utenti comuni, anche se, con il
miglioramento della tecnologia VoIP, è destinata a scomparire
inglobata da Internet, basata sulla ben più efficiente tecnologia
della commutazione di pacchetto.
Introduzione


Internet offre i più svariati servizi, i principali
dei quali sono il World Wide Web e la posta
elettronica, ed è utilizzata per le
comunicazioni più disparate: private e
pubbliche, lavorative e ricreative, scientifiche
e commerciali.
I suoi utenti, in costante crescita, alla fine del
2005 hanno superato il miliardo.
Struttura
Utenti internet espressi in decine di migliaia
per nazione, dati CIA The World Factbook 2007


Internet può essere vista come una rete logica di enorme
complessità, appoggiata a strutture fisiche e collegamenti di
vario tipo (fibre ottiche, cavi coassiali, collegamenti satellitari,
doppino telefonico, collegamenti su radiofrequenza (WiFi), su
ponti radio, su raggi laser e su onde convogliate su condotte
elettriche o addirittura idrauliche) che interconnette un agente
umano o automatico ad un altro agente tramite, praticamente,
qualsiasi tipo di computer o elaboratore elettronico oggi o in
futuro esistente o immaginabile.
Ogni dispositivo connesso direttamente ad Internet si chiama
host (ospite in inglese) o end system (sistema finale) mentre la
struttura che collega i vari host si chiama link di comunicazione.
Protocollo di comunicazione



Internet è costituita da tutta una serie di reti, private, pubbliche,
aziendali, universitarie, commerciali, connesse tra di loro.
Prima della sua nascita, esistevano reti locali, principalmente nei
centri di ricerca internazionali, nei dipartimenti universitari.
Un grande risultato della nascita e dell'affermazione di Internet è
stato quello di creare uno standard de facto tra i protocolli di
comunicazione tra le varie reti, consentendo ai più diversi enti e
agenti (diversi governi, diverse società nazionali o sovranazionali,
tra i vari dipartimenti universitari) di scambiare dati mediante un
protocollo comune, il TCP/IP, relativamente indipendente da
specifiche hardware proprietarie, da sistemi operativi, dai formati
dei linguaggi di comunicazione degli apparati di comunicazione
Protocollo di comunicazione




Il “protocollo di comunicazione”, che descrive ad esempio tutte le regole di
trasmissione dei dati in rete, si basa infatti su specifiche tecniche molto
dettagliate. Ciò che viaggia in Internet, infatti, sono i pacchetti, che
costituiscono l'unità minima in questo sistema di comunicazione. Tali
pacchetti viaggiano usando una tecnica conosciuta come commutazione di
pacchetto (packet switching) che consente di condividere un cammino
piuttosto che fare uso di percorso dedicato. In pratica un pacchetto che parte
da un host e giunge ad un altro host non segue un percorso predefinito, ma
quello più congeniale in un preciso momento.
L'utenza casalinga accede ad Internet mediante l'uso di Internet Service
Provider ("fornitori di servizi Internet", abbreviato in "ISP") i quali sono
connessi a loro volta ad ISP di livello superiore che utilizzano router ad alta
velocità e link in fibra ottica.
Come si comprende, la struttura di Internet non è uniforme ma la "ragnatela"
è composta da un'ossatura molto veloce e potente a cui si connettono
sottoreti a volte più deboli e lente.
Queste sottoreti possono anche essere protette e, quindi, consentono
l'accesso a Internet (e viceversa) solo in maniera condizionata. Si tratta delle
Intranet e la protezione è un firewall (muro tagliafuoco in inglese).
Protocollo di comunicazione




I collegamenti tra i vari nodi Internet sono appoggiati su criteri statistici di
disponibilità e non su quei criteri (altrimenti tipici della tecnologia informatica)
così totalmente deterministici da essere spesso ritenuti più caotici; d'altra
parte, i processi sono distribuiti piuttosto che centralizzati.
Molti nodi sono collegati tra loro in diversi modi e tramite diversi path.
Questo tipo di collegamento può essere compreso alla luce delle motivazioni
che negli anni sessanta dettarono la nascita di Internet (allora denominata
ARPANET): creare una rete di elaboratori decentrata che potesse resistere
ad un attacco nucleare da parte dell'Unione Sovietica. Una tale rete
decentrata sarebbe sopravvissuta a molti attacchi visto che un attacco ad un
singolo elaboratore non avrebbe impedito il funzionamento generale, ed i
collegamenti ridondanti avrebbero sostituito quelli distrutti.
Per potersi collegare ad Internet, il solo requisito richiesto ad un qualsiasi
agente o dispositivo elettronico è quello di poter "dialogare" per mezzo dei
protocolli.
Tali protocolli controllano l'invio e la ricezione dei pacchetti. I protocolli più
importanti sono il Transmission Control Protocol ("Protocollo di trasmissione
dati", TCP) e l'Internet Protocol ("Protocollo Internet", IP).
Protocollo di comunicazione




La struttura di comunicazione è a livelli: secondo tale struttura, il
protocollo TCP occupa il livello superiore rispetto a IP. Al di sopra e al
di sotto di questi due protocolli ne funzionano degli altri, ed altri ancora
sono collocati al loro stesso livello.
In pratica un pacchetto che parte da un host attraversa i diversi strati
protocollari che aggiungono informazioni al pacchetto. Quando questo
raggiunge la destinazione, avviene uno spacchettamento inverso e
ogni livello legge le sue informazioni.
Quindi, come si comprende, un pacchetto è composto da
un'informazione base incapsulata in una struttura di informazioni di
servizio.
Tale struttura si basa sugli Internet Standard sviluppati dall'Internet
Engineering Task Force (IETF) con documenti noti come Request for
Comments ("Richiesta di commenti", RFC) e, ad un livello della pila
dei protocolli, il World Wide Web Consortium (W3C]).
TCP/IP



Transmission Control Protocol (TCP) è un protocollo di
livello di trasporto della suite di protocolli Internet.
Il TCP può essere classificato al livello trasporto (OSI level 4)
del modello di riferimento OSI, e di solito è usato in
combinazione con il protocollo di livello rete (OSI level 3) IP. La
corrispondenza con il modello OSI non è perfetta, in quanto il
TCP e l'IP nascono prima. La loro combinazione è indicata
come TCP/IP e, alle volte, è erroneamente considerata un
unico protocollo.
Da qui, la difficoltà di una classificazione univoca per un
protocollo che comprende, a pieno titolo, due livelli dello stack
OSI (o pila ISO/OSI in italiano)
TCP/IP

Il TCP è stato progettato per utilizzare i servizi del
protocollo IP, che non offre alcuna garanzia in ordine
alla consegna dei pacchetti, al ritardo, alla
congestione, e costruire un canale di
comunicazione affidabile tra due processi
applicativi. Il canale di comunicazione è costituito
da un flusso bidirezionale di byte. Inoltre, alcune
funzionalità di TCP sono vitali per il buon
funzionamento complessivo di una rete IP.
Servizi internet
Le modalità di utilizzo di Internet differiscono a seconda del tipo di servizio che
si richiede e al tipo di server a cui ci si collega; per citarne solo alcune:






Posta elettronica (e-mail)
consente di inviare e ricevere (a/da utenti) messaggi contenenti testo ed altri
formati (es.: immagini, video, audio). La modalità di funzionamento dei server
di posta elettronica e di molti programmi client viene detta store-and-forward;
File Transfer Protocol ("Protocollo di trasferimento dati", FTP)
consente di inviare e ricevere (a/da sistemi) file, cioè insiemi di informazioni
codificate in maniera binaria (es.: testi, immagini, filmati, programmi, ecc.);
Hyper Text Transfer Protocol ("Protocollo di trasferimento ipertesti", HTTP)
consente di organizzare le informazioni e le risorse presenti in rete in maniera
non-sequenziale (Collegamento ipertestuale), come meglio descritto in
seguito.
Nascita internet come lo conosciamo




Nel 1991 presso il CERN di Ginevra il ricercatore Tim Berners-Lee definì il
protocollo HTTP (HyperText Transfer Protocol), un sistema che permette una
lettura ipertestuale, non-sequenziale dei documenti, saltando da un punto
all'altro mediante l'utilizzo di rimandi (link o, più propriamente, hyperlink). Il
primo browser con caratteristiche simili a quelle attuali, il Mosaic, venne
realizzato nel 1993. Esso rivoluzionò profondamente il modo di effettuare le
ricerche e di comunicare in rete. Nacque così il World Wide Web.
Nel World Wide Web (WWW), le risorse disponibili sono organizzate
secondo un sistema di librerie, o pagine, a cui si può accedere utilizzando
appositi programmi detti browser con cui è possibile navigare visualizzando
file, testi, ipertesti, suoni, immagini, animazioni, filmati.
La facilità d'utilizzo connessa con l'HTTP e i browser, in coincidenza con una
vasta diffusione di computer per uso anche personale hanno aperto l'uso di
Internet ad una massa di milioni di persone, anche al di fuori dell'ambito
strettamente informatico, con una crescita in progressione esponenziale.
Internet 2 ?
Internet, Intranet, Extranet

Con la parola Internet si intende tutta la rete di computer collegati tra di loro che
permettono ad ogni singolo di accedere alle informazioni che si vogliono rendere
pubbliche. La caratteristica principale è proprio quella di essere a disposizione di tutti;
senza distinzioni tra privati o aziende, tipi di aziende o cose simili.

Con Intranet al contrario si intende un fenomeno ancora più recente che consiste
nell’utilizzo di tecnologie e risorse tipiche del mondo Internet per collegare i computer,
i dipartimenti o le filiali di una particolare azienda tra di loro. In questo caso si tratta,
rispetto al precedente, di connessioni all’interno dell’azienda e quindi assolutamente
non aperte al pubblico. Il grande vantaggio che apporta questa soluzione è lo
sfruttamento della capacità delle tecnologie Internet di essere indipendenti dai
computer o sistemi operativi utilizzati; le aziende quindi vedono il beneficio economico
di non dover cambiare tutte le strutture Hardware e software già presenti nelle loro reti
interne spesso non compatibili tra di loro per collegare ogni sottodivisione con un’altra.
Una Extranet è il passo successivo ed è l’unione di una Intranet a Internet per poter
comunicare con un’altra Intranet.
Le informazioni che in questo caso vengono messe a disposizione non sono destinate
a chiunque ma solamente ad una ristretta cerchia di collaboratori, autorizzati ad
accedervi.

Sicurezza e riservatezza su internet




Su Internet viaggiano tantissime informazioni non solo immagazzinate nei
siti web, ma anche con e-mail, chatting, etc. Quindi questo canale è
diventato una forma di comunicazione di massa, motivo per il quale ci sono
stati diversi tentativi di filtrare una parte di informazioni o addirittura di
controllarla.
Uno dei programmi ampiamente riconosciuti è Carnivore, voluto dall'FBI
per controllare la posta elettronica in entrata e in uscita alla ricerca di parole
chiave di interesse.
Non solo si vuole controllare internet perché mezzo di comunicazione di
massa ma anche per il fatto che esistono dei sistemi di scambio peer-to-peer
che veicolano file protetti da diritto d'autore. Le case discografiche hanno
cercato in tutti i modi di sostenere le proposte che suggerivano un controllo
della rete a discapito del diritto di anonimato e della libertà personale.
In Italia il primo caso di mappatura dei numeri IP risale al 2007 quando la
Logistep, azienda specializzata in soluzioni anti-pirateria, ha registrato 3636
utenti che avevano in condivisione molti file musicali protetti da diritto
d'autore. In difesa degli utenti si è schierato il garante della Privacy che il 13
marzo 2008 ha intimato alle società in questione di eliminare i dati personali
che avevano raccolto.
Sicurezza e riservatezza su internet


Un esempio più recente è il tentato avviamento in Francia di una
proposta di legge che avrebbe permesso agli ISP di togliere la
connessione ad internet agli utenti che praticassero condivisione dei
file protetti da copyright (dopo 2 avvertimenti) ma il decreto voluto da
Nicolas Sarkozy ha perso la maggioranza dopo l’approvazione della
relazione sul rafforzamento della sicurezza e delle libertà fondamentali
su Internet di Stavros Lambrinidis il 26 marzo 2009 all’Unione Europea
che ha espresso una posizione forte in difesa della libertà
d’espressione che in internet vede la sua piena realizzazione.
In senso opposto invece si muove la proposta di legge italiana di
Gabriella Carlucci che invece di difendere l'anonimato su internet
sancisce l'impossibilità di caricare contenuti di ogni genere senza
identificarsi e inoltre propone di espandere il reato di diffamazione ai
contenuti digitali.
Pubblicità su internet



Internet si sta sempre più affermando come canale
pubblicitario e promozionale. I suoi vantaggi sono dati
dalla possibilità di effettuare quasi dei collegamenti
virtuali one to one a costi estremamente competitivi.
Al giorno d’oggi, Internet è sostenuto e mantenuto da un
milione di imprese commerciali. Esistono in Italia diverse
società specializzate nella consulenza commerciale via
Internet. Nel 2008 la raccolta pubblicitaria in Italia tramite
Internet ha superato quella tramite canali radio
Molti contenuti sono forniti in rete sono gratuiti proprio
per incentivare l’accessi degli utenti al sito e rendere
appetibili le pagine al mercato della pubblicità
all’aumentare della popolarità del sito.
Motori di ricerca



Un motore di ricerca è un sistema automatico che analizza un insieme di
dati spesso da esso stesso raccolti e restituisce un indice dei contenuti
disponibili classificandoli in base a formule statistico-matematiche che ne
indichino il grado di rilevanza data una determinata chiave di ricerca.
Esistono numerosi motori di ricerca attivi sul Web. Il più utilizzato, su scala
mondiale (con un indice che supera gli 8 miliardi di pagine), è Google; molto
usati anche Live e Bing (motori di ricerca della Microsoft), Yahoo! , Ask. Da
segnalare il tentativo di creare il primo motore di ricerca europeo, Quaero
concorrente di Google con una iniziativa franco-germanica. Il progetto,
stimato attorno ai 400 milioni di dollari, è stato abbandonato dopo pochi mesi
per la rinuncia da parte della compagnia tedesca.
Fra i motori di ricerca nati in Italia quelli maggiormente utilizzati nel nostro
paese sono Libero, Virgilio. Tuttavia non sono veri motori di ricerca giacché
si limitano a riutilizzare Google. Libero e altri ne evidenziano chiaramente il
logo, mentre Virgilio ne usa i risultati senza evidenziarne la fonte, limitandosi
solo ad aggiungere alcuni propri risultati sponsorizzati.
Motori di ricerca





La maggior parte dei motori di ricerca che opera sul
web è gestito da compagnie private che utilizzano
algoritmi proprietari e database tenuti segreti.
Esistono comunque diversi tentativi di dar vita a
motori di ricerca fondati sul software libero
Il lavoro dei motori di ricerca si divide principalmente
in tre fasi:
analisi del campo d'azione (tramite l'uso di crawler
appositi);
catalogazione del materiale ottenuto;
risposta alle richieste dell'utente;
Motori di ricerca


Analisi Per analizzare il web i motori di ricerca utilizzano dei programmi detti crawler
(o spider o robot), che si occupano di visitare automaticamente gli URI contenuti nel
database e seguire i successivi URI che trovano all'interno dei documenti analizzati,
inserendo di volta in volta nel database tutte le informazioni "sensibili" della pagina (il
contenuto testuale, varie informazioni su di essa come la data di ultimo
aggiornamento, e altro).
Catalogazione Dopo l'analisi delle pagine, a seconda di criteri che variano da motore
a motore, alcune di esse vengono inserite nel database e nell'indice del motore di
ricerca.
–

La parte testuale archiviata durante la fase di analisi verrà in seguito analizzata per fornire le
risposte alle ricerche degli utenti. Molti motori di ricerca sul web rendono anche disponibile
una copia dei dati testuali di ogni pagina archiviata per quando la risorsa originale sia
irraggiungibile: questa funzione è detta Copia cache.
Risposta Rispondere alle richieste degli utenti implica la necessità di elencare i siti in
ordine di rilevanza rispetto alla richiesta ricevuta.
–
Per stabilire la rilevanza di un sito vengono cercati nel database quei documenti che
contengono la parola chiave inserita dall'utente, dopodiché ogni motore di ricerca sfrutta
propri algoritmi per classificare le pagine, controllando, per esempio, quante volte le parole
chiave vengono ripetute, quanti link riceve quel documento, in quali punti della pagina sono
poste le parole chiave, quanti siti del database contengono link verso quella pagina, o quante
volte un utente ha visitato quel sito dopo una ricerca.
Motori di ricerca



Risultati sponsorizzati I motori di ricerca forniscono anche risultati
sponsorizzati, ovvero mostrano in maggiore evidenza siti web di
aziende che pagano per risultare tra i primi risultati quando si
cercano termini (detti keyword o parole chiave) che sono in relazione
all'ambito di competenza dell'azienda stessa. I risultati sponsorizzati
dei motori possono apparire anche sui siti che partecipano al loro
programma di affiliazione.
Raffinazione della ricerca La possibilità di raffinazione della ricerca
varia da motore a motore, ma la maggior parte permette di utilizzare
operatori booleani: ad esempio è possibile cercare "Ganimede AND
satellite NOT coppiere" per cercare informazioni su Ganimede inteso
come pianeta e non come figura mitologica.
Su Google e sui motori più moderni è possibile raffinare la ricerca a
seconda della lingua del documento, delle parole o frasi presenti o
assenti, del formato dei file (Microsoft Word, PDF, PostScript, ecc.), a
seconda della data di ultimo aggiornamento, su di un particolare sito
ed altro ancora.
Motori di ricerca



Le più recenti innovazioni nella produzione di algoritmi e di sistemi di
Information Retrieval si basano sull'analisi semantica dei termini e
sulla conseguente creazione di reti semantiche. Lo stesso Google ha
adottato sistemi per la prevenzione dell'errore e la contestualizzazione
dei risultati.
È lecito prevedere che nel giro di alcuni anni i motori di ricerca
baseranno le proprie tecnologie sia sull'analisi quantitativa dei
contenuti (le parole in sé), sia soprattutto su quella qualitativa (il senso
delle parole). I motori di ricerca saranno, ad esempio, in grado di
distinguere il senso della parola "pesca" a seconda di quale sia il
contesto in cui la parola è contenuta (capire se sia il frutto, la disciplina
sportiva, o altro).
Altra possibilità è l’esplorazione per immagini fornita da www.bing.com
che consentirebbe secondo gli autori un risparmio nel tempo per
particolari ricerche.
Motori di ricerca
Ricerca booleana
Per rendere più veloce e mirata la
utilizzare le funzioni booleane semplici:
ricerca
possiamo
AND - keyword1 AND keyword2, vengono presentati i
documenti che contengono entrambe le keywords
OR
- keyword1 OR keyword2, vengono presentati i
documenti che contengono la prima keyword, oppure la
seconda od entrambe
NOT - keyword1 NOT keyword2, vengono presentati i
documenti che contengono la prima keyword, ma non la
seconda
Motori di ricerca
Motori di ricerca
Motori di ricerca
Fly UP