Motori di ricerca | Servizi Internet di Transalpine

Transalpine ha un reparto specializzato nel campo di ottimizzazione dei siti internet. Spieghiamo qui come il Content Engineering può migliorare le prestazioni del tuo sito nei risultati dei motori di ricerca.

Ritornare al Index

Motori di ricerca

Motori di ricerca sono stati forniti da società private fin dall'inizio del World Wide Web nel 1992. La loro intenzione era di abilitare l'accesso ai siti FTP attraverso un sistema centrale che raccolga e organizza le vaste quantità di dati coinvolte in categorie e valutare i siti secondo il criterio della rilevanza per una ricerca.

Alcuni fra i primi 'crawler' (programmi che creano indici dei siti) del WWW (World Wide Web), come Archie (Alan Emtage, 1990), usavano directories (elenchi di files) associate ai computer in una rete specifica, oppure utlizzavano un paradigma ipertestuale per semplice ricerca di riferenze di testo, come Gopher (Mark McCahill, 1991). Mentre il World Wide Web cresceva ad incorporare tanti web server, motori di ricerca come Mosaic (1993), e Wandex (Matthew Gray, 1993) miglioravano le proprie capacità di interpretare lingua naturale, e cominciavano ad esplorare ("crawl", letteralmente "strisciare") il Web per catalogare le pagine trovate.

Con l'aumento del bisogno per un motore di ricerca più efficace, molti nuovi start-up sono apparsi fra 1993 e 1998. Questi includevono: Excite (1993), Yahoo! (1994), WebCrawler (1994), Lycos (1994), Infoseek (1994), AltaVista (1995), Inktomi (1996), e AskJeeves (1997 - adesso Ask).

Google

Oggi, il motore di ricerca più popolare del mondo è Google. Google è stato un game-changer, cambiando radicalmente la maniera in cui funzionavano i motori di ricerca. I motori di ricerca precedenti non erano capaci di garantire che l'intenzione del ricercatore fosse adeguatamente servita dal sistema di indicizzazione dei siti. Le parole contenuta in una ricerca non erano sufficienti. L'esempio classico è quello di 'Jaguar'. I motori esistente non potevano distinguere fra l'automobile e l'animale, o qualsiasi altro significato una parole o gruppo di parole potesse avere. Così presentavano entrambi, e restava il compito del ricercatore di determinare la rilevanza di ogni sito presentato.

In 1998, Larry Page e Sergey Brin lanciavano il loro motore di ricerca, Google, basato su un sistema innovativo di classifica secondo pertinenza. Il sistema iniziale non era molto sofisticato: contava soltanto la frequenza dei termini di ricerca su una pagina. Ma presto aggiunsero una valutazione del posizionamento del sito dentro la communità internet, basato sul numero e qualità dei collegamenti da altri siti (i cosiddetto 'backlink'). Questo è la genesi del famoso PageRank™ link analysis algorithm, che Google applica per assegnare l'importanza relativa ai documenti collegati.

Uno dei fattori limitanti nella operazione dei motori di ricerca è il consumo d'energia. Il consumo globale d'elettricità dei server dei motori di ricerca è dell'ordine di qualche gigawatt (GW), che forniscono potenzialmente migliaia di petaflop di potenza di calcolo.

Google richiede l'equivalente di almeno la produzione totale di un quarto di un centrale nucleare per alimentare i propri server (ref: MIT article: What it takes to power Google). Questo è solo 1% del consumo di tutti i maggiori centri di elaborazione dati, che globalmente consumano 1,3% di tutto l'energia elettrica mondiale.

Popolarità dei motori di ricerca

La popolarità dei diversi motori di ricerca varia di regione in regione attorno il mondo. Qui c'è un sommario:

MotoreUSAUKGermaniaItaliaRussiaCina
Google63%90%89.7%95%34.5%32.9%
Yahoo!20.6%2.8%2.4%1.9%
bing8.2%2.1%2.3%0.6%
Ask1.6%0.66%
Yandex62%
Baidu51.5%
Altri8.2%3.5%4.3%1.84%3.5%15.6%

In termini di distribuzione globale, Google è di gran lunga il motore di ricerca più popolare (agosto 2014):

GoogleBaiduYahoo!BingAOLAskAltri
67.63%18.26%6.07%5.35%0.19%0.11%2.34%
Crawling e Indexing

I motori di ricerca possono ritornare centinaia di migliaia di risultati per una ricerca in una frazione di secondo. Come ci riescono? Sono veri risultati, o soltanto una stima statistica? E che cosa serve, se gli utenti tipicamente guardano soltanto la prima pagina dei risultati (SERP 1)? Quandomai qualcuno ha detto "Stavo per perdere speranza, ma poi, a risultato numero 512,325, ho trovato quello che mi serviva...'?)

Il numero di risultati esagerato non è l'obiettivo di un motore di ricerca, piuttosto una conseguenza di come funziona il motore di ricerca mentre esplora (crawling) e cataloga (indexing) il World Wide Web.

I motori di ricerca utilizzano un programma chiamato 'spider' (ragno), che segue un percorso nella rete attraverso una serie di fili e nodi. I fili sono una sequenza di pagine in un dominio, e i nodi sono i collegamenti (hyperlink) ad altri domini (domain). Se ci sono tanti collegamenti di ritorno al dominio originale (cosidetto backlink), lo spider troverà che si ritorna più regolarmente a quel dominio che un sito isolato.

Classificazione (Ranking)

Lo spider raccoglie dati dal suo viaggio lungo l'autostrada dell'internet, e da questi dati Google classifica i siti in base alla posizione di autorità che gli altri siti gli conferiscono. I molti elementi che contribuiscono ai complessi algoritmi in continua evoluzione usati dai motori di ricerca sono conosciuti come criteri di classifica algoritmica. Google preferisce il termine signal (segnale).

Rilevanza

I motori di ricerca tentano di giudicare i vari milioni di siti che presentano contenuti che possono soddisfare le parole chiave inseriti nel campo di ricerca secondo la misura della rilevanza. Questo viene elaborata mediante una valutazione dell'intento della richiesta ed il numero di occorrenze delle parole chiave corrispondenti, così come il contesto nel quale queste parole chiave appaiono in una pagina.

Se una parole chiave appare nel titolo della pagina, o dentro un heading tag (h1, h2 ...), quella pagina riceva una classifica più alta.

Importanza

L'importanza può essere considerato come popolarità selettiva. Il più numerosi sono i riferimenti (hyperlink) presenti da altri siti ad un sito, e più questi siti di riferenza sono considerati autorevoli, più alta sarà la classifica del sito in termini della sua importanza.

La misura della rilevanza aumenta se il contesto del sito di riferimento è simile a quello del contesto del sito in questione. Un blog dedicato ad argomenti della SEO avrà maggiore importanza che un sito con una pubblicità per SEO che non ha da fare con il contenuto della pagina su quale appare.

Operatori di ricerca

I motori di ricerca offrono diversi sistemi per raffinare le ricerche, usando i seguenti operatori:

  • [giacche negozi -pelliccie]
  • esclude il termine 'pelliccie' dai ritorni di ricerca sul tema di 'giacche negozi'.

  • [negozi +giacche]
  • la parola 'giacche' deve apparire nei risultati. Questo può essere usato per specificare l'inclusione di parole che normalmente sarebbero esclusi come non importante, come gli articoli (il, la, ecc.). È anche utile per disambiguazione. [Andrew Bone +Science library.info -artist] ritorna risultati riguardanti Andrew Bone, l'editore della Sciencelibrary.info, ma esclude risultati per il famoso artista dello Zimbabwe.

  • ["science library"]
  • assicura che la frase esatta "science library" viene ricercata

  • [quantum OR quanta]
  • pagine che contengono riferimenti ad almeno una delle due parole chiave

  • [site:www.sciencelibrary.info]
  • la ricerca sarà condotta soltanto nel dominio nominato. Ricercando con [site:www.sciencelibrary.info] senza ulteriore parole di ricerca è utile per controllare quante pagine in quel dominio sono state indicizzate da un motore di ricerca.

    [site:com] : limita la ricerca al TCD (top-level domain) dominio tipo '.com'

    [site:zumguy.com -www.zumguy.com] : ritorna tutti sottodomini del dominio

  • [inurl:scienza]
  • assicura che la parola 'scienza' appaia nell'URL

    [allinurl:science library] : assicura che entrambe parole appaiano nell'URL

  • [intitle:scienza]
  • assicura che la parola 'scienza' appaia nel titolo della pagina

    [allintitle:science library] : assicura che entrambe parole appaiano nel titolo della pagina

  • [inanchor:scienza]
  • assicura che la parola 'scienza' appaia nel testo d'ancoraggio (anchor text) - il testo che viene usato per riferire alla pagina nel collegamento (backlink))

    [allinanchor:science library] : assicura che entrambe parole appaiano nel testo d'anchoraggio

  • [intext:Einstein]
  • assicura che la parola 'Einstein' appare nel testo di una pagina

  • [ext:php] & [filetype:php]
  • entrambi questi ristringono la ricerca alle pagine con l'estenzione .php

  • ["SEO*compliance"]
  • ritorna qualsiasi frase contenente le parole 'SEO' e 'compliance', con qualsiasi parola in mezzo. Per esempio 'SEO design compliance' e 'SEO structure compliance' sono tutte e due ritornate, ma non 'SEO compliance guidelines'.

  • [Related:www.sciencelibrary.info]
  • ritorna pagine relative a www.sciencelibrary.info. Se un sito ha un collegamento alla pagina, questa ricerca ritorna altri siti anche collegati a quel sito.

  • [Info:www.sciencelibrary.info/index.php]
  • fornisce informazioni riguardanti quella pagina, come il titolo della pagina, la descrizione, pagine corrispondente, e collegamenti dall'esterno.

  • [Cache:www.sciencelibrary.info/index.php]
  • rivela la versione della pagina che Google ha visto l'ultima volta che l'ha visitato

    Queste informazioni sono importate dal nostro sito www.sciencelibrary.info. Per ulteriori informazioni, vi prego di consultare il sito, o contattarci.

Transalpine traduzioni

Citazione del giorno...

Non dico di pensare come io penso, ma nel modo in quale penso. Avere nessun paura per le ombre, meno di tutti in quel grande spettro di infelicità personale che lega la metà del mondo all'ortodossia.

ZumGuy Internet Promotions

Renewable energy media services