Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
(re)găsirea resurselor Web
de la motoare de căutare și SEO la date structurate
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
“A well-defined problem is half solved.”
Michael Osborne
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Cum prezentăm conținutulaltor clienți – diferiți de cei umani?
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Am putea recurge la extragerea automatăa datelor expuse pe Web?
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Roboți
programe ce traversează automat Web-ul,cu scopul de a extrage date
spiders, crawlers, Web bots
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Roboți
programe ce traversează automat Web-ul,cu scopul de a extrage date
robot Web navigator Web
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Roboți
pornind de la un URI, realizează o conexiune HTTPla un server Web, pentru a întreprinde anumite
acțiuni privitoare la reprezentarea unei resurse și,recursiv, din toate documentele desemnate de
legăturile existente în cadrul reprezentării
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Roboți
pornind de la un URI, realizează o conexiune HTTPla un server Web, pentru a întreprinde anumite
acțiuni privitoare la reprezentarea unei resurse și,recursiv, din toate documentele desemnate de
legăturile existente în cadrul reprezentării
acțiuni: extragere, copiere, sumarizare,agregare de conținut, monitorizare etc.
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
roboți: pericole
Operarea în foc rapid (rapid-fire)
trafic de rețea
supraîncărcarea serverelor Webdenial of service
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
roboți: pericole
Actualizarea cu întârziere a bazelor de dateale motoarelor de căutare
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
roboți: pericole
Actualizarea cu întârziere a bazelor de dateale motoarelor de căutare
necesitatea specificării timpului de revizitare a situluide către robotul Web
<meta name="Revisit-After" content="30 Days" />
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
roboți: pericole
Exploatarea (ne)controlată de către utilizatori
atacuri “brute”
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
roboți: pericole
Intrarea în “găurile negre”
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
roboți: pericole
Accesarea unor date nerelevante
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
roboți: identificare
Fiecare robot Web trebuie să se identifice(nume, domeniu, creator,...)
uzual, va fi folosit câmpul User-Agent
din antetul unei cereri HTTP
19539 de roboți Web (2013) conform www.botsvsbrowsers.com
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
roboți: identificare
Fiecare robot Web trebuie să se identifice(nume, domeniu, creator,...)
roboți personali(e.g., motoare experimentale, software de oglindire)
BackRub (pre-Google), wget etc.
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
roboți: identificare
Fiecare robot Web trebuie să se identifice(nume, domeniu, creator,...)
roboți ai motoarelor de căutare majore
baiduspider, bingbot, googlebot, slurp (Yahoo!)
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
roboți: identificare
Fiecare robot Web trebuie să se identifice(nume, domeniu, creator,...)
roboți specializați(e.g., validarea codului HTML, scurtarea lungimii
URL-urilor, scanare de vulnerabilități, statistici,…)
exemplificări: citeseerxbot,Page2RSS, extensii Nagios, W3C Validator
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
173.199.116.75 - - [11/Dec/2012:00:46:02 +0200] "GET /~web/2012/ HTTP/1.1" 404 193 "-" "Mozilla/5.0 (compatible; AhrefsBot/4.0; +http://ahrefs.com/robot/)"
180.76.5.101 - - [11/Dec/2012:06:50:09 +0200] "GET /~busaco/ HTTP/1.1" 200 1784 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
98.137.206.250 - - [11/Dec/2012:11:08:25 +0200] "GET /~busaco/ HTTP/1.1" 200 1784 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp)"
207.46.199.167 - - [11/Dec/2012:11:08:26 +0200] "GET ....jpg HTTP/1.1" 200 3394 "-" "msnbot-media/1.1 (+http://search.msn.com/msnbot.htm)"
66.249.75.44 - - [11/Dec/2012:11:12:26 +0200] "GET ….png HTTP/1.1" 304 - "-" "Googlebot-Image/1.0"
178.154.174.252 - - [11/Dec/2012:11:22:05 +0200] "GET … HTTP/1.1" 301 206 "-""Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)“
66.249.75.22 - - [11/Dec/2012:11:30:47 +0200] "GET /~seminar/… HTTP/1.1" 200 683 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.75.44 - - [11/Dec/2012:11:29:51 +0200] "GET … HTTP/1.1" 200 1104 "-" "Mozilla/5.0 (iPhone; U; en-us) … Mobile/8B117 (compatible; Googlebot-Mobile/2.1)"
65.55.24.244 - - [11/Dec/2012:11:31:46 +0200] "GET /mw/index.php HTTP/1.1" 200 4408 "-" "Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)“
78.46.238.220 - - [11/Dec/2012:11:33:32 +0200] "GET /~cyp/test HTTP/1.1" 200 6 "-""check_http/v1.4.15 (nagios-plugins 1.4.15)"
128.30.52.70 - - [11/Dec/2012:12:02:14 +0200] "GET /~busaco/ HTTP/1.1" 200 1784 "-" "W3C_Validator/1.3"
cereri HTTP efectuate de diverși roboți Web(menționate în fișierul de jurnalizare Apache)
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Cum putem “instrui” roboții Websă nu viziteze anumite zone ale sitului?
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Orice robot trebuie să respectestandardul de excludere
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Orice robot trebuie să respectestandardul de excludere
fișierul robots.txt
detalii la www.robotstxt.org
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Orice robot trebuie să respectestandardul de excludere
fișierul robots.txt
# /robots.txt pentru http://www.info.uaic.ro User-agent: * # toți roboții Crawl-delay: 20 # 20 sec. între cereriDisallow: /tmp/ # date temporareDisallow: /xwiki/bin/xmlrpc/ # director privat
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Orice robot trebuie să respectestandardul de excludere
fișierul robots.txt
de studiat câteva exemple reale:http://www.amazon.com/robots.txt
http://facebook.com/robots.txt
http://www.google.com/robots.txt
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Orice robot trebuie să respectestandardul de excludere
evitarea indexării conținutului:
<meta name="robots" content="noindex, nofollow" />
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Ce activități realizează un motor de căutare?
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Scop:localizarea resurselor existente pe Web
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Tipuri de căutări – maniera tradițională:
pe bază de indecși (crawling & indexing)
Lycos – 1994AltaVista – 1995
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Tipuri de căutări – maniera tradițională:
pe baza ierarhiilor de termeni(servicii de tip catalog – topic directory, taxonomii)
Yahoo! – Yet Another Hierarchical Officious Oracle1994
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Tipuri de căutări – maniera tradițională:
hibrideindecși + taxonomiiportal Web
Excite – 1994
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Tipuri de căutări – maniera tradițională:
pe baza legăturilor hipertext(hyperlink analysis)
Google – 1996
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Tipuri de căutări – maniera modernă:
pe baza datelor structurate(determinare și extragere de meta-date & concepte)
Microsoft Satori Entity Engine (bazat pe Trinity)http://research.microsoft.com/en-us/projects/trinity/
Google Knowledge Graph (utilizează Freebase, Wikipedia)www.google.com/insidesearch/features/search/knowledge.html
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Un motor de căutare trebuie să satisfacănevoia de informații a utilizatorului
(user information-seeking)
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Localizarea & indexarea resurselor se pot realiza:
automat – via roboți Webmanual – recurgând la experți umani
hibrid
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Localizarea & indexarea resurselor
strategii:data/relation mining
topic distillationmeta-data search
social search…
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Caracteristici ale unui motor de căutare ideal
scop
căutarea oricărei resurse existente
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Caracteristici ale unui motor de căutare ideal
viteză
rezultatele să fie disponibile imediat
direcție de interes major: real-time Web search
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Caracteristici ale unui motor de căutare ideal
disponibilitate
actualizarea permanentă(orice modificare să fie indexată “instantaneu”)
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Caracteristici ale unui motor de căutare ideal
recall
găsirea tuturor resurselor relevantepentru o cerere dată
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Caracteristici ale unui motor de căutare ideal
precizie
rezultatul conține doar documente relevante
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Caracteristici ale unui motor de căutare ideal
ranking
cele mai relevante documentesunt plasate primele
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Care sunt principalele componenteale unui motor de căutare?
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Robot Webextrage informații
Index (catalog)stochează – în mod persistent – (meta)date
despre resursele existente pe Web
Mecanism de evaluare (ranking)pe baza cererii utilizatorului, oferă răspunsuri
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Diferențele dintre motoarele de căutare actualesunt date de fiecare componentă în parte
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
structura generică a unui motor de căutare(Chakrabarti, 2003)
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
motoare: căutarea
Activitatea generală a unui robot (crawler) simplu:
F = mulțimea de URL-uri de start (frontiera)cât-timp F este nevidăextrage un URL u din Fpreia pagina (resursa Web) p cu adresa udacă p este relevantăstochează p în indexpentru-fiecare legătură v din p
dacă v nu este în index și v nu aparține lui Fși v ar putea fi vizitată
adaugă v la F
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
motoare: căutarea
Bazată pe învățare
data mining
(de exemplu, reinforcement learning)
detalii la master
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
motoare: căutarea
Conținutul ce trebuie indexat nu e doar textual
hiper-informația:INFORMATION = HYPERINFO + TEXTINFO
dependența de legături
ordonarea legăturilor(alegerea unor criterii vizând importanța)
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
motoare: căutarea
Robotul/motorul de căutare decide momentulrevizitării resursei care urmează a fi reindexată
sau doar verificată
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
motoare: căutarea
Aspect de interes:
rezoluția adreselor Web(nume de domeniiadrese IP)
DNS caching, pre-fetching & resolution
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
motoare: căutarea
Aspect de interes:
realizarea cererilor concurente
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
motoare: căutarea
Aspect de interes:
extragerea legăturilor
e.g., normalizarea URI-urilor:www.InfoIasi.Ro:80www.info.uaic.ro
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
motoare: căutarea
Aspect de interes:
eliminarea adreselor deja vizitate
evitarea “găurilor negre”
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
motoare: căutarea
Aspect de interes:
monitorizarea accesărilor
load monitoring & managing(evitarea supra-solicitării serverelor Web)
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
motoare: căutarea
Aspect de interes:
strategii de revizitare/reîmprospătarea conținutului resurselor Web
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
motoare: indexarea
Necesitatea folosirii sistemelor de baze de date depozit distribuit de stocare (eventual, în cloud)
optimizarea regăsirii
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
motoare: indexarea
Necesitatea folosirii sistemelor de baze de date depozit distribuit de stocare (eventual, în cloud)
optimizarea regăsirii
modele non-relaționale de stocare – „mișcarea” NoSQL
printre primele abordări: BigTable (Chang et al., 2006)http://labs.google.com/papers/bigtable.html
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
motoare: indexarea
Necesitatea folosirii sistemelor de baze de date depozit distribuit de stocare (eventual, în cloud)
arhivarea datelor indexate
e.g., recurgerea la algoritmul de compresie bzip2(cazul Google)
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Cum se realizează indexarea?
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
motoare: indexarea
Utilizarea nu doar a datelor propriu-zise(conținutului textual), ci și a meta-datelor
e.g., limbă, cuvinte-cheie, autor, format,data ultimei actualizări,…
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
motoare: indexarea
Indexare bazată pe cuvinte-cheierelevanță, plasament, meta-date,...
versus
indexare semantică – bazată pe concepteAtom/RSS, social tagging,
microformate, microdate HTML5, Web semantic (RDF, RDFa),...
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
motoare: indexarea
O importanță mare o au: maniera de structurare a informației și“relația” unei pagini cu altele înrudite
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
motoare: interogarea
Cererile sunt formulate via o interfață Web
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
motoare: interogarea
Cererile sunt formulate via o interfață Web
unele motoare de căutare acceptăfolosirea unor operatori specifici
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
motoare: interogarea
Cererile sunt formulate via o interfață Web
exemplificare: o parte dintre operatorii Google
"expresie" ~termen –termen
numar1 .. numar2 related: URL cache: URL
intitle: termen(i) intext: termen(i) inurl: termen(i)
link: URL site: domeniu info: domeniu
define: termen filetype: extensie unit1 in unit2
detalii la www.googleguide.com/advanced_operators_reference.html
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
motoare: interogarea
digital camera $700 .. 1400
~book
Apache logo filetype: png
intitle: design –intitle: web
"burse de merit" site: uaic.ro inurl: edit
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
motoare: interogarea
Interogările din prisma utilizatorului:
grad mare de subiectivitate
e.g., “miserable failure”
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
motoare: interogarea
Interogările din prisma utilizatorului:
depind de contextul social/cultural
exemple:“pants” în UK versus US
“madonna and child”
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
motoare: interogarea
Interogările din prisma utilizatorului:
dependente de scop
informațional (listă, locație, sfat)
navigațional
vizând accesarea resurselor(download, amuzament, interactivitate,…)
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
motoare: interogarea
Remarci:
utilizatorii nu înțeleg “booleana”
exemplu:“hotels located in Bucharest and Iasi”
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
motoare: interogarea
Remarci:
interogările uzual sunt scurte (media: 2,6 cuvinte),dar focalizate – e.g., 25% pe business (conform Yahoo!)
vezi și http://labs.yahoo.com/publication/?area=web-mining-search
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
motoare: interogarea
Remarci:
apar confuzii:URI vs. text,
lipsa spațiilor,vocabular
etc.
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Remarci:
implicit, termenii de căutare trebuie să se regăseascăidentic în cadrul conținutului unui document Web
e.g., căutând “children”, nu vom obține neapărat și paginile care includ “kids”
motoare: interogarea
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
motoare: interogarea
Interogări formulate în limbaj natural:
eliminarea ambiguităților (dezambiguizarea)
filtrarea cuvintelor nerelevante
expandarea interogării: sinonime, forme derivate,…
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
motoare: interogarea
Evaluarea cererii – schema generală:1. Analizarea interogării (tokenizing)2. Căutarea în indecșii termenilor3. Scanarea documentelor4. Evaluarea relevanței paginilor5. Eliminarea duplicatelor & sortarea6. Afișarea primelor N documente relevante
(URI + alte informații)
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
motoare: interogarea
Conținutul fiecărui document extraseste analizat și divizat în token-uri
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
motoare: interogarea
Unele construcții se ignoră/constrâng
e.g., “the”, “is”/“are”/“were” → “be”, “running” → “run”
procesare de bază a conținutului textual
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
motoare: interogarea
Fiecărui token i se reține și poziția aparițieiîn document
poziția poate fi folosităla determinarea relevanței termenului
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
motoare: interogarea
Criterii vizând calculul relevanței:
ranking bazat pe clasificare umană
resurse clasificate de oameni
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
motoare: interogarea
Criterii vizând calculul relevanței:
ranking bazat pe informații privitoarela utilizarea unei resurse
timpul de vizită, periodicitatea vizitei,frecvența actualizării resursei, importanța relativă etc.
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
motoare: interogarea
Criterii vizând calculul relevanței:
ranking bazat pe conectivitate
analiza relațiilor (legăturilor hipertext) cu alte pagini
eventual, în funcție de reputațiee.g., importanța domeniului Internet (vechime, localizare)
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
motoare: interogarea
Calculul relevanței:
tehnici privind IR (Information Retrieval)
cautări bazate pe similaritate – similarity search
cautări bazate pe învățare automată (machine learning)
clasificarea conținutului hipermedia
social network analysis – bibliometrie, prestigiu,…
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
motoare: interogarea
Page Rank (Google)
evaluarea relevanței pe baza contextului de apariție
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
motoare: interogarea
Page Rank (Google)
exploatarea relațiilor dintre diferite pagini Web
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
motoare: interogarea
Page Rank (Google)
recurgerea la tehnici adaptive, euristice
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
motoare: interogarea
Page Rank (Google)
determinarea corelației dintre relevanța calculatăautomat de sistem și cea precizată (in)direct
de către utilizator
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
motoare: interogarea
Page Rank (Google)(Larry Page & Sergey Brin, 1996 – doctorat la Stanford)
se baza inițial pe structura hipertext
o legătură de la pagina A la B reprezintăun vot dat paginii B de către A
cu cât un sit este mai important,cu atât page rank-ul asociat lui e mai mare
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
motoare: interogarea
Alternative la Page Rank:
TrustRank (Friesen, 2007)
folosește domenii Web de încredere selectate de oameni
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
motoare: interogarea
Alternative la Page Rank:
TrustRank (Friesen, 2007)
cu cât un sit e mai aproape (în termeni de legături Web)de siturile evaluate și considerate de încredere
de către oameni, cu atât va avea o importanță mai mare
vizează un sit (domeniu), nu o pagină Web
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
motoare: interogarea
Alternative la Page Rank:
utilizarea tehnologiilor Web-ului semantic
se iau în considerație concepte (cunoștințe), nu cuvinte
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Evifolosirea
inferențelorpentru
a răspunde la întrebările
utilizatorului
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
perioadă de timp strategie
înainte de 2000conținut – indexarea textului(titlu, anteturi, URL, descriere via <meta>)
2000—2010conținutautoritate (via legături)
2010—prezent
conținutautoritatepersonalizare (social media +informații personale)
2012—prezent
conținutautoritatepersonalizareconcepte (date-structurate + Web of data)
adaptare după (K. Bodnar & J. Hopkins, 2011)
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
generale Bing, DuckDuckGo, Google, Yahoo!, Volunia,…
regionaleBaidu (China), Daum (Coreea), Goo (Japonia),
Guruji (India), Rambler (Rusia) etc.
meta-căutare Dogpile, Excite, Mamma, Yippy
enterprise search Apache Solr, ElasticSearch, OpenSearchServer,…
răspunsuri(answer-based)
umane: Stack Overflow, Yahoo! Answers, Quora
automate: AskMeNow, Evi, Wolfram Alpha
news search BingNews, Daylife, Topix, Yahoo! News,…
hărți (maps) Nokia HERE, OpenStreetMap, WikiMapia etc.
cod-sursă Google Code Search, Koders, Krugle
căutare pe baza P2P FAROO, Seeks, YaCy
desktop search DocFetcher, Recoll, Tropes Zoom
pentru dezvoltatori: Apache Lucene, Apache Nutch, mnoGoSearch, Namazu, Xapian,…
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
243 de API-uri (3 noiembrie 2013)privind căutarea resurselor Web:
www.programmableweb.com/apis/directory/1?apicat=Search
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Motoarele tind să “recompenseze” siturile:
de mari dimensiuni
cu viață lungă
specializate, de “nișă”
aparținând unor autorități de încredere
motoare: interogarea
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
SERP (Search Engine Result Page)
specifică maniera de redare a rezultateloroferite de motorul de căutare
motoare: afișarea rezultatelor
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
SERP (Search Engine Result Page)
se includ recomandări pe baza:preferințelor utilizatorului
istoricului căutărilorURL-urilor partajate via rețele sociale
meta-datelor (rich snippets)adnotărilor realizate de utilizatorilocației geografice (local search)
motoare: afișarea rezultatelor
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
“At any one time you rank #1 or #8 or #40based on who is searching, where they search,
and what is happening.”
K. Bodnar & J. Hopkins, 2011
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Cum putem proiectamijloacele de căutare internă?
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Motor de căutare internă (la nivel de sit)
oferirea de sugestii utilizatorului
e.g., spelling suggestions,sinonime (car automobile, truck,…)
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Motor de căutare internă (la nivel de sit)
sugestii de soluții
de exemplu, răspunsuri la cele mai frecvente întrebări
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Motor de căutare internă (la nivel de sit)
îmbunătățirea interacțiunii – utilizabilitatea
integrarea în designul general al sitului
tactici: oferirea unui următor pas de realizat(mai ales când nu există rezultate),
sugestii privind căutarea, exemple, rafinarea cererii etc.
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Motor de căutare internă (la nivel de sit)
în pagina de redare a rezultatelor, va fi afișată șiinterogarea inițială, cu posibilitatea modificării ei
oferirea a cel puțin N rezultate/pagină +indicarea numărului total de pagini de rezultate
sau încărcarea progresivă a următoarelor rezultate
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Motor de căutare internă (la nivel de sit)
calitatea rezultatelor oferite e dependentăși de modul de structurare a datelor
fiecare rezultat să includă informații utilefolosirea unui vocabular înțeles de către vizitator,
utilizarea unor tehnici de vizualizare intuitivă,facilitarea filtrării & sortării datelor etc.
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Motor de căutare internă (la nivel de sit)
utilizatorul să aibă libertatea de a efectuaoricând o nouă interogare
evitarea “fundăturilor” – oferirea de ajutor, sugestii,…
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Cum trebuie scris codul HTMLpentru a obține o relevanță bună a conținutului?
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
SEO – Search Engine Optimization
suită de strategii de redactare a codului HTMLîn vederea obținerii unei relevanțe ridicate
a conținutului, astfel încât pagina/situl să fieregăsite în urma unei căutări specifice efectuate
cu un instrument de căutare
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Structurarea codului-sursă a documentelor Web
Structurarea conținutului
Structurarea legăturilor cu alte pagini
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Structurarea codului-sursă – SEO la nivel de pagină
documentul trebuie să fie bine-formatat
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Structurarea codului-sursă – SEO la nivel de pagină
includerea de meta-date:în antet – elementul <meta />
conținut textual alternativ pentru imagini(<img alt="..." />), multimedia, legături (<a title="...">),
tabele (<table summary="...">) etc.
atașarea de meta-date externe via elementul <link />
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Structurarea codului-sursă – SEO la nivel de pagină
a nu se folosi:cadre (frame-uri)
sauelemente învechite sau proprietare
(e.g., <blink> ori <marquee>)
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Structurarea codului-sursă – SEO la nivel de pagină
conținutul primează (“content is king”)
alegerea judicioasă a cuvintelor-cheie în <meta>
criterii: relevanță, densitate, internaționalizare
o importanță majoră o are titlul paginii
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Structurarea codului-sursă – SEO la nivel de pagină
situl trebuie actualizat periodic, frecvent
un criteriu important: timpul de încărcare
despre performanțaaplicațiilor Web
într-un curs viitor
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Structurarea conținutului
codul trebuie structurat conform semnificației logicePOSH (Plain Old Semantic HTML)
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Structurarea conținutului
conținutul relavant trebuie plasat ierarhicvia <h1>, <h2>,...
pentru HTML5, de utilizat noile elementevizând structura: <article>, <header>, <footer>, <nav> etc.
layout bazat pe CSS și nu pe marcaje tabelare
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Structurarea conținutului
conținuturile multimedia binaretrebuie să aibă alternative textuale
anumite date pot fi “ascunse” de roboți via robots.txt
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Structurarea conținutului
numele fișierelor (imagini, stiluri,…) contează
human friendly URLs
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Structurarea legăturilor – SEO la nivel de sit
obligatoriu, de inclus legături spre alte pagini(ale sitului ori ale altor situri)
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Structurarea legăturilor – SEO la nivel de sit
dorim legături spre/de la situri importanteavând conținut similar cu situl nostru
tehnici clasice (“demodate”):interschimb de link-uri – banner-e, blogroll-uri,
marketing bazat pe context
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Structurarea legăturilor – SEO la nivel de sit
dorim legături spre/de la situri importanteavând conținut similar cu situl nostru
recurgerea la aplicații Web sociale
SMO (Social Media Optimization)
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Structurarea legăturilor – SEO la nivel de sit
de verificat și menținut structura hipertext!
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Structurarea legăturilor – SEO la nivel de sit
a se evita spam-ul
e.g., legături încrucișate între pagini similareale aceluiași sit Web ori ale unei colecții de situri
motoarele detectează & penalizează spam-ul!http://searchenginewatch.com/topic/web_spam_detection
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Utilizarea elementului <meta>
descrierea paginii – description
cuvintele-cheie – keywords
controlul roboților Web – robots
alte informații de interes:tipul conținutului, relația cu alte pagini,…
seo: strategii
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Paginile de “acoperire” (page cloaking)
scop: oferirea de conținut diferit,în funcție de un anumit criteriu
(aici, conținut special pentru roboții de căutare)
seo: strategii
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
black-hat page cloakingtehnică penalizată de Google: http://youtu.be/QHtnfOgp65Q
seo: strategii
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
“Estetica” URL-urilor
distincția dintre conținutul static și cel dinamic(componenta query_string de la finalul unui URL)
detectarea simbolurilor “?” și “&” doc.php?var=sda4312&var2=643f545342
seo: strategii
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
“Estetica” URL-urilor
indexarea conținutului dinamic poate fi limitatăori poate fi realizată mult mai lent
numele variabilelor transmise via GET trebuie să aibă o anumită semnificație
seo: strategii
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
“Estetica” URL-urilor
evitarea numerelor de sesiune (SID) din URL
uzual, roboții ignoră cookie-urile
seo: strategii
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
“Estetica” URL-urilor
evitarea numerelor de sesiune (SID) din URL
la nivel de server Web, se poate activa rescriereaURL-urilor – e.g., utilizarea mod_rewrite la Apache
la nivel de server de aplicații, inhibarea transferuluiSID-ului prin URL (PHP: php_flag sesssion.use_trans_sid off)
seo: strategii
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
“Estetica” URL-urilor
“mascarea” URL-urilor oferind conținut dinamic
exemplificare:www.penguin.info/species/tux.html – pare static
www.penguin.info/species.php?type=tux – în realitate
seo: strategii
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Rezultatul returnat clientului
de evitat paginile de eroare – e.g., 404
orice pagină de eroare poate fi convertităîntr-o resursă folositoare omului/robotului
exemple: harta sitului, legături relevante,…
seo: strategii
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Rezultatul returnat clientului
se folosesc facilitățile oferite de serverul Webpentru specificarea de pagini proprii de eroare
e.g., directiva ErrorDocument la Apache
seo: strategii
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Navigarea bazată pe interacțiunea cu utilizatorul
legături spre alte resurserealizate exclusiv via Javascript, Flash sau Silverlight
<p>informații despre burse <a href="javascript:sari(1);">aici</a></p>
de evitat
greșit!
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Oferirea de conținut via documenteadoptând formate de date nestandardizate
de evitat
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Titluri identice pentru toate paginile unui sit
de evitat
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Pagini de eroare care sunt oferite de servervia codul de stare HTTP 200 Ok
de evitat
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Redirecționări incorecte și/sau abuzive
de evitat
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Ignorarea utilizatorilor cu nevoi speciale
web accessibility
http://webaim.org/
de evitat
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Abuzul de transferuri asincrone prin Ajax
de evitat
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Crearea documentului sitemap.xml
pentru a-l expedia la Google Sitemaps
complementar fișierului robots.txt
furnizează structura hipertext a unui sit Web
formate acceptate: text obișnuit, XML, RSS, Atom
detalii la http://sitemaps.org/
seo: instrumente
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Strategii generale:Google Webmaster Central
http://www.google.com/webmasters/
Studierea accesului (specificării/alegerii unor metrici):Google Analytics, NetTracker, Urchin, WebTrends,…
Rafinarea cuvintelor-cheie:KeywordDiscovery, WordTracker, Google Suggest
Optimizări: Google Optimizer, YSlow Smush.it
seo: instrumente – exemple
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Imposibilitatea accesării unor date transmise“în fundal” pe parcursul interacțiunii Web
motoarele de căutare nu pot indexa conținutul primit(asincron) de la server – e.g., prin Ajax
traficul “subteran” nu poate fi accesat în mod normal
roboții Web clasici nu pot interpreta programe JavaScript
seo vs. ajax
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Imposibilitatea accesării unor date transmise“în fundal” pe parcursul interacțiunii Web
soluție posibilă:propunerea “Making Ajax crawlable” (Google, 2009)
http://tinyurl.com/y9vhdva
seo vs. ajax
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Resurse de interes
http://www.seomoz.org/resources
http://searchenginewatch.com/
http://www.slideshare.net/randfish/presentations
http://videolectures.net/Top/Computer_Science/Search_Engines
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Invisible Web (Deep Web)
acea parte a spațiului World Wide Webcare nu este “văzută” de motoarele de căutare saude alte tipuri de aplicații de regăsire a resurselor
disponibile pe Web
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Cum am putea descrie conținutul resurselor Webastfel încât să poată fi procesat “inteligent”?
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Idee:specificarea unor meta-date (date privind datele)
direct în cadrul documentelor HTML
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Idee:specificarea unor meta-date (date privind datele)
direct în cadrul documentelor HTML
microformatescheme de microdate HTML5
RDFa
la master
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Microformate(Tantek Çelik & Kevin Marks, 2004)
www.microformats.org
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Microformate
utilizarea de marcaje (X)HTML pentru a desemnasemantica și/sau structura conținutului
“curentul” POSH (Plain Old Semantic HTML)
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Microformate
reutilizarea unor vocabulare de termeni,disponibile liber și standardizate
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Microformate
reutilizarea unor vocabulare de termeni,disponibile liber și standardizate
realizarea de adnotări semantice direct în HTMLși alte limbaje similare
prelucrare mai facilă a reprezentărilor resurselor
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
marcaje HTML (<div>, <span>)pentru specificarea datelor &structurii lor
“clase” CSS pentru prezentareși asocierea de descrieriale meta-datelor
structurareapaginilor Web:
precizareaînțelesului
(semanticii)conținutului
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Microformate
elementare (desemnează o singură caracteristică)+
compuse (specifică mai multe proprietățicare modelează un aspect de interes
– e.g., un concept: persoană, eveniment,…)
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
rel-tag
asociază unei legături hipertext un termen (tag)– cuvânt-cheie ori subiect – ales liber de autor
(tagging content)
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
rel-tag
<a href="http://technorati.com/tag/fish" rel="tag">fish</a>
<a href="http://en.wikipedia.com/wiki/UNIX" rel="tag"
class="skill">UNIX</a>
<a href="http://flickr.com/photos/tags/Penguin" rel="tag">
<img src="tux.jpg" alt="Foto cu un pinguin" /></a>
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
XFN (XHTML Friend Network)
relații între „prieteni”: colaboratori, rude, cunoscuți,…
<a href="http://www.infoiasi.ro/~dlucanu/"
rel="met, colleague, co-worker, neighbor">
Dorel Lucanu</a>
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
recurgerea la XFN în cadrul sistemului WordPress
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
hCalendar
desemnează evenimente & orare
vezi formatul iCalendar – RFC 2445
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
hCalendar
<div class="vevent">
<a class="url" href="http://swapps.wordpress.com/">
<abbr class="dtstart" title="2013-12-07">7 decembrie</abbr>—
<abbr class="dtend" title="2013-12-08">8 decembrie 2013</abbr>
<span class="summary">Winter Web Workshop</span> la
<span class="location">Iași</span></a>
<div class="description">Se anunță atelierul de lucru
dedicat tehnologiilor Web</div>
</div>
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
hCard
informații de contact despre persoane, organizații etc.
în conformitate cu formatul vCard – RFC 2426
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
specificarea informațiilor despre o persoană via hCard
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
hResume
modelează informații despre un CV
folosit în conjuncție cu hCard și hCalendar
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
hReview
desemnează opinii emise despre „ceva”(produs, locație, eveniment, persoană,…)
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
<div class="hreview">
<!-- resursa recenzată -->
<h1 class="item">Recenzie despre <a class="fn url" title="Situl FII"
href="http://www.info.uaic.ro/">situl Web al FII</a></h1>
<p> <!-- 'punctajul' obținut (5 din 5), sumarul & data recenziei -->
<abbr class="rating stars" title="5">* * * * *</abbr>
<span class="summary title">Modern</span>,
<abbr class="dtreviewed"
title="2010-05-18T22:45:00">18 mai</abbr>
</p>
<!-- autorul recenziei marcat prin hCard -->
<p class="reviewer">Autor al recenziei: <span class="vcard">
<a class="url fn n" href="http://www.purl.org/net/busaco"
title="Spre situl Web al lui Sabin Buraga">
<span class="given-name">Sabin</span>
<span class="family-name">Buraga</span></a></span></p>
<div class="description"> <!-- detalii despre recenzie --> </div>
</div>
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Microformate 2
simplifică maniera de specificare (2012)
http://microformats.org/wiki/microformats2
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Microformate 2
vocabularele sunt definite pe baza unor prefixe
h- includerea unui microformatp- specificarea unei proprietăți simpleu- desemnarea unui URLdt- definirea de valori privind data & timpule- specificarea de proprietăți compuse
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
<div class="h-card vcard">
<img src="/content/content_about-experts/brendaneich.jpg"
alt="Brendan Eich">
<h5><a href="http://brendaneich.com/"
class="p-name fn u-url url">Brendan Eich</a></h5>
<p class="p-note note">
Created JavaScript, co-founded the mozilla.org project…</p>
<span class="p-category category">Technology</span>
</div>
exemplu concret de utilizare a microformatului hCard(în ambele versiuni)
preluat de la https://webfwd.org/about/experts/
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Microformate 2
vocabulare predefinite (în stadiu de ciornă):
h-adr h-card h-entry h-event
h-geo h-item h-product h-recipe
h-resume h-review h-review-aggregate
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
<!-- specificarea unui eveniment via microformate versiunea 2 -->
<section class="h-event">
<a class="p-name u-url" href="http://potop.info/2013/">
Potop – ediția 2013</a>
de la <time class="dt-start">2013-10-28</time>
până la <time class="dt-end">2013-11-01</time>, fiind organizat la
<span class="p-location h-card">
<a class="p-name p-org u-url" href="http://www.info.uaic.ro/">
Facultatea de Informatică</a>,
<span class="p-street-address">Strada Berthelot, 16</span>,
<span class="p-locality">Iași</span>,
<abbr class="p-region" title="Iași">IS</abbr>
</span>
</section>
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
microformate: utilizări
AppleGoogle
IntelLast.fm
Six ApartYahoo!XWiki
și multe altele
detalii la http://microformats.org/wiki/implementors
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
microformate: utilizări
detectarea și exportul de microformate cu extensia Operator pentru Firefox
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Microdata HTML 5
alternativă la microformate
specificație W3C în stadiu de ciornă (octombrie 2012)
www.w3.org/TR/microdata/
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Microdata HTML 5
posibilitatea de a specifica perechi de proprietăți(nume, valoare) “scufundate” în HTML
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Microdata HTML 5
grupurile de perechi de proprietăți nume—valoare sunt denumite items
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Microdata HTML 5
grupurile de perechi de proprietăți nume—valoare sunt denumite items
creare via atributul itemscope
specificarea unei proprietăți prin atributul itemprop
referire cu ajutorul atributului itemref
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Microdata HTML 5
grupurile de perechi de proprietăți nume—valoare sunt denumite items
asocierea unui tip de date se face cu atributul itemtype
pentru identificarea unui item se folosește itemid
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Microdata HTML 5
ca tipuri de date se pot folosi microformatele
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
<section itemscope itemtype="http://microformats.org/profile/hcard"><h1 itemprop="fn">
<span itemprop="n" itemscope> <span itemprop="given-name">Tuxy</span> <span itemprop="family-name">Pinguinescu</span>
</span> </h1><img itemprop="photo" alt="Portretul lui Tux" src="tux.jpg"><p itemprop="org" itemscope>
<span itemprop="organization-name">Linux</span></p><h2>Detalii & contact:</h2>
<ul><li><a itemprop="url" href="http://en.wikipedia.org/wiki/Tux">
Wikipedia</a></li><li itemprop="email"><a href="mailto:[email protected]">
tux AT penguin.org</a></li></ul><address><span itemprop="adr" itemscope>
<span itemprop="street-address">Penguins Blv., 33</span> <span itemprop="locality">Penguin City</span>, <span itemprop="postal-code">740033</span> </span> </address>
</section>
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Există o serie de modele de date(exprimate via microformate sau microdate)
ce pot fi indexate și folositede actualele motoare de căutare?
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
schema.org
colecție de vocabulare (scheme de date)– e.g., Book, Event, LocalBusiness, Movie, Offer, Person,
Place, Recipe, Review, TVSeries,… – recunoscute șiindexate de roboții principalelor motoare de căutare
Bing, Google, Yahoo!, Yandex
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
a se studia și http://www.w3.org/wiki/WebSchemas
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
<body itemscope itemtype="http://schema.org/WebPage"><header>
<h1 itemprop="name"><a href="index.html" title="…">Dezvoltarea aplicațiilor Web</a>
</h1><p class="slogan" itemprop="description">prezentările aferente cursului</p>
</header><article>
<!-- conținut propriu-zis --></article><footer>
<h6><span itemscope itemtype="http://schema.org/Person">
<a href="http://www.purl.org/net/busaco" title="…" itemprop="url" accesskey="S"><span itemprop="name">Sabin Buraga</span>
</a></span>
</h6></footer>
</body>
specificarea faptului că Sabin Buraga este o persoană
recurgerea la elemente structurale și scheme de microdate HTML5
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
<!-- microformate (utilizarea microformatului hCard) --><div class="vcard">
<p>Nume: <span class="fn">Sabin Buraga</span></p><p>Titlu academic: <span class="title">Dr.</span></p>
</div>
<!-- microdate HTML5 --><div itemscope itemtype="http://schema.org/Person">
<p>Nume: <span itemprop="name">Sabin Buraga</span></p><p>Titlu academic: <span itemprop="title">Dr.</span></p>
</div>
microformate↔microformateadaptare după Marco Lisci & Luisa Scarlata (2011)
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Alte resurse de interes,inclusiv instrumente de validare și conversie,
sunt oferite de situl Webhttp://getschema.org/
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Microformatele și microdatele HTML5sunt indexate de motoarele de căutare
Bing – http://tinyurl.com/b9mx2f2
Google rich snippets – http://tinyurl.com/3c6naq7
Yahoo! BOSS (Build your Own Search Service)http://developer.yahoo.com/search/boss/
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
extragerea/verificarea de date structurate via Structured Data Testing Tool
http://www.google.com/webmasters/tools/richsnippets
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
vizualizarea datelor structurate cu SmartWebBrowserproiect de licență realizat de Ionuț-Cosmin Atomei
(absolvent FII, 2013)
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
extragere & export de microformate, microdate HTML5 și RDFa cu extensia POSHex – Tiberiu Pasat (2013)
http://students.info.uaic.ro/~constantin.pasat/wad/
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
Cum ar putea fi detectate și penalizatesiturile Web care „trișează”
în ceea ce privește tehnicile SEO?
discuție (pentru acasă)
Dr.
Sab
in B
ura
ga
ww
w.p
url
.org
/ne
t/b
usa
co
episodul viitor: proiectarea siturilor Web sociale