+ All Categories
Home > Documents > POTENȚIALULUI DE UTILIZARE...Orientat Big Data. urbă de învățare abruptă. Necesită...

POTENȚIALULUI DE UTILIZARE...Orientat Big Data. urbă de învățare abruptă. Necesită...

Date post: 29-Jan-2021
Category:
Upload: others
View: 5 times
Download: 0 times
Share this document with a friend
18
1 PROIECT BIG DATA PENTRU EXPLORAREA POTENȚIALULUI DE UTILIZARE A UNOR SURSE DE DATE ALTERNATIVE ÎN DEZVOLTAREA DE STATISTICI EXPERIMENTALE ABSTRACT Explorarea și exploatarea potențialului unor noi surse de date este un obiectiv asumat în statistica oficială. Proiectul își propune să investigheze potențialul World Wide Web-ului ca sursă de date în estimarea unor statistici experimentale privind evoluția prețurilor online comparativ cu evoluția prețurilor colectate prin mijloace consacrate în statistica oficială. În acest sens, este necesară elaborarea atentă a unei metodologii și a unor tehnici specifice pentru tratarea tuturor etapelor componente unui astfel de proiect. Atenționăm cititorul că raportul prezent reprezintă o lucrare în desfășurare (working paper), rezultatele și modul în care au fost acestea obținute fiind expuse unui proces continuu de modificare, uneori fundamentală.
Transcript
  • 1

    PROIECT BIG DATA PENTRU EXPLORAREA

    POTENȚIALULUI DE UTILIZARE

    A UNOR SURSE DE DATE ALTERNATIVE

    ÎN DEZVOLTAREA DE STATISTICI EXPERIMENTALE

    ABSTRACT

    Explorarea și exploatarea potențialului unor noi surse de date este un obiectiv asumat în statistica oficială.

    Proiectul își propune să investigheze potențialul World Wide Web-ului ca sursă de date în estimarea unor statistici

    experimentale privind evoluția prețurilor online comparativ cu evoluția prețurilor colectate prin mijloace

    consacrate în statistica oficială. În acest sens, este necesară elaborarea atentă a unei metodologii și a unor tehnici

    specifice pentru tratarea tuturor etapelor componente unui astfel de proiect. Atenționăm cititorul că raportul

    prezent reprezintă o lucrare în desfășurare (working paper), rezultatele și modul în care au fost acestea obținute

    fiind expuse unui proces continuu de modificare, uneori fundamentală.

  • 2

    CUPRINS

    I. CONTEXT. OBIECTIVE. ......................................................................................................................................3

    II. DESCRIEREA DATELOR .....................................................................................................................................5

    III. ORGANIZAREA CULEGERII DATELOR ...........................................................................................................6

    IV. REZULTATE PRELIMINARII. ..........................................................................................................................9

    V. LIMITĂRI .CONCLUZII PRELIMINARE. ........................................................................................................... 17

    BIBLIOGRAFIE ........................................................................................................................................................ 18

  • 3

    I. CONTEXT. OBIECTIVE.

    Obiectivele generale ale proiectului sunt preluate din cadrul general de modernizare a statisticii

    oficiale din România, alături de îmbunătățirea continuă a procesului de producție statistică în acord cu

    direcțiile de modernizare la nivel european exprimate în documentul ”Viziunea Sistemului Statistic

    European până la orizontul anului 2020.” În cadrul ecosistemului statistic național și european au loc

    transformări majore ca urmare a provocărilor impuse de către noile trenduri de generare masivă de

    date aproape în timp real, așa numita revoluție Big Data, fie că ne referim la date generate de către

    indivizi, procese sau mașini. Încorporarea Big Data în procesul de producție statistică nu este

    caracterizată de proprietățile unei acțiuni liniare care își propune să suplinească în totalitate metodele

    tradiționale de generare și prelucrare a datelor în vederea obținerii unor produse statistice de calitate

    neîndoielnică. Mai degrabă, utilizarea Big Data presupune o abordare de tip incremental, iterativ, în

    care anumite componente ale unui proces tradițional de producție statistică sunt augmentate de

    aportul Big Data și al algoritmilor de prelucrare aferenți, condiționate de conservarea și/sau

    îmbunătățirea calității produsului statistic. Cu alte cuvinte, încorporarea Big Data în statistica oficială

    înseamnă păstrarea unui avantaj competitiv net și a relevanței produselor statisticii oficiale prin

    comparație cu cele furnizate de către o mulțime de jucători comerciali, cu referire în particular la marile

    corporații din domeniul tehnologiei informației.

    Sub aceste auspicii, obiectivele generale sunt reprezentate de eficientizarea procesului de

    producție statistică prin scăderea costurilor de producție și reducerea sarcinii de răspuns și a

    termenului de diseminare. Proiectele pilot interne, prin încorporarea tehnologiilor de calcul moderne,

    pot crea premisele dezvoltării unui cadru de testare/măsurare și pilotare de noi metodologii și

    tehnologii într-un mod sistematic și riguros, contribuind semnificativ la atingerea obiectivelor generale.

    Invariant, în discuție intră identificarea resurselor necesare derulării proiectelor. Conform

    Memorandului Schevingen, caracteristicile noilor surse de date implică din punct de vedere tehnic o

    abordare multi-disciplinară, cu precădere din sfera teoretică a statisticii matematice și a programării

    calculatoarelor. Generarea de soluții robuste solicită din partea echipelor însărcinate cu derularea

    proiectelor membrii specializați în cadrul celor două discipline amintite și excelente abilități de

    comunicare.

    În consecință, au fost formulate următoarele obiective specifice:

    Obiectivul 1. Identificarea și selecția canalelor online cu ponderi semnificative în totalul volumului de

    tranzacționare a mărfurilor și serviciilor destinate consumului gospodăriilor, astfel încât să fie acoperit

    întregul nomenclator de bunuri și servicii destinate consumului final al gospodăriilor.

    Obiectivul 2. Identificarea mijloacelor adecvate de implementare a procesului de colectare automată a

    prețurilor afișate în cadrul canalelor online de tranzacționare a mărfurilor și serviciilor.

  • 4

    Obiectivul 3. Derularea procesului de colectare automată a prețurilor pe parcursul unei perioade

    relevante: 2 ani.

    Obiectivul 4. Dezvoltarea unui estimator în vederea obținerii unui indice experimental al prețurilor de consum

    în baza datelor colectate din mediul online.

    Obiectivul 5. Identificarea aspectelor sensibile din punct de vedere legal ale proiectului, având în

    vedere reconcilierea dintre Legea 226/2009 din România, Codul de Practici al Statisticilor Europene,

    alte reglementări privind statistica oficială și legislația privind accesul la date disponibile online.

    Obiectivul 6. Diseminarea rezultatelor către diferite categorii de utilizatori interni și externi statisticii

    oficiale prin intermediul rapoartelor intermediare de activitate și prezentării rezultatelor, limitărilor și

    propunerilor aferente proiectului.

    Concepte și definiții utilizate.

    INTERNET - Rețea internațională de calculatoare, formată prin interconectarea rețelelor locale și

    globale, destinată să faciliteze schimbul de date și informații în diverse domenii. Abreviat din

    International Network.

    WorldWideWeb sau WWW sau Web – Colecție de documente interconectate pe baza protocolului

    HTTP (HyperText Transfer Protocol) sau HTTPS (HyperText Transfer Protocol Secure).

    Site – Colecție de documente WWW structurate sub o adresă WWW comună.

    Browser Web – aplicație software ce permite navigarea și accesarea conținutului Web.

    Web scraping – set de tehnici ce permit colectarea automatizată a adreselor WWW ale site-urilor

    precum și a documentelor regăsite la aceste adrese.

    Robot/Crawler/Spider - tehnică implementată prin procesul de web scraping de indexare

    automatizată a adreselor WWW.

    Parser – aplicație software de parcugere și identificare automată a conținutului unui document.

    Javascript – limbaj de programare destinat aplicațiilor Web.

    node.js – mediu de execuție a codului Javascript în afara unui browser..

    HTML sau HyperText Markup Language – limbaj standard de meta-marcare utilizat la crearea și

    formatarea documentelor Web.

    CSS sau Cascade Style Sheets – limbaj standard de stilizare a documentelor HTML.

  • 5

    XML sau eXtensible Markup Language – limbaj de meta-marcare utilizat la crearea altor limbaje de

    marcare Web și pentru creare documentelor care pot fi interpretate atât de om, cât și de mașină. A fost

    adoptat din necesitatea modificării dinamice a documentelor Web, prin adăugarea sau eliminarea unor

    noi structuri sau conținut în document fără a fi necesară o re-evaluare totală a structurii acestuia.

    CSV sau Comma Separated Values – fișier cu valori separate prin virgulă.

    R – limbaj și mediu de programare destinat prelucrării statistice și grafice a datelor.

    II. DESCRIEREA DATELOR

    Sfera de cuprindere

    Ipoteza abordării ”democratice” a indicelui prețurilor de consum, conform căreia nu există diferențe

    statistic semnificative între volumul și structura cheltuielilor realizate de gospodării pentru

    achiziționarea de mărfuri sau servicii, este extinsă asupra prețurilor observate pe site-urile Web.

    Populația de referință, mediul de rezidență, perioada de observare acoperită în cadrul unei luni, alături

    de mărfurile și serviciile incluse în nomenclatorul pe baza căruia se determină IPC sunt păstrate, cu

    următoarele mențiuni:

    • În cazul în care conținutul Web este indisponibil în intervalul menționat se va decala cu o zi

    colectarea.

    • Dintre mărfurile și serviciile incluse în nomenclatorul IPC, au fost țintite inițial grupa mărfurilor

    alimentare și posturile care acoperă articolele de îmbrăcăminte și încălțăminte din grupa mărfurilor ne-

    alimentare. Urmând ulterior, pe măsură ce înregistrăm rezultate preliminarii, să extindem asupra

    întregului nomenclator de mărfuri și servicii.

    Unitatea de observare este site-ul Web aparținând firmelor. În acest caz, ipoteza de la care pornim este

    că prin intermediul site-ului firmele acoperă întreg teritoriul național. Alegerea site-urilor se bazează

    pe stabilirea unei relații volum vânzări-cifra de afaceri, prin ordonarea descrescătoare a cifrelor de

    afaceri raportate de către firmele care dețin site-urile respective. Momentan, există anumite bariere,

    spre exemplu cel mai important jucător, din punctul de vedere al cifrei de afaceri, pe segmentul

    hypermarketurilor prezente în România, nu are o secțiune dedicată tranzacțiilor online. Însă mutările

    preconizate spre realizare la nivel European, de către firmele care dețin puncte de vânzare fizice pe

    acest segment, sugerează că forțele de piață vor impune migrarea către online a celor mai importanți

    actori din domeniu, cel puțin la nivel declarativ.

    Variabile înregistrate

    Variabilă înregistrată este prețul cu TVA. Metoda de colectare automată permite înregistrarea dublă a

    prețurilor pentru mărfurile și serviciile afectate de reduceri, promoții, rabaturi sau alte forme de

  • 6

    atragere clienți prin intermediul prețurilor, astfel alături de prețul afișat putem înregistra prețul vechi

    sau reducerea afișată sub formă de procent. Acest aspect înlesnește, spre exemplu, identificarea cu

    ușurință a factorilor de sezonalitate ce afecteză variația prețurilor pentru anumite categorii de mărfuri

    și servicii. Prețurile sunt înregistrate în fișiere de tip .csv care conțin în principiu următoarele variabile:

    1. Denumire varietate – numele sub care varietatea este comercializată

    2. Prețul curent cu amănuntul

    3. Prețul vechi și/sau reducerea cu amănuntul în cazul în care este afișat

    4. Compoziție în cazul posturilor îmbrăcăminte/încălțăminte din grupa mărfurilor ne-alimentare

    5. Descrierea varietății: producător și specificații tehnice

    6. Data colectării

    7. Adresa website-ului

    Selecția sortimentelor ale căror prețuri sunt ținute sub observație se face pe baza nomenclatorului de

    mărfuri și servicii din Ancheta Indicelui Prețurilor de Consum. Probabil va fi necesară, pe măsură ce sunt

    acumulate rezultate satisfăcătoare, alcătuirea unui nomenclator al unităților de observare online.

    III. ORGANIZAREA CULEGERII DATELOR Metoda de înregistrare

    Colectarea datelor are loc prin intermediul soluției software dezvoltate de către CBS Netherlands,

    Robot Framework. Soluția este implementată în limbajul de programare Javascript, cu ajutorul mediului

    de execuție node.js. Avantajul major al acestei implementări este dat de faptul că poate fi accesat în

    mod automat conținut Web generat în mod asincron și dinamic, prin interacțiunea dintre un

    utilizator/browser Web și un server Web. Automatizarea colectării de informații de pe site-urile cu

    conținut generat dinamic presupune simularea interacțiunii dintre utilizator/browser Web și server prin

    intermediul unei aplicații de tip headless browser, în acest caz phantom.js. Soluția permite configurarea

    unor fișiere care conțin un script ce trimite cereri de tip asincron către serverul Web prin intermediul

    browserului. Conținutul răspunsurilor trimise asincron de către server sunt stocate, parsate și copiate

    în fișiere de tip .csv. În funcție de natura și cantitatea de elemente dinamice dintr-un site Web, o sesiune

    de web scraping poate dura între câteva minute și o oră, un factor vital aici fiind prezența unei conexiuni

    la rețeaua INTERNET de ordinul zecilor de Mbps.

    Pe lângă soluția Robot Framework au fost explorate și alte tehnologii, expuse în Tabelul 1, unde au fost

    sintetizate principalele avantaje și dezavantaje.

  • 7

    Tabelul 1. Soluții pentru colectarea automată a datelor de pe site-urile Web

    Nr.

    Crt.

    Nume Avantaje Dezavantaje

    1 Robot Framework FOSS – gratuitate/modificabilă.

    Utilizată și dezvoltată de CBS

    Netherlands.

    Relativ ușor de utilizat.

    Extensibilitate.

    Nu este utilizabil în sensul ”out-of-the-

    box” sau ”la cheie”.

    FOSS - eventualele erori generate de

    utilizarea produsului software nu atrag

    răspunderea dezvoltatorilor pentru

    rezultatele obținute.

    Nu este o aplicație ”matură”, testată de

    un număr mare de utilizatori.

    2 Scrapy Framework FOSS – gratuitate/modificabilă.

    Extensibilitate ridicată. Este un

    framework matur cu o

    multitudine de biblioteci

    software pe post de plug-inuri.

    Scalabilitate.

    Necesită cunoștințe medii spre avansate

    de programare în limbajul Python.

    Scalabilitatea impune resurse hardware

    adecvate.

    Curbă de învățare abruptă.

    3 Apache Nutch Framework matur.

    Orientat Big Data.

    Curbă de învățare abruptă.

    Necesită încorporarea mai multor

    tehnologii de prelucrare a Big Data

    (Hadoop, MapReduce, Solr, Spark).

    4 Rvest Bibliotecă R.

    Ușor de utilizat.

    Integrarea rezultatelor in R.

    Scalabilitate redusă.

    Destinat aplicatiilor de mici dimensiuni

    și familiarizării cu tehnicile de

    webscraping.

  • 8

    Lansarea unei sesiuni de Web scraping presupune, în general, următoarele etape:

    1. Instalarea Robot Framework.

    2. Instalarea node.js și a pachetelor dependente.

    3. Crearea din linia de comandă a sistemului de operare a unui template pentru script, prin intermediul

    unui fișier de tip batch disponibil în RobotFramework.

    3. Utilizarea unui editor de text pentru editarea scriptului.

    4. Rularea fișierului script din linia de comandă cu ajutorul unui fișier de tip batch.

    5. Verificarea rezultatelor din directorul în care sunt stocate fișierele .csv.

    Editarea unui fișier script presupune utilizarea informațiilor disponibile prin intermediul unei aplicații

    de tip developer tools, comune distribuțiilor majore de browsere Web (Chrome, Firefox, Edge), pentru

    identificarea adreselor elementelor de interes din structura unui document Web, precum și a

    eventualelor scripturi care pot interacționa cu respectivul element. Adresa unui element din cadrul unui

    document poate fi reprodusă în două moduri în cadrul fișierului script, primul fiind cu ajutorul

    selectorilor CSS și celălalt cu ajutorul selectorilor Xpath, diferența dintre cele două moduri este dată de

    faptul că al doilea poate introduce în adresă componente de conținut din cadrul elementului, astfel

    fiind mult mai precis. Adresele sunt furnizate unui set de proceduri care serializează procesul de

    navigare și parsare în cadrul site-urilor Web.

    Este demn de menționat că soluția RobotFramework are un grad înalt de configurare prin intermediul

    posibilității de introducere de proceduri specifice tehnologiei din spatele site-urilor, dovedindu-se în

    mâinile unui programator cu experiență o soluție de Web scraping scalabilă cerințelor unei organizații

    de mari dimensiuni.

    Rularea automată în paralel/serial a scripturilor se face cu ajutorul unui script batch. Momentan este

    necesară supravegherea procesului de colectare automată a prețurilor, ulterior în funcție de rezultatele

    obținute și de feed-back-ul părților interesate, vom încerca dezvoltarea unei soluții pentru verificarea

    integrității procesului de colectare și restartarea acestuia pentru scripturile care au generat un mesaj

    de eroare.

    Perioada de referință și înregistrare

    Colectarea automată a prețurilor observate pe site-urile din eșantion se efectuează într-una din zilele

    aferente decadelor 01-07, 10-17 și 20-27 ale fiecărei luni pentru mărfurile alimentare, respectiv 10-17

    pentru posturile aferente articolelor de îmbrăcăminte și încălțăminte.

  • 9

    IV. REZULTATE PRELIMINARII. Datorită complexității datelor extrase prin procesul de web scraping, i.e. date semi-structurate,

    descompunerea la nivel de componente de bază specifice nomenclatorului IPC este necesară pentru a

    ataca problema estimării unui indice experimental al prețurilor de consum din date online.

    Date semi-structurate

    Structura fișierelor descărcate urmează următorul tipar pentru grupa mărfurilor alimentare:

    ”nume” – variabila conține numele produsului, producătorul, cantitatea varietății si anumite detalii

    tehnico-calitatative. Exemplu: ” Drojdie uscata instant Coseli 7g” .

    ”preț” – variabila conține observații legate de prețul per unitatea de măsură sau prețul per bucată afișat

    pe pagina web corespunzător varietății. Exemplu: ” 083 Lei/bucata” sau ” 1990 Lei/kg”.

    ”sortiment”, ”tip”, ”categorie” – variabila conține detalii privind clasificarea varietății observate în

    diferite categorii, conform structurii site-ului.

    O captură a outputului fișierului care conține datele este realizată în figura 1.

    Figura 1. Fișier output date.

    Din alcătuirea outputului, se poate observa că datele sunt organizate conform structurii site-ului

    respectiv, în acest caz supermarketul generic, unde produsele alimentare considerate de bază ocupă

    primele poziții în structura ierarhică a site-ului. Varietățile sunt organizate pe categorii de produse în

  • 10

    funcție de denumirea acestora și a categoriei de nevoi pe care o deservesc. Corelarea poziției ierarhice

    a produsului pe site cu rata de modificare a prețului este o posibilă ipoteză de cercetare . Această

    ipoteză decurge în urma unor observații legate de funcțiile de sortare a varietăților pe site, spre

    exemplu: “cele mai populare”, ”cele mai vândute”, ”preț crescător”, ”preț descrescător”, care expun

    pentru varietățile ”cele mai populare”, produse a căror prețuri suferă variații de preț majore.

    Modalitatea, cea mai simplă, de a testa această ipoteză constă în colectarea a 20-30 de produse din

    categoria ”celor mai populare”, pe categoriile de produse de larg consum, cu o frecvență zilnică și

    modelarea statistico-econometrică a observațiilor.

    Variabila ”nume” conține, pe lângă denumirea varietății, informații despre cantitate și despre

    calitate. În acest caz observăm o structură similară în descrierea produselor plecând de la denumirea

    sortimentului, apoi către aspecte de ordin calitativ de genul materiilor prime utilizate în procesul de

    produție sau tehnici de producție, urmat de denumirea mărcii și cantitatea pusă la vânzare pentru acest

    tip de sortiment.

    O observație trivială legată de forma datelor este că acestea nu pot fi folosite direct sub această

    formă în procesul de clasificare și de estimare al indicilor preț. Pentru tratarea acestei probleme am

    dezvoltat o serie de proceduri R care permit aducerea la formă comună a datelor astfel încât să permită

    o manipulare flexibilă.

    Etape de obținere a indicelului experimental al prețurilor de consum

    Etapele se desfășoară secvențial, inputul de date pentru fiecare etapă depinzând de outputul

    etapei precedente, cu excepția primei etape al cărei input depinde de rezultatul colectării automate a

    datelor.

    În continuare, vor fi prezentate în detaliu activitățile desfășurate în cadrul fiecărei etape,

    întregul process fiind sintetizat în Figura.2.

  • 11

    Figura 2. Sesiune de scraping și prelucrare a datelor

    Robot Framework

    Mediul R

    Proceduri de calcul și

    clasficare

    Fișiere cu rezultate

  • 12

    Etapa 1. Introducere și curățare a datelor

    Această etapă presupune următoarele activități.

    Inputul activității: fișiere date prețuri.

    Activitatea de verificare a existenței fișierelor și a conținutului acestora prin intermediul căreia

    înregistrăm dacă există o corespondență de 1 la 1 între numărul de perioade decadale și numărul

    fișierelor prezente. De asemenea se inspectează conținutul acestora pentru a verifica integritatea

    tabelelor obținute prin procesul de webscraping. Verificăm prezența câmpurilor care să conțină numele

    varietăților, al prețurilor și al punctelor de observare. Această activitate are loc de obicei după

    încheierea procesului de webscraping și este realizată momentan manual. În cazul în care există

    elemente lipsă dintre cele enumerate procesul de webscraping se reia, cu mențiunea verificării

    accesibilități online a site-ului și a fișierelor de log ale aplicației de webscraping.

    Surse de erori identificate: site-ul este indisponibil, structura site-ului a suferit modificări, pipe-line-ul

    utilizat la web scraping este afectat de erori care nu sunt trate corespunzător.

    Outputul activității: fișiere cu date – prețuri online.

    Inputul activității: fișiere cu date - prețuri online.

    Activitatea de copiere a fișierelor obținute de la toate punctele de observare online la nivelul unei luni

    calendaristice într-un director separat care poate avea numele lunii calendaristice respective, sau ceva

    asemănător. Activitatea este realizată manual. Se poate automatiza printr-un script batch. În această

    etapă se verifică și consistența numelor fișierelor, astfel încât această să aibă o denumire implicită

    furnizată de către aplicația de webscraping, anume ”DATA_Nume_spider.csv”. ”DATA” este preluată de

    către webscraper din cadrul sistemului de operare, iar ”Nume_spider” din fișierul JSON de configurare

    al spider-ului.

    Surse de erori identificate: fișierul poate fi blocat la copiere deoarece respectivul bloc de memorie este

    accesat de către o altă aplicație.

    Outputul activății: Director de lucru R.

    Inputul activității: Director de lucru R.

    Activitatea de citire a datelor în mediul R presupune citirea secvențială a datelor din fișierele aflate în

    directorul din etapa precedentă prin intermediul metodelor puse la dispoziție de către mediul de

    programare R și transformarea acestora în structuri de date valide din punctul de vedere computational

    al R-ului. Activitatea se realizează prin intermediul unui script ad-hoc care citește fișierele dintr-un

    director de lucru în structuri de tip dataframe alocându-le un nume de tipul

  • 13

    ”Data(numeric)_Nume_punct_de_observare(caracter)” în funcție de punctul de observare. ”Data” este

    preluată din numele fișierului, iar ”Nume_punct_de_observare” este furnizat de către utilizator prin

    intermediul specifia unui vector de caractere unui parametru către funcția de citire, precizând că

    vectorul trebuie să conțină șiruri de caractere apropiate de ”Nume_spider” pentru identificarea și

    alocarea validă a numelor. Pentru o manipulare eficientă a structurilor de date, este recomandabilă

    alocarea unei structuri de tip listă care să conțină toate dataframe-urile.

    Surse de erori identificate: specificarea incorectă a elementelor din vectorul de caractere, utilizat

    pentru alocarea numelor, poate genera erori de citire, suprascrierea structurilor de date din cauza

    numelor de fișiere care pot conține aceeași dată calendaristică, incorect identificate drept valide la

    activitatea numărul 3, posibile erori generate de sistemul de fișiere al sistemului de operare (drepturi

    de citire, acces interzis la respectiva zonă de memorie utilizată de către alte aplicații).

    Outputul activității: Structuri de date R.

    Inputul activtității: Structuri de date R

    Activitatea de curățare a datelor presupune eliminarea elementelor care nu prezintă interes pentru

    etapele ulterioare, cum ar fi variabilele care conțin date de identificare a aplicației de webscraping, și

    transformarea corespunzătoare a celorlalte elemente în vederea calculului. Aici au fost dezvoltate o

    serie de scripturi R particularizate pentru fiecare punct de observare în parte ca urmare structurii

    specifice a informațiilor disponibile pe site-urile punctelor respective. Spre exemplu variabila preț poate

    fi înregistrată în două variabile denumite generic ”preț promoțional” și ”preț întreg” sau ”preț bucată”

    și ”preț cantitate standard”, fapt ce necesită identificarea și înlocuirea datelor aferente variabilelor din

    prima categorie cu date din variabila din cea de-a doua categorie prin intermediul unor comparații

    succesive. O altă posibilă tranformare este realizată pentru reprezentarea corectă a prețurilor din punct

    de vedere numeric, spre exemplu prin împărțirea la 100 a datelor culese de pe site-uri care conțin

    partea întreagă și partea fracțională a prețului în două elemente html diferite. Este posibilă realizarea

    acestei tranformări la nivelul aplicației de webscraping, dar am decis să păstrăm prelucrarea numerică

    a datelor integral în mediul R. Tot în cadrul acestei activități se realizează eliminarea observațiilor

    duplicate. Duplicarea observațiilor este un fenomen destul de des întâlnit în utilizarea actualei aplicații

    de webscraping si are loc datorită restartării periodice a clientului web (phantomjs) din motive de

    asigurare a stabilității. În momentul în care survine restartul aplicația trimite către client ultima cerere

    realizată înainte de restart indiferent dacă aceasta a primit sau nu un răspuns din partea serverului web.

    Surse de erori identificate: Erori logice de parsare a șirurilor de caractere din cauza unor reguli mult

    prea restrictive, spre exemplu eliminarea unor observații care au aceeași valoare la nume, dar au prețuri

    diferite.

    Outputul activității: Structuri de date R pregătite pentru calculul indicelului experimental al prețurilor

    de consum observate online.

  • 14

    Inputul activității: Structuri de date R pregătite pentru dezvoltarea de statistici experimentale

    Activitatea de codificare manuală/automată a produselor conform nomenclatorului IPC presupune

    identificarea observațiilor care, în baza variabilei ”nume”, se apropie de descrierea furnizată în cadrul

    nomenclatorului. Aceasta activitate poate genera erori a căror propagare se poate resimți semnificativ

    în calitatea rezultatelor finale. Principul de la care s-a pornit, în lipsa unei experiențe anterioare în lucrul

    cu aspecte metodologice de selecție a varietăților unui sortiment, a fost utilizarea unui mod de gândire

    bazat pe ipoteza conform căreia consumatorul va alege un produs sau mai multe produse substituibile

    celui prezent în nomenclator într-o limită de preț rezonabilă (

  • 15

    Surse de erori: activitatea manuală de codificare a prețurilor este repetitivă, datele fiind expuse unor

    prelucrări eronate din cauze subiective.

    Outputul activității: Structură de date care conține toate perioadele observate, cu observațiile

    codificate conform nomenclatorului IPC.

    Inputul activității: Structură de date care conține observații codificate conform nomenclatorului IPC.

    Abordarea metodologică pentru estimarea unor statistici experimentale, propusă spre explorare,

    presupune o etapă de calcul a indicilor elementari de preț la nivel de varietate, sortiment, post și grupă

    de cheltuieli agregate, finalmente, într-un indice statistic experimental, dar care să permită retenția

    anumitor proprietăți a indicilor statistici consacrați în acest domeniu statistic, asigurând astfel un punct

    de referință relativ la criteriul comparabilității dintre cei doi tipi de indici (Figura.3.). O posibilă rută

    exploratorie, presupune ca inițial să se calculeaze medii aritmetice la nivel de varietate pentru fiecare

    lună și punct de observare. Rezultatul obținut se împarte la mediile obținute pentru fiecare varietate în

    parte. Se obțin astfel indicii elementari de preț la nivel de varietate. Pentru calcularea indicilor la nivel

    de sortiment poate fi necesară restrângerea numărului de varietăți din cadrul aceluiași punct de

    observare. O posibilă soluție poate fi utilizarea unei medii geometrice pentru agregarea rezultatului sub

    forma unei varietăți generice specifică punctului respectiv de observare

  • 16

    Figura.3. Etapele1 proiectului de dezvoltare a unor statistici experimentale în baza surselor de date alternative.

    1 Pentru descrierea și reprezentarea grafică a etapelor a fost utilizat drept reper standardul GSBPM 5.0 referitor la descriere al fazelor și sub-proceselor aferente procesului de producție statistică.

    Specificarea cerințelor

    proiectuluiProiectare Execuție Culegerea datelor Procesarea datelor

    Prezentarea rezultatelor

    Reducerea costurilor de

    producție statistică.

    Elaborarea metodologiei de

    calcul a statisticilor

    experimentale.

    Dezvoltarea unor abordări tehnice

    pretabile statisticilor

    experimentale.

    Selecția magazinelor online.

    Calcularea statisticii experimentale.

    Redactarea rapoartelor de

    activitate.

    Creșterea promptitudinii

    Creșterea disponibilității

    datelor prin utilizarea unor

    tehnici și procese de colectare automată a datelor din

    online.

    Adaptarea și încorporarea soluțiilor și

    bunelor practici internaționale în specificul activ

    ităților proiectului.

    Implementarea procedurii de

    colectare a datelor în cadrul unei

    arhitecturi software de tip open source.

    Îmbunătățirea timpilor de estimare

    a statisticilor consacrate prin

    utilizarea statisticilor experimentale.

    Punerea la dispoziție către

    direcțiile interesate a

    întregii arhitecturi a proiectului și suport tehnic.

  • 17

    V. LIMITĂRI .CONCLUZII PRELIMINARE. Au fost identificate următoarele limitări, care pot deveni ipoteze de cercetare exploratorie în aria de

    cunoaștere a noilor surse de date raportată, momentan, la indici și indicatori statistici consacrați:

    •Ipoteza de generalizare a achiziționării de bunuri și servicii destinate consumului de către gospodării

    prin intermediul tranzacțiilor online. Numărul gospodăriilor care achiziționează un produs prin

    intermediul canalelor online este relativ mic, și depinde în general de o serie de factori precum poziția

    geografică, nivelul veniturilor, nivelul educației, etc.

    •Nu toate firmele, cu un volum al tranzacțiilor semnificativ pentru includerea în cadrul unităților de

    observare, dețin un site Web.

    •Tehnologia IT poate avea un impact semnificativ asupra variației prețurilor. Un exemplu în acest sens

    poate fi discriminarea bazată pe poziția geografică a unui utilizator în momentul în care sunt afișate

    prețurile pe un anumit site.

    În baza rezultatelor obținute și a potențialului metodei de colectare de a fi extinsă și asupra altor

    cercetări de interes pentru statistica oficială sunt formulate următoarele concluzii preliminare:

    Concluzia 1: Continuarea derulării proiectului Big Data de explorare a potențialului de utilizare a unor

    surse de date alternative în vederea dezvoltării unor statistici experimentale. În cadrul proiectului un

    obiectiv esențial este dezvoltarea unei metodologii noi. Secundar se poate dezvolta un nomenclator

    separat de produse și servicii specific observațiilor din online, pe baza unor măsurători, precum

    longevitatea anumitor produse și servicii în oferta online și o serie de meta-date aferente produselor și

    serviciilor respective (spre exemplu, analiza interacțiunii online pe bază de comentarii/recenzii a

    cumpărătorilor cu mărcile respective și magazinul online).

    Concluzia 2: Este necesară dezvoltarea unei politici și a unor proceduri operaționale pentru colectarea

    și utilizarea datelor colectate automat din pagini Web ca surse de date alternative.

    Concluzia 3: Este necesară constituirea unui grup/comitet de coordonare, supraveghere și evaluare a

    utilizării datelor colectate prin intermediul metodelor noi pentru asigurarea respectării principiilor

    statisticii oficiale și a legislației în vigoare. Aspectele ce țin de coordonarea utilizării datelor pot fi

    exprimate în termeni de dezvoltare de noi metodologii și tipuri de indicatori statistici relevanți și

    eficienți din punct de vedere al costurilor pentru diferite categorii de utilizatori interni și externi.

  • 18

    BIBLIOGRAFIE 1. Institutul Național de Statistică. 2018. Metodologia anchetei Indicelui prețurilor de consum. Disponibil

    la: http://colectaredate.insse.ro/metadata/viewStatisticalResearch.htm?locale=ro&researchId=4807

    2. Institutul Național de Statistică. 2018.Nomenclatorul mărfurilor și serviciilor utilizate în indicelui

    prețurilor de consum. Disponibil la:

    http://colectaredate.insse.ro/metadata/viewStatisticalResearch.htm?locale=ro&researchId=4807

    3. Biroul Internațional al Muncii. 2004. Consumer price index manual.Disponibil la:

    https://www.ilo.org/wcmsp5/groups/public/---dgreports/---

    stat/documents/presentation/wcms_331153.pdf

    4. Organizația Națiunilor Unite 2009. Practical Guide to Producing Consumer Price Indices. Disponibil la:

    https://www.unece.org/fileadmin/DAM/stats/publications/Practical_Guide_to_Producing_CPI.pdf

    5. CBS Netherlands. 2016. RobotFramework. Disponibil la:

    http://research.cbs.nl/Projects/RobotFramework/index.html

    6. The R Foundation. 2018.R Disponibil la: https://cloud.r-project.org/

    7. Organizația Națiunilor Unite, 2018. GSBPM. Disponibil la:

    https://statswiki.unece.org/display/GSBPM/GSBPM+v5.0

    http://colectaredate.insse.ro/metadata/viewStatisticalResearch.htm?locale=ro&researchId=4807http://colectaredate.insse.ro/metadata/viewStatisticalResearch.htm?locale=ro&researchId=4807https://www.ilo.org/wcmsp5/groups/public/---dgreports/---stat/documents/presentation/wcms_331153.pdfhttps://www.ilo.org/wcmsp5/groups/public/---dgreports/---stat/documents/presentation/wcms_331153.pdfhttps://www.unece.org/fileadmin/DAM/stats/publications/Practical_Guide_to_Producing_CPI.pdfhttp://research.cbs.nl/Projects/RobotFramework/index.htmlhttps://cloud.r-project.org/https://statswiki.unece.org/display/GSBPM/GSBPM+v5.0

Recommended