Statisticienët kanë shpikur disa mënyra të manipulimit të të dhënave, që të ndihmojnë për të kuptuar ecurinë e një ngjarjeje, fjala vjen ecurinë e pandemisë COVID-19. Ky blog shpjegon disa nga teknikat më elementare të analizës statistikore.
Shqipëria numëroi 712 raste të infektimit me koronavirusin e ri, i cili shkakton sëmundjen COVID-19 të dielën, ndërsa numri i rasteve të reja ishte 34. Në njoftimet e përditshme, Instituti i Shëndetit Publik paraqet disa grafikë, komentet mbi të cilat janë në vijimësi pozitive. Në deklaratën e së shtunës, ISHP deklaroi se: “edhe pse ka një numër të lartë të rasteve sot, pjesa më e madhe janë asimptomatikë”.
Të Enjten më 23 Prill, kur 29 raste të reja u identifikuan, ISHP komentoi: “edhe pse ka një rritje të numrit të rasteve sot, ato janë të lokalizuara në dy vatra”.
Leximi dhe interpretimi i shifrave të COVID-19 duket se ka shtyrë median në vende të ndryshme të zbatojë në lajme teknika gjithnjë e më të komplikuara të fushës së statistikës, të cilat zakonisht kanë qenë të kufizuara në qarqet e botës akademike apo institucioneve shkencore.
Më poshtë po japim një numër teknikash të analizës statistikore deskriptive me shembuj nga ecuria e pandemisë së koronavirusit në Shqipëri. (Quhet statistikë deskriptive sepse, siç thotë emri, përshkruan të dhëna në mënyrë vizuale).
Grafiku 1 paraqet ecurinë e rasteve të reja të identifikuara (kolona djathtas) dhe numrit total të rasteve deri më sot (kolona majtas).
Në pamje të parë, numri i rasteve të reja duket se ka shënuar një nivel të lartë më 26 mars dhe 4 prill, për të rënë menjëherë nga java e dytë e prillit, nga ku kurba nis ngjitjen sërish.
Statisticienët kanë zbuluar disa mënyra të tjera për ta bërë grafikun më të lexueshëm. Grafiku më poshtë paraqet të njëjtat të dhëna me grafikun e parë, por të vendosura në shkallë logaritmike.
Siç shihet, linja blu që paraqet numrin e rasteve në total pëson një rritje të shpejtë mes datave 9 dhe 15 mars, para se pjerrtësia të reduktohet ndjeshëm nga fillimi i muajit prill. Statisticienët përdorin logaritmin në grafik, sepse ai paraqet jo vetëm tendencën, por edhe ecurinë në përqindje. Me një fjalë, nëse shihni logaritmin e datës 25 prill dhe atë të 24 prillit, diferenca mes tyre tregon se të 34 rastet e reja të 25 prillit përbëjnë një rritje në masën 4.8% kundrejt numrit të të infektuarve në datë 24.
Ky grafik sugjeron se tendenca e përgjithshme e rasteve të reja është i stabilizuar dhe se rritja e vërejtur gjatë javës së fundit, nuk duket se përbën një ndryshim të rëndësishëm.
Në Itali dhe në Nju Jork, dy nga vendet më të prekura në planet nga koronavirusi, gjatë javës së fundit të marsit, diskutimi kryesor ishte nëse është shënuar apo jo piku i infektimeve, ose dita apo java kur numri i infektimeve të identifikuara shënon kulmin para se të fillojë të bjerë. Problemi ishte se shifrat e infektimeve dhe të të vdekurve patën disa ditë luhatje. Grafiku me shumë luhatje ishte i vështirë për t’u lexuar. Statisticienët përdorën një mjet tjetër për të lexuar grafikët me luhatje të madhe. Kjo quhet mesatarja lëvizëse. Mesatarja lëvizëse llogarit mesataren e disa ditëve, fjala vjen, shtatë ditëve, apo 30 ditëve apo 365 ditëve dhe përdoret nga statisticienët për të kuptuar një realitet përmes eliminimit të një fenomeni stinor, apo sezonal apo javor. The New York Times përdori mesataren shtatëditore për të eliminuar fluktuacionet ditore dhe rrjedhimisht, për të parë nëse në numrin e rasteve të reja, ishte shënuar apo jo një pik. [Link]
Siç shihet në grafik me të dhënat e Shqipërisë, mesatarja 7-ditore e rasteve duket sikur ka shënuar pikun në datën 6 prill, për të rënë ndjeshëm në javët në vijim, por është rritur sërish në nivele edhe më të larta deri më 25 prill. Me pak fjalë, nëse përdorim teknikën e mesatares lëvizëse për të parë nëse Shqipëria e ka kaluar apo jo pikun, përgjigjja është se kjo teknikë tregon dy situata piku në Shqipëri, njëra në javën e parë të prillit dhe e dyta, në javën e tretë. Dikush mund të thotë se ky kulm i dytë në numrin e rasteve të reja të konfirmuara tregon dështim të autoriteteve për të ndaluar virusin pas kapërcimit të pikut të parë. Por çdokush që ka pak njohuri mbi statistikën, mund të thotë se shifrat e infeksionit në Shqipëri janë për fat të mirë në nivele shumë të ulëta dhe të tilla që nuk tregojnë diçka të rëndësishme përmes grafikëve, pavarësisht se cilën teknikë përdor për të manipuluar të dhënat. Fakti që piku i dytë i dedikohet në pjesën dërrmuesve vetëm një vatre, asaj të fasonerisë së Krujës që ka shkaktuar deri më tani mbi 100 të infektuar ose afro 15% të të gjitha rasteve të koronavirusit në Shqipëri, tregon se grafiku, me apo pa mesatare lëvizëse nuk ka fuqi të të informojë nëse problemi po përshkallëzohet në Shqipëri apo po vihet gradualisht nën kontroll. Një nga rregullat e statistikës është që statistika ka nevojë për numra të mëdhenj për të fituar fuqi shpjeguese dhe ky nuk është rasti i Shqipërisë.
Por nëse ndokush vret mendjen se për çfarë shkaqesh, Shqipëria u kursye nga goditja nga koronavirusi në krahasim me vende të tjera të prekura rëndë, përgjigjja duket se është se koronavirusi ka goditur një numër shumë të vogël vendesh dhe qytetesh në mënyrë të ashpër deri tani dhe se Shqipëria ka pasur fatin të jetë në listën e gjatë të vendeve, që nuk janë goditur njësoj si Italia, Spanja apo Nju Jorku.
Për shembull, agjencia Reuters ka grumbulluar të dhënat zyrtare për numrin e të prekurve dhe të të vdekurve në të 212 vendet dhe territoret ku ka depërtuar deri më sot koronavirusi. Shqipëria me 726 të prekur renditet në vend të 93-të, ndërsa 118 vende dhe territore janë më pak të prekura se sa Shqipëria. Shqipëria është gjithashtu një nga ato vende të botës që konsiderohet vend i vogël për nga numri i popullsisë dhe territori dhe në këtë kuptim, është vështirë që ta krahasosh numrin e të infektuarve në Shqipërinë me 2.8 milionë banorë me atë të Italisë me 60 milionë banorë.
Pandemia ka prekur deri tani mbi 2.9 milionë njerëz në të gjithë botën dhe ka shkaktuar mbi 200 mijë të vdekur. Koronavirusi i ri duket se ka qarkulluar në të gjithë botën përmes linjave të transportit të pasagjerëve dhe ka mbërritur më shpejt në ato vende që janë më të zhvilluara dhe rrjedhimisht, udhëtojnë më shumë, janë në qendër të lidhjeve ndërkombëtare të transportit ajror dhe rrjedhimisht kanë pasur shkallë më të lartë rreziku.
Agjencia Reuters ka zgjedhur edhe një mënyrë tjetër për të parë nëse infektimet në një vend po rriten apo po ngadalësohen. Grafiku paraqet të gjitha vendet nga ku Reuters ka grumbulluar të dhëna, përfshirë dhe Shqipërinë dhe paraqet numrin e të infektuarve në krahasim me tre skenarë hipotetikë të rritjes eksponenciale. Skenarët janë nëse, duke u nisur nga 100 raste, numri i të infektuarve dyfishohet brenda 3 ditësh, brenda 6 ditësh apo brenda 2 javëve. Siç dallohet [link], në SHBA, për afro një muaj me radhë, rastet e identifikuara u dyfishuan çdo tre ditë, ndërsa pas muajit të parë, ritmi i rritjes u ngadalësua. Një ecuri e ngjashme paraqitet në të gjitha grafikët e vendeve të mëdha të prekura si Italia, Gjermania etj. Grafiku për Shqipërinë tregon se numri i rasteve në Shqipëri nuk po dyfishohet as brenda 3 ditësh dhe as brenda gjashtë ditësh. Pas 100 rasteve të para, të shënuara në datën 23 Mars, u deshën 6 ditë që të arrihej në 200 dhe 10 ditë që të arrihej në 400. Gjasat janë që dyfishimi tjetër në 800 raste të arrihet pak ditë nga sot ose 20 ditë nga arritja e 400 të prekurve. Gjithsesi, rritja eksponenciale duket se nuk është një tregues shumë i mirë për rastet e vendeve me popullsi të vogël. Në një popullsi me 300 milionë banorë si SHBA, virusi ka më shumë hapësirë për t’u shpërndarë në krahasim me një popullsi prej 2.8 milionë banorësh.
Reuters jep gjithashtu edhe një paralajmërim sa i përket të dhënave të paraqitura në këto lloj grafikësh. Sipas saj, rastet e raportuara zyrtarisht nga vendet e ndryshme reflektojnë vetëm numrin e infektimeve të identifikuara, i cili, në shumë vende ka rezultuar më shumë produkt i kapaciteteve të këtyre vendeve për të bërë analizat diagnostikuese.
“Të dhënat e disponueshme për rastet e konfirmuara nuk paraqesin numrin e vërtetë të rasteve për shkak se aksesi në testime varion nga vendi në vend dhe shumë njerëz thjesht sa nuk kanë akses në testim,” shkruan Reuters.
A është ky rasti i Shqipërisë?
Të dhënat e Ministrisë së Shëndetësisë tregojnë se Shqipëria deri më sot ka bërë mesatarisht 152 testime në ditë. Numri më i lartë ditor i testimeve ka qenë 269 i shënuar më 16 Prill. Kapaciteti për të kryer testime është konsideruar si arma më e fuqishme e autoriteteve deri tani për të luftuar pandeminë. Nëse një person bartës i koronavirusit identifikohet sa më herët të jetë e mundur, ai ka mundësi të kujdeset për veten dhe të tjerët duke u vetëizoluar. Përndryshe, ai rrezikon të infektojë shumë të tjerë para se të mësojë se është bartës. Ëordometers.info ka publikuar të dhëna të detajuara për numrin e testimeve për milionë banorë. Shqipëria rezulton se ka bërë 2,500 testime për çdo milionë banorë. Fqinjët tanë kanë bërë më shumë. Greqia ka bërë 6200/m, Maqedonia 7300, Serbia 7400 apo Bosnja 7800. Numri i testimeve është në vetvete funksion i hetimit epidemiologjik, procesit që pason identifikimin e një rasti pozitiv, pra testimin e rasteve të kontakteve të këtij personi, duke filluar nga familjarët e duke vijuar me kontaktet që ka pasur në punë, në lagje apo më tutje me kontaktet rastësore. Grafikët nuk janë në gjendje të të tregojnë nëse hetimet epidemiologjike të kryera në vatra të ndryshme të koronavirusit në Shqipëri kanë qenë mjaftueshëm të thella dhe kanë përfshirë numrin e nevojshëm të analizave për të ndalur përhapjen e mëtejshme të virusit.
Numri i testimeve mundet ose jo të përcaktojë numrin e rasteve të konfirmuara. Nëse supozimi është që vendet që bëjnë më shumë teste mundet të identifikojnë më shumë bartës së koronavirusit, për shkak se testet i nënshtrohen vetëm parimeve të hetimit epidemiologjik, aftësia e epidemiologëve për të identifikuar rastet e mundshme përcakton shumë rezultatin. Në dy grafikët e mëposhtëm po paraqesim numrin ditor të testimeve (vija blu) dhe numrin ditor të rasteve të infeksionit (vija kafe) në numra absolutë në grafikun e parë dhe në shkallë logaritmike në grafikun e dytë. Në numra absolutë vërehet se numri mesatar i analizave të kryera është rritur në javët e para pas fillimit të pandemisë, ndërsa ka mbetur relativisht stabël, (rreth 250) gjatë javës së fundit. Kjo mosrritje e numrit të testimeve në periudhën mes 14 dhe 26 prillit vërehet më qartë në grafikun e dytë ku të dhënat janë paraqitur në shkallë logaritmike.
Ndryshe nga numri i testimeve që ka qëndruar relativisht stabël pas datës 14 Prill, numri i rasteve të reja është rritur ndjeshëm. Megjithatë, duket se hetimi epidemiologjik ka qenë më goditës në fillim të pandemisë. Grafiku i fundit që po ju japim, paraqet numrin e testimeve të kryera ditë pas dite për të identifikuar çdo rast me koronavirus nga 11 marsi deri më 26 prill. Mesatarisht është nevojitur kryerja e 12 testimeve për të identifikuar një rast me koronavirus, por kjo ka pasur një variacion të lartë. Në disa ditë, si 16, 22 apo 23 marsi, një në çdo tre testime ka prodhuar një rast pozitiv me koronavirus ndërsa në ditë të caktuara, autoritetet kanë kryer 30 analiza për të identifikuar 1 të prekur. Një luhatshmëri e tillë sugjeron se në disa ditë, autoritetet kanë qenë në gjendje të identifikojnë me saktësi shumë të madhe personat e kontaktit të një të prekuri, ndërsa në raste të tjera u është dashur të kryejnë shumë analiza për të gjetur pak raste.
Aktualisht në Shqipëri ka 255 persona të infektuar, (të shëruar apo në trajtim) për çdo një milionë banorë. Kjo është poshtë mesatares së botës, ndërsa në krahasim me vende të tjera të rajonit tonë, disa kanë shkallë të përhapjes së infeksionit më të lartë e disa më të ulët. Greqia numëron 241 të infektuar për milionë banorë, ndërsa Bullgaria 187. Vendet e tjera të rajonit janë prekur më shumë se sa ne. Në Serbi ka 920 raste për milionë, në Maqedoni 665/m apo në Kroaci ka 494 të prekur për milionë.
Në fund, ekonomistët kanë një shprehje sa i përket statistikave. “Nëse i torturon të dhënat mjaftueshëm, ato do të rrëfehen”. Por siç ndodh edhe në torturën reale, nëse i torturon me tepri, ka gjasa që të rrëfejnë atë çfarë analisti dëshiron të dëgjojë dhe jo çfarë me të vërtetë dinë.
Të dhënat e grafikëve mund të aksesohen në këtë file excel.