Data pipelineFarma & ZdravstvoWeb skrejpovanje
PMD
Platforma za prikupljanje podataka

O projektu
PMD automatizuje jedan od najfragmentisanijih problema prikupljanja podataka u farmaciji: skupljanje maksimalnih cena lekova i politika refundacije od regulatora širom desetina zemalja. Svaki izvor je strukturisan drugačije — PDF tabele, paginirani HTML, Excel fajlovi sa promenljivim layout-om — a rezultujući dataset mora biti ujednačen, pretraživ i spreman za reviziju.
Pipeline
Izgradili smo flotu country-specific scraper-a koji rade na zakazanom orkestratoru. Svaki scraper ekstraktuje izvorne podatke, normalizuje ih po zajedničkoj šemi, validira i objavljuje u verzionisani warehouse. Anomalije (nagli skokovi cena, fale stavke, promene formata regulatora) se flag-uju za ljudsku reviziju, ne odbacuju se tiho.
Teži problem je bio uskladiti identitete lekova kroz regione. Isti molekul može imati različita brendirana imena, doze i klase refundacije u različitim tržištima. To smo modelirali kao graf koji povezuje aktivne supstance sa lokalnim listingom, što omogućava korisnicima da query-uju na bilo kom nivou — molekul, brend ili regionalni SKU.
Rezultat
Ono što je bio kvartalni manuelni istraživački posao sada je kontinuirano osvežavan dataset. PMD je postao operativno kritičan za analitičke timove koji prate market access, strategiju cena i konkurentske analize na globalnoj skali.