Uvezite podatke iz PDF-a u Excel putem Power Queryja

Zadatak prijenosa podataka iz proračunske tablice u PDF datoteci na Microsoft Excel list uvijek je "zabavan". Pogotovo ako nemate skupi softver za prepoznavanje kao što je FineReader ili nešto slično. Izravno kopiranje obično ne vodi ničemu dobrom, jer. nakon što kopirane podatke zalijepite na list, oni će se najvjerojatnije "zalijepiti" u jedan stupac. Tako da će se onda morati mukotrpno odvojiti pomoću alata Tekst po stupcima s kartice Datum (Podaci — tekst u stupce).

I naravno, kopiranje je moguće samo za one PDF datoteke gdje postoji tekstualni sloj, tj. kod dokumenta koji je tek skeniran s papira u PDF to u principu neće raditi.

Ali nije tako tužno, stvarno 🙂

Ako imate Office 2013 ili 2016, tada je za nekoliko minuta, bez dodatnih programa, sasvim moguće prenijeti podatke iz PDF-a u Microsoft Excel. A u tome će nam pomoći Word i Power Query.

Za primjer, uzmimo ovo PDF izvješće s hrpom teksta, formula i tablica s web stranice Ekonomske komisije za Europu:

Uvezite podatke iz PDF-a u Excel putem Power Queryja

... i pokušajte izvući iz nje u Excelu, recimo prvu tablicu:

Uvezite podatke iz PDF-a u Excel putem Power Queryja

Idemo!

Korak 1. Otvorite PDF u Wordu

Iz nekog razloga, malo ljudi zna, ali od 2013. Microsoft Word je naučio otvarati i prepoznavati PDF datoteke (čak i one skenirane, to jest, bez sloja teksta!). To se radi na potpuno standardan način: otvorite Word, kliknite Datoteka – Otvori (Datoteka — Otvori) i odredite PDF format na padajućem popisu u donjem desnom kutu prozora.

Zatim odaberite PDF datoteku koja nam je potrebna i kliknite Otvoren (Otvorena). Word nam govori da će pokrenuti OCR na ovom dokumentu u tekst:

Uvezite podatke iz PDF-a u Excel putem Power Queryja

Slažemo se i za nekoliko sekundi vidjet ćemo naš PDF otvoren za uređivanje već u Wordu:

Uvezite podatke iz PDF-a u Excel putem Power Queryja

Naravno, dizajn, stilovi, fontovi, zaglavlja i podnožja itd. djelomično će odletjeti s dokumenta, ali to nam nije važno - potrebni su nam samo podaci iz tablica. U principu, u ovoj fazi već je primamljivo jednostavno kopirati tablicu iz prepoznatog dokumenta u Word i jednostavno je zalijepiti u Excel. Ponekad radi, ali češće dovodi do svih vrsta iskrivljenja podataka - na primjer, brojevi se mogu pretvoriti u datume ili ostati tekst, kao u našem slučaju, jer. PDF koristi nerazdjelnike:

Uvezite podatke iz PDF-a u Excel putem Power Queryja

Dakle, nemojmo rezati, nego učiniti sve malo kompliciranijim, ali kako treba.

Korak 2: Spremite dokument kao web stranicu

Da bismo primljene podatke potom učitali u Excel (putem Power Queryja), naš dokument u Wordu potrebno je spremiti u format web stranice – taj format je u ovom slučaju svojevrsni zajednički nazivnik Worda i Excela.

Da biste to učinili, idite na izbornik Datoteka – Spremi kao (Datoteka — Spremi kao) ili pritisnite tipku F12 na tipkovnici iu prozoru koji se otvori odaberite vrstu datoteke Web stranica u jednoj datoteci (Web stranica — jedna datoteka):

Uvezite podatke iz PDF-a u Excel putem Power Queryja

Nakon spremanja trebali biste dobiti datoteku s ekstenzijom mhtml (ako u Exploreru vidite ekstenzije datoteka).

Faza 3. Prijenos datoteke u Excel putem Power Queryja

Stvorenu MHTML datoteku možete otvoriti izravno u Excelu, ali tada ćemo dobiti, prvo, sav sadržaj PDF-a odjednom, zajedno s tekstom i hrpom nepotrebnih tablica, a drugo, opet ćemo izgubiti podatke zbog netočnih separatori. Stoga ćemo uvoz u Excel obaviti preko dodatka Power Query. Ovo je potpuno besplatan dodatak s kojim možete uploadati podatke u Excel iz gotovo bilo kojeg izvora (datoteke, mape, baze podataka, ERP sustavi) i zatim transformirati primljene podatke na sve moguće načine, dajući im željeni oblik.

Ako imate Excel 2010-2013, Power Query možete preuzeti sa službene Microsoftove web stranice – nakon instalacije vidjet ćete karticu Upit snage. Ako imate Excel 2016 ili noviji, tada ne morate ništa preuzimati – sve su funkcionalnosti već ugrađene u Excel prema zadanim postavkama i nalaze se na kartici Datum (Datum) u grupi Preuzmite i pretvorite (Dohvati i transformiraj).

Dakle, idemo ili na karticu Datum, ili na kartici Upit snage i odaberite tim Da biste dobili podatke or Stvorite upit – iz datoteke – iz XML-a. Kako biste učinili vidljivim ne samo XML datoteke, promijenite filtre na padajućem popisu u donjem desnom kutu prozora na Sve datoteke (Sve datoteke) i navedite našu MHTML datoteku:

Uvezite podatke iz PDF-a u Excel putem Power Queryja

Imajte na umu da se uvoz neće uspješno dovršiti jer. Power Query od nas očekuje XML, ali mi zapravo imamo HTML format. Stoga ćete u sljedećem prozoru koji se pojavi morati desnom tipkom miša kliknuti datoteku koju Power Query ne razumije i odrediti njezin format:

Uvezite podatke iz PDF-a u Excel putem Power Queryja

Nakon toga datoteka će biti ispravno prepoznata i vidjet ćemo popis svih tablica koje sadrži:

Uvezite podatke iz PDF-a u Excel putem Power Queryja

Sadržaj tablica možete pregledati klikom lijeve tipke miša na bijelu pozadinu (ne u riječi Tablica!) ćelija u stupcu Podaci.

Kada je željena tablica definirana kliknite na zelenu riječ Stol – i “upadate” u njegov sadržaj:

Uvezite podatke iz PDF-a u Excel putem Power Queryja

Ostaje napraviti nekoliko jednostavnih koraka za "pročešljavanje" njegovog sadržaja, naime:

  1. izbrišite nepotrebne stupce (desni klik na zaglavlje stupca – ukloniti)
  2. zamijenite točke zarezima (odaberite stupce, desni klik – Zamjena vrijednosti)
  3. uklonite znakove jednakosti u zaglavlju (odaberite stupce, desni klik – Zamjena vrijednosti)
  4. uklonite gornju liniju (Naslovna – Izbriši retke – Izbriši gornje retke)
  5. uklonite prazne retke (Početna – Izbriši retke – Izbriši prazne retke)
  6. podignite prvi red do zaglavlja tablice (Početna – Koristite prvi redak kao naslove)
  7. filtrirajte nepotrebne podatke pomoću filtera

Kada se tablica dovede u svoj normalni oblik, naredbom se može iskrcati na list zatvorite i preuzmite (Zatvori i učitaj) on Glavni tab. I dobit ćemo takvu ljepotu s kojom već možemo raditi:

Uvezite podatke iz PDF-a u Excel putem Power Queryja

  • Pretvaranje stupca u tablicu pomoću Power Queryja
  • Dijeljenje ljepljivog teksta u stupce

Ostavi odgovor