Importējiet datus no PDF uz Excel, izmantojot Power Query

Uzdevums pārsūtīt datus no izklājlapas PDF failā uz Microsoft Excel lapu vienmēr ir “jautri”. It īpaši, ja jums nav dārgas atpazīšanas programmatūras, piemēram, FineReader vai kaut kas tamlīdzīgs. Tiešā kopēšana parasti ne pie kā laba nenoved, jo. pēc kopēto datu ielīmēšanas lapā tie, visticamāk, “salips kopā” vienā kolonnā. Tāpēc tie būs rūpīgi jāatdala, izmantojot instrumentu Teksts pa kolonnām no cilnes Datums (Dati — teksts uz kolonnām).

Un, protams, kopēšana ir iespējama tikai tiem PDF failiem, kur ir teksta slānis, proti, ar dokumentu, kas tikko noskenēts no papīra uz PDF, tas principā nedarbosies.

Bet tas tiešām nav tik skumji 🙂

Ja jums ir Office 2013 vai 2016, tad pāris minūšu laikā bez papildu programmām ir pilnīgi iespējams pārsūtīt datus no PDF uz Microsoft Excel. Un Word un Power Query mums palīdzēs šajā jautājumā.

Piemēram, ņemsim šo PDF ziņojumu ar tekstu, formulām un tabulām no Eiropas Ekonomikas komisijas tīmekļa vietnes:

Importējiet datus no PDF uz Excel, izmantojot Power Query

... un mēģiniet to izņemt programmā Excel, sakiet pirmo tabulu:

Importējiet datus no PDF uz Excel, izmantojot Power Query

Ejam!

1. darbība. Atveriet PDF programmā Word

Nez kāpēc zina retais, taču kopš 2013. gada Microsoft Word ir iemācījies atvērt un atpazīt PDF failus (pat skenētos, tas ir, bez teksta slāņa!). Tas tiek darīts pilnīgi standarta veidā: atveriet Word, noklikšķiniet Fails - Atvērt (Fails — atvērts) un loga apakšējā labajā stūrī esošajā nolaižamajā sarakstā norādiet PDF formātu.

Pēc tam atlasiet vajadzīgo PDF failu un noklikšķiniet uz atvērts (Atvērts). Word mums norāda, ka šajā dokumentā tiks palaists OCR, lai nosūtītu tekstu:

Importējiet datus no PDF uz Excel, izmantojot Power Query

Mēs piekrītam, un pēc dažām sekundēm mēs redzēsim, ka mūsu PDF ir atvērts rediģēšanai programmā Word:

Importējiet datus no PDF uz Excel, izmantojot Power Query

Protams, dizains, stili, fonti, galvenes un kājenes utt. daļēji izlidos no dokumenta, taču mums tas nav svarīgi – mums ir nepieciešami tikai dati no tabulām. Principā šajā posmā jau ir vilinoši vienkārši kopēt tabulu no atpazītā dokumenta programmā Word un vienkārši ielīmēt to programmā Excel. Reizēm tas izdodas, bet biežāk noved pie visādiem datu kropļojumiem – piemēram, skaitļi var pārvērsties datumos vai palikt tekstā, kā mūsu gadījumā, jo. PDF izmanto neatdalītājus:

Importējiet datus no PDF uz Excel, izmantojot Power Query

Tāpēc negriezīsim stūrus, bet padarīsim visu nedaudz sarežģītāku, bet pareizi.

2. darbība. Saglabājiet dokumentu kā tīmekļa lapu

Lai pēc tam ielādētu saņemtos datus programmā Excel (izmantojot Power Query), mūsu dokuments programmā Word ir jāsaglabā tīmekļa lapas formātā – šis formāts šajā gadījumā ir sava veida kopsaucējs starp Word un Excel.

Lai to izdarītu, dodieties uz izvēlni Fails - Saglabāt kā (Fails — Saglabāt kā) vai nospiediet taustiņu F12 uz tastatūras un atvērtajā logā atlasiet faila veidu Web lapa vienā failā (Tīmekļa lapa — viens fails):

Importējiet datus no PDF uz Excel, izmantojot Power Query

Pēc saglabāšanas jums vajadzētu iegūt failu ar mhtml paplašinājumu (ja programmā Explorer redzat faila paplašinājumus).

3. posms. Faila augšupielāde programmā Excel, izmantojot Power Query

Izveidoto MHTML failu var atvērt tieši programmā Excel, bet tad mēs, pirmkārt, iegūsim visu PDF saturu uzreiz kopā ar tekstu un kaudzi nevajadzīgu tabulu, un, otrkārt, mēs atkal zaudēsim datus nepareizas darbības dēļ. atdalītāji. Tāpēc mēs veiksim importēšanu programmā Excel, izmantojot Power Query pievienojumprogrammu. Šis ir pilnīgi bezmaksas papildinājums, ar kuru jūs varat augšupielādēt datus programmā Excel gandrīz no jebkura avota (failiem, mapēm, datu bāzēm, ERP sistēmām) un pēc tam visos iespējamos veidos pārveidot saņemtos datus, piešķirot tiem vēlamo formu.

Ja jums ir Excel 2010-2013, varat lejupielādēt Power Query no oficiālās Microsoft vietnes - pēc instalēšanas jūs redzēsit cilni Jaudas vaicājums. Ja jums ir Excel 2016 vai jaunāka versija, jums nekas nav jālejupielādē — visa funkcionalitāte jau ir iebūvēta programmā Excel pēc noklusējuma un atrodas cilnē Datums (Datums) grupā Lejupielādēt un konvertēt (Iegūt un pārveidot).

Tātad mēs ejam vai nu uz cilni Datums, vai cilnē Jaudas vaicājums un izvēlieties komandu Lai iegūtu datus or Izveidot vaicājumu - no faila - no XML. Lai padarītu redzamus ne tikai XML failus, loga apakšējā labajā stūrī esošajā nolaižamajā sarakstā mainiet filtrus uz Visi faili (Visi faili) un norādiet mūsu MHTML failu:

Importējiet datus no PDF uz Excel, izmantojot Power Query

Lūdzu, ņemiet vērā, ka importēšana netiks veiksmīgi pabeigta, jo. Power Query no mums sagaida XML, bet patiesībā mums ir HTML formāts. Tāpēc nākamajā parādītajā logā jums ar peles labo pogu jānoklikšķina uz Power Query nesaprotamā faila un jānorāda tā formāts:

Importējiet datus no PDF uz Excel, izmantojot Power Query

Pēc tam fails tiks pareizi atpazīts, un mēs redzēsim visu tajā esošo tabulu sarakstu:

Importējiet datus no PDF uz Excel, izmantojot Power Query

Tabulu saturu var apskatīt, noklikšķinot ar peles kreiso taustiņu uz kolonnas Datu šūnu baltā fona (nevis uz vārda Tabula!).

Kad vēlamā tabula ir definēta, noklikšķiniet uz zaļā vārda Tabula – un jūs "iekrītat" tā saturā:

Importējiet datus no PDF uz Excel, izmantojot Power Query

Atliek veikt dažas vienkāršas darbības, lai “ķemmētu” tā saturu, proti:

  1. izdzēsiet nevajadzīgās kolonnas (ar peles labo pogu noklikšķiniet uz kolonnas galvenes - Izņemt)
  2. aizstāt punktus ar komatiem (atlasiet kolonnas, ar peles labo pogu noklikšķiniet - Vērtību aizstāšana)
  3. noņemiet vienādības zīmes galvenē (atlasiet kolonnas, ar peles labo pogu noklikšķiniet - Vērtību aizstāšana)
  4. noņemiet augšējo līniju (Sākumlapa – Dzēst rindas – Dzēst augšējās līnijas)
  5. noņemiet tukšās rindas (Sākums – Dzēst rindas – Dzēst tukšas rindas)
  6. paceliet pirmo rindu uz tabulas galveni (Sākums — izmantojiet pirmo rindiņu kā virsrakstus)
  7. filtrējiet nevajadzīgos datus, izmantojot filtru

Kad tabula ir atjaunota normālā formā, to var izlādēt uz lapas ar komandu aizveriet un lejupielādējiet (Aizvērt un ielādēt) on Galvenais cilne. Un mēs iegūsim tādu skaistumu, ar kuru jau varam strādāt:

Importējiet datus no PDF uz Excel, izmantojot Power Query

  • Kolonnas pārveidošana par tabulu, izmantojot Power Query
  • Līmējoša teksta sadalīšana kolonnās

Atstāj atbildi