Digitalisering

En blogg om utmaningar och möjligheter med digitaliseringen inom samhällsplanering och samhällsbyggnad.

2.5 trillioner PDF-filer

3 oktober 2019

I december 2015 uppskattades mängden PDF-filer i världen till ca. 2.5 trillioner vilket är 2 500 000 miljoner PDF-dokument! Snart har det gått 4 år sedan denna uppskattning och inte lär det ha blivit färre PDF-filer i världen. Att lagra data i PDF-filer kan ofta ses som slutdestinationen för data och har därför blivit vår tids digitala papper. Jag har t.o.m. hört röster som tycker att data dör när man lagrar det som PDF. Visst kan det vara sant i mångt och mycket men det finns lösningar.

Vi på Sweco har på senare tid experimenterat med att extrahera data ut PDF-filer och även gamla CALS-filer över husritningar med stor framgång. Med hjälp av programvaran FME kan vi extrahera objekt ut ritningar såsom väggar, dörrar, fönster etc. samt även texter från både namnrutan och de texter som finns på själva ritningen. Sedan kan dessa informationer kopplas samman och lagras på det sätt som efterfrågas. T.ex. i en IFC-fil med space-objekt med rumsnummer/id m.m. eller varför inte populera en databas över tillgångar (assets) eller ytor för uthyrning. Data behöver inte stängas in i PDF-filer och dö.

Denna film visar på ett exempel på denna metodik.

Film – CALS raster till 3D

Med FME kan vi även automatisera extraherandet av information från PDF-filer. Att läsa information från 10 000 PDF-filer är lika lätt som att läsa samma information från 1 fil om de följer samma struktur. Om man måste skapa PDF-filer så kan FME:s styrka användas för att granska PDF-filerna utifrån krav på t.ex. namnrutor eller om de överensstämmer med t.ex. en Revit-, DWG- DGN-fil. Då det även går att schemalägga dessa moment så kan FME göra kvalitetssäkringsjobbet på natten eller varför inte när vi människor fikar. Varför göra något manuellt när det går att automatisera det?

Rädda det som räddas kan

PDF-formatet utvecklas fortfarande och det finns ett stort engagemang kring formatet. Det finns t.o.m. PDF-konferenser såsom PDF Days i Berlin i april 2020. Dock finns det mycket användbar data som ligger och slumrar i äldre format som det är hög tid att rädda innan det är försent. Mycket ritningssdata hamnar i CALS-formatet som utvecklades av USA:s försvarsdepartement för att elektroniskt lagra militär dokumentation och har samma komprimeringsteknik som faxen använde! PLT-formatet som utvecklas för att skriva ut på HP-plottrar och som använder Hewlett-Packard Graphics Language från 1977 var också i ropet tidigare. Har din organisation ett arkiv med CALS-filer, PLT-filer eller något annat gammalt format så tar jag gärna en diskussion om möjligheterna med att automatiskt extrahera information ur dem.


.

Författare: Gabriel Hirsch, affärsutvecklare och seniorkonsult
FME

gabriel.hirsch@sweco.se

Profilbild
Författare
Författaren ingår i Swecos team för geodata inom IT för samhällsutveckling

På sweco.se använder vi cookies för att webbplatsen ska fungera på ett bra sätt för dig. Vi lagrar ingen personlig data. Om du inte accepterar cookies kan du stänga av det via din webbläsare.