Thursday, 28 October 2010

PDF-konvertering

Översättning av PDF-filer i CAT-program
This text is in Swedish, please use Google Translate!
Mitt CAT-program Studio kan enligt marknadsföringen klara av att "översätta PDF". Det är givetvis en grov överdrift. Testa gärna denna funktion och efter att ha konstaterat att det inte blir bra, återgå till de metoder jag anger här.
Den viktigaste regeln angående översättning av PDF är att aldrig någonsin acceptera "enbart PDF"! Det existerar nämligen inga dokument som *ursprungligen* har gjorts i PDF-format med Acrobat. Syftet med att använda PDF är att enkelt kunna hantera dokument som gjorts med komplicerade och dyra program.
Om du har bönat och bett, hotat, övertalat och väntat i veckor, men ändå inte kan få originalfilerna så finns det faktiskt vissa möjligheter att arbeta med PDF.
Det finns två typer av PDF; den bästa typen, text-PDF, är textbaserad och görs ur andra elektroniska dokument från desktop-program som InDesign eller FrameMaker, eller från Word-dokument, genom att skriva ut dokumentet som PDF. Den andra typen, bild-PDF, är inscannade pappersdokument som alltså är bilder av text. De här typerna av PDF kräver helt olika behandling och olika program för att kunna översättas. Om du vill veta vilken typ av PDF det är så prova att markera ett ord i texten eller söka efter ett ord med Acrobats sökfunktion. Om det inte går, så har du en bild-PDF. Notera att det förekommer dokument där båda typerna finns, så testa på lite olika ställen om det är ett långt dokument som du misstänker kan vara hopklippt av flera.
Konvertering av text-PDF
Jag beskriver den enklaste varianten först; för text-PDF behöver du bara ett bra konverteringsprogram. Jag har provat flera, och enligt min mening är Nuance PDF Converter Professional det bästa. Om man har lite tur kan man till och med få bilder och formatering att lite grann likna originalet! Men lova aldrig annat en "oformaterad text" om du åtar dig PDF-översättning. Allt annat är en bonus. PDF Converter klarar ganska bra att hålla ihop meningar (inga stycktetecken i meningarna) och klarar även spalter och tabeller hyfsat. Alla konverterade PDF kräver dock för- och efterbehandling och en noggrann jämförelse med originalet.
Förbehandlingen bör åtminstone bestå i att skumma igenom dokumentet med "visa P" aktiverat så att de osynliga tecknen för ny rad och nytt stycke visas. Ta bort alla stycketecken mitt i meningarna. Gå sedan igenom alla radbrytningstecken (ny rad). De måste nämligen hanteras olika; ifall de finns mitt i en mening ska de tas bort, ifall de kommer direkt efter en mening ska de ersättas med nytt stycke-tecken. Det är givetvis i sin ordning att debitera kunden 1-2 timmar per dokument för konvertering, förbehandling och efterbehandling.
Konvertering av bild-PDF
Vissa PDF-konverteringsprogram påstår sig klara alla typer av PDF, men det är tveksamt om de verkligen håller vad de lovar. För bild-PDF är det bästa att istället använda ett renodlat OCR-program (Optical Character Reading) som verkligen klarar av att tolka textbilder på ett bra sätt. OCR-programmen finns i olika prisklasser, jag har fastnat för ABBYY FineReader som inte är alltför dyrt men ändå ger ett förvånansvärt bra resultat.
Ett OCR-behandlat dokument kräver en hel del handarbete för att bli översättningsbart, även om man bara ska använda texten. Ifall du lägger in ett obehandlat OCR-dokument i ditt CAT-verktyg får du sannolikt en väldig massa onödiga taggar överallt. Det beror på att OCR-programmet försöker arbeta så noggrant som möjligt och tittar på teckenavstånd, olika storlekar och typsnitt. I vissa fall konverteras även åäö för sig och får ett annat typsnitt vilket ibland leder till att man får osynliga ordbrytningar mitt i orden. Det i sin tur gör ordräkningen i CAT-verktyget alltför stor, och eventuella hittar mot gamla TM försvagas.
Förbehandling av OCR-behandlad text
Det mest radikala är naturligtvis att spara hela dokumentet som ren text och sedan öppna som Word-dokument igen, då slipper man alla formateringsproblem, men dokumentet kan ju bli lite tråkigt, och alla bilder försvinner.
Ifall du vill försöka bevara formateringen och bilderna ungefär som i originalet kan du försöka med följande:
För Office Word 2007:
- Markera hela texten och välj Start/Tecken/Teckenavstånd, och gör följande inställningar
Skala 100 %
Avstånd Normal
Läge Normal
Kerning ta bort bocken
Ifall åäö ser annorlunda ut än de övriga bokstäverna så bör du också ställa in samma typsnitt för hela dokumentet (Arial). Det innebär nämligen att det i CAT-programmet blir en ordseparator före och efter varje åäö. Ibland syns detta inte i originalet utan kommer fram först när du lägger in texten i CAT-verktyget. Ett säkert tecken på att du har åäö-problem är om CAT-verktyget ger en avsevärt (30 %) högre ordräkning än Word. Små skillnader förekommer alltid i ordräkningen mellan Word och CAT-programmet.
Det kan givetvis ha vissa nackdelar att ha samma teckensitt i hela dokumentet, ifall man använt sig av detta för specialsymboler. Dessa måste i så fall återställas manuellt. Samma gäller om du väljer att även ha samma stilstorlek i hela dokumentet, vilket även minskar antalet taggar i CAT-verktyget.
Generell förbehandling
Även om du får dokumentet i originalformat i Word kan det finnas anledning att titta lite på det innan du lägger in dokumentet i CAT-programmet. Det händer nämligen att skribenterna inte använder sina verktyg på rätt sätt.
Vanliga konstigheter:
- Meningar har delats på rader med stycketecken eller ny rad
- Tabelluppställningar har gjorts genom att använda flera tabbar i rad i stället för att ställa in tabulatorlägen och använda en tab
Så ibland kan det vara värt att göra en genomgång i förväg. Det är heller inget större jobb att börja om, ifall du redan har lagt in dokumentet i CAT-verktyget. Det är ofta enkelt att gå in i originalet, göra lite ändringar och spara dokumentet under ett nytt namn. Då kan du lägga in dokumentet i Studio med funktionen Lägg till fil. Observera att Studio beter sig lite egendomligt när man ska lägga till filer. Du måste växla till källspråket för att lägga till, sedan köra batchen Prepare without project TM, och sedan växla tillbaka till målspråket *innan* du klickar på filen för att öppna den i editorn. Ifall du klickar på filen i källspråket får du ett mycket mystiskt felmeddelande om "wrong language culture". Språkväxlingen görs i en liten ruta längst upp till vänster i Files.