Thursday, 28 October 2010

PDF-konvertering

Översättning av PDF-filer i CAT-program
This text is in Swedish, please use Google Translate!
Mitt CAT-program Studio kan enligt marknadsföringen klara av att "översätta PDF". Det är givetvis en grov överdrift. Testa gärna denna funktion och efter att ha konstaterat att det inte blir bra, återgå till de metoder jag anger här.
Den viktigaste regeln angående översättning av PDF är att aldrig någonsin acceptera "enbart PDF"! Det existerar nämligen inga dokument som *ursprungligen* har gjorts i PDF-format med Acrobat. Syftet med att använda PDF är att enkelt kunna hantera dokument som gjorts med komplicerade och dyra program.
Om du har bönat och bett, hotat, övertalat och väntat i veckor, men ändå inte kan få originalfilerna så finns det faktiskt vissa möjligheter att arbeta med PDF.
Det finns två typer av PDF; den bästa typen, text-PDF, är textbaserad och görs ur andra elektroniska dokument från desktop-program som InDesign eller FrameMaker, eller från Word-dokument, genom att skriva ut dokumentet som PDF. Den andra typen, bild-PDF, är inscannade pappersdokument som alltså är bilder av text. De här typerna av PDF kräver helt olika behandling och olika program för att kunna översättas. Om du vill veta vilken typ av PDF det är så prova att markera ett ord i texten eller söka efter ett ord med Acrobats sökfunktion. Om det inte går, så har du en bild-PDF. Notera att det förekommer dokument där båda typerna finns, så testa på lite olika ställen om det är ett långt dokument som du misstänker kan vara hopklippt av flera.
Konvertering av text-PDF
Jag beskriver den enklaste varianten först; för text-PDF behöver du bara ett bra konverteringsprogram. Jag har provat flera, och enligt min mening är Nuance PDF Converter Professional det bästa. Om man har lite tur kan man till och med få bilder och formatering att lite grann likna originalet! Men lova aldrig annat en "oformaterad text" om du åtar dig PDF-översättning. Allt annat är en bonus. PDF Converter klarar ganska bra att hålla ihop meningar (inga stycktetecken i meningarna) och klarar även spalter och tabeller hyfsat. Alla konverterade PDF kräver dock för- och efterbehandling och en noggrann jämförelse med originalet.
Förbehandlingen bör åtminstone bestå i att skumma igenom dokumentet med "visa P" aktiverat så att de osynliga tecknen för ny rad och nytt stycke visas. Ta bort alla stycketecken mitt i meningarna. Gå sedan igenom alla radbrytningstecken (ny rad). De måste nämligen hanteras olika; ifall de finns mitt i en mening ska de tas bort, ifall de kommer direkt efter en mening ska de ersättas med nytt stycke-tecken. Det är givetvis i sin ordning att debitera kunden 1-2 timmar per dokument för konvertering, förbehandling och efterbehandling.
Konvertering av bild-PDF
Vissa PDF-konverteringsprogram påstår sig klara alla typer av PDF, men det är tveksamt om de verkligen håller vad de lovar. För bild-PDF är det bästa att istället använda ett renodlat OCR-program (Optical Character Reading) som verkligen klarar av att tolka textbilder på ett bra sätt. OCR-programmen finns i olika prisklasser, jag har fastnat för ABBYY FineReader som inte är alltför dyrt men ändå ger ett förvånansvärt bra resultat.
Ett OCR-behandlat dokument kräver en hel del handarbete för att bli översättningsbart, även om man bara ska använda texten. Ifall du lägger in ett obehandlat OCR-dokument i ditt CAT-verktyg får du sannolikt en väldig massa onödiga taggar överallt. Det beror på att OCR-programmet försöker arbeta så noggrant som möjligt och tittar på teckenavstånd, olika storlekar och typsnitt. I vissa fall konverteras även åäö för sig och får ett annat typsnitt vilket ibland leder till att man får osynliga ordbrytningar mitt i orden. Det i sin tur gör ordräkningen i CAT-verktyget alltför stor, och eventuella hittar mot gamla TM försvagas.
Förbehandling av OCR-behandlad text
Det mest radikala är naturligtvis att spara hela dokumentet som ren text och sedan öppna som Word-dokument igen, då slipper man alla formateringsproblem, men dokumentet kan ju bli lite tråkigt, och alla bilder försvinner.
Ifall du vill försöka bevara formateringen och bilderna ungefär som i originalet kan du försöka med följande:
För Office Word 2007:
- Markera hela texten och välj Start/Tecken/Teckenavstånd, och gör följande inställningar
Skala 100 %
Avstånd Normal
Läge Normal
Kerning ta bort bocken
Ifall åäö ser annorlunda ut än de övriga bokstäverna så bör du också ställa in samma typsnitt för hela dokumentet (Arial). Det innebär nämligen att det i CAT-programmet blir en ordseparator före och efter varje åäö. Ibland syns detta inte i originalet utan kommer fram först när du lägger in texten i CAT-verktyget. Ett säkert tecken på att du har åäö-problem är om CAT-verktyget ger en avsevärt (30 %) högre ordräkning än Word. Små skillnader förekommer alltid i ordräkningen mellan Word och CAT-programmet.
Det kan givetvis ha vissa nackdelar att ha samma teckensitt i hela dokumentet, ifall man använt sig av detta för specialsymboler. Dessa måste i så fall återställas manuellt. Samma gäller om du väljer att även ha samma stilstorlek i hela dokumentet, vilket även minskar antalet taggar i CAT-verktyget.
Generell förbehandling
Även om du får dokumentet i originalformat i Word kan det finnas anledning att titta lite på det innan du lägger in dokumentet i CAT-programmet. Det händer nämligen att skribenterna inte använder sina verktyg på rätt sätt.
Vanliga konstigheter:
- Meningar har delats på rader med stycketecken eller ny rad
- Tabelluppställningar har gjorts genom att använda flera tabbar i rad i stället för att ställa in tabulatorlägen och använda en tab
Så ibland kan det vara värt att göra en genomgång i förväg. Det är heller inget större jobb att börja om, ifall du redan har lagt in dokumentet i CAT-verktyget. Det är ofta enkelt att gå in i originalet, göra lite ändringar och spara dokumentet under ett nytt namn. Då kan du lägga in dokumentet i Studio med funktionen Lägg till fil. Observera att Studio beter sig lite egendomligt när man ska lägga till filer. Du måste växla till källspråket för att lägga till, sedan köra batchen Prepare without project TM, och sedan växla tillbaka till målspråket *innan* du klickar på filen för att öppna den i editorn. Ifall du klickar på filen i källspråket får du ett mycket mystiskt felmeddelande om "wrong language culture". Språkväxlingen görs i en liten ruta längst upp till vänster i Files.

4 comments:

  1. Jag känner igen nästan allt utom det här med svenska tecken-problemet, vilket jag konstigt nog aldrig har råkat ut för.

    Jag tycker det skulle vara kul att testa om Nuance är bättre Solid som jag använder nu, men det verkar inte finnas någon provversion att ladda ner. Om jag skickar en fil till dig, skulle du kunna tänka dig att köra igenom den i Nuance? Jag skickar förstås en Solid-konverterad variant på samma fil.

    Du skriver nämligen att i bästa fall kan Nuance få bilder och tabeller att likna originalet, och min erfarenhet är att Solid klarar detta galant. Visserligen med hjälp av många nya avsnitt men det är ett mindre problem. Skulle du vara intresserad av att göra en jämförelse?

    ReplyDelete
  2. Ja, fast jag har en del brådskande jobb just nu, så jag kan inte lova en omedelbar respons, men det är alltid intressant att jämföra. Det verkar faktiskt vara så att olika program kan behövas för olika typer av dokument. Så skicka gärna en fil.

    ReplyDelete
  3. OK, de är på väg! Ingen brådska med jämförelsen.

    ReplyDelete
  4. Efter att jag skrev detta så har jag uppgraderat till Nuance PDF Converter 7, och det verkar vara ännu bättre än version 5 som jag hade tidigare.

    ReplyDelete