Unbabel unterstützt verschiedene Dateitypen, die mit Hilfe spezieller Filter sicherstellen, dass die relevanten Inhalte für die Übersetzung extrahiert und im Originalformat zurückgeliefert werden. Dieser Prozess ist jedoch nicht absolut sicher und kann je nach Dateityp oder Komplexität der Dateiformatierung zu unterschiedlichen Ergebnissen führen.
Die folgende Tabelle enthält die Filterbeschreibung und das erwartete Verhalten sowie die Risikobewertung für jeden Dateityp. Die Risikobewertung gibt eine Vorstellung davon, wie wahrscheinlich es ist, dass durch den Übersetzungsprozess ein Teil der ursprünglichen Formatierung in ungewissem Ausmaß verloren geht.
Wenn Sie eine Datei einreichen, die bestimmte Anforderungen an die Formatierung stellt, empfiehlt es sich, die Datei nach der Übersetzung zu überprüfen, und bei komplexeren Typen oder Formatierungsschemata kann sich dies als unerlässlich erweisen.
|
Erweiterung |
Bezeichnung | Risiko | Standard-Filterkonfiguration | Kurzbeschreibung |
| csv | Comma Separated Values (.csv) | Mittel | Feldbegrenzer - Komma ',' Textqualifizierer – Anführungszeichen "" csv-Escaping-Modus – dupliziert den Qualifizierer schließt Qualifizierer aus dem extrahierten Text aus schließt führende/nachlaufende Leerzeichen aus dem extrahierten Text aus fügt der Ausgabe bei Bedarf Qualifizierer hinzu Extraktionsmodus – extrahiert Tabellendaten Tabelleneigenschaften – Werte beginnen in Zeile 1 (keine Spalte mit Namen) extrahiert Daten aus allen Spalten die Anzahl der Spalten wird durch Werte definiert (kann in verschiedenen Zeilen variieren) ermöglicht das Entfernen von führenden/nachlaufenden Leerzeichen und Tabulatoren wandelt \t, \n, \\ und \uXXXX in Zeichen um trennt Zeilen mit Zeilenumbrüchen (\n) enthält okf_html@FP-subfilter-default und schützt generische Platzhalter |
|
| dita | Darwin Information Typing Architecture (.dita) | Mittel | geht davon aus, dass das Dokument wohlgeformt ist bewahrt den Leerraum verwendet codeFinder zum Schutz generischer Platzhalter |
Der Filter akzeptiert nur wohlgeformte XML-Dokumente (die sich an bestimmte Dita-Syntaxregeln halten). Generische Platzhalter sind geschützt. |
| ditamap | Darwin Information Typing Architecture Map (.ditamap) | Niedrig | geht davon aus, dass das Dokument wohlgeformt ist listet Elemente und Attribute für die Übersetzung auf |
Der Filter akzeptiert nur wohlgeformte Dokumente (die bestimmte Syntaxregeln einhalten). |
| docm | Microsoft Word (.docm) | Mittel | extrahiert keine Dokumenteigenschaften und Kommentare übersetzt Kopf- und Fußzeilen schließt grafische Metadaten aus akzeptiert automatisch Revisionen enthält Stile und Highlights |
Der Filter extrahiert alles außer Dokumenteigenschaften, Kommentaren und grafischen Metadaten. Er akzeptiert automatisch Revisionen, wenn sie im Dokument vorhanden sind. |
| docx | Microsoft Word (.docx) | Mittel | extrahiert Kopf- und Fußzeilen schließt grafische Metadaten aus enthält HTML-Unterfilte |
Der Filter extrahiert alles außer Dokumenteigenschaften, Kommentaren und grafischen Metadaten. Er akzeptiert automatisch Revisionen, wenn sie im Dokument vorhanden sind. |
| dtd | Document Type Definition XML (.dtd) | Niedrig | Der Filter ist für die Verarbeitung von XML-DTD gedacht, die übersetzbare Textentitätsdeklarationen enthalten. | |
| html / htm | HyperText Markup Language (.htm) | Niedrig |
|
Der Filter extrahiert alle Inhalte aus der Datei. Generische Platzhalter sind geschützt. |
| icml | InCopy Markup Language (.icml) | Mittel | extrahiert Master-Spreads vereinfacht Inline-Codes wo möglich verwendet codeFinder für den Tag-Schutz |
Der Filter extrahiert alle Inhalte aus der Datei. |
| idml | InDesign Markup Language (.idml) | Mittel | hebt die Markierung von XML-Strukturen nicht auf (der Filter kann die Markierungen nicht zurücksetzen, dies muss von DTP manuell vorgenommen werden, was je nach Größe der Datei ein Problem darstellen kann) extrahiert Master-Spreads |
Der Filter extrahiert den gesamten Inhalt der Datei, mit Ausnahme von XML-Strukturen |
| json | JavaScript Object Notation (.json) | Mittel | extrahiert alle Schlüssel/Stringpaare extrahiert Strings ohne zugehörigen Schlüssel verwendet Schlüssel als resname ein HTML-Subfilter behandelt eingebettetes HTML und schützt generische Platzhalter |
Der Filter extrahiert alle Werte. Eingebettetes HTML und generische Platzhalter sind geschützt. |
| markdown / md | Markdown (.markdown) | Niedrig | übersetzt eingezäunte Code-Blöcke übersetzt Inline-Code-Blöcke übersetzt YAML-Metadaten-Header übersetzt den Alt-Text von Bildern Platzhalter sind als Inline-Codes geschützt. Bei dieser Konfiguration sind Platzhalter vom Typ #company und [checkout_date] nicht geschützt, da # und [...] Teil der Markdown-Syntax sind. verwendet die standardmäßige Konfiguration des eingebetteten HTML-Filters, der auf den Filter Markdown zugeschnitten ist (es wird kein HTML-Subfilter benötigt). |
Der Filter extrahiert alle Inhalte aus der Datei. Eingebettetes HTML und generische Platzhalter sind geschützt. Bei dieser Konfiguration sind Platzhalter vom Typ #company und [checkout_date] nicht geschützt, da # und [...] Teil der Markdown-Syntax sind. |
| mif | Adobe FrameMaker Interchange format (.mif) | Mittel | extrahiert Variablen extrahiert Indexmarkierungen extrahiert Textkörperseiten extrahiert Masterseiten Inline-Code-Schutz für Schriftarten |
Der Filter extrahiert Variablen, Indexmarkierungen, Textkörperseiten und Masterseiten. |
| mqxliff | XML Localization Interchange File Format (.mqxliff) | Mittel | fügt das Attribut der Zielsprache hinzu, wenn es nicht vorhanden ist segmentiert nur, wenn der Eingabetext segmentiert ist enthält ITS-Markup balanciert Codes verwendet einen benutzerdefinierten xml Stream Parser legt fertige Segmente als translate="no" fest default translation_type Wert: manual_translation Wert des zu übereinstimmenden tm_score: 100,00 schützt die generischen Platzhalter |
Der Filter extrahiert alle Inhalte aus der Datei. Generische Platzhalter sind geschützt. |
| mxliff | XML Localization Interchange File Format (.mxliff) | Mittel | fügt das Attribut der Zielsprache hinzu, wenn es nicht vorhanden ist segmentiert nur, wenn der Eingabetext segmentiert ist enthält ITS-Markup balanciert Codes verwendet einen benutzerdefinierten xml Stream Parser legt fertige Segmente als translate="no" fest Wert des zu übereinstimmenden tm_score: 100,00 schützt generische Platzhalter |
Der Filter extrahiert alle Inhalte aus der Datei. Generische Platzhalter sind geschützt. |
| odp | OpenDocument (Ver 2) Presentation (.odp) | Hoch |
|
Der Filter extrahiert alles aus der Datei. Alle verschiedenen eingebetteten Dateien werden vom Filter als Unterdokumente behandelt. Das bedeutet, dass zum Beispiel bei der Darstellung in XLIFF ein einzelnes ODT, das in ein einzelnes XLIFF-Dokument extrahiert wird, aus drei <file>XLIFF-Elementen besteht: einem für content.xml, einem für style.xml und einem für meta.xml. Beachten Sie, dass sehr oft nur content.xml extrahierten Text enthält.</file> |
| ods | OpenDocument (Ver 2) Spreadsheet (.ods) | Mittel | extrahiert alles | Der Filter extrahiert alles aus der Datei. Alle verschiedenen eingebetteten Dateien werden vom Filter als Unterdokumente behandelt. Das bedeutet, dass zum Beispiel bei der Darstellung in XLIFF ein einzelnes ODT, das in ein einzelnes XLIFF-Dokument extrahiert wird, aus drei <file>XLIFF-Elementen besteht: einem für content.xml, einem für style.xml und einem für meta.xml. Beachten Sie, dass sehr oft nur content.xml extrahierten Text enthält.</file> |
| odt | OpenDocument (Ver 2) Text Document (.odt) | Mittel |
extrahiert alles |
Der Filter extrahiert alles aus der Datei. Alle verschiedenen eingebetteten Dateien werden vom Filter als Unterdokumente behandelt. Das bedeutet, dass beispielsweise ein einzelner ODT, der in ein einzelnes XLIFF-Dokument extrahiert wurde, bei der Darstellung in XLIFF aus drei <file>XLIFF-Elementen besteht: Eines für content.xml, eines für style.xml und eines für meta.xml. Beachten Sie, dass sehr oft nur content.xml extrahierten Text enthält.</file> |
| ots | OpenDocument (Ver 2) Spreadsheet (.ots) | Mittel | extrahiert alles | Der Filter extrahiert alles aus der Datei. Alle verschiedenen eingebetteten Dateien werden vom Filter als Unterdokumente behandelt. Das bedeutet, dass beispielsweise ein einzelner ODT, der in ein einzelnes XLIFF-Dokument extrahiert wurde, bei der Darstellung in XLIFF aus drei <file>XLIFF-Elementen besteht: Eines für content.xml, eines für style.xml und eines für meta.xml. Beachten Sie, dass sehr oft nur content.xml extrahierten Text enthält.</file> |
| po | Portable Object (.po) | Niedrig | Zweisprachiger Modus eingestellt – msgid enthält den Ausgangstext, msgstr enthält die Übersetzung erzeugt Identifikatoren aus dem Ausgangstext CodeFinder kümmert sich um die Platzhalter (kein HTML-Subfilter) |
Der Filter behandelt die Datei als zweisprachig – er extrahiert den Inhalt von "msgid" und setzt die Übersetzung in "msgstr". Generische Platzhalter sind geschützt. |
| potm | Microsoft PowerPoint (.potm) | Hoch | extrahiert keine Dokumenteigenschaften und Kommentare extrahiert Master ignoriert Platzhaltertext in Mastern |
Der Filter extrahiert alle Inhalte außer den Dokumenteigenschaften, Kommentaren und Notizen. Er extrahiert den Inhalt des Folienmasters und ignoriert den darin enthaltenen Platzhaltertext. |
| potx | Microsoft PowerPoint (.potx) | Hoch | extrahiert keine Dokumenteigenschaften und Kommentare extrahiert Master ignoriert Platzhaltertext in Mastern |
Der Filter extrahiert alle Inhalte außer den Dokumenteigenschaften, Kommentaren und Notizen. Er extrahiert den Inhalt des Folienmasters und ignoriert den darin enthaltenen Platzhaltertext. |
| ppsm | Microsoft PowerPoint (.ppsm) | Hoch | extrahiert keine Dokumenteigenschaften und Kommentare extrahiert Master ignoriert Platzhaltertext in Mastern |
Der Filter extrahiert alle Inhalte außer den Dokumenteigenschaften, Kommentaren und Notizen. Er extrahiert den Inhalt des Folienmasters und ignoriert den darin enthaltenen Platzhaltertext. |
| ppsx | Microsoft PowerPoint (.ppsx) | Hoch | extrahiert keine Dokumenteigenschaften und Kommentare extrahiert Master ignoriert Platzhaltertext in Mastern |
Der Filter extrahiert alle Inhalte außer den Dokumenteigenschaften, Kommentaren und Notizen. Er extrahiert den Inhalt des Folienmasters und ignoriert den darin enthaltenen Platzhaltertext. |
| pptm | Microsoft PowerPoint (.pptm) | Hoch |
extrahiert keine Dokumenteigenschaften und Kommentare extrahiert Master ignoriert Platzhaltertext in Mastern |
Der Filter extrahiert alle Inhalte außer den Dokumenteigenschaften, Kommentaren und Notizen. Er extrahiert den Inhalt des Folienmasters und ignoriert den darin enthaltenen Platzhaltertext. |
| pptx | Microsoft PowerPoint (.pptx) | Hoch | extrahiert alle Folien extrahiert Folienmaster und ignoriert den darin enthaltenen Platzhaltertext. |
Der Filter extrahiert alle Inhalte außer den Dokumenteigenschaften und Kommentaren. Er extrahiert den Inhalt des Folienmasters und ignoriert den darin enthaltenen Platzhaltertext. Auszüge aus Sprechernotizen |
| properties | Configuration File (.properties) | Low | verwendet Lokalisierungsanweisungen, wenn sie vorhanden sind. extrahiert Elemente außerhalb des Geltungsbereichs von Lokalisierungsanweisungen. extrahiert Kommentare zu Notiz-Eigenschaften wandelt \n und \t in Zeilenumbruch und Tabulator um CodeFinder kümmert sich um die Platzhalter (ein HTML-Subfilter kümmert sich um das eingebettete HTML) Escaped erweiterte Zeichen nicht (\uHHH-Notation) |
Der Filter extrahiert den Inhalt der Werte. Eingebettetes HTML und generische Platzhalter sind geschützt. |
| resx | .NET Managed Resource (.resx) | Low | extrahiert standardmäßig //data[not(@type) und not(starts-with(@name, '>'))]/value und //data[@name='$this.Text']/value extrahiert als Notizen //data[not(@type) und not(beginnt-mit(@name, '>') oder beginnt-mit(@name, '$'))]/value ein HTML-Unterfilter behandelt Platzhalter und eingebettetes HTML |
Der Filter extrahiert den Inhalt der Werte. Eingebettetes HTML und generische Platzhalter sind geschützt. |
| sdlxliff | SDL XML-based Localization Interchange File Format (.sdlxliff) | Mittel | verwendet einen SDLXLIFF-Schreiber fügt das Attribut target-language hinzu, wenn es nicht vorhanden ist behält standardmäßig Leerzeichen bei überspringt Seg-Quellen ohne markierte Segmente segmentiert nur, wenn die Eingabetexteinheit segmentiert ist enthält ITS-Markup balanciert Codes verwendet einen benutzerdefinierten xml stream parser legt fertige Segmente als translate="no" fest Standardwert von translation_status: finished Standardwert translation_type: manual translation Wert des übereinzustimmenden tm_score: 100,00 schützt generische Platzhalter |
Der Filter extrahiert alle Inhalte aus der Datei. Generische Platzhalter sind geschützt. |
| srt | SubRip Subtitle (.srt) | Niedrig | ein Regex-Filter verarbeitet die .srt-Datei, während der HTML-Subfilter eingebettete HTML-Dateien verarbeitet und generische Platzhalter schützt die Zeitcodes werden nicht als Notizen hinzugefügt, da wir eine Einschränkung bei der Verwendung von Regex-Filter + HTML-Subfilter gefunden haben |
Der Filter extrahiert alle Inhalte aus der Datei. Allgemeine Platzhalter und Zeilenumbrüche sind geschützt. |
| strings | Text Strings File (.strings) | Niedrig | enthält keine Notizen (eine Einschränkung, die wir bei der Verwendung von Regex-Filter + HTML-Subfilter hatten) extrahiert den Inhalt der Quellgruppe bewahrt Leerzeichen Optionen für reguläre Ausdrücke: Punkt entspricht auch einem Zeilenumbruch + Mehrzeiler verwendet Lokalisierungsanweisungen, wenn sie vorhanden sind. extrahiert Elemente außerhalb des Geltungsbereichs von Lokalisierungsanweisungen. Escapezeichen verwenden Backslash MIME-Typ für das Dokument: text/plain schützt generische Platzhalter und eingebettetes HTML |
Der Filter extrahiert den Inhalt aller Werte. Eingebettetes HTML, generische Platzhalter und Zeilenumbrüche sind geschützt. |
| stringsdict | Apple Stringsdict (.stringsdict) | Niedrig | Auszüge für die Übersetzung /plist/dict/dict/string und /plist/dict/dict/string extrahiert keine Strings mit den Schlüsseln NSStringFormatSpecTypeKey und NSStringFormatValueTypeKey schützt generische Platzhalter |
Der Filter extrahiert den Inhalt von <string>Elementen (ohne Elemente mit den Schlüsseln NSStringFormatSpecTypeKey und NSStringFormatValueTypeKey). Generische Platzhalter sind geschützt.</string> |
| tmx | Translation Memory eXchange files (.tmx) | Mittel | fasst alle Dokumententeile in einem Skelett zusammen überspringt ungültige TUs erstellt das Segment, wenn segtype 'sentence' ist oder nicht definiert ist String zur Abgrenzung von Eigenschaftswerten bei doppelten Eigenschaften: , |
Der Filter extrahiert alle Inhalte aus der Datei. |
| txt | Plain Text (.txt) | Niedrig | extrahiert Text nach Zeilen wandelt \t, \n, \\ und \uXXXX in Zeichen um trennt Zeilen mit Zeilenumbrüchen (\n) schützt generische Platzhalter |
Der Filter extrahiert alle Inhalte aus der Datei. Generische Platzhalter sind geschützt. |
| xlf / xliff | XML Localization Interchange File Format (.xlf) | Mittel | ügt das Attribut der Zielsprache hinzu, wenn es nicht vorhanden ist segmentiert nur, wenn der Eingabetext segmentiert ist enthält ITS-Markup balanciert Codes verwendet einen benutzerdefinierten xml stream parser legt fertige Segmente als translate="no" fest schützt generische Platzhalter |
Der Filter extrahiert alle Inhalte aus der Datei. Generische Platzhalter sind geschützt. |
| xlsm | Microsoft Excel Macro-Enabled (.xlsm) | Hoch | extrahiert keine Dokumenteigenschaften und Kommentare extrahiert keine ausgeblendeten Zeilen oder Spalten extrahiert keine Tabellennamen extrahiert keine Diagrammdaten extrahiert keine Zeichnungen Der Unterfilter HTML befasst sich mit eingebettetem HTML und schützt generische Platzhalter. |
|
| xlsx | Microsoft Excel (.xlsx) | Hoch | extrahiert keine ausgeblendeten Zeilen oder Spalten extrahiert keine Tabellennamen extrahiert keine Diagrammdaten extrahiert keine Zeichnungen eingebettetes HTML und generische Platzhalter sind geschützt |
Der Filter extrahiert alle Inhalte aus der Datei mit Ausnahme von Dokumenteigenschaften, Kommentaren, ausgeblendeten Zeilen/Spalten, Diagrammdaten und Zeichnungen. Eingebettetes HTML und generische Platzhalter sind geschützt. |
| xltx | Microsoft Excel (.xltx) | Hoch | extrahiert weder ausgeblendete Zeilen noch Spalten extrahiert keine Tabellennamen extrahiert keine Diagrammdaten extrahiert keine Zeichnungen enthält HTML-Unterfilter |
Der Filter extrahiert alle Inhalte aus der Datei mit Ausnahme von Dokumenteigenschaften, Kommentaren, ausgeblendeten Zeilen/Spalten, Diagrammdaten und Zeichnungen. Eingebettetes HTML und generische Platzhalter sind geschützt. |
| xml | EXtensible Markup Language (.xml) | Hoch | akzeptiert nur gültiges, wohlgeformtes XML schützt HTML nur in CDATA schützt keine Platzhalter bewahrt Leerzeichen |
Der Filter akzeptiert nur wohlgeformte Dokumente (die bestimmte Syntaxregeln einhalten). HTML ist nur in CDATA geschützt. Allgemeine Platzhalter sind nicht geschützt. |
| yaml / yml | YAML Aint Markup Language (.yaml) | Niedrig | extrahiert isolierte Strings extrahiert alle Paare verwendet Schlüssel als Name verwendet den vollständigen Schlüsselpfad verwendet codeFinder nicht Der HTML-Subfilter befasst sich mit Platzhaltern und eingebettetem HTML |
Der Filter extrahiert den Inhalt aller Werte in der Datei. Eingebettetes HTML und generische Platzhalter sind geschützt. |
| tsv | Tab Separated Values (.tsv) | Mittel | Feldbegrenzer – Tabulator '\t' Extraktionsmodus – extrahiert Tabellendaten Tabelleneigenschaften – Werte beginnen in Zeile 1 (keine Spalte mit Namen) extrahiert Daten aus allen Spalten die Anzahl der Spalten wird durch Werte definiert (kann in verschiedenen Zeilen variieren) ermöglicht das Entfernen von führenden/nachlaufenden Leerzeichen und Tabulatoren wandelt \t, \n, \\ und \uXXXX in Zeichen um trennt Zeilen mit Zeilenumbrüchen (\n) schützt generische Platzhalter |
|