Rule-Based Machine Translation

Volltext-Übersetzer (Regel-basiert)

unterstützte Betriebssysteme:

  • Linux (getestet: Kernel 3.x, 4.x),
  • Windows (getestet: 7),
  • Android (getestet: 4.x und 5.x real, 8.x im Emulator)

eingesetzte Technologien:

  • wxWidgets für Linux- und Windows-GUI etc.
  • Apache Xerces, MiniXML für XML
  • CMake insb. auch für die verschiedenen Targets
  • C++ 98/03 für den Übersetzungs-Kern
  • Java für die Android-Benutzerschnittstelle

unterstützte CPU-Architekturen (getestet): x86, ARM

Umfang:

  • ca. 118 KiB Android-Java-Quellcode
  • ca. 2 MB C++-Quellcode für den Übersetzungs-Kern, GUI etc.

Features:

  • Erkennt Eigennamen und Wortarten und hebt diese farblich hervor
  • erkennt Satzbestandteile wie Subjekt und Objekt
  • braucht keine Satzendezeichen (.!?), um zu übersetzen
  • Übersetzung während der Änderung des Ausgangstextes möglich
  • Statusanzeige (aktueller Schritt) während der Übersetzung

Implementierung:

  • komplette Eigenentwicklung ohne zugezogene Literatur. Es stellte sich später heraus, dass es der regelbasierten maschinellen Übersetzung (RBMT) entspricht.
  • Bottom-Up-Parser zum Aufbau des Parse-/Syntax-Baums
  • Zugriff auf mehrere Wörterbuch-Formate implementierbar (austauschbar)
  • wie das Wörterbuch im Arbeitsspeicher gehalten wird (Wörterbuch gecacht oder nicht; wie die Suche von englischen Wörtern erfolgt;...), ist austauschbar


Zukünftig soll künstliche Intelligenz bzw. maschinelles Lernen genutzt werden.

 

© 2013-2024. Stefan Gebauer, M.Sc. Computer Science/Informatik (TU), B.Sc. Angewandte Informatik (FH)