Analyzed Layout and Text ObjectALTO (Analyzed Layout and Text Object) ist ein offenes XML Schema zur Beschreibung von Layoutinformationen digitalisierter Objekte. Der Standard wurde ursprünglich für die Beschreibung von OCR-Erkennungsergebnissen Text und Layout auf Seitenebene von digitalisierten Materialien entwickelt. Ziel war es, den Text und das Layout so zu beschreiben, dass eine Rekonstruktion auf Basis digitalisierten Materials möglich wäre. ALTO wird oft in Kombination mit Metadata Encoding and Transmission Standard (METS) für die Beschreibung des gesamten digitalisierten Objektes und die Erzeugung von Referenzen innerhalb der ALTO-Datei verwendet, zum Beispiel um die Lese-Abfolge festzulegen. ALTO wurde in dem von der EU geförderten Projekt METAe entwickelt.[1] Seit 2010 wird der Standard durch die Library of Congress und ein Herausgeber-Team gepflegt. Durch die Empfehlung der DFG-Praxisregeln Digitalisierung ist ALTO ein de facto-Standard für Text-Digitalisierungsprojekte in Deutschland[2] und wird beispielsweise vom DFG-Viewer unterstützt. VersionenDie aktuelle Schema-Version sowie eine Übersicht über die älteren Versionen finden sich auf GitHub.[3] Aufbau einer ALTO-DateiEine ALTO-Datei besteht aus drei Haupt-Abschnitten, also Kindern des Wurzelelements
<?xml version="1.0"?>
<alto>
<Description>
<MeasurementUnit/>
<sourceImageInformation/>
<Processing/>
</Description>
<Styles>
<TextStyle/>
<ParagraphStyle/>
</Styles>
<Layout>
<Page>
<TopMargin/>
<LeftMargin/>
<RightMargin/>
<BottomMargin/>
<PrintSpace/>
</Page>
</Layout>
</alto>
Unterstützende Software
Siehe auch
Weblinks
Einzelnachweise
|
Portal di Ensiklopedia Dunia