Προκλήσεις επισημείωσης ενός πολυ-διαλεκτικού, πολυ-επίπεδου σώματος γραπτών και προφορικών κειμένων των Νεοελληνικών Διαλέκτων
Abstract
Στην παρούσα μελέτη, που αποτελεί μέρος του προγράμματος «AMiGre- Πόντος, Καππαδοκία, Αϊβαλί: στα χνάρια της Μικρασιάτικης Ελληνικής Γλώσσας», παρουσιάζεται η επισημείωση ενός διαλεκτικού σώματος αρχείων το οποίο διαφέρει από τα υπόλοιπα σε δύο βασικά σημεία. Πρώτον, έχει συμπεριληφθεί ένα μεγάλο εύρος δειγμάτων από τις διαλεκτικές ποικιλίες του Πόντου, της Καππαδοκίας και του Αϊβαλιού και αποτελεί την πιο ευρεία κάλυψη των συγκεκριμένων διαλεκτικών περιοχών σε προφορικό και γραπτό υλικό. Επιπροσθέτως, παρέχονται τα αποτελέσματα από μια συστηματοποιημένη προσπάθεια επισημείωσης με κοινή στρατηγική σε γραπτά και προφορικά δεδομένα.
Το συγκεκριμένο διαλεκτικό σώμα κειμένων έχει μια μεγάλη ποικιλία χαρακτηριστικών που συνδυαστικά δημιουργούν ένα εξειδικευμένο εργαλείο για τη γλωσσολογική και διαλεκτολογική μελέτη. Αυτά τα χαρακτηριστικά είναι μεταξύ άλλων: γλωσσολογικό περιεχόμενο (διάλεκτοι από τρεις περιοχές που συσχετίζονται), πολυ-επίπεδη (multi-tiered) επισημείωση (μεταγραφή και απεικόνιση προφορικού και γραπτού υλικού με βάση διεθνή πρότυπα, π.χ. SAMPA), πολυ-επίπεδα μεταδεδομένα (TEI), αναβαθμισμένη μηχανή αναζήτησης (βασισμένη σε γλωσσολογική πληροφορία και μεταδεδομένα), ψηφιακές συλλογές χειρογράφων και ηχητικών αρχείων, χάρτες απεικόνισης των δεδομένων και συνοδευτικό πολυ-μεσικό (multimedia) τρι-διαλεκτικό λεξικό.
Σημαντικά ζητήματα για την επισημείωση σε φωνολογικό επίπεδο αντιμετωπίστηκαν κατά τη μελέτη καθότι έγινε μια συστηματική προσπάθεια να ενοποιηθούν όλες οι διαφορετικές μεταγραφές διαλεκτικού γραπτού υλικού μιας και δεν υπήρχε κοινή στρατηγική απεικόνισης. Παράλληλα προτείνεται πολυεπίπεδη φωνολογική (παράλληλα με μορφολογική) επισημείωση του σώματος κειμένων, καθιερώνοντας ένα βασικό πρότυπο επισημείωσης διαλεκτικού υλικού για τις Νεοελληνικές Διαλέκτους σε λογισμικά ανάλυσης ομιλίας.
Το συγκεκριμένο διαλεκτικό σώμα κειμένων έχει μια μεγάλη ποικιλία χαρακτηριστικών που συνδυαστικά δημιουργούν ένα εξειδικευμένο εργαλείο για τη γλωσσολογική και διαλεκτολογική μελέτη. Αυτά τα χαρακτηριστικά είναι μεταξύ άλλων: γλωσσολογικό περιεχόμενο (διάλεκτοι από τρεις περιοχές που συσχετίζονται), πολυ-επίπεδη (multi-tiered) επισημείωση (μεταγραφή και απεικόνιση προφορικού και γραπτού υλικού με βάση διεθνή πρότυπα, π.χ. SAMPA), πολυ-επίπεδα μεταδεδομένα (TEI), αναβαθμισμένη μηχανή αναζήτησης (βασισμένη σε γλωσσολογική πληροφορία και μεταδεδομένα), ψηφιακές συλλογές χειρογράφων και ηχητικών αρχείων, χάρτες απεικόνισης των δεδομένων και συνοδευτικό πολυ-μεσικό (multimedia) τρι-διαλεκτικό λεξικό.
Σημαντικά ζητήματα για την επισημείωση σε φωνολογικό επίπεδο αντιμετωπίστηκαν κατά τη μελέτη καθότι έγινε μια συστηματική προσπάθεια να ενοποιηθούν όλες οι διαφορετικές μεταγραφές διαλεκτικού γραπτού υλικού μιας και δεν υπήρχε κοινή στρατηγική απεικόνισης. Παράλληλα προτείνεται πολυεπίπεδη φωνολογική (παράλληλα με μορφολογική) επισημείωση του σώματος κειμένων, καθιερώνοντας ένα βασικό πρότυπο επισημείωσης διαλεκτικού υλικού για τις Νεοελληνικές Διαλέκτους σε λογισμικά ανάλυσης ομιλίας.
Full Text:
PDFDOI: https://doi.org/10.26220/mgdlt.v6i1.2674
View Counter: Abstract | 337 | times, and PDF | 157 | times
Refbacks
- There are currently no refbacks.
MGDLT | ISSN: 1792-3743 | © Copyright MGDLT
Pasithee | Library & Information Center | University of Patras