Μια μέρα αφιερωμένη στην ελληνική γλώσσα, μας φέρνει και μια υπενθύμιση: αν δεν προσαρμοστεί η ελληνική στον ψηφιακό κόσμο, κινδυνεύει να την αντικαταστήσουν μηχανές που δεν την καταλαβαίνουν πραγματικά.
Το Υπουργείο Ψηφιακής Διακυβέρνησης βλέπει αυτόν τον κίνδυνο και απαντά με μια σειρά πρωτοβουλιών που στοχεύουν να κάνουν την Ελλάδα όχι απλώς χρήστη αλλά δημιουργό τεχνολογίας Τεχνητής Νοημοσύνης που «σκέφτεται» στα ελληνικά.
Το εθνικό έργο «Φάρος» υπόσχεται υπολογιστική ισχύ και εργαλεία για την ανάπτυξη εφαρμογών στην ελληνική γλώσσα και τον πολιτισμό — αλλά η πραγματική «αναβάθμιση» της γλώσσας στα συστήματα Τεχνητής Νοημοσύνης απαιτεί τεχνικά, θεσμικά και γλωσσολογικά βήματα.
Το «Φάρος» παρουσιάστηκε επισήμως ως η ελληνική AI Factory – ένα έργο προσανατολισμένο στην υποστήριξη καινοτομίας σε τομείς όπως η Υγεία, η Ελληνική Γλώσσα και ο Πολιτισμός, και η Βιωσιμότητα.
Το έργο συνιστά μία από τις πρώτες ευρωπαϊκές «AI factories» που χρηματοδοτούνται από το EuroHPC σε συνεργασία με εθνικούς πόρους.
«Η Παγκόσμια Ημέρα Ελληνικής Γλώσσας είναι μια ευκαιρία να δούμε τη γλώσσα μας όχι μόνο ως θεμελιώδες στοιχείο της εθνικής μας ταυτότητας, αλλά και ως βασικό πυλώνα της ψηφιακής μας παρουσίας.
Στην εποχή της Τεχνητής Νοημοσύνης, η ισχυρή θέση της ελληνικής γλώσσας στον ψηφιακό χώρο δεν είναι αυτονόητη∙ αποτελεί στρατηγική επιλογή που απαιτεί συγκροτημένο σχεδιασμό και στοχευμένες δράσεις.
Με αυτό το όραμα, μέσα από το AI Factory «Pharos» κάνουμε ένα αποφασιστικό βήμα προς ένα νέο μοντέλο ανάπτυξης, όπου η Ελλάδα δεν περιορίζεται στον ρόλο του χρήστη τεχνολογίας, αλλά γίνεται δημιουργός λύσεων Τεχνητής Νοημοσύνης.
Κεντρική μας προτεραιότητα είναι η ανάπτυξη σύγχρονων ελληνικών γλωσσικών μοντέλων που θα στηρίζουν έμπρακτα την κοινωνία, την οικονομία και τη Δημόσια Διοίκηση.
Σε έναν ψηφιακό κόσμο όπου κυριαρχούν λίγες μεγάλες γλώσσες, οφείλουμε να διασφαλίσουμε τη συνέχεια και τη δυναμική της ελληνικής. Γι’ αυτό επενδύουμε συστηματικά σε υποδομές και δεδομένα, με τον συντονισμό της νεοσύστατης Ειδικής Γραμματείας Τεχνητής Νοημοσύνης και Διακυβέρνησης Δεδομένων.
Η τεχνολογία πρέπει να μιλά τη γλώσσα των πολιτών της. Με σχέδιο και συνέπεια εργαζόμαστε ώστε η ελληνική γλώσσα να έχει ισχυρή και δημιουργική θέση στο ψηφιακό μέλλον», δήλωσε ο Δημήτρης Παπαστεργίου με αφορμή τις πρωτοβουλίες του Υπουργείου Ψηφιακής Διακυβέρνησης για την ενίσχυση της ελληνικής γλώσσας στην ψηφιακή εποχή.
Αξιοποίηση του «Δαίδαλος»
Κεντρικό στοιχείο της πρωτοβουλίας είναι η αξιοποίηση της υπολογιστικής πλατφόρμας του νέου εθνικού υπερυπολογιστή «ΔΑΙΔΑΛΟΣ», ο οποίος θα προσφέρει σημαντικούς πόρους και θα ενσωματωθεί στις υπηρεσίες που θα παρέχει η AI Factory.
Η πρόθεση του «Φάρος» είναι να δώσει πρόσβαση σε υποδομές, σύνολα δεδομένων και εργαλεία για πανεπιστήμια, ερευνητικά κέντρα, επιχειρήσεις και δημόσιους φορείς.
Τι σημαίνει αυτό για την ελληνική γλώσσα; Τα επίσημα κείμενα του «Φάρος» και των συνεργαζόμενων φορέων αναφέρουν σαφώς ότι ένας από τους άξονες είναι η ανάπτυξη λύσεων για «Γλώσσα και Πολιτισμό», συμπεριλαμβανομένης της δημιουργίας ελληνικών γλωσσικών μοντέλων και εργαλείων που θα υποστηρίζουν εφαρμογές όπως ψηφιακοί βοηθοί, εργαλεία προσβασιμότητας και συστήματα αυτόματης ανάλυσης κειμένου.
Η χρηματοδότηση και το έργο τρέχουν στο πλαίσιο Horizon Europe / EuroHPC με συνολικό προϋπολογισμό περίπου 30 εκατ. €, χρηματοδότηση κατά 50% από EuroHPC και 50% από εθνικούς πόρους.
Επάρκεια και ποιότητα ελληνικών δεδομένων εκπαίδευσης
Ωστόσο, η μετάφραση αυτής της υποδομής σε πραγματική βελτίωση της «παρουσίας» της ελληνικής σε συστήματα ΤΝ δεν είναι αυτοματοποιημένη.
Τεχνικά, οι σύγχρονες μέθοδοι εκπαίδευσης γλωσσικών μοντέλων εξαρτώνται από τον τρόπο που αντιπροσωπεύεται το κείμενο (tokenization, subword units, embeddings) και από την επάρκεια και ποιότητα των ελληνικών δεδομένων εκπαίδευσης.
Μέθοδοι όπως το byte-pair encoding (BPE) και το SentencePiece είναι ευρέως διαδεδομένες για τη δημιουργία υπο-λέξεων (subwords), αλλά η αποτελεσματικότητά τους εξαρτάται από τις γλωσσικές ιδιαιτερότητες (π.χ. κλιτική μορφολογία, σύνθετες λέξεις) και από το μέγεθος/ποικιλία των δεδομένων εκπαίδευσης.
Αυτό σημαίνει πρακτικά δύο πράγματα: πρώτον, για να υπάρξει «καλό» ελληνικό LLM απαιτείται στοχευμένη συλλογή και επιμέλεια ελληνικών corpora (ποικιλία ειδών κειμένου, μεταγραφές προφορικού λόγου, πολιτισμικά κείμενα, νομικά/διοικητικά δεδομένα όπου επιτρέπεται).
Δεύτερον, χρειάζονται προσαρμογές στην προ-επεξεργασία (tokenizers εκπαιδευμένοι στα ελληνικά ή πολυγλωσσικά με ενισχυμένη εκπροσώπηση της ελληνικής) και benchmarks αξιολόγησης ειδικά για τα ελληνικά, έτσι ώστε να μετράμε όντως βελτίωση και όχι μόνο «μεταφορά» αγγλοκεντρικών χαρακτηριστικών. (Γλωσσικοί εμπειρογνώμονες, ερευνητές NLP και φορείς όπως το ILSP εμπλέκονται στο Pharos για αυτούς τους λόγους).
Κοινωνικά και θεσμικά ζητήματα
Υπάρχουν επίσης κοινωνικά και θεσμικά ζητήματα. Οι φορείς του έργου δηλώνουν ότι η χρήση δεδομένων θα συμμορφώνεται με τον Γενικό Κανονισμό για την Προστασία Δεδομένων – GDPR (και το ισχύον ρυθμιστικό πλαίσιο για την ΤΝ – ένα κρίσιμο σημείο όταν μιλάμε για δημόσια ή ευαίσθητα δεδομένα π.χ. ιατρικά).
Επιπλέον, η ανάπτυξη μοντέλων για την ελληνική εγείρει ερωτήματα για την εκπροσώπηση τοπικών ιδιωματισμών, πολιτισμικών αναφορών και για την αποφυγή μεροληψίας.
Προοπτικές και κίνδυνοι
Το «Φάρος» δίνει την τεχνολογική και χρηματοδοτική βάση ώστε ελληνικά πανεπιστήμια, ερευνητές και εταιρείες να αναπτύξουν ελληνικής κατεύθυνσης LLMs και εφαρμογές — και υπάρχουσες δηλώσεις του οικοσυστήματος μιλούν ευθέως για την ανάγκη να «υπάρξει ένα ελληνικό γλωσσικό μοντέλο».
Όμως, χωρίς συνεχή επένδυση σε δεδομένα, εξειδικευμένο ανθρώπινο δυναμικό και ανοιχτές διαδικασίες αξιολόγησης, υπάρχει ο κίνδυνος να παραμείνουν τα ελληνικά υπο-εκπροσωπούμενα σε σχέση με μεγάλες αγγλόφωνες βάσεις δεδομένων.
Γεγονός είναι ότι το «Φάρος» και ο ΔΑΙΔΑΛΟΣ αποτελούν μια σημαντική ευκαιρία για την «αναβάθμιση» της ελληνικής γλώσσας στην Τεχνητή Νοημοσύνη – με τα κατάλληλα βήματα.
Για να γίνει αυτό πραγματικότητα χρειάζονται: στοχευμένες συλλογές και αδειοδοσίες ελληνικών δεδομένων, τεχνικές προσαρμογές στους tokenizers και στα μοντέλα που σέβονται τη μορφολογία των ελληνικών, διαφάνεια, αξιολογήσεις και συμμόρφωση με ρυθμιστικά πρότυπα, και διαρκής συνεργασία ακαδημίας, δημοσίου και ιδιωτικού τομέα.
Η υποδομή υπάρχει – η πρόκληση είναι να μετατραπεί σε πραγματική γλωσσική και πολιτιστική αξία.
