Βιβλία ΑΕΠΠ (pdf) - διορθωμένα για αντιγραφή/αναζήτηση

Ξεκίνησε από alkisg, 04 Αυγ 2008, 09:10:26 ΜΜ

« προηγούμενο - επόμενο »

alkisg

edit 09/08/2008: Και τα τρία βιβλία ανανεώθηκαν. Όλα πλέον φαίνονται 100% ΟΚ, μόνο λίγες επικεφαλίδες του τετραδίου μαθητή και του βιβλίου καθηγητή φαίνονται μεν σωστά αλλά δεν αντιγράφονται σωστά επειδή μου έλειπαν κάποιες γραμματοσειρές.



Μαθαίνοντας το νέο λειτουργικό μου (Ubuntu 8.04.1), έπεσα πάνω σε μια εντολή η οποία επιτρέπει την αποσυμπίεση των .pdf αρχείων, ώστε να είναι δυνατή η μετέπειτα επεξεργασία τους από πρόγραμμα. Με την ευκαιρία λοιπόν αποφάσισα να φτιάξω ένα προγραμματάκι για να διορθώσω το γνωστό πρόβλημα των αρχείων .pdf της ΑΕΠΠ (από το Παιδαγωγικό Ινστιτούτο), τα οποία σε κάμποσα σημεία δεν δείχνουν ελληνικά, αλλά και στα σημεία που δείχνουν ελληνικά δεν γίνεται σωστά αντιγραφή / επικόλληση, ούτε αναζήτηση.

Συγκεκριμένα τα .pdf των βιβλίων έχουν 3 (τουλάχιστον) προβλήματα:
1. Λάθος cmap που αντιστοιχεί σε cp1252 αντί για cp1253, και έτσι αν πάμε να αντιγράψουμε τη λέξη "Αλγόριθμοι" επικολλάται στη συνέχεια ως "Áëãüñéèìïé".
2. Λάθος Encoding σε Fonts (WinAnsiEncoding), το οποίο εκτός από το παραπάνω πρόβλημα κάνει και πολλά σημεία του βιβλίου να μην δείχνουν καν ελληνικά, όχι μόνο να μην αντιγράφονται.
3. Λάθος Differences σε Encoding, με αποτέλεσμα πάλι να μη γίνεται αντιγραφή ή αναζήτηση.

Τα πρώτα αποτελέσματα είναι ενθαρρυντικά. Εν ολίγοις, διόρθωσα το πρόβλημα (1) και νομίζω (αν δε βαρεθώ να ασχολούμαι μαζί τους στο μεταξύ) ότι μπορώ να διορθώσω και τα (2) και (3). Επομένως τώρα το βιβλίο μαθητή είναι σε μεγάλο ποσοστό ΟΚ, και τα άλλα δύο σε μικρότερο ποσοστό.
Μην ψάχνετε "λογική" για το σε ποια σημεία είναι σωστά και σε ποια όχι, η (λάθος) κατανομή των encodings έγινε αυτοματοποιημένα από το πρόγραμμα που χρησιμοποίησαν για την παραγωγή των pdf. Έτσι μπορεί εγώ να έχω διορθώσει 900 από τα 1000 encodings και να έχω καλύψει μόνο το 10% του βιβλίου, ή αντίθετα.

Έδεσα και τα πολλά μικρά .pdf σε 3 μεγάλα, όποιος θέλει τα κατεβάζει, αλλά αν θέλετε μην τα δημοσιεύετε σε άλλες ιστοσελίδες αλλά βάλτε σύνδεσμο σε αυτό το θέμα (https://alkisg.mysch.gr/steki/index.php?topic=1436.0), ώστε να υπάρχει ανατροφοδότηση για πιθανά λάθη.

alkisg

Και για του λόγου το αληθές, μερικά παραδείγματα αντιγραφής / επικόλλησης από τα διορθωμένα βιβλία:

Σελίδα 211 Βιβλίου Μαθητή:
ΠαράθεσηΗ συνάρτηση είναι ένας τύπος υποπρογράμματος που υπολογίζει και ε-
πιστρέφει μόνο μία τιμή με το όνομά της (όπως οι μαθηματικές συναρτή-
σεις).
Η διαδικασία είναι ένας τύπος υποπρογράμματος που μπορεί να εκτε-
λεί όλες τις λειτουργίες ενός προγράμματος.

Σελίδα 113 Τετραδίου Μαθητή:
Παράθεση11.1. Προσδοκώμενα αποτελέσματα
  Μέχρι τώρα είχες εργαστεί σε ένα παραδοσιακό περιβάλλον προγραμματισμού,
που κυρίως ενδιαφέρεται για το πρόγραμμα και όχι για το περιβάλλον εργασίας του
χρήστη. Σε αυτό το κεφάλαιο έρχεσαι σε επαφή με σύγχρονα γραφικά περιβάλλοντα
προγραμματισμού που παρέχουν ιδιαίτερες δυνατότητες επικοινωνίας του προ-
γράμματος με το χρήστη αλλά και ειδικά εργαλεία προς το προγραμματιστή για την α-
πλούστευση του προγραμματισμού.

Σελίδα 175 Βιβλίου Καθηγητή:
Παράθεση
ΔΤ2.
Α.
ΑΝ Βαθμός>ΜΟ ΤΟΤΕ
   ΓΡΑΨΕ ‘Πολύ καλά’
ΑΛΛΙΩΣ_ΑΝ Βαθμός>=(ΜΟ-2) ΤΟΤΕ
   ΓΡΑΨΕ ‘Καλά’
ΑΛΛΙΩΣ
   ΓΡΑΨΕ ‘Μέτρια’
ΤΕΛΟΣ_ΑΝ

alkisg

Το pdf του βιβλίου μαθητή ανανεώθηκε, το έλεγξα και εμφανίζει παντού σωστά ελληνικά, και επιτρέπει αναζήτηση και αντιγραφή. Επομένως εκτός απροόπτου είναι πλέον τελική έκδοση, αν δείτε κάπου λάθος πείτε μου.

Λήψη από το αρχικό μήνυμα.

EleniK

Άλκη μεγάλη υπόθεση αυτό που έκανες και ειδικά για νέους συναδέλφους που δεν βρίσκουν πουθενά το βιβλίο του καθηγητή. Ευχαριστουμε πολύ.
Ελένη Κοκκίνου
Καθηγήτρια Πληροφορικής, ΠΕ19

alkisg

Να 'σαι καλά Ελένη! :)

Να 'ναι καλά κι η Python, με τη βοήθειά της μπόρεσα να διορθώσω και τα υπόλοιπα προβλήματα. Τώρα πλέον και τα 3 βιβλία είναι εντάξει, και άφησα μόνο λίγες επικεφαλίδες από το τετράδιο μαθητή και το βιβλίο καθηγητή, οι οποίες φαίνονται κι αυτές μεν εντάξει αλλά δεν αντιγράφονται σωστά με copy/paste.
Άμα κάποιος έχει τις γραμματοσειρές UB-AntiqueOlive, UB-AntiqueOliveBlack, UB-Helvetica και MgQuad, ας μου τις στείλει για να τις διορθώσω κι αυτές, δεν τις έχω και δεν μπορώ να τις κάνω embed. Δεν υπάρχει ζήτημα νομιμότητας αφού είναι ήδη ενσωματωμένες στα βιβλία, απλά έχει γίνει λάθος subsetting. Είπα να μην τις αντικαταστήσω με άλλες open source γραμματοσειρές αφού το πρόβλημα είναι μόνο σε επικεφαλίδες, οπότε προτίμησα να φαίνονται όπως στο τυπωμένο βιβλίο κι ας μην αντιγράφονται με copy/paste...

Λήψη από το αρχικό μήνυμα.

yiannis

Μπράβο βρε Άλκη είσαι φοβερός!
Χαρά στο κέφι σου και στην όρεξή σου ;)
Κάπου είχα παλιότερα τις UB γραμματοσειρές.
Έχω φάει τον κόσμο αλλά δεν τις έχω βρει τώρα που τις θες.
Αν τις βρω θα στις στείλω πάντως.
Και πάλι ευχαριστούμε,
Γιάννης Μοδέας

kokorets

Για τα βιβλία φυσικής χημείας βιολογίας του γυμνασίου που έχουν ίδιο πρόβλημα τι μπορούμε να κάνουμε;
μπορείς να δώσεις λεπτομέριες να τα φτιάκσουμε και αυτά;
ευχαριστω

andreas_p

Στέλνω τις UB-Optima  γραμματοσειρές.

alkisg

@kokorets: ναι, αλλά θα μου πάρει κάμποση ώρα για να γράψω τις οδηγίες, και περίπου ένα απόγευμα σε κάποιον έμπειρο χρήστη να τις ακολουθήσει (ίσως και παραπάνω ανάλογα με το μέγεθος της "ζημιάς"). Έμπειρος = να μπορεί να χειριστεί κονσόλα (π.χ. "τρέξτε την εκτολή pdftk biblio.pdf page_with_correct_font.pdf cat output biblio_uncompressed.pdf uncompress") και έναν hex editor. Αν υπάρχει διάθεση και κάποια τεχνογνωσία πες μου και τα γράφω όσο αναλυτικά μπορώ.

@yiannis, andreas_p: ευχαριστώ παιδιά! Επειδή έχουν μείνει μόνο μερικές επικεφαλίδες όμως δεν είναι "βιαστικό" πια, οπότε θα αργήσω λίγο να κάνω την ενημέρωση... π.χ. τα Χριστούγεννα.
Ελπίζω μέχρι τότε να έχω στα χέρια μου και το νέο βιβλίο οπότε
α) να περάσω τις διορθώσεις που έχουν γίνει (=> αν έχει όρεξη κάποιος να το κάνει ας μου πει να γράψω οδηγίες - εύκολο είναι), και
β) να κάνω και μία δεύτερη έκδοση με τις εκατοντάδες διορθώσεις που είχαμε στείλει αλλά δεν εγκρίθηκαν... :(

P.Tsiotakis

Άλκη, καλύτερα να μη βγάλεις έκδοσης του βιβλίου που δεν κυκλοφορεί !!!  :D

alkisg

Όχι βρε για τους καθηγητές, για το ΠΙ θα προορίζεται... να έχουν όλα τα "bugs" πάνω στο .pdf με σχόλια, μπας και το πάρουν απόφαση για καμιά ριζικότερη αλλαγή, γιατί τώρα έλεγαν ότι δεν είχαν κονδύλια για επανασελιδοποίηση και δεν μπορούσαν να κάνουν large scale αλλαγές.

kokorets

Δυστυχώς δεν έχω τέτοιες γνώσεις.. οπότε άδικος κόπος..
Αν κατάλαβα καλά το ότι δεν μπορώ να κάνω copy-paste από τα σχολικά βιβλία (είναι και το μόνο που με απασχολεί)οφείλεται σε λάθος του αρχείου και όχι σε έλλειψη ικανού software του υπολογιστή μου;

alkisg

kokorets, ναι, δυστυχώς φταίει το αρχείο και όχι το λογισμικό σου.

Όμως, υπάρχει ένας εναλλακτικός και απλούστερος τρόπος με το πρόγραμμα οπτικής αναγνώρισης χαρακτήρων (OCR) finereader. Αυτό το πρόγραμμα συνήθως το χρησιμοποιούμε για να περάσουμε κείμενο από εκτυπωμένο χαρτί (όταν δεν έχουμε το πρωτότυπο αρχείο) με τον σαρωτή (scanner) μας στο Word.
Στη συγκεκριμένη περίπτωση όμως αντί για εκτυπωμένο χαρτί μπορείς να του πεις να διαβάσει το ίδιο το pdf, να αναγνωρίσει τα γράμματα και τα περάσει σε αρχείο .doc, και έτσι να έχεις τελικά το βιβλίο στο Word.
Για να γίνει αυτό (νομίζω ότι) υπάρχει ένα ενδιάμεσο στάδιο όπου εκτυπώνεις το .pdf σε ένα αρχείο εικόνας και λες στο finereader να διαβάσει αυτήν την εικόνα. Δεν ξέρω ακριβώς λεπτομέρειες γιατί δεν έχω κάνει ποτέ αυτή τη μέθοδο, αλλά σίγουρα θα βρεις αναφορές στο Internet από άλλους που το έχουν κάνει.

Το μειονέκτημα είναι ότι δεν είναι σίγουρο ότι θα διαβάσει όλα τα γράμματα σωστά. Π.χ. το CO2 μπορεί να το διαβάσει σαν C0z, δηλαδή να μη σε ικανοποιήσει το αποτέλεσμα.

kokorets

Διαβάζει κατευθείαν pdf (read from file), έχω δουλέψει ocr κυρίως finereader. Για την δουλεία που το θέλω με βόλευε το copy paste περισσότερο από θέμα χρόνου. Ελπίζω να τα φτιάξουν αυτοί οι π@@..ες στο υπουργείο κάποια στιγμή..
Σε ευχαριστώ για τις πληροφορίες σου ήταν πολύτιμες και με γλίτωσες από τον κόπο να ψάχνω και άλλα software..
thanx.

Δημήτρης Δαλαγιώργος

Μόλις κατέβασα το βιβλίο του καθηγητή και ολόκληρο το 2ο κεφάλαιο έχει πρόβλημα. Φταίει το συγκεκριμένο αρχείο ή λείπει κάτι απ' το σύστημά μου;
Ενάντια στην ηλιθιότητα, ακόμα και οι θεοί, μάταια αγωνίζονται.
Friedrich Schiller

alkisg

Ναι... εχμ... :)
Αντιγράφεται μια χαρά πάντως:

Παράθεση
                                Κεφάλαιο 2
      Βασικές έννοιες αλγορίθμων
2.1 Γενικός διδακτικός σκοπός
   Ο γενικός σκοπός του κεφαλαίου είναι να κατανοήσουν οι μαθητές την έννοια
του αλγορίθμου, να αναγνωρίσουν τη σπουδαιότητα των αλγορίθμων και να εκτι-
μήσουν την αναγκαιότητα της αλγοριθμικής προσέγγισης για την επίλυση προ-
βλημάτων με σταδιακή προσέγγιση των αλγοριθμικών εννοιών χρησιμοποιώντας
συγκεκριμένες τεχνικές και συνιστώσες επίλυσης προβλημάτων.

Το κακό είναι ότι έλεγξα για αντιγραφή-επικόλληση αντιγράφοντας στο gedit όλα τα βιβλία,
αλλά δεν έλεγξα όλες τις σελίδες αν φαίνονται σωστά...  :-[

Έτσι Δημήτρη έχεις απόλυτο δίκιο, το κεφάλαιο 2 του βιβλίου καθηγητή μου ξέφυγε και αντιγράφεται μεν αλλά δεν εμφανίζεται καλά.
Well, διόρθωση μάλλον μέσα στα Χριστούγεννα.

Nikosn

Για να διορθώσω το 2ο κεφάλαιο του βιβλίου καθηγητή με abby finereader (απο pdf σε word και παλι πισω) μου φαινεται ειναι αρκετα δύσκολο(χαλάει η διαμόρφωση και βγαίνει διαφορετικό απο το υπόλοιπο βιβλίο και δε μου αρέσει αυτο), Αλκη εσύ με ποιό τρόπο διόρθωσες τα άλλα κεφάλαια, αν ειχες την καλοσύνη και το χρόνο να μου πεις τι έκανες έστω στο περίπου να το έφτιαχνα μόνος μου και να ανέβαζα μετα το αρχείο με τη σωστη εμφάνιση και αντιγραφη θα σου είμουν ευγνώμων.

Ευχαριστώ
Νικος
Η γνώση κατακτάται μέσα από τα λάθη μας

alkisg

Αμ τελικά καλά το είχα φτιάξει το ρημάδι...!!! :)
Απλά το είχα περάσει από το Acrobat για να το κάνει optimize για να βγει μικρότερο σε μέγεθος, και αυτό ήταν που το τσάκισε!!!
Ανέβασα το μη-βελτιστοποιημένο, μπορεί να είναι 700Kb παραπάνω αλλά τουλάχιστον φαίνεται σωστά! ;D

Λήψη από το αρχικό μήνυμα.

Σπύρος Δουκάκης

ψάχνοντας σήμερα κάτι στο ηλεκτρονικό τετράδιο του μαθητή για την εκσφαλμάτωση (κεφ. 13) διαπίστωσα ότι αντί του κεφαλαίου από το τετράδιο του μαθητή είναι το κεφάλαιο από το βιβλίο του μαθητή.

Προφανώς το λάθος δεν οφείλεται στον Άλκη, αλλά στο ΠΙ, όπου αντί να έχουν μέσα στο φάκελο το κεφάλαιο 13 από το τετράδιο του μαθητή, έχουν το κεφάλαιο 13 από το βιβλίο του μαθητή... και αντί να έχουν το κεφάλαιο 13 από το βιβλίο του καθηγητή έχουν επίσης το κεφάλαιο 13 από το βιβλίο του μαθητή....

http://www.pi-schools.gr/content/index.php?lesson_id=1&ep=67&c_id=273

Θα τους στείλουν ένα mail και ίσως το διορθώσουν...

ΣΔ

gregv

Α... ευχαριστώ πολύ, πολύ χρήσιμο! Τα κατεβάζω αμέσως! :)

Τώρα σε σχέση με την έκδοση 2010 των βιβλίων αυτών δεν πιστεύω να έχουν γίνει τίποτα τρομερές αλλαγές από πλευράς υπουργείου ε; ;)
Γρηγόρης Βαλσαμάκης

Δημήτρης Δαλαγιώργος

Παράθεση από: alkisg στις 04 Αυγ 2008, 09:10:26 ΜΜ
Μαθαίνοντας το νέο λειτουργικό μου (Ubuntu 8.04.1), έπεσα πάνω σε μια εντολή η οποία επιτρέπει την αποσυμπίεση των .pdf αρχείων, ώστε να είναι δυνατή η μετέπειτα επεξεργασία τους από πρόγραμμα. Με την ευκαιρία λοιπόν αποφάσισα να φτιάξω ένα προγραμματάκι για να διορθώσω το γνωστό πρόβλημα των αρχείων .pdf της ΑΕΠΠ (από το Παιδαγωγικό Ινστιτούτο), τα οποία σε κάμποσα σημεία δεν δείχνουν ελληνικά, αλλά και στα σημεία που δείχνουν ελληνικά δεν γίνεται σωστά αντιγραφή / επικόλληση, ούτε αναζήτηση.

Επειδή έχω πολλά ελληνικά PDF με παρόμοια προβλήματα, γίνεται να δημοσιεύσεις το πρόγραμμα και να μας δώσεις οδηγίες πώς να το χρησιμοποιούμε ώστε να διορθώσουμε ό,τι είναι δυνατόν να διορθωθεί;
Ενάντια στην ηλιθιότητα, ακόμα και οι θεοί, μάταια αγωνίζονται.
Friedrich Schiller

alkisg

Παράθεση από: alkisg στις 12 Σεπ 2008, 11:31:17 ΜΜ
@kokorets: ναι, αλλά θα μου πάρει κάμποση ώρα για να γράψω τις οδηγίες, και περίπου ένα απόγευμα σε κάποιον έμπειρο χρήστη να τις ακολουθήσει (ίσως και παραπάνω ανάλογα με το μέγεθος της "ζημιάς"). Έμπειρος = να μπορεί να χειριστεί κονσόλα (π.χ. "τρέξτε την εκτολή pdftk biblio.pdf page_with_correct_font.pdf cat output biblio_uncompressed.pdf uncompress") και έναν hex editor. Αν υπάρχει διάθεση και κάποια τεχνογνωσία πες μου και τα γράφω όσο αναλυτικά μπορώ.

Πλέον, 2 χρόνια μετά, ούτε καν θυμάμαι τα απαραίτητα βήματα, θα μπορούσα να τα ξαναβρώ αν ξαναασχολούμουνα 2-3 μέρες αλλά δε νομίζω ότι αξίζει τον κόπο.
Το κύριο μέρος της δουλειάς πάντως γινόταν χειρωνακτικά, με άνοιγμα του pdf σε κάποιον hex editor και με αναζήτηση χαλασμένων font encodings με το μάτι, και στη συνέχεια με replace είτε με το προγραμματάκι είτε και μέσα από τον hex editor.

akis_taz

Καλησπέρα σε όλους,
υπάρχει κάποια ιστοσελίδα με το καινούργιο βιβλίο σε ψηφιακή μορφή; pdf, word?
ευχαριστώ!

vistrian

VR in Computing

555

Υπάρχει τρόπος να έχουμε τα δύο νέα αρχεία με ασκήσεις κ.λ.π. σε .dot, .odt μορφή;

ggkrozos