Αποστολέας Θέμα: Βιβλία ΑΕΠΠ (pdf) - διορθωμένα για αντιγραφή/αναζήτηση  (Αναγνώστηκε 31279 φορές)

alkisg

  • Τεχνικός / καθαρίστρια
  • *****
  • Μηνύματα: 4383
    • alkisg@im.sch.gr
    • Ο Διερμηνευτής της ΓΛΩΣΣΑΣ
edit 09/08/2008: Και τα τρία βιβλία ανανεώθηκαν. Όλα πλέον φαίνονται 100% ΟΚ, μόνο λίγες επικεφαλίδες του τετραδίου μαθητή και του βιβλίου καθηγητή φαίνονται μεν σωστά αλλά δεν αντιγράφονται σωστά επειδή μου έλειπαν κάποιες γραμματοσειρές.


Μαθαίνοντας το νέο λειτουργικό μου (Ubuntu 8.04.1), έπεσα πάνω σε μια εντολή η οποία επιτρέπει την αποσυμπίεση των .pdf αρχείων, ώστε να είναι δυνατή η μετέπειτα επεξεργασία τους από πρόγραμμα. Με την ευκαιρία λοιπόν αποφάσισα να φτιάξω ένα προγραμματάκι για να διορθώσω το γνωστό πρόβλημα των αρχείων .pdf της ΑΕΠΠ (από το Παιδαγωγικό Ινστιτούτο), τα οποία σε κάμποσα σημεία δεν δείχνουν ελληνικά, αλλά και στα σημεία που δείχνουν ελληνικά δεν γίνεται σωστά αντιγραφή / επικόλληση, ούτε αναζήτηση.

Συγκεκριμένα τα .pdf των βιβλίων έχουν 3 (τουλάχιστον) προβλήματα:
1. Λάθος cmap που αντιστοιχεί σε cp1252 αντί για cp1253, και έτσι αν πάμε να αντιγράψουμε τη λέξη "Αλγόριθμοι" επικολλάται στη συνέχεια ως "Áëãüñéèìïé".
2. Λάθος Encoding σε Fonts (WinAnsiEncoding), το οποίο εκτός από το παραπάνω πρόβλημα κάνει και πολλά σημεία του βιβλίου να μην δείχνουν καν ελληνικά, όχι μόνο να μην αντιγράφονται.
3. Λάθος Differences σε Encoding, με αποτέλεσμα πάλι να μη γίνεται αντιγραφή ή αναζήτηση.

Τα πρώτα αποτελέσματα είναι ενθαρρυντικά. Εν ολίγοις, διόρθωσα το πρόβλημα (1) και νομίζω (αν δε βαρεθώ να ασχολούμαι μαζί τους στο μεταξύ) ότι μπορώ να διορθώσω και τα (2) και (3). Επομένως τώρα το βιβλίο μαθητή είναι σε μεγάλο ποσοστό ΟΚ, και τα άλλα δύο σε μικρότερο ποσοστό.
Μην ψάχνετε "λογική" για το σε ποια σημεία είναι σωστά και σε ποια όχι, η (λάθος) κατανομή των encodings έγινε αυτοματοποιημένα από το πρόγραμμα που χρησιμοποίησαν για την παραγωγή των pdf. Έτσι μπορεί εγώ να έχω διορθώσει 900 από τα 1000 encodings και να έχω καλύψει μόνο το 10% του βιβλίου, ή αντίθετα.

Έδεσα και τα πολλά μικρά .pdf σε 3 μεγάλα, όποιος θέλει τα κατεβάζει, αλλά αν θέλετε μην τα δημοσιεύετε σε άλλες ιστοσελίδες αλλά βάλτε σύνδεσμο σε αυτό το θέμα (http://alkisg.mysch.gr/steki/index.php?topic=1436.0), ώστε να υπάρχει ανατροφοδότηση για πιθανά λάθη.

alkisg

  • Τεχνικός / καθαρίστρια
  • *****
  • Μηνύματα: 4383
    • alkisg@im.sch.gr
    • Ο Διερμηνευτής της ΓΛΩΣΣΑΣ
Απ: Βιβλία ΑΕΠΠ (pdf) - διορθωμένα για αντιγραφή/αναζήτηση
« Απάντηση #1 στις: 04 Αύγ 2008, 09:15:22 μμ »
Και για του λόγου το αληθές, μερικά παραδείγματα αντιγραφής / επικόλλησης από τα διορθωμένα βιβλία:

Σελίδα 211 Βιβλίου Μαθητή:
Παράθεση
Η συνάρτηση είναι ένας τύπος υποπρογράμματος που υπολογίζει και ε-
πιστρέφει μόνο μία τιμή με το όνομά της (όπως οι μαθηματικές συναρτή-
σεις).
Η διαδικασία είναι ένας τύπος υποπρογράμματος που μπορεί να εκτε-
λεί όλες τις λειτουργίες ενός προγράμματος.

Σελίδα 113 Τετραδίου Μαθητή:
Παράθεση
11.1. Προσδοκώμενα αποτελέσματα
  Μέχρι τώρα είχες εργαστεί σε ένα παραδοσιακό περιβάλλον προγραμματισμού,
που κυρίως ενδιαφέρεται για το πρόγραμμα και όχι για το περιβάλλον εργασίας του
χρήστη. Σε αυτό το κεφάλαιο έρχεσαι σε επαφή με σύγχρονα γραφικά περιβάλλοντα
προγραμματισμού που παρέχουν ιδιαίτερες δυνατότητες επικοινωνίας του προ-
γράμματος με το χρήστη αλλά και ειδικά εργαλεία προς το προγραμματιστή για την α-
πλούστευση του προγραμματισμού.

Σελίδα 175 Βιβλίου Καθηγητή:
Παράθεση
ΔΤ2.
Α.
ΑΝ Βαθμός>ΜΟ ΤΟΤΕ
   ΓΡΑΨΕ ‘Πολύ καλά’
ΑΛΛΙΩΣ_ΑΝ Βαθμός>=(ΜΟ-2) ΤΟΤΕ
   ΓΡΑΨΕ ‘Καλά’
ΑΛΛΙΩΣ
   ΓΡΑΨΕ ‘Μέτρια’
ΤΕΛΟΣ_ΑΝ

alkisg

  • Τεχνικός / καθαρίστρια
  • *****
  • Μηνύματα: 4383
    • alkisg@im.sch.gr
    • Ο Διερμηνευτής της ΓΛΩΣΣΑΣ
Απ: Βιβλία ΑΕΠΠ (pdf) - διορθωμένα για αντιγραφή/αναζήτηση
« Απάντηση #2 στις: 05 Αύγ 2008, 07:52:22 μμ »
Το pdf του βιβλίου μαθητή ανανεώθηκε, το έλεγξα και εμφανίζει παντού σωστά ελληνικά, και επιτρέπει αναζήτηση και αντιγραφή. Επομένως εκτός απροόπτου είναι πλέον τελική έκδοση, αν δείτε κάπου λάθος πείτε μου.

Λήψη από το αρχικό μήνυμα.

EleniK

  • Δεινόσαυρος
  • *****
  • Μηνύματα: 704
Απ: Βιβλία ΑΕΠΠ (pdf) - διορθωμένα για αντιγραφή/αναζήτηση
« Απάντηση #3 στις: 07 Αύγ 2008, 11:08:04 πμ »
Άλκη μεγάλη υπόθεση αυτό που έκανες και ειδικά για νέους συναδέλφους που δεν βρίσκουν πουθενά το βιβλίο του καθηγητή. Ευχαριστουμε πολύ.
Ελένη Κοκκίνου
Καθηγήτρια Πληροφορικής, ΠΕ19

alkisg

  • Τεχνικός / καθαρίστρια
  • *****
  • Μηνύματα: 4383
    • alkisg@im.sch.gr
    • Ο Διερμηνευτής της ΓΛΩΣΣΑΣ
Απ: Βιβλία ΑΕΠΠ (pdf) - διορθωμένα για αντιγραφή/αναζήτηση
« Απάντηση #4 στις: 09 Αύγ 2008, 07:40:46 μμ »
Να 'σαι καλά Ελένη! :)

Να 'ναι καλά κι η Python, με τη βοήθειά της μπόρεσα να διορθώσω και τα υπόλοιπα προβλήματα. Τώρα πλέον και τα 3 βιβλία είναι εντάξει, και άφησα μόνο λίγες επικεφαλίδες από το τετράδιο μαθητή και το βιβλίο καθηγητή, οι οποίες φαίνονται κι αυτές μεν εντάξει αλλά δεν αντιγράφονται σωστά με copy/paste.
Άμα κάποιος έχει τις γραμματοσειρές UB-AntiqueOlive, UB-AntiqueOliveBlack, UB-Helvetica και MgQuad, ας μου τις στείλει για να τις διορθώσω κι αυτές, δεν τις έχω και δεν μπορώ να τις κάνω embed. Δεν υπάρχει ζήτημα νομιμότητας αφού είναι ήδη ενσωματωμένες στα βιβλία, απλά έχει γίνει λάθος subsetting. Είπα να μην τις αντικαταστήσω με άλλες open source γραμματοσειρές αφού το πρόβλημα είναι μόνο σε επικεφαλίδες, οπότε προτίμησα να φαίνονται όπως στο τυπωμένο βιβλίο κι ας μην αντιγράφονται με copy/paste...

Λήψη από το αρχικό μήνυμα.

yiannis

  • Δεινόσαυρος
  • *****
  • Μηνύματα: 217
Απ: Βιβλία ΑΕΠΠ (pdf) - διορθωμένα για αντιγραφή/αναζήτηση
« Απάντηση #5 στις: 09 Σεπ 2008, 09:25:55 μμ »
Μπράβο βρε Άλκη είσαι φοβερός!
Χαρά στο κέφι σου και στην όρεξή σου ;)
Κάπου είχα παλιότερα τις UB γραμματοσειρές.
Έχω φάει τον κόσμο αλλά δεν τις έχω βρει τώρα που τις θες.
Αν τις βρω θα στις στείλω πάντως.
Και πάλι ευχαριστούμε,
Γιάννης Μοδέας

kokorets

  • Νέος
  • *
  • Μηνύματα: 3
Απ: Βιβλία ΑΕΠΠ (pdf) - διορθωμένα για αντιγραφή/αναζήτηση
« Απάντηση #6 στις: 12 Σεπ 2008, 02:42:29 μμ »
Για τα βιβλία φυσικής χημείας βιολογίας του γυμνασίου που έχουν ίδιο πρόβλημα τι μπορούμε να κάνουμε;
μπορείς να δώσεις λεπτομέριες να τα φτιάκσουμε και αυτά;
ευχαριστω

andreas_p

  • Ομάδα διαγωνισμάτων 2010
  • *
  • Μηνύματα: 996
Απ: Βιβλία ΑΕΠΠ (pdf) - διορθωμένα για αντιγραφή/αναζήτηση
« Απάντηση #7 στις: 12 Σεπ 2008, 10:42:15 μμ »
Στέλνω τις UB-Optima  γραμματοσειρές.

alkisg

  • Τεχνικός / καθαρίστρια
  • *****
  • Μηνύματα: 4383
    • alkisg@im.sch.gr
    • Ο Διερμηνευτής της ΓΛΩΣΣΑΣ
Απ: Βιβλία ΑΕΠΠ (pdf) - διορθωμένα για αντιγραφή/αναζήτηση
« Απάντηση #8 στις: 12 Σεπ 2008, 11:31:17 μμ »
@kokorets: ναι, αλλά θα μου πάρει κάμποση ώρα για να γράψω τις οδηγίες, και περίπου ένα απόγευμα σε κάποιον έμπειρο χρήστη να τις ακολουθήσει (ίσως και παραπάνω ανάλογα με το μέγεθος της "ζημιάς"). Έμπειρος = να μπορεί να χειριστεί κονσόλα (π.χ. "τρέξτε την εκτολή pdftk biblio.pdf page_with_correct_font.pdf cat output biblio_uncompressed.pdf uncompress") και έναν hex editor. Αν υπάρχει διάθεση και κάποια τεχνογνωσία πες μου και τα γράφω όσο αναλυτικά μπορώ.

@yiannis, andreas_p: ευχαριστώ παιδιά! Επειδή έχουν μείνει μόνο μερικές επικεφαλίδες όμως δεν είναι "βιαστικό" πια, οπότε θα αργήσω λίγο να κάνω την ενημέρωση... π.χ. τα Χριστούγεννα.
Ελπίζω μέχρι τότε να έχω στα χέρια μου και το νέο βιβλίο οπότε
α) να περάσω τις διορθώσεις που έχουν γίνει (=> αν έχει όρεξη κάποιος να το κάνει ας μου πει να γράψω οδηγίες - εύκολο είναι), και
β) να κάνω και μία δεύτερη έκδοση με τις εκατοντάδες διορθώσεις που είχαμε στείλει αλλά δεν εγκρίθηκαν... :(

Παναγιώτης Τσιωτάκης

  • Ομάδα Νέου Λυκείου
  • *
  • Μηνύματα: 3111
  • Dracarys
    • Panagiotis Tsiotakis
Απ: Βιβλία ΑΕΠΠ (pdf) - διορθωμένα για αντιγραφή/αναζήτηση
« Απάντηση #9 στις: 13 Σεπ 2008, 09:55:43 πμ »
Άλκη, καλύτερα να μη βγάλεις έκδοσης του βιβλίου που δεν κυκλοφορεί !!!  :D

alkisg

  • Τεχνικός / καθαρίστρια
  • *****
  • Μηνύματα: 4383
    • alkisg@im.sch.gr
    • Ο Διερμηνευτής της ΓΛΩΣΣΑΣ
Απ: Βιβλία ΑΕΠΠ (pdf) - διορθωμένα για αντιγραφή/αναζήτηση
« Απάντηση #10 στις: 13 Σεπ 2008, 02:59:37 μμ »
Όχι βρε για τους καθηγητές, για το ΠΙ θα προορίζεται... να έχουν όλα τα "bugs" πάνω στο .pdf με σχόλια, μπας και το πάρουν απόφαση για καμιά ριζικότερη αλλαγή, γιατί τώρα έλεγαν ότι δεν είχαν κονδύλια για επανασελιδοποίηση και δεν μπορούσαν να κάνουν large scale αλλαγές.

kokorets

  • Νέος
  • *
  • Μηνύματα: 3
Απ: Βιβλία ΑΕΠΠ (pdf) - διορθωμένα για αντιγραφή/αναζήτηση
« Απάντηση #11 στις: 13 Σεπ 2008, 08:21:57 μμ »
Δυστυχώς δεν έχω τέτοιες γνώσεις.. οπότε άδικος κόπος..
Αν κατάλαβα καλά το ότι δεν μπορώ να κάνω copy-paste από τα σχολικά βιβλία (είναι και το μόνο που με απασχολεί)οφείλεται σε λάθος του αρχείου και όχι σε έλλειψη ικανού software του υπολογιστή μου;

alkisg

  • Τεχνικός / καθαρίστρια
  • *****
  • Μηνύματα: 4383
    • alkisg@im.sch.gr
    • Ο Διερμηνευτής της ΓΛΩΣΣΑΣ
Απ: Βιβλία ΑΕΠΠ (pdf) - διορθωμένα για αντιγραφή/αναζήτηση
« Απάντηση #12 στις: 13 Σεπ 2008, 10:09:18 μμ »
kokorets, ναι, δυστυχώς φταίει το αρχείο και όχι το λογισμικό σου.

Όμως, υπάρχει ένας εναλλακτικός και απλούστερος τρόπος με το πρόγραμμα οπτικής αναγνώρισης χαρακτήρων (OCR) finereader. Αυτό το πρόγραμμα συνήθως το χρησιμοποιούμε για να περάσουμε κείμενο από εκτυπωμένο χαρτί (όταν δεν έχουμε το πρωτότυπο αρχείο) με τον σαρωτή (scanner) μας στο Word.
Στη συγκεκριμένη περίπτωση όμως αντί για εκτυπωμένο χαρτί μπορείς να του πεις να διαβάσει το ίδιο το pdf, να αναγνωρίσει τα γράμματα και τα περάσει σε αρχείο .doc, και έτσι να έχεις τελικά το βιβλίο στο Word.
Για να γίνει αυτό (νομίζω ότι) υπάρχει ένα ενδιάμεσο στάδιο όπου εκτυπώνεις το .pdf σε ένα αρχείο εικόνας και λες στο finereader να διαβάσει αυτήν την εικόνα. Δεν ξέρω ακριβώς λεπτομέρειες γιατί δεν έχω κάνει ποτέ αυτή τη μέθοδο, αλλά σίγουρα θα βρεις αναφορές στο Internet από άλλους που το έχουν κάνει.

Το μειονέκτημα είναι ότι δεν είναι σίγουρο ότι θα διαβάσει όλα τα γράμματα σωστά. Π.χ. το CO2 μπορεί να το διαβάσει σαν C0z, δηλαδή να μη σε ικανοποιήσει το αποτέλεσμα.

kokorets

  • Νέος
  • *
  • Μηνύματα: 3
Απ: Βιβλία ΑΕΠΠ (pdf) - διορθωμένα για αντιγραφή/αναζήτηση
« Απάντηση #13 στις: 14 Σεπ 2008, 10:55:00 πμ »
Διαβάζει κατευθείαν pdf (read from file), έχω δουλέψει ocr κυρίως finereader. Για την δουλεία που το θέλω με βόλευε το copy paste περισσότερο από θέμα χρόνου. Ελπίζω να τα φτιάξουν αυτοί οι π@@..ες στο υπουργείο κάποια στιγμή..
Σε ευχαριστώ για τις πληροφορίες σου ήταν πολύτιμες και με γλίτωσες από τον κόπο να ψάχνω και άλλα software..
thanx.

Δημήτρης Δαλαγιώργος

  • Πληροφορικός Πανεπιστημίου Αθηνών
  • Δεινόσαυρος
  • *****
  • Μηνύματα: 360
    • Οι φωτογραφίες μου στο flickr
Απ: Βιβλία ΑΕΠΠ (pdf) - διορθωμένα για αντιγραφή/αναζήτηση
« Απάντηση #14 στις: 26 Νοέ 2008, 11:25:16 μμ »
Μόλις κατέβασα το βιβλίο του καθηγητή και ολόκληρο το 2ο κεφάλαιο έχει πρόβλημα. Φταίει το συγκεκριμένο αρχείο ή λείπει κάτι απ' το σύστημά μου;
Ενάντια στην ηλιθιότητα, ακόμα και οι θεοί, μάταια αγωνίζονται.
Friedrich Schiller