Πρόβλημα με NIC pci-e σε pci-e x16 slot

Ξεκίνησε από tallis, 06 Απρ 2011, 06:57:00 ΜΜ

« προηγούμενο - επόμενο »

tallis

Καθώς ο ltsp server μου εξυπηρετεί 2 εργαστήρια + 1 βιβλιοθήκη (σύνολο 28 fat + 3 thin clients) έχω βάλει στον server 3 κάρτες δικτύου intel pci-e. Η M/B μου έχει μόνο 2 pci-e x1 slots και την τρίτη κάρτα την έβαλα στο x16 slot εκεί που κανονικά μπαίνει κάρτα γραφικών, στην αρχή φάνηκε να λειτουργεί κανονικά, σε κάποιες στιγμές όμως η 3 κάρτα κάνει μόνη της reboot και όταν ξαναξεκινάει δεν λειτουργεί σωστά αναγκάζοντας με να κάνω επανεκκίνηση τον server.

Δυστυχώς δεν βρήκα πουθενά στο internet κάποια βοήθεια για το πρόβλημα αυτό.

/var/log/messages

Apr  6 13:31:45 server kernel: [  179.052197] e1000e: eth1 NIC Link is Down
Apr  6 13:31:47 server kernel: [  180.748932] e1000e: eth1 NIC Link is Up 100 Mbps Full Duplex, Flow Control: None
Apr  6 13:31:47 server kernel: [  180.748940] 0000:03:00.0: eth1: 10/100 speed: disabling TSO
Apr  6 13:32:06 server kernel: [  199.500197] e1000e: eth1 NIC Link is Down
Apr  6 13:32:08 server kernel: [  201.160940] e1000e: eth1 NIC Link is Up 100 Mbps Full Duplex, Flow Control: None
Apr  6 13:32:08 server kernel: [  201.160948] 0000:03:00.0: eth1: 10/100 speed: disabling TSO
Apr  6 13:32:49 server kernel: [  242.280188] e1000e: eth1 NIC Link is Down


/var/log/syslog

pr  6 12:57:07 server kernel: [184928.460197] e1000e: eth1 NIC Link is Down
Apr  6 12:57:07 server NetworkManager: <info>  (eth1): carrier now OFF (device state 1)
Apr  6 12:57:10 server kernel: [184931.288940] e1000e: eth1 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: RX
Apr  6 12:57:10 server NetworkManager: <info>  (eth1): carrier now ON (device state 1)
Apr  6 12:58:44 server kernel: [185024.664196] e1000e: eth1 NIC Link is Down
Apr  6 12:58:44 server NetworkManager: <info>  (eth1): carrier now OFF (device state 1)
Apr  6 12:58:56 server kernel: [185037.336941] e1000e: eth1 NIC Link is Up 100 Mbps Full Duplex, Flow Control: None
Apr  6 12:58:56 server kernel: [185037.336949] 0000:03:00.0: eth1: 10/100 speed: disabling TSO
Apr  6 12:58:56 server NetworkManager: <info>  (eth1): carrier now ON (device state 1)



υποπτεύομαι πως είναι κάποιο hardware πρόβλημα καθώς οι 2 άλλες κάρτες που βρίσκονται σε pci-x x1 slots παίζουν άψογα.

Μάλλον με βλέπω να αγοράζω μια απλή pci intel nic.
Απόστολος Γιόκας
ΠΕ20 - ΕΠΑΛ Ορεστιάδας

apapakL

Αυτό γίνεται με οποιαδήποτε από τις τρεις κάρτες βάλεις στην εν λόγω slot?

tallis

Δεν τις έχω αλλάξει μεταξύ τούς. Θα το δοκιμάσω.
Απόστολος Γιόκας
ΠΕ20 - ΕΠΑΛ Ορεστιάδας

alkisg

Επίσης δοκίμασε να συνδέσεις την pci-e x16 με άλλο εργαστήριο, δηλαδή απλή αντιμετάθεση των δύο από τα τρία καλώδια που έρχονται στον server. Από τα logs φαίνεται ότι άλλοτε συνδέεται σε ταχύτητα 100 mbps και άλλοτε στα 1000 mbps, οπότε μήπως το πρόβλημα είναι το μήκος και η ποιότητα των καλωδίων και των συνδέσεων, και όχι το slot.

Αν το χρειαστείς, μπορείς να αλλάξεις τα ονόματα των eth[012] από το αρχείο /etc/udev/rules.d/70-persistent-net.rules ώστε να μη χρειαστεί να πειράξεις dnsmasq.conf κτλ.

tallis

Να το συνδέσω σε άλλο καλώδιο (εργαστήριο) το  δοκίμασα. Καμία διαφορά να αλλάξω τα eth[0123] μεταξύ τους όχι.

Θα δοκιμάσω.

Παράθεση από: alkisg στις 07 Απρ 2011, 07:42:11 ΠΜ
Επίσης δοκίμασε να συνδέσεις την pci-e x16 με άλλο εργαστήριο, δηλαδή απλή αντιμετάθεση των δύο από τα τρία καλώδια που έρχονται στον server. Από τα logs φαίνεται ότι άλλοτε συνδέεται σε ταχύτητα 100 mbps και άλλοτε στα 1000 mbps, οπότε μήπως το πρόβλημα είναι το μήκος και η ποιότητα των καλωδίων και των συνδέσεων, και όχι το slot.

Αν το χρειαστείς, μπορείς να αλλάξεις τα ονόματα των eth[012] από το αρχείο /etc/udev/rules.d/70-persistent-net.rules ώστε να μη χρειαστεί να πειράξεις dnsmasq.conf κτλ.
Απόστολος Γιόκας
ΠΕ20 - ΕΠΑΛ Ορεστιάδας

tallis

Επανέρχομαι μετα απο πολύ καιρό σε αυτό το θέμα.

Το πρόβλημα τελικά παρουσιάζεται όταν κάποιο απο τα 3 switch που είναι συνδεμένα στον server κάνει επανεκίνηση (π.χ. λόγου διακοπής ρεύματος).

Τότε γίνετε το παρακάτο
apostolos@server:~$ sudo ethtool --show-pause eth3
Pause parameters for eth3:
Autonegotiate:	off
RX:		off
TX:		off

apostolos@server:~$ sudo ethtool --show-pause eth1
Pause parameters for eth1:
Autonegotiate:	off
RX:		off
TX:		off

apostolos@server:~$ sudo ethtool --show-pause eth2
Pause parameters for eth2:
Autonegotiate:	off
RX:		off
TX:		on


και πρέπει πάλι χειροκίνητα να αλλάξω το flow control

Απόστολος Γιόκας
ΠΕ20 - ΕΠΑΛ Ορεστιάδας

alkisg

Καταρχάς, το flow control που δείχνεις παραπάνω είναι off, δηλαδή το επιθυμητό, δεν χρειάζεται αλλαγή.

Κατά δεύτερο, το να επανέρχεται η ρύθμιση του flow control σε on (το ανεπιθύμητο) θα έπρεπε να είχε σαν αποτέλεσμα όλα να παίζουν άψογα, απλά σε μικρότερη ταχύτητα. Εσύ όμως είχες πει:

Παράθεση από: tallis στις 06 Απρ 2011, 06:57:00 ΜΜ
... σε κάποιες στιγμές όμως η 3 κάρτα κάνει μόνη της reboot και όταν ξαναξεκινάει δεν λειτουργεί σωστά αναγκάζοντας με να κάνω επανεκκίνηση τον server.

Άρα υποψιάζομαι ότι δεν είναι μόνο η ρύθμιση του flow control το πρόβλημα.

Εντωμεταξύ, με το που κάποιο switch κάνει reboot, θα έπρεπε να απενεργοποιείται και μετά ξανά να ενεργοποιείται κάποια σύνδεση δικτύου. Έτσι, τα sch-scripts, μέσω του αρχείου /etc/network/if-up.d/sch-scripts, θα έπρεπε να ενημερώνουν αυτόματα το flow control. Αυτό είναι μια τρίτη ένδειξη ότι το πρόβλημα δεν είναι μόνο η ρύθμιση του flow control.

Με την παρακάτω εντολή μπορείς να δεις πότε τα sch-scripts προσπαθούν να διορθώσουν το flow control, και αν το ethtool αναφέρει επιτυχία ή όχι:
Κώδικας: shell
$ grep sch-scripts /var/log/syslog
Jul 19 21:15:49 alkis sch-scripts: Didn't disable flow control for interface eth0


(έχω realtek στο laptop οπότε μου αναφέρει ότι δεν απενεργοποιήθηκε το flow control όταν έγινε η σύνδεση δικτύου).

tallis

To

grep sch-scripts /var/log/syslog


δεν μου δίνει αποτελέσματα ...
Απόστολος Γιόκας
ΠΕ20 - ΕΠΑΛ Ορεστιάδας

alkisg

Ανέβασε τα αποτελέσματα των παρακάτω εντολών:
for eth in eth0 eth1 eth2 eth3; do
    sudo ethtool --show-pause $eth
    sudo IFACE=$eth MODE=start ADDRFAM=inet sh -x /etc/network/if-up.d/sch-scripts
    sudo ethtool --show-pause $eth
done
ls -l /usr/sbin/ethtool
grep sch-scripts /var/log/syslog

tallis

eth0 δεν έχω .. τα υπόλοιπα είναι:

+ PATH=/sbin:/bin:/usr/sbin:/usr/bin
+ test eth1 != lo
+ test start = start
+ [ -x /usr/bin/logger ]
+ logger=logger
+ [ -x /usr/sbin/ethtool ]
+ ethtool --pause eth1 autoneg off rx off
+ logger -t sch-scripts -p syslog.info Didn't disable flow control for interface eth1
Pause parameters for eth1:
Autonegotiate:	off
RX:		off
TX:		on

Pause parameters for eth2:
Autonegotiate:	off
RX:		off
TX:		on

+ PATH=/sbin:/bin:/usr/sbin:/usr/bin
+ test eth2 != lo
+ test start = start
+ [ -x /usr/bin/logger ]
+ logger=logger
+ [ -x /usr/sbin/ethtool ]
+ ethtool --pause eth2 autoneg off rx off
+ logger -t sch-scripts -p syslog.info Didn't disable flow control for interface eth2
Pause parameters for eth2:
Autonegotiate:	off
RX:		off
TX:		on

Pause parameters for eth3:
Autonegotiate:	off
RX:		off
TX:		on

+ PATH=/sbin:/bin:/usr/sbin:/usr/bin
+ test eth3 != lo
+ test start = start
+ [ -x /usr/bin/logger ]
+ logger=logger
+ [ -x /usr/sbin/ethtool ]
+ ethtool --pause eth3 autoneg off rx off
+ logger -t sch-scripts -p syslog.info Didn't disable flow control for interface eth3
Pause parameters for eth3:
Autonegotiate:	off
RX:		off
TX:		on
Απόστολος Γιόκας
ΠΕ20 - ΕΠΑΛ Ορεστιάδας

alkisg

Λείπουν τα αποτελέσματα των δύο τελευταίων εντολών, της ls και της grep παραπάνω.

Επίσης, πώς παίρνουν IP οι κάρτες σου; Από network manager ή από /etc/network/interfaces; Αν το δεύτερο, ανέβασε και το αρχείο αυτό.

tallis

apostolos@server:~$ ls -l /usr/sbin/ethtool
lrwxrwxrwx 1 root root 13 2011-06-02 23:07 /usr/sbin/ethtool -> /sbin/ethtool

apostolos@server:~$ grep sch-scripts /var/log/syslog
Jul 20 12:50:13 server sch-scripts: Didn't disable flow control for interface eth0
Jul 20 12:50:13 server sch-scripts: Didn't disable flow control for interface eth1
Jul 20 12:50:13 server sch-scripts: Didn't disable flow control for interface eth2
Jul 20 12:50:13 server sch-scripts: Didn't disable flow control for interface eth3
apostolos@server:~$


Απόστολος Γιόκας
ΠΕ20 - ΕΠΑΛ Ορεστιάδας

alkisg

Παράθεση από: tallis στις 20 Ιουλ 2011, 11:15:41 ΠΜ
To

grep sch-scripts /var/log/syslog


δεν μου δίνει αποτελέσματα ...

Αν βγάλεις το καλώδιο από μια κάρτα δικτύου, και μετά από 10 δευτερόλεπτα το ξαναβάλεις, η παραπάνω εντολή grep σου δείχνει μια καινούργια καταχώρηση στο syslog;
Αν όχι, πώς παίρνουν IP οι κάρτες δικτύου σου;
Σε κάθε περίπτωση, το flow control σου είναι μια χαρά, οπότε όλα αυτά που συζητάμε δεν έχουν καμία σχέση με το πρόβλημα που αντιμετωπίζεις, το οποίο πιθανώς να είναι και hardware πρόβλημα.

tallis

Ευχαριστω Αλκη

Δεν μπορώ να το δοκιμάσω τώρα γιατί ειμαι εκτός σχολείου - πόλης - χώρας..


Από Σεπτέμβρη


καλη συνέχεια
Απόστολος Γιόκας
ΠΕ20 - ΕΠΑΛ Ορεστιάδας

Keep Growing

Άλκη, άσχετο, αν θες το σβήνεις.  :)

Ή είσαι γκατζετάκιας, ή είσαι η μητέρα Τερέζα , ή δε σου αρέσουν οι διακοπές.

Αν είναι κάτι άλλο στείλε μου pm.  :D
Ο Έρωτας (του Εκπ/κου Πληροφορικού) στ' αλώνια της καλδέρας (του υπνωτισμού).

alkisg



Αν και φέτος προβλέπεται πολύ χώσιμο λόγω διδακτορικού, οφείλω να ομολογήσω ότι το πρώτο post ήταν από το ενοικιαζόμενο, και το δεύτερο από το εστιατόριο της παραλίας...  8)

Δυστυχώς η επιστροφή ήταν επεισοδιακή>:(

Keep Growing

Ο Έρωτας (του Εκπ/κου Πληροφορικού) στ' αλώνια της καλδέρας (του υπνωτισμού).