Backup: Kuriose Änderungen in PDF Datei
Verfasst: 04.06.2023, 22:48
Moin,
Ich synchronisere meine Dateien ja per Seafile. Neulich ging mein Server kaputt und es hat etwas gedauert ihn neu aufzusetzen und danach waren eigentlich synchronisierte Ordner auf verschiedenen Geräten unterschiedlich und ich habe sie von Hand gemerged als der Server wieder lief. Das lief auch alles ganz gut bis auf eine einzige Ausnahme. Eine PDF aus dem letzten Jahr (die ich runtergeladen und garantiert nie von Hand geändert habe) war auf beiden Geräten subtil unterschiedlich. Mein Merge-Tool zeigt das hier an:
Die meisten Unterschiede sind binär und nicht zu verstehen. Das Tool arbeitet ja "zeilenweise", insgesamt sind, wie man links sieht, vlt. 5% der Dateien unterschiedlich. Der Teil, in dem man zumindest ein wenig lesen kann, scheint irgendwie mit embedded Fonts zu tun zu haben.
Beide Dateien lassen sich mit Sumatra PDF problemlos öffnen und sehen am Bildschirm komplett identisch aus. Eigentlich brauch ich die pdf auch gar nicht mehr, es geht hier also nicht irgendwie um Datenverlust. Aber zwei Fragen beschäftigen mich doch:
- Wie kann es sein, dass sich eine PDF einfach verändert? Ein Reader der die PDF automatisiert in einer aktuelleren Dokumentenversion speichert? Oder irgendetwas auf lokal installierte Fonts anpasst (das dürfte aber ja nicht sein, da PDF ja Geräteunabhängig sein sollten)?
- Wieso wurde die Datei, wenn geändert, nicht synchronisiert? Ich habe mit Sicherheit die PDF seit der Server down war nicht mehr angefasst, es könnte höchstens ein Hintergrundprozess damit irgendetwas getan haben. Ein Bug in Seafile, der Änderungen nicht erkennt (etwa weil das Dateidatum nicht modifiziert wurde und Seafile aus Effizienzgründen nicht bei jedem Start jede Datei bit für bit überprüft)? Eine Sonderbehandlung von PDF Dateien, weil es Unterschiede gibt die irrelevant sind und damit nicht synchronisiert werden sollten?
Wie gesagt, die PDF ist mir egal, aber ich möchte den Sachverhalt gerne verstehen. Ich will mich ja darauf verlassen können, dass meine Daten wirklich synchronisiert sind und zwar binär-identisch. Und die Frage ist ja auch ansich von Seafile unabhängig: Wenn man ein Backup macht, vergleicht man dann die Daten nach dem kopieren nochmal? Oder muss man die Dateien alle paar Wochen/Monate mit dem Backup Vergleich um zu erkennen, ob sich etwas "von selber" geändert hat, obwohl man sie nicht angefasst hat? Hat man hier einen partiellen Datenverlust, weil Teile der Datei nicht mehr gelesen werden können, aber "kluge" Reader das Problem verschleiern? Usw...
Ich synchronisere meine Dateien ja per Seafile. Neulich ging mein Server kaputt und es hat etwas gedauert ihn neu aufzusetzen und danach waren eigentlich synchronisierte Ordner auf verschiedenen Geräten unterschiedlich und ich habe sie von Hand gemerged als der Server wieder lief. Das lief auch alles ganz gut bis auf eine einzige Ausnahme. Eine PDF aus dem letzten Jahr (die ich runtergeladen und garantiert nie von Hand geändert habe) war auf beiden Geräten subtil unterschiedlich. Mein Merge-Tool zeigt das hier an:
Die meisten Unterschiede sind binär und nicht zu verstehen. Das Tool arbeitet ja "zeilenweise", insgesamt sind, wie man links sieht, vlt. 5% der Dateien unterschiedlich. Der Teil, in dem man zumindest ein wenig lesen kann, scheint irgendwie mit embedded Fonts zu tun zu haben.
Beide Dateien lassen sich mit Sumatra PDF problemlos öffnen und sehen am Bildschirm komplett identisch aus. Eigentlich brauch ich die pdf auch gar nicht mehr, es geht hier also nicht irgendwie um Datenverlust. Aber zwei Fragen beschäftigen mich doch:
- Wie kann es sein, dass sich eine PDF einfach verändert? Ein Reader der die PDF automatisiert in einer aktuelleren Dokumentenversion speichert? Oder irgendetwas auf lokal installierte Fonts anpasst (das dürfte aber ja nicht sein, da PDF ja Geräteunabhängig sein sollten)?
- Wieso wurde die Datei, wenn geändert, nicht synchronisiert? Ich habe mit Sicherheit die PDF seit der Server down war nicht mehr angefasst, es könnte höchstens ein Hintergrundprozess damit irgendetwas getan haben. Ein Bug in Seafile, der Änderungen nicht erkennt (etwa weil das Dateidatum nicht modifiziert wurde und Seafile aus Effizienzgründen nicht bei jedem Start jede Datei bit für bit überprüft)? Eine Sonderbehandlung von PDF Dateien, weil es Unterschiede gibt die irrelevant sind und damit nicht synchronisiert werden sollten?
Wie gesagt, die PDF ist mir egal, aber ich möchte den Sachverhalt gerne verstehen. Ich will mich ja darauf verlassen können, dass meine Daten wirklich synchronisiert sind und zwar binär-identisch. Und die Frage ist ja auch ansich von Seafile unabhängig: Wenn man ein Backup macht, vergleicht man dann die Daten nach dem kopieren nochmal? Oder muss man die Dateien alle paar Wochen/Monate mit dem Backup Vergleich um zu erkennen, ob sich etwas "von selber" geändert hat, obwohl man sie nicht angefasst hat? Hat man hier einen partiellen Datenverlust, weil Teile der Datei nicht mehr gelesen werden können, aber "kluge" Reader das Problem verschleiern? Usw...