wie nur einmal vorhandene Dateien automatisch löschen?

  • Hallo,


    ich möchte meine Sicherungsfestplatten aufräumen, wodurch ich deutlich Speicherplatz gewinnen würde. Auf der Hauptplatte werden regelmäßig Dateien hinzugefügt und gelöscht. In regelmäßigen Abständen kopiere ich ganze Ordner mit ihren Inhalten auf Sicherungsfestplatten. Beim Kopieren werden nur die neuen Dateien kopiert; auf der Sicherungsfestplatte sammeln sich also alte Dateien an, die nicht mehr gebraucht werden. Dies möchte ich vermeiden. Eine 1:1 Kopie wäre eine Möglichkeit, dauert mir aber (mehrere TB) zu lange. Wie kann ich die nur einmal vorhandenen Dateien (nämlich alte auf der Sicherungsplatte) von gleichnamigen Verzeichnissen (je eines auf der Haupt und Sicherungsplatte) automatisch löschen? Gibt es z.B. bei einem Programm, welches doppelte Dateien löscht, eine Umkehrfunktion? Als Betriebssystem stehen mir Windows7 und Ubuntu 14 zur Verfügung.


    Vielen Dank und ein gesundes und frohes Restjahr!

    Jürgen

  • Das einfachste wäre, wenn es nur einmalig vorhanden sein soll und du immer nur die neuste Version (keine Revisionen willst), das Ganze einmal vollständig und nachfolgend inkrementell zu sichern. Unter Ubuntu wäre das sehr simpel möglich mit:


    rsync -av QUELLE ZIEL


    Dabei wird von der Quelle alles zum Ziel übertragen, bei einem exakt gleichen Aufruf des Befehls, wird nachfolgend eine Differenz vorab erstellt und nur die Änderungen übertragen (das betrifft inhaltliche Veränderungen, als auch neue Daten). Daten, die zwischenzeitlich in der Quelle mal gelöscht wurden, bleiben im Ziel weiterhin auf ewig vorhanden. Soll dies nicht der Fall sein, kann dies mit „minusminusdelete“ (irgendwie kann ich hier kein doppelminus schreiben) auch im Ziel wieder gelöscht werden.

  • ...

    Unter Ubuntu wäre das sehr simpel möglich mit:


    rsync -av QUELLE ZIEL

    ...

    Unter Windows wäre das ebenso einfach möglich mit:


    robocopy QUELLE ZIEL /MIR


    Robocopy hat noch zahlreiche weitere Parameter, die noch mehr Möglichkeiten bieten. Bspw. würde der Schalter /PURGE dafür sorgen das in der Sicherung die Dateien gelöscht werden, die auch in der Quelle nicht mehr vorhanden sind.

  • Meiner Meinung erfüllt aber weder rsync noch andere auf rsync aufbauende Lösungen die vom TE gewünschte Funktion.


    Beide besitzen keine Deduplizierung. Oder täusche ich mich?


    Für mich ist das ein Hauptargument für Borgbackup.

    Alle Dateien werden nur einmal geschrieben.

    Auch wenn diese zigmal neu verschoben oder kopiert werden, sie existieren nur einmal auf der Sicherungsplatte.


    Und man hat immer eine Versionierung.

    Man kann das gesamte Datensystem auf ein bestimmtes Datum zurücksetzen.

    Und man kann sagen, alles was vor 6 Monaten oder 3 Wochen oder 7 Stunden..... gesichert wurde, sofort aus dem Archiv löschen.

    Dann hat man genau die Daten, die aktuell im System sind.

    Irgendwelche alten Leichen sind dann weg....... Wenn man das denn will.

  • Meiner Meinung erfüllt aber weder rsync noch andere auf rsync aufbauende Lösungen die vom TE gewünschte Funktion.


    ...

    Die Frage ist halt wie denn der genaue Einsatzzweck ausschaut.

    Auf einem privaten Rechner halte ich eine Deduplizierung für entbehrlich, da es wohl eher selten mehrfach vorkommende Dateien geben wird. Und die paar mehr fallen mengenmäßig kaum ins Gewicht, so dass man sich Gedanken über Zeit (Dauer der Sicherung) und Platz (Größe der Sicherung) machen müsste. Im Geschäftsumfeld sieht das häufig schon anders aus, da Dateien gern per Mail hin und her gesendet und von x verschiedenen Leuten x-mal auf verschiedenen Shares oder in verschiedenen Ordnern gespeichert werden.

  • Wie wäre es mit Duplicati? Sichert die Daten wo und wie man will. Duplicati dedupliziert die Daten und man kann einstellen, wie lange ein Sicherungsstand erhalten bleiben soll.

  • Die Frage ist halt wie denn der genaue Einsatzzweck ausschaut.

    Auf einem privaten Rechner halte ich eine Deduplizierung für entbehrlich, da es wohl eher selten mehrfach vorkommende Dateien geben wird.


    Natürlich. Es kommt immer auf den eigenen Einsatzzweck an.

    Auch müssen die Dateien selber nicht mehrfach vorkommen. Es reicht, wenn sich der Inhalt ändert.

    Als Beispiel eine Tabelle mit 10 Spalten und 1000 Zeilen.

    Wenn ich jetzt einen einzigen Wert in der Tabelle ändere, wird nur der Inhalt dieser einzigen Zelle geschrieben. Nicht die ganze Datei.

    So eine Tabelle habe ich zum Beispiel. Da kommt jeden Montag 1 Zeile dazu.


    Es kommt schon sehr häufig vor, dass sich Teile von Dateien ändern, es ist nur häufig nicht offensichtlich.

    Für eine gute und platzsparende Sicherung finde ich das schon wichtig.


    Vor allem bei:

    auf der Sicherungsfestplatte sammeln sich also alte Dateien an, die nicht mehr gebraucht werden. Dies möchte ich vermeiden.


    Beispiel obige Tabelle mit 10 Spalten und 1000 Zeilen, erstellt im Sommer 2021.

    Letzte Änderung Neujahr 2022.


    Im Backup vom Januar 2022 ist nur die Änderung!

    Im Backup vom Sommer 2021 aber der gesamte Inhalt der Tabelle.

    Wenn jetzt die Version aus dem Sommer gelöscht wird, ist aber trotzdem noch die geänderte Tabelle in neuester Version vorhanden.


    Oder wenn eine Bildersammlung umsortiert wird, existieren trotzdem die Bilder nicht mehrfach in der Sicherung.



    Auch wenn dem TE robocopy ausreicht, wollte ich doch ein passendes und mächtiges Tool genannt haben. ;-)



    Duplicati dedupliziert die Daten

    Nein, kann es nicht und macht es nicht!

    Jedenfalls habe ich das in der Funktionsübersicht nicht gefunden.

    Dann müsste das Programm ja auch Deduplicati heißen. :D:saint:

  • Nein, kann es nicht und macht es nicht!

    Jedenfalls habe ich das in der Funktionsübersicht nicht gefunden.

    Dann müsste das Programm ja auch Deduplicati heißen. :D:saint:


    Glaube du hast es missverstanden. In der Sicherung von Duplicati wird Datendeduplizierung betrieben. Ich setze es sleber ein. Eine Sicherungsaufgabe hat aktuell 1204 Versionen und die gesamte Datenmenge ist nur unwesentlich größer als die Quelldatenmenge.


    Duplicati bezieht sich auf das sichern.


    Und der Vorschlag war nicht zur Suche in seinen aktuellen Sicherungen gedacht, sondern als Alternative wenn er etwas umstellen will.


    Mal zitiert von der Duplicati-Seite:


    Duplicati is an open source backup application, that has no server-side components and thus it can support a wide variety of cloud-based storage providers. This also means, Duplicati has to handle large latencies, disconnects and it can only add and delete files but not modify existing files. Duplicati copes with it by using a storage format that merges small files and splits large files and that supports features like encryption, compression and de-duplication, versioning and incremental backups. In this article we walk through the process of backing up a few files to a remote storage, to illustrate how it basically works.

Jetzt mitmachen!

Sie haben noch kein Benutzerkonto auf unserer Seite? Registrieren Sie sich kostenlos und nehmen Sie an unserer Community teil!