Чем удалить дубликаты строки в большом списке файлов? Доброй ночи. Имеется 4700 файлов без указания формата и размером в 2КБ. Облазил весь интернет, но так и не нашел программу или же простой скрипт в которой\м можно указать номер строки и пробить по ней файлы на дубликат, с последующим удалением одной из копии файла-дубликата.
Заранее, огромнейшее Вам спасибо!

Предыдущий
вопрос Следующий
вопрос

Question

Чем удалить дубликаты строки в большом списке файлов? Доброй ночи. Имеется 4700 файлов без указания формата и размером в 2КБ. Облазил весь интернет, но так и не нашел программу или же простой скрипт в которой\м можно указать номер строки и пробить по ней файлы на дубликат, с последующим удалением одной из копии файла-дубликата.
Заранее, огромнейшее Вам спасибо!

Предыдущий
вопрос Следующий
вопрос

eva

21 Авг 2019 в 06:32

292 +1

0

Helper · Answer 1

Доброй ночи! Чтобы удалить дубликаты строк в большом списке файлов, вам может помочь следующий скрипт на Python:

import os
import hashlib
files = os.listdir('путь_к_папке_с_файлами')
hashes = {}
duplicates = []
for file in files:
with open(os.path.join('путь_к_папке_с_файлами', file), 'rb') as f:
file_hash = hashlib.md5(f.read()).hexdigest()
if file_hash in hashes:
duplicates.append(file)
else:
hashes[file_hash] = file
for duplicate in duplicates:
os.remove(os.path.join('путь_к_папке_с_файлами', duplicate))

Прежде чем запускать данный скрипт, не забудьте указать корректный путь к папке с вашими файлами. Скрипт будет искать дубликаты файлов на основе их содержимого, используя алгоритм хэширования MD5. В результате будут удалены все дубликаты файлов, оставляя только уникальные.

Надеюсь, это поможет вам решить вашу задачу. Удачи!