Чем удалить дубликаты строки в большом списке файлов? Доброй ночи. Имеется 4700 файлов без указания формата и размером в 2КБ. Облазил весь интернет, но так и не нашел программу или же простой скрипт в которой\м можно указать номер строки и пробить по ней файлы на дубликат, с последующим удалением одной из копии файла-дубликата.
Заранее, огромнейшее Вам спасибо!

21 Авг 2019 в 06:32
270 +1
0
Ответы
1

Доброй ночи! Чтобы удалить дубликаты строк в большом списке файлов, вам может помочь следующий скрипт на Python:

import os
import hashlib
files = os.listdir('путь_к_папке_с_файлами')
hashes = {}
duplicates = []
for file in files:
with open(os.path.join('путь_к_папке_с_файлами', file), 'rb') as f:
file_hash = hashlib.md5(f.read()).hexdigest()
if file_hash in hashes:
duplicates.append(file)
else:
hashes[file_hash] = file
for duplicate in duplicates:
os.remove(os.path.join('путь_к_папке_с_файлами', duplicate))

Прежде чем запускать данный скрипт, не забудьте указать корректный путь к папке с вашими файлами. Скрипт будет искать дубликаты файлов на основе их содержимого, используя алгоритм хэширования MD5. В результате будут удалены все дубликаты файлов, оставляя только уникальные.

Надеюсь, это поможет вам решить вашу задачу. Удачи!

20 Апр в 13:16
Не можешь разобраться в этой теме?
Обратись за помощью к экспертам
Название заказа не должно быть пустым
Введите email
Бесплатные доработки
Гарантированные бесплатные доработки
Быстрое выполнение
Быстрое выполнение от 2 часов
Проверка работы
Проверка работы на плагиат
Интересные статьи из справочника
Поможем написать учебную работу
Название заказа не должно быть пустым
Введите email
Доверьте свою работу экспертам
Разместите заказ
Наша система отправит ваш заказ на оценку 84 503 авторам
Первые отклики появятся уже в течение 10 минут
Прямой эфир