Как отфильтровать большой файл xml по регулярному выражению? Есть огромный файл xml с 300000+ строк. Как мне его отфильтровать, чтобы остались только нужные блоки текста которые соответствуют регулярному выражению? Может есть специальная программа которая принимает регулярные выражения и оставляет нужный текст который соответствует этой регулярке. И как это сделать быстро (файл большой)? Пробовал это сделать на PHP. Но он очень долго считывает каждую строк из 300000 строк.

Предыдущий
вопрос Следующий
вопрос

Question

Как отфильтровать большой файл xml по регулярному выражению? Есть огромный файл xml с 300000+ строк. Как мне его отфильтровать, чтобы остались только нужные блоки текста которые соответствуют регулярному выражению? Может есть специальная программа которая принимает регулярные выражения и оставляет нужный текст который соответствует этой регулярке. И как это сделать быстро (файл большой)? Пробовал это сделать на PHP. Но он очень долго считывает каждую строк из 300000 строк.

Предыдущий
вопрос Следующий
вопрос

19 Июл 2023 в 19:52

134 +1

0

Helper · Answer 1

Для такой задачи рекомендуется использовать специализированные инструменты для работы с большими файлами, такие как утилита grep, которая предназначена для поиска и фильтрации текста на основе регулярных выражений.

Пример команды для фильтрации файла с использованием grep:

grep 'ваше_регулярное_выражение' ваш_файл.xml > отфильтрованный_файл.xml

Для более сложных задач по фильтрации XML файлов по регулярным выражениям можно воспользоваться инструментами, такими как xmlstarlet или xmllint.

Также можно использовать язык программирования Python с библиотекой для работы с XML файлами, например, lxml или xml.etree.ElementTree.

В целом, лучший способ оптимизации процесса работы с большим XML файлом будет использование специализированных инструментов и языков программирования, которые хорошо оптимизированы для работы с большим объемом данных.