void inc() { for(int i=0;i
Предыдущий
вопрос Следующий
вопрос

Question

Главная

Вопросы и ответы

Вопросы и ответы по информатике

void inc() { for(int...

eva

23 Дек 2025 в 06:52

8 +1

0

Helper · Answer 1

Коротко и по делу.
1) Что такое энтропия источника (информация теория)
- Для дискретного источника символов с распределением вероятностей

p_i

(нулевой порядок, независимые символы) энтропия на символ определяется как

H_0 = -\sum_i p_i \log_2 p_i.

- Для общего стационарного стохастического источника вводят энтропийную скорость (энтропию источника)

\lim_{n\to\infty}\frac{1}{n} H(X_1,\dots,X_n)

(если предел существует), где

H(X1,…,Xn)H(X_1,\dots,X_n)

— блочная энтропия длины

n

.
- Условная (по контексту) энтропия полезна для оценки зависимости:

H(X_n\mid X_{1}^{n-1}) = H(X_1^n)-H(X_1^{n-1}).

2) Связь с сжатием (теорема кодирования)
- Арифметика и другие энтропийно-близкие коды дают среднюю длину кода

Lˉ\bar L

на символ, для которой справедливо нижнее ограничение (асимптотически)

\bar L \ge H

и существуют кодирующие схемы, приближающие

H

сколь угодно близко при больших блоках. При несовпадении модели и истинного распределения средняя длина по модели

Q

:

\bar L_Q = H(P) + D_{KL}(P\|Q),

где

D_{KL}

— дивергенция Кульбака–Лейблера.
3) Как практическими методами оценить энтропию текста
- Оценка нулевого порядка: посчитать частоты символов

p^i\hat p_i

и подставить в

H0=−∑p^ilog⁡2p^i \;H_0=-\sum \hat p_i\log_2\hat p_i\;

.
- Блочная и условная оценка: считать частоты n-грамм, вычислять

H_n

и приближать энтропийную скорость как

\;H\approx H_n/n\;

при увеличении

n

.
- Оценка через перекрестную энтропию: сжать тестовый текст моделью и взять усреднённое число бит на символ — это эмпирическая оценка кросс-энтропии.
4) Как применять при оценке эффективности алгоритмов сжатия
- Измерьте энтропию-оценку

H

(в бит/символ) для той же предобработки и алфавита, что и компрессор. Измерьте фактическое среднее число бит/символ после сжатия

Lˉ\bar L

.
- Эффективность можно дать как избыточность на символ:

R=\bar L-H

и относительную эффективность

η=H/Lˉ\eta = H/\bar L

(или процент от теоретического минимума).
- Если

Lˉ\bar L

значительно больше

H

, значит модель/код не использует всю статистику (или есть накладные расходы, плохая предобработка, несовпадение алфавита/кодировки).
5) Отличия для русских и английских текстов (практические замечания)
- Алфавит/кодировка: английский в однобайтовых кодировках имеет меньше символов, русский в UTF-8 занимает больше байтов — сравнивать нужно по символам (буквам) или по байтам явно.
- Нулевой порядок: из‑за большего числа букв нулевой порядок для русского будет выше (больше бит/символ). Но важен не нулевой, а энтропийная скорость с учётом контекстов.
- Морфология и редундантность: русский более флективен (богатые окончания), что увеличивает нулевой алфавит, но также даёт сильные контекстные зависимости; в результате энтропийная скорость русского и английского могут быть сравнимы, хотя оценки варьируются по корпусам.
- Типичные порядки величин (ориентировочно, зависят от корпуса и предобработки):
- Нулевой порядок: английский ~4–5 бит/символ, русский ~5–6 бит/символ.
- Энтропийная скорость (взятая в смысле предсказуемости символов): английский часто оценивают ~1–1.5 бита/символ (Shannon и позднее), для русского оценки часто немного выше, но того же порядка (порядок единиц бит/символ).
- На практике хорошие текстовые модели (PPM, современные языковые модели + арифметическое кодирование) дают сжатие близкое к энтропийной скорости; простые алгоритмы (Huffman, LZ без мощной модели) дают заметную избыточность.
6) Практическая инструкция для сравнения
- Выберите единицу измерения (символ, байт, токен) и кодировку.
- Оцените

H

методом n-грамм или через обучаемую модель.
- Сожмите тем же корпусом и посчитайте

Lˉ\bar L

.
- Посчитайте

R=Lˉ−HR=\bar L-H

и

η=H/Lˉ\eta=H/\bar L

.
- Учтите накладные расходы, заголовки и обработку (чистые оценки делайте на больших корпусах, без служебных данных).
Кратко: энтропия источника — теоретический минимум средних бит на символ

(H)

. Эффективность сжатия оценивают сравнением фактического среднего числа бит

(Lˉ)(\bar L)

с

H

: чем ближе

Lˉ\bar L

к

H

, тем эффективнее сжатие. Для русских и английских текстов следует сравнивать при одинаковой предобработке; различия объясняются размером алфавита, морфологией и статистическими зависимостями.

void inc() { for(int i=0;i Предыдущий вопрос Следующий вопрос

Другие вопросы eva

void inc() { for(int i=0;i
Предыдущий
вопрос Следующий
вопрос

Другие вопросы
eva