paste.txt

ChatGPT neutral 7 чанков ~9 мин чтения
ПРИЛОЖЕНИЕ A<br> <br> Методика нормирования входов C/T/V/P/D/R (0–1), примеры расчётов, контроль качества данных<br> <br> A0. Общие правила нормирования (обязательные для всех входов)<br> <br> A0.1. Стандарт шкалы<br> <br> Каждая входная переменная модели (X\in{C,T,V,P,D,R}) обязана находиться в диапазоне ([0,1]) и интерпретироваться одинаково:<br> <br> 0 — “практически отсутствует / крайне плохо”<br> <br> 1 — “целевое или близкое к целевому состояние (на текущий горизонт планирования)”<br> <br> A0.2. Клипование, единицы, периодичность<br> <br> После расчёта применяется клипование:<br> [<br> X \leftarrow \min(1,\max(0,X))<br> ]<br> <br> Единицы времени и период усреднения должны быть фиксированы:<br> <br> оперативные метрики (V, D, τ): дневные/недельные;<br> <br> структурные метрики (C, T, ML): ежемесячные/квартальные;<br> <br> публичная отчётность: квартальная (S_core) и годовая (S_full).<br> <br> A0.3. Нормирование “через порог”<br> <br> Для компонент, измеряемых в “абсолютных” единицах (шт., минут, кейсы, охват), используется нормирование вида:<br> [<br> x_{\text{norm}}=\min\left(1, \frac{x}{x_{\text{thr}}}\right)<br> ]<br> где (x_{\text{thr}}) — порог/норма, утверждаемый регламентом (как минимум на год).<br> <br> A0.4. Борьба с “двойным счётом”<br> <br> Чтобы модель не “наказывала дважды” за одно и то же:<br> <br> C описывает возможность производства (supply/качество),<br> <br> P описывает структуру потребления (зависимость),<br> <br> V описывает алгоритмическую доставку/видимость,<br> и эти три величины должны измеряться по разным первичным данным (насколько возможно).<br> <br> A1. Нормирование C — Content Capacity (способность производить релевантный контент)<br> <br> A1.1. Каноническая формула<br> <br> [<br> C = \text{clip}{[0,1]}\Big(0.6,C{\text{supply}}+0.4,C_{\text{quality}}\Big)<br> ]<br> <br> (1) Компонент объёма производства (supply)<br> <br> [<br> C_{\text{supply}}=\min\left(1,\frac{Q_{\text{eff}}}{Q_{\text{target}}}\right)<br> ]<br> <br> (Q_{\text{eff}}) — эффективный объём произведённого контента за период (см. ниже)<br> <br> (Q_{\text{target}}) — целевой объём (норма) на период<br> <br> Как считать (Q_{\text{eff}}) (рекомендуемый стандарт “единица контента-эквивалент”):<br> [<br> Q_{\text{eff}}=\sum_{j\in \text{единицы}} w^{\text{fmt}}_j \cdot w^{\text{plat}}_j \cdot I(\text{контент прошёл QC})<br> ]<br> где:<br> <br> (w^{\text{fmt}}_j) — вес формата (например: short-video выше текста),<br> <br> (w^{\text{plat}}_j) — вес платформы (если требуется),<br> <br> (I(\cdot)) — индикатор прохождения базового QC.<br> <br> Нормативно важно: веса формата/платформы утверждаются единым приложением и не меняются чаще 1 раза в год.<br> <br> (2) Компонент качества (quality)<br> <br> [<br> C_{\text{quality}}=\min\left(1,\frac{q}{q_{\text{target}}}\right)<br> ]<br> где (q) — агрегированный скоринг качества (0..1), например:<br> [<br> q=0.35,q_{\text{ret}}+0.25,q_{\text{eng}}+0.25,q_{\text{fact}}+0.15,q_{\text{prod}}<br> ]<br> <br> (q_{\text{ret}}): удержание/досмотр (нормированное к бенчмарку),<br> <br> (q_{\text{eng}}): вовлечение (ER, комментарии/репосты, нормировано),<br> <br> (q_{\text{fact}}): фактчекинг/доля опровержений/ошибок,<br> <br> (q_{\text{prod}}): соответствие производственным стандартам (титры, звук, вертикальный формат, метаданные).<br> <br> A1.2. Пример расчёта C (условный, “для проверки арифметики”)<br> <br> Пусть на месяц:<br> <br> (Q_{\text{target}}=1000) “эквивалент-единиц”<br> <br> фактически (Q_{\text{eff}}=820) ⇒ (C_{\text{supply}}=0.82)<br> <br> Качество:<br> <br> (q_{\text{ret}}=0.55), (q_{\text{eng}}=0.50), (q_{\text{fact}}=0.80), (q_{\text{prod}}=0.70)<br> [<br> q=0.35\cdot0.55+0.25\cdot0.50+0.25\cdot0.80+0.15\cdot0.70<br> =0.1925+0.125+0.20+0.105=0.6225<br> ]<br> Если (q_{\text{target}}=0.70), то (C_{\text{quality}}=\min(1,0.6225/0.70)=0.889)<br> <br> Итого:<br> [<br> C=0.6\cdot0.82+0.4\cdot0.889=0.492+0.3556=0.8476<br> ]<br> <br> A2. Нормирование T — Trust (доверие молодёжи 14–35)<br> <br> A2.1. Каноническая формула<br> <br> [<br> T=\text{clip}{[0,1]}\Big(\sum{i=1}^{K} \omega_i \cdot t_i\Big)<br> ]<br> где:<br> <br> (i) — источник/тип источника (официальные, национальные медиа, лидеры мнений, экспертные площадки),<br> <br> (t_i\in[0,1]) — доверие к источнику,<br> <br> (\omega_i) — вес влияния/доли контакта (reach share) в когорте 14–35, (\sum\omega_i=1).<br> <br> A2.2. Как переводить ответы опроса в [0,1]<br> <br> Если шкала Лайкерта 1..5:<br> [<br> t_i=\frac{\bar{s}_i-1}{4}<br> ]<br> где (\bar{s}_i) — средний балл по источнику.<br> <br> Если опрос “доверяю/не доверяю”:<br> [<br> t_i=\frac{#\text{доверяю}}{N}<br> ]<br> <br> A2.3. Стандарты опроса (минимум)<br> <br> Репрезентативность по регионам/возрастным подгруппам внутри 14–35<br> <br> Фиксированная анкета и список источников минимум на год<br> <br> Отдельная фиксация доверия к “официальному ядру”, “нац. медиа”, “ЛОМ/экспертам” (для диагностики)<br> <br> A2.4. Пример<br> <br> Пусть 3 группы: Official / Media / Influencers.<br> Доверие: 0.20 / 0.30 / 0.45<br> Вес контакта: 0.30 / 0.40 / 0.30<br> [<br> T=0.3\cdot0.20+0.4\cdot0.30+0.3\cdot0.45=0.06+0.12+0.135=0.315<br> ]<br> <br> A3. Нормирование V — Visibility (алгоритмическая видимость: SOC/GEN/SEARCH)<br> <br> A3.1. Субкомпоненты<br> <br> Каждый субкомпонент рассчитывается на фиксированной панели (аккаунты/запросы) и нормируется в ([0,1]).<br> <br> (1) Видимость в соцсетях<br> [<br> V_{\text{soc}}=\min\left(1,\frac{\text{доля показов/рекомендаций нац. контента}}{\text{целевой уровень}}\right)<br> ]<br> Практическая метрика: share of impressions / share in recommendations / share in feed.<br> <br> (2) Видимость в генеративных системах<br> [<br> V_{\text{gen}}=\min\left(1,\frac{\text{доля ответов LLM с нац. источниками}}{\text{целевой уровень}}\right)<br> ]<br> Стандарт: фиксированная “панель запросов” (например 200–500 запросов) + правило атрибуции источника (ссылка/упоминание/цитирование).<br> <br> (3) Видимость в поиске<br> [<br> V_{\text{search}}=\min\left(1,\frac{\text{доля кликов/видимости нац. доменов по панели}}{\text{целевой уровень}}\right)<br> ]<br> <br> A3.2. Итоговая агрегация v2.0a<br> <br> [<br> V=V_{\text{soc}}^{0.5}\cdot V_{\text{gen}}^{0.3}\cdot V_{\text{search}}^{0.2}<br> ]<br> <br> A3.3. Пример<br> <br> Пусть:<br> <br> (V_{\text{soc}}=0.22), (V_{\text{gen}}=0.10), (V_{\text{search}}=0.30)<br> <br> Тогда:<br> <br> (0.22^{0.5}\approx0.469)<br> <br> (0.10^{0.3}\approx0.501)<br> <br> (0.30^{0.2}\approx0.786)<br> <br> [<br> V\approx 0.469\cdot0.501\cdot0.786 \approx 0.185<br> ]<br> <br> A4. Нормирование P — Pressure/Dependence (контентная зависимость потребления)<br> <br> A4.1. Каноническое определение<br> <br> [<br> P=\frac{\text{время/просмотры иностранного контента (14–35)}}{\text{всё время/просмотры контента (14–35)}}<br> ]<br> <br> A4.2. Правила классификации “иностранный/национальный”<br> <br> Нормативно фиксируются правила:<br> <br> по языку/стране происхождения канала/владельцу/домена,<br> <br> по основной аудитории и редакции,<br> <br> пограничные случаи (международные редакции с локальными вставками) — по доминирующей доле.<br> <br> A4.3. Пример<br> <br> Если за неделю панель показала:<br> <br> иностранный контент: 5100 минут<br> <br> общий: 6000 минут<br> [<br> P=5100/6000=0.85<br> ]<br> <br> A5. Нормирование D — Disinformation (интенсивность атак)<br> <br> A5.1. Каноническая структура<br> <br> [<br> D=0.3D_{\text{volume}}+0.25D_{\text{soph}}+0.25D_{\text{coord}}+0.2D_{\text{impact}}<br> ]<br> Все компоненты (\in[0,1]).<br> <br> A5.2. Нормирование компонент<br> <br> (1) Объём<br> [<br> D_{\text{volume}}=\min\left(1,\frac{n_{\text{inc}}}{n_{\text{thr}}}\right)<br> ]<br> (n_{\text{inc}}) — число инцидентов/вбросов за период (по правилам детектора).<br> <br> (2) Сложность<br> [<br> D_{\text{soph}}=\min\left(1,\frac{s}{s_{\text{thr}}}\right)<br> ]<br> где (s) — скоринг сложности (deepfake/боты/синтетика/мультиплатформенность).<br> <br> (3) Координация<br> [<br> D_{\text{coord}}=\min\left(1,\frac{k}{k_{\text{thr}}}\right)<br> ]<br> (k) — индекс координации (сетевые признаки: синхронизация, одинаковые месседжи, общий граф распространения).<br> <br> (4) Импакт<br> [<br> D_{\text{impact}}=\min\left(1,\frac{\text{охват/вовлечение атаки}}{\text{порог}}\right)<br> ]<br> <br> A5.3. Пример<br> <br> За 2 недели:<br> <br> (D_{\text{volume}}=0.8), (D_{\text{soph}}=0.6), (D_{\text{coord}}=0.7), (D_{\text{impact}}=0.9)<br> [<br> D=0.3\cdot0.8+0.25\cdot0.6+0.25\cdot0.7+0.2\cdot0.9<br> =0.24+0.15+0.175+0.18=0.745<br> ]<br> <br> A6. Нормирование R — Resilience (устойчивость системы)<br> <br> A6.1. Каноническая формула v2.0a<br> <br> [<br> R=\min\left(1,;e^{-\tau/\tau_0}\cdot \frac{CR}{AR+\varepsilon}\cdot \sqrt{ML}\right)<br> ]<br> <br> (\tau) — среднее время реакции в периоде (например, медиана по инцидентам)<br> <br> (\tau_0) — эталон (фиксируется регламентом; напр. 12 часов или 24 часа)<br> <br> (CR) — охват контрмер, (AR) — охват атаки<br> <br> (ML) — медиаграмотность аудитории (0..1)<br> <br> (\varepsilon) — малый стабилизатор (например 0.001)<br> <br> A6.2. Пример<br> <br> Пусть:<br> <br> (\tau=24) часа, (\tau_0=12) часов ⇒ (e^{-2}=0.1353)<br> <br> (CR=2.0) млн, (AR=5.0) млн ⇒ (CR/(AR+\varepsilon)\approx0.4)<br> <br> (ML=0.36) ⇒ (\sqrt{ML}=0.6)<br> <br> [<br> R=\min(1,0.1353\cdot0.4\cdot0.6)=0.0325<br> ]<br> <br> Это “жёсткая” интерпретация: медленная реакция резко режет R (что соответствует инженерной логике).<br> <br> A7. Контроль качества данных (QC) — обязательные тесты<br> <br> Ниже — минимальный набор тестов, которые должны запускаться автоматически при каждом обновлении.<br> <br> A7.1. Тесты целостности (Schema & Completeness)<br> <br> Наличие всех полей (C,T,V_soc,V_gen,V_search,P,D-компоненты,R-компоненты)<br> <br> Типы данных (float/число), запрет строк/NaN<br> <br> Полнота: доля пропусков по каждой метрике ≤ установленного порога (например 5%)<br> <br> A7.2. Тесты диапазона и единиц<br> <br> Range-check: все (X\in[0,1]) после клипа<br> <br> Unit-check: (\tau) в фиксированных единицах (час/день), единицы не “скачут”<br> <br> A7.3. Тесты своевременности (Timeliness)<br> <br> “Свежесть”: данные по оперативным метрикам не старше N дней<br> <br> “Обновляемость”: если метрика не обновлялась > N периодов — статус “degraded”<br> <br> A7.4. Тесты стабильности панели (Panel Integrity)<br> <br> Панель запросов/аккаунтов фиксирована; изменения панели — только по регламенту<br> <br> Если панель изменилась, в отчётности обязательно “break in series” (разрыв ряда)<br> <br> A7.5. Тесты аномалий и дрейфа<br> <br> Spike detection: резкие скачки > X σ без события — флаг на проверку<br> <br> Drift: медленный дрейф базовой линии без объяснения (смена API/методики)<br> <br> A7.6. Логические тесты согласованности<br> <br> Если (V_{\text{soc}},V_{\text{gen}},V_{\text{search}}) близки к 0 ⇒ V не может быть высоким<br> <br> Если (D) высокое и (R) низкое ⇒ Load должен быть высоким (иначе ошибка формулы/данных)<br> <br> Если (P\to 1) и (D\to 1) при среднем (R) ⇒ модель должна входить в Excess>0 при разумной (\theta)<br> <br> ПРИЛОЖЕНИЕ B<br> <br> Регламент калибровки (\theta,\lambda) + шаблон отчёта и критерии принятия<br> <br> B0. Назначение калибровки<br> <br> Калибровка (\theta) и (\lambda) обеспечивает:<br> <br> правильное включение режима коллапса (порог (\theta));<br> <br> правильную крутизну падения после порога (параметр (\lambda));<br> <br> согласованность “физики” (S_{\text{raw}}) и управленческой шкалы (S_{\text{kpi}}).<br> <br> B1. Роли и ответственность (норматив)<br> <br> Владелец методики (Method Owner): утверждает протокол, панель, якоря<br> <br> Команда данных (Data): готовит калибровочный датасет, отвечает за QC<br> <br> Команда моделирования (Model): проводит подбор (\theta,\lambda), готовит отчёт<br> <br> Независимая верификация (Audit): проверяет воспроизводимость и отсутствие “подгонки”<br> <br> B2. Входы калибровки (обязательный пакет)<br> <br> B2.1. Калибровочный временной ряд<br> <br> Минимум 12 месяцев, желательно 18–24 месяца. Частота — недельная или дневная (если есть).<br> <br> Для каждого периода (t) должны быть:<br> <br> (C(t),T(t),V_{\text{soc}}(t),V_{\text{gen}}(t),V_{\text{search}}(t),P(t),D(t),R(t))<br> <br> событие/метка “кризис/штатно/восстановление” (если возможно)<br> <br> B2.2. Якорные эпизоды (не менее 3)<br> <br> Normal: стабильный период без выраженных атак<br> <br> Crisis: период заметной атаки/кризиса доверия/алгоритмического шока<br> <br> Recovery: период после интервенций/ответа<br> <br> Если реальных эпизодов нет — используются симулированные сценарии, но это отмечается как ограничение.<br> <br> B3. Параметры и допустимые диапазоны поиска<br> <br> B3.1. Порог коллапса (\theta)<br> <br> Рекомендуемый диапазон для поиска:<br> [<br> \theta\in[2.5,6.5]<br> ]<br> Смысл: при (\text{Load}) выше (\theta) включается экспонента.<br> <br> B3.2. Крутизна (\lambda)<br> <br> Рекомендуемый диапазон:<br> [<br> \lambda\in[0.5,5.0]<br> ]<br> <br> B4. Целевая функция калибровки (как стандарт)<br> <br> Калибровка должна оптимизировать баланс ложных срабатываний и пропусков коллапса.<br> <br> B4.1. Определение “коллапса” для подбора<br> <br> Вводится бинарная переменная:<br> [<br> Y(t)=<br> \begin{cases}<br> 1,& \text{если период маркирован как кризис (или Load должен превышать порог)}\<br> 0,& \text{штатно}<br> \end{cases}<br> ]<br> <br> Предсказание модели:<br> [<br> \hat{Y}(t)=\mathbb{1}(\text{Load}(t)>\theta)<br> ]<br> <br> B4.2. Функция потерь (пример канонической)<br> <br> [<br> \mathcal{L}(\theta,\lambda)=<br> w_1\cdot FP(\theta)+w_2\cdot FN(\theta)+<br> w_3\cdot \text{ExcessRate}_{\text{normal}}(\theta)+<br> w_4\cdot \text{SmoothPenalty}(\lambda)<br> ]<br> <br> Где:<br> <br> (FP) — ложные коллапсы в штатном периоде,<br> <br> (FN) — пропуски коллапса в кризисном,<br> <br> (\text{ExcessRate}_{\text{normal}}) — доля времени с Excess>0 в норме,<br> <br> (\text{SmoothPenalty}) — штраф за чрезмерную “рваность” S_kpi после включения экспоненты.<br> <br> Рекомендуемые веса (если нет иных указаний):<br> (w_1=0.25, w_2=0.35, w_3=0.25, w_4=0.15)<br> <br> B5. Процедура подбора (пошагово)<br> <br> Шаг 1 — фиксация версии<br> <br> зафиксировать версию формулы, веса, (\gamma,\varepsilon)<br> <br> зафиксировать методики расчёта входов (Приложение A)<br> <br> Шаг 2 — подготовка датасета<br> <br> прогон QC (A7)<br> <br> фиксация панелей SOC/GEN/SEARCH<br> <br> выделение эпизодов Normal/Crisis/Recovery<br> <br> Шаг 3 — сеточный поиск (\theta,\lambda)<br> <br> перебор (\theta) по сетке (например шаг 0.1)<br> <br> перебор (\lambda) по сетке (например шаг 0.1–0.25)<br> <br> расчёт метрик качества и потерь (\mathcal{L})<br> <br> Шаг 4 — выбор кандидатов<br> <br> выбрать TOP-5 пар ((\theta,\lambda)) по минимальной потере<br> <br> проверить их вручную на интерпретируемость и здравый смысл:<br> <br> в Normal Excess≈0 большую часть времени,<br> <br> в Crisis Excess>0 устойчиво,<br> <br> (\lambda) не создаёт “мертвую зону”, где всё падает в ноль при любом шоке.<br> <br> Шаг 5 — финальный выбор и фиксация<br> <br> выбрать одну пару как операционную<br> <br> зафиксировать её как “v2.0a–calibration YYYY”<br> <br> оформить отчёт (шаблон ниже)<br> <br> B6. Критерии принятия калибровки (норматив)<br> <br> Калибровка принимается, если выполнены все условия:<br> <br> B6.1. Поведенческие критерии<br> <br> Монотонность:<br> <br> рост C/T/V не снижает (S_{\text{raw}}),<br> <br> рост P/D не повышает (S_{\text{raw}}),<br> <br> рост R не снижает (S_{\text{raw}}).<br> <br> Пороговая логика:<br> <br> в Normal: доля периодов с Excess>0 ≤ 10–15% (регламентный порог),<br> <br> в Crisis: доля периодов с Excess>0 ≥ 60% (или иной заданный порог).<br> <br> B6.2. Качество детекции “коллапса”<br> <br> Precision/Recall по (\hat{Y}) на размеченных эпизодах — не ниже заданных:<br> <br> Precision ≥ 0.75<br> <br> Recall ≥ 0.70<br> (если разметка есть; если нет — критерий заменяется экспертной оценкой сценариев)<br> <br> B6.3. Устойчивость к техпараметрам<br> <br> Чувствительность к (\varepsilon) и (\delta) мала:<br> <br> изменение (S_{\text{kpi}}) при (\varepsilon) в диапазоне [1e-4..1e-2] не должно менять зону чаще чем в 5% периодов.<br> <br> B6.4. Воспроизводимость<br> <br> Повтор расчёта другой командой по тем же входам даёт идентичные (\theta,\lambda) (или совпадение в пределах допусков).<br> <br> B7. Триггеры обязательной рекалибровки<br> <br> Рекалибровка (\theta,\lambda) проводится внепланово, если:<br> <br> изменена панель запросов/аккаунтов (V)<br> <br> изменены детекторы D (новая логика/источники)<br> <br> сменился режим платформ/API (доступность данных)<br> <br> наблюдается дрейф: Excess в “штатном” периоде стабильно > 20% в течение 2 кварталов<br> <br> B8. Шаблон отчёта о калибровке (для включения как норматив)<br> <br> # ОТЧЁТ О КАЛИБРОВКЕ S-G Index v2.0a (θ, λ)<br> <br> ## Период данных: [YYYY-MM-DD] — [YYYY-MM-DD]<br> <br> ## Дата калибровки: [YYYY-MM-DD]<br> <br> ## Версия формулы: v2.0a (commit/версия документа)<br> <br> ## 1) Состав данных<br> <br> - Частота: [день/неделя]<br> <br> - Источники: [SOC, GEN, SEARCH, опросы, мониторинг атак, центр реагирования]<br> <br> - Доля пропусков по метрикам: [таблица]<br> <br> - QC-результаты: [OK/Issues + перечень]<br> <br> ## 2) Якорные эпизоды<br> <br> - Normal: [описание, даты]<br> <br> - Crisis: [описание, даты]<br> <br> - Recovery: [описание, даты]<br> <br> - Основание разметки: [реальные события/экспертная разметка/симуляция]<br> <br> ## 3) Диапазоны поиска<br> <br> - θ ∈ [..], шаг ..<br> <br> - λ ∈ [..], шаг ..<br> <br> - Фиксированные параметры: wC=0.25 wT=0.40 wV=0.35, α=1.0 β=1.2 γ=1.5 ε=0.001<br> <br> ## 4) Результаты сеточного поиска<br> <br> - TOP-10 пар (θ, λ) по минимальной потере L: [таблица]<br> <br> - Графики: ExcessRate_normal(θ), Recall/Precision(θ), распределение Excess<br> <br> ## 5) Выбранные параметры<br> <br> - θ = [..]<br> <br> - λ = [..]<br> <br> Обоснование выбора:<br> <br> - ExcessRate_normal = ..<br> <br> - ExcessRate_crisis = ..<br> <br> - Precision/Recall = ..<br> <br> - Поведенческие проверки (монотонность) = OK/Fail<br> <br> ## 6) Анализ чувствительности<br> <br> - Изменение ε в [1e-4..1e-2]: влияние на зоны = ..<br> <br> - Изменение δ: влияние на S_kpi = ..<br> <br> - Робастность к выбросам D/V = ..<br> <br> ## 7) Решение<br> <br> - Статус: [Принято/Принято с замечаниями/Отклонено]<br> <br> - Условия пересмотра: [триггеры]<br> <br> - Следующая плановая рекалибровка: [дата/квартал]