YOUTUBE
YouTube · быстрорастущие ролики
ВИДЕО
с приростом
ЛИДЕР РОСТА
МАХ. ПРОСМ/ЧАС
пиковая скорость
ДАТА
период наблюдения
ДАТА: ДЛИНА: ТИП: КАТЕГОРИЯ:
ЗАГРУЗКА...
IDСЕРВИСКЛЮЧСТАТУС СЕГОДНЯМЕСЯЦЛИМИТ ЗАБЛОКИРОВАН ДОЗАНЯТ
ЗАГРУЗКА...
ПОСТОВ
за дату
ЛИДЕР
МАХ UPVOTES/ЧАС
пиковая скорость
ДАТА
период
ДАТА: САБРЕДДИТ:
ЗАГРУЗКА...
ТВИТОВ
за дату
ЛИДЕР
МАХ ЛАЙКОВ
за дату
ДАТА
период
ДАТА:
ЗАГРУЗКА...
ТРЕНДОВ
за дату
ТОП ТРЕНД
СТРАНА
выбранная
ДАТА
период
ДАТА: СТРАНА:
ЗАГРУЗКА...
YOUTUBE — ФИЛЬТРЫ КЛАСТЕРИЗАЦИИ
ЯЗЫК ВИДЕО
Берутся только видео с language:
en% (кроме en-IN) ru
Исключает хинди, арабский, тамильский, en-IN (Indian English) и др.
ПОРОГ ПРОСМОТРОВ
Возраст видеоМин. просмотров
0 — 3 часабез ограничений
3 — 6 часов> 20 000
6+ часов> 50 000
ЧЕРНЫЙ СПИСОК КАНАЛОВ
Каналы исключаются полностью из кластеризации. Управление: main.blacklist WHERE type = 'channel'
ЗАГРУЗКА...
ЧЕРНЫЙ СПИСОК КЛЮЧЕВЫХ СЛОВ
Видео с этими словами в title исключаются. Управление: main.blacklist WHERE type = 'keyword'
ЗАГРУЗКА...
ФИЛЬТР ХЭШТЕГОВ
Видео исключается если в title более 50% слов начинаются с #.
Примеры исключений:
#funny #viral #shorts #comedy
#trending #love #song #shortvideo
ФИЛЬТР ЭМОДЗИ И ДАТ
Видео исключается если в title нет ни одной буквы или title является датой.
Примеры исключений:
😳 · 💔 · 🔥🔥🔥 · 13 May 2026 · May 13, 2026
ФИЛЬТР ИНДИЙСКОГО КОНТЕНТА
Управляется через blacklist (type='keyword'):
hindi · bollywood · bhojpuri · punjabi song · telugu song · tamil song
GOOGLE TRENDS — ФИЛЬТРЫ
ДЕДУПЛИКАЦИЯ
• DISTINCT ON (title) — один embedding на уникальную тему
• Берётся самый свежий snapshot
• Один embedding копируется всем дублям с одинаковым title
ФИЛЬТР ДАТ
Исключаются темы вида:
12 May 2026
May 12, 2026
12 мая 2026 г.
• Темы короче 4 символов
КЛАСТЕРЫ — POST-PROCESSING
УДАЛЕНИЕ GTRENDS-ONLY КЛАСТЕРОВ
После кластеризации автоматически удаляются кластеры где нет ни одного Reddit или YouTube поста.
GTrends используется только как дополнительный сигнал внутри кластеров с реальным контентом.
AI АНАЛИЗ КЛАСТЕРОВ РУЧНОЙ
После скоринга выгружается xlsx трендов и отправляется в Claude для анализа.
Claude возвращает CSV с оценками: ✅ ТРЕНД · ❌ МУСОР · ❓ ПРОВЕРИТЬ
CSV загружается через кнопку ⬆ AI в интерфейсе — оценки появляются на карточках.

Правила классификации хранятся в scorer/ai_classifier.py и пополняются с каждым раном.
# Запуск классификатора локально
python3 scorer/ai_classifier.py trends_runN.xlsx > labels.csv
СХЕМА РАБОТЫ СИСТЕМЫ
ИСТОЧНИКИ ДАННЫХ Reddit посты + snapshots YouTube видео + snapshots Google Trends trending topics ХРАНИЛИЩЕ PostgreSQL + pgvector reddit · youtube · gtrends · scorer ВЕКТОРИЗАЦИЯ Embeddings · multilingual-e5-large каждый пост/видео → вектор 1024 числа ОБНАРУЖЕНИЕ ТЕМ Кластеризация HDBSCAN похожие векторы → кластер = тема ОЦЕНКА Scorer Growth × 0.5 + Engagement × 0.3 + NicheMatch × 0.2
ИСТОЧНИКИ ДАННЫХ
ИсточникЧто собираемКвота
RedditПосты из сабреддитовБесплатно
YouTubeВидео по категориям10K units/день × 40+ ключей
Google TrendsTrending topics1000 req/мес · $20
ФОРМУЛА СКОРИНГА
Score = Growth×0.5 + Eng×0.3 + Niche×0.2
КомпонентВесФормула
Growth50%log(прирост_час / avg_час_24ч) × 100
Engagement30%(comments+likes) / views × 1000
NicheMatch20%cosine_similarity(тема, ниша)
МАТРИЦА РЕШЕНИЙ
ScoreСтатусДействие
75–100HOT 🔥Сигнал в Telegram · SLA 6-12ч
50–74MONITORПересчёт через 6 часов
0–49IGNOREОтбросить
ИНФРАСТРУКТУРА
КомпонентТехнология
База данныхPostgreSQL 16 + pgvector
Векторизацияsentence-transformers (E5)
КластеризацияHDBSCAN + scikit-learn
BackendPython 3.12 + FastAPI
СерверVultr · 6 vCPU · 16GB RAM
ROADMAP
✓ ФАЗА 1 · MVP
3 источника
Embeddings
Кластеризация
Скоринг
Веб-интерфейс
→ ФАЗА 2 · 3-6 МЕС
+7 источников
Shock Events
Cross-Platform
FreshnessFactor
NoiseFilter v1
ФАЗА 3 · 7-12 МЕС
20+ источников
Anti-Trend
Feedback Loop
Автокалибровка
Dashboard
ФАЗА 4 · 13-18 МЕС
Frontier Discoveries
Cross-Language
ML-скоринг
Адаптация весов
ФАЗА 5 · 19-24 МЕС
B2B SaaS
Multi-tenant
API для клиентов
Биллинг
ИСТОРИЯ ЗАПУСКОВ
ЗАГРУЗКА...
ЗАГРУЗКА...