ВИДЕО
—
с приростом
ЛИДЕР РОСТА
—
МАХ. ПРОСМ/ЧАС
—
пиковая скорость
ДАТА
—
период наблюдения
ЗАГРУЗКА...
ПЕРИОД
ПОСЛЕДНИЕ
MIN CLUSTER
ИСТОРИЯ ЗАПУСКОВ
ЗАГРУЗКА...
| ID | СЕРВИС | КЛЮЧ | СТАТУС | СЕГОДНЯ | МЕСЯЦ | ЛИМИТ | ЗАБЛОКИРОВАН ДО | ЗАНЯТ | |
|---|---|---|---|---|---|---|---|---|---|
| ЗАГРУЗКА... | |||||||||
ПОСТОВ
—
за дату
ЛИДЕР
—
МАХ UPVOTES/ЧАС
—
пиковая скорость
ДАТА
—
период
ЗАГРУЗКА...
ТВИТОВ
—
за дату
ЛИДЕР
—
МАХ ЛАЙКОВ
—
за дату
ДАТА
—
период
ЗАГРУЗКА...
ТРЕНДОВ
—
за дату
ТОП ТРЕНД
—
СТРАНА
—
выбранная
ДАТА
—
период
ЗАГРУЗКА...
YOUTUBE — ФИЛЬТРЫ КЛАСТЕРИЗАЦИИ
ЯЗЫК ВИДЕО
Берутся только видео с language:
en% (кроме en-IN)
ru
Исключает хинди, арабский, тамильский, en-IN (Indian English) и др.
ПОРОГ ПРОСМОТРОВ
| Возраст видео | Мин. просмотров |
|---|---|
| 0 — 3 часа | без ограничений |
| 3 — 6 часов | > 20 000 |
| 6+ часов | > 50 000 |
ЧЕРНЫЙ СПИСОК КАНАЛОВ
Каналы исключаются полностью из кластеризации. Управление: main.blacklist WHERE type = 'channel'
ЗАГРУЗКА...
ЧЕРНЫЙ СПИСОК КЛЮЧЕВЫХ СЛОВ
Видео с этими словами в title исключаются. Управление: main.blacklist WHERE type = 'keyword'
ЗАГРУЗКА...
ФИЛЬТР ХЭШТЕГОВ
Видео исключается если в title более 50% слов начинаются с #.
Примеры исключений:
#funny #viral #shorts #comedy
#trending #love #song #shortvideo
Примеры исключений:
#funny #viral #shorts #comedy
#trending #love #song #shortvideo
ФИЛЬТР ЭМОДЗИ И ДАТ
Видео исключается если в title нет ни одной буквы или title является датой.
Примеры исключений:
😳 · 💔 · 🔥🔥🔥 · 13 May 2026 · May 13, 2026
Примеры исключений:
😳 · 💔 · 🔥🔥🔥 · 13 May 2026 · May 13, 2026
ФИЛЬТР ИНДИЙСКОГО КОНТЕНТА
Управляется через blacklist (type='keyword'):
hindi · bollywood · bhojpuri · punjabi song · telugu song · tamil song
hindi · bollywood · bhojpuri · punjabi song · telugu song · tamil song
GOOGLE TRENDS — ФИЛЬТРЫ
ДЕДУПЛИКАЦИЯ
• DISTINCT ON (title) — один embedding на уникальную тему
• Берётся самый свежий snapshot
• Один embedding копируется всем дублям с одинаковым title
• Берётся самый свежий snapshot
• Один embedding копируется всем дублям с одинаковым title
ФИЛЬТР ДАТ
Исключаются темы вида:
• 12 May 2026
• May 12, 2026
• 12 мая 2026 г.
• Темы короче 4 символов
• 12 May 2026
• May 12, 2026
• 12 мая 2026 г.
• Темы короче 4 символов
КЛАСТЕРЫ — POST-PROCESSING
УДАЛЕНИЕ GTRENDS-ONLY КЛАСТЕРОВ
После кластеризации автоматически удаляются кластеры где нет ни одного Reddit или YouTube поста.
GTrends используется только как дополнительный сигнал внутри кластеров с реальным контентом.
GTrends используется только как дополнительный сигнал внутри кластеров с реальным контентом.
AI АНАЛИЗ КЛАСТЕРОВ РУЧНОЙ
После скоринга выгружается xlsx трендов и отправляется в Claude для анализа.
Claude возвращает CSV с оценками: ✅ ТРЕНД · ❌ МУСОР · ❓ ПРОВЕРИТЬ
CSV загружается через кнопку ⬆ AI в интерфейсе — оценки появляются на карточках.
Правила классификации хранятся в scorer/ai_classifier.py и пополняются с каждым раном.
Claude возвращает CSV с оценками: ✅ ТРЕНД · ❌ МУСОР · ❓ ПРОВЕРИТЬ
CSV загружается через кнопку ⬆ AI в интерфейсе — оценки появляются на карточках.
Правила классификации хранятся в scorer/ai_classifier.py и пополняются с каждым раном.
# Запуск классификатора локально
python3 scorer/ai_classifier.py trends_runN.xlsx > labels.csv
СХЕМА РАБОТЫ СИСТЕМЫ
ИСТОЧНИКИ ДАННЫХ
| Источник | Что собираем | Квота |
|---|---|---|
| Посты из сабреддитов | Бесплатно | |
| YouTube | Видео по категориям | 10K units/день × 40+ ключей |
| Google Trends | Trending topics | 1000 req/мес · $20 |
ФОРМУЛА СКОРИНГА
Score = Growth×0.5 + Eng×0.3 + Niche×0.2
| Компонент | Вес | Формула |
|---|---|---|
| Growth | 50% | log(прирост_час / avg_час_24ч) × 100 |
| Engagement | 30% | (comments+likes) / views × 1000 |
| NicheMatch | 20% | cosine_similarity(тема, ниша) |
МАТРИЦА РЕШЕНИЙ
| Score | Статус | Действие |
|---|---|---|
| 75–100 | HOT 🔥 | Сигнал в Telegram · SLA 6-12ч |
| 50–74 | MONITOR | Пересчёт через 6 часов |
| 0–49 | IGNORE | Отбросить |
ИНФРАСТРУКТУРА
| Компонент | Технология |
|---|---|
| База данных | PostgreSQL 16 + pgvector |
| Векторизация | sentence-transformers (E5) |
| Кластеризация | HDBSCAN + scikit-learn |
| Backend | Python 3.12 + FastAPI |
| Сервер | Vultr · 6 vCPU · 16GB RAM |
ROADMAP
✓ ФАЗА 1 · MVP
3 источника
Embeddings
Кластеризация
Скоринг
Веб-интерфейс
Embeddings
Кластеризация
Скоринг
Веб-интерфейс
→ ФАЗА 2 · 3-6 МЕС
+7 источников
Shock Events
Cross-Platform
FreshnessFactor
NoiseFilter v1
Shock Events
Cross-Platform
FreshnessFactor
NoiseFilter v1
ФАЗА 3 · 7-12 МЕС
20+ источников
Anti-Trend
Feedback Loop
Автокалибровка
Dashboard
Anti-Trend
Feedback Loop
Автокалибровка
Dashboard
ФАЗА 4 · 13-18 МЕС
Frontier Discoveries
Cross-Language
ML-скоринг
Адаптация весов
Cross-Language
ML-скоринг
Адаптация весов
ФАЗА 5 · 19-24 МЕС
B2B SaaS
Multi-tenant
API для клиентов
Биллинг
Multi-tenant
API для клиентов
Биллинг
ИСТОРИЯ ЗАПУСКОВ
ЗАГРУЗКА...