[Grok] 2026-04-03 — Открытые данные Казахстана: источники и API
# Открытые данные Казахстана: источники и API<br>
Platform: Grok (xAI)<br>
Date: 2026-04-03<br>
<br>
**User**:<br>
мы собираем qazlake и мне нужно подключить максимальное количество доступных в кахастане или связанных с Казахстаном открытых данных, источников, api^ подключений, датасетов, корпусов и прочее<br>
ищи все все что нам может пригодится за последние 10 лет потом отберем<br>
<br>
**Grok**:<br>
**Вот полный обзор всего, что я нашёл по открытым данным, источникам, API, датасетам и корпусам по Казахстану (или сильно связанным с ним) за последние ~10 лет (примерно 2016–2026 гг.).** <br>
<br>
Я искал максимально широко: официальные гос-порталы, статистику, геоданные, финансовые данные, языковые/NLP-корпусы (текст, речь, параллельные), community- и международные источники. Многие инициативы стартовали или сильно развились после запуска «Открытого правительства» в 2015–2016 гг., и данные активно обновляются до 2026 года.<br>
<br>
Я сгруппировал по категориям, указал ссылки, объём/типы данных, способы подключения (API, download, форматы) и почему это полезно для **QazLake** (национального data lake). После этого вы сможете отобрать нужное. Большинство — полностью открытые (CC или гос-лицензии), machine-readable (JSON, CSV, Excel, GeoJSON и т.д.).<br>
<br>
### 1. Главный портал открытых данных Казахстана (data.egov.kz)<br>
- **Ссылка**: [https://data.egov.kz/](https://data.egov.kz/)<br>
- **Что там**: >3000–3600+ наборов данных от центральных и местных органов + квазигоссектора. Категории: экономика, здравоохранение, образование, транспорт, экология, юстиция, население, финансы, недвижимость, долги, реестры юрлиц, транспорт (в т.ч. общественный), статистика преступлений и т.д.<br>
- **Доступ**: <br>
- Поиск/скачивание в браузере.<br>
- **Полноценный публичный API v4** (без авторизации, HTTPS + Elasticsearch). Эндпоинты: `/api/v4/{dataset_name}/[version]?source={JSON query}` (поддержка пагинации `size/from`, фильтров, geo_distance, fuzzy search, aggregations). Примеры: преступления в Астане, медорганизации, реестры и т.д. Ответы — JSON. Документация: [https://data.egov.kz/pages/samples](https://data.egov.kz/pages/samples).<br>
- **Актуальность**: Постоянно обновляется (данные с 2015+). Идеально для data lake — можно скриптами выкачивать всё.<br>
- **Почему для QazLake**: Основной источник «сырых» госданных.<br>
<br>
### 2. Бюро национальной статистики (stat.gov.kz + taldau.stat.gov.kz)<br>
- **Ссылка**: [https://stat.gov.kz/](https://stat.gov.kz/) (и английская версия)<br>
- **Что там**: Официальная статистика — демография, ВВП, инфляция, труд, доходы, торговля, сельское хозяйство, переписи (2009, 2021 и обновления). Микроданные в деидентифицированном виде для исследований + synthetic data samples.<br>
- **Доступ**: Таблицы, публикации (Excel/CSV), дашборды. Есть раздел «Исследовательский кабинет» для баз данных. API не публичный, но данные легко парсятся/скачиваются.<br>
- **Актуальность**: Ежемесячные/ежегодные обновления до 2026 года (население, ИПЦ и т.д. за 2025–2026).<br>
- **Почему для QazLake**: Базовые индикаторы + исторические ряды.<br>
<br>
### 3. Открытые данные Национального банка РК<br>
- **Ссылка**: [https://data.nationalbank.kz/](https://data.nationalbank.kz/)<br>
- **Что там**: Финансовые и банковские данные, индикаторы, реестры.<br>
- **Доступ**: Репозиторий открытых данных + API (по аналогии с egov).<br>
- **Актуальность**: Регулярные обновления.<br>
- **Почему для QazLake**: Экономические/финансовые ряды, дополнение к stat.gov.kz.<br>
<br>
### 4. Национальный корпус казахского языка (QazCorpus)<br>
- **Ссылка**: [https://qazcorpus.kz/](https://qazcorpus.kz/)<br>
- **Что там**: **Огромный** национальный корпус от Института языкознания им. А. Байтурсынова. Субкорпусы: основной, устный, диалектный, терминологический, образовательный, пословиц, исторический, параллельный (6 языков), писателей, поэзии, ономастический, рекламы, ошибок учащихся и др.<br>
- **Доступ**: Поиск по веб-интерфейсу + API-инструменты (translit, word processing, frequency: `https://api.qazcorpus.kz/...`). Обновления 2023–2025 гг. (новые субкорпусы в 2024).<br>
- **Почему для QazLake**: Золотая жила для NLP/языковых моделей Казахстана.<br>
<br>
### 5. Геоданные и NSDI (Национальная инфраструктура пространственных данных)<br>
- **Ссылка**: Геопортал [https://map.gov.kz/](https://map.gov.kz/) (NSDI) + каталог.<br>
- **Что там**: Кадастр, карты, базовые пространственные слои (земля, инфраструктура, экология и т.д.).<br>
- **Доступ**: Каталог, WMS/WFS (стандартные геосервисы), слои NSDI, скачивание. Есть community-репо: [open-data-kazakhstan/geo-boundaries-kz](https://github.com/open-data-kazakhstan/geo-boundaries-kz) (GeoJSON регионов).<br>
- **Дополнительно**: Smart Almaty Open Data — [opendata.smartalmaty.kz](https://opendata.smartalmaty.kz).<br>
- **Почему для QazLake**: Геоданные, карты, интеграция с другими слоями.<br>
<br>
### 6. Закупки и бюджет<br>
- **Госзакупки**: [https://goszakup.gov.kz/](https://goszakup.gov.kz/) — планы, контракты, лоты (~100 млн записей). Есть REST/GraphQL API (нужен токен от Центра электронных финансов). Данные также попадают в egov.kz.<br>
- **Открытый бюджет**: budget.egov.kz — бюджеты, расходы.<br>
- **Почему для QazLake**: Прозрачность трат, анализ закупок.<br>
<br>
### 7. NLP / Текстовые и речевые корпусы (Hugging Face, Kaggle, ISSAI)<br>
Много свежих (2020–2025) открытых датасетов специально под казахский:<br>
- **Hugging Face** (фильтр «kazakh»): KazParC (параллельный KZ-EN-RU-TR, ~372k предложений), KazakhTTS / Kazakh_Speech_Corpus_2 (сотни часов речи), KazQAD (ODQA), sozkz-corpus, Kazakh wiki/articles, gov complaints, news, instruction-following (kazakh-ift) и др. Многие от ISSAI (Nazarbayev University).<br>
- **Kaggle**: Kazakh News Articles, Classical Poetry, gov budget data, Almaty bus routes и др.<br>
- **Другие**: CC100-Kazakh, Leipzig Corpora (wiki), Kazakh Wikipedia dumps, параллельные Uzbek-Kazakh.<br>
- **Доступ**: Прямой download с HF/Kaggle/GitHub (CC BY-SA и подобные лицензии).<br>
- **Почему для QazLake**: Готовые данные для LLM, TTS, NER, MT и т.д. Большинство созданы/обновлены в 2022–2025 гг.<br>
<br>
### 8. Другие полезные источники<br>
- **Метео/гидро**: Казгидромет (kazhydromet.kz) — открытые базы метео- и гидроданных (скачивание/API в некоторых разделах).<br>
- **Международные с фокусом на КЗ**:<br>
- World Bank Data API: [data.worldbank.org/country/kazakhstan](https://data.worldbank.org/country/kazakhstan) — >1000 индикаторов (CSV/XML/Excel + API).<br>
- HDX (Humanitarian Data Exchange): 120+ датасетов по КЗ (здоровье, кризисы и т.д.).<br>
- NOAA, UN и др. (метео, палеоклимат и т.д.).<br>
- **Community/GitHub**: [open-data-kazakhstan](https://github.com/open-data-kazakhstan) — geo-boundaries, GNI и др.<br>
- **Региональные**: Almaty Data Lake / Smart Almaty, другие аккиматы (через egov).<br>
<br>
### Как подключать максимум в QazLake (рекомендация)<br>
1. **Сначала** — скрипты на Python (requests + pandas) к **data.egov.kz API** + **stat.gov.kz** (основной объём структурированных данных).<br>
2. **Языковые данные** — bulk download с HF + crawling/search API QazCorpus.<br>
3. **Гео** — WFS/WMS с map.gov.kz + GeoJSON из GitHub.<br>
4. **Финансы/закупки** — API NBK + goszakup.<br>
5. **Мониторинг обновлений** — многие порталы имеют RSS/уведомления или можно использовать webhooks/скрипты.<br>
<br>
Все источники бесплатны и открыты (или с минимальными требованиями). Большинство данных обновляются регулярно с 2016+ годов. Если нужно — могу дать готовые примеры кода для API (egov v4, World Bank и т.д.) или помочь углубиться в конкретный источник (например, список всех категорий на egov или полный список HF-датасетов).<br>
<br>
Что отбираем первым делом? Или давайте углубимся в конкретный портал/тип данных (API-скрипты, объёмы, лицензии)? Готов продолжить! 🚀<br>