[Grok] 2026-04-03 — Открытые данные Казахстана: источники и API

Grok (xAI) neutral 4 чанков ~4 мин чтения
# Открытые данные Казахстана: источники и API<br> Platform: Grok (xAI)<br> Date: 2026-04-03<br> <br> **User**:<br> мы собираем qazlake и мне нужно подключить максимальное количество доступных в кахастане или связанных с Казахстаном открытых данных, источников, api^ подключений, датасетов, корпусов и прочее<br> ищи все все что нам может пригодится за последние 10 лет потом отберем<br> <br> **Grok**:<br> **Вот полный обзор всего, что я нашёл по открытым данным, источникам, API, датасетам и корпусам по Казахстану (или сильно связанным с ним) за последние ~10 лет (примерно 2016–2026 гг.).** <br> <br> Я искал максимально широко: официальные гос-порталы, статистику, геоданные, финансовые данные, языковые/NLP-корпусы (текст, речь, параллельные), community- и международные источники. Многие инициативы стартовали или сильно развились после запуска «Открытого правительства» в 2015–2016 гг., и данные активно обновляются до 2026 года.<br> <br> Я сгруппировал по категориям, указал ссылки, объём/типы данных, способы подключения (API, download, форматы) и почему это полезно для **QazLake** (национального data lake). После этого вы сможете отобрать нужное. Большинство — полностью открытые (CC или гос-лицензии), machine-readable (JSON, CSV, Excel, GeoJSON и т.д.).<br> <br> ### 1. Главный портал открытых данных Казахстана (data.egov.kz)<br> - **Ссылка**: [https://data.egov.kz/](https://data.egov.kz/)<br> - **Что там**: >3000–3600+ наборов данных от центральных и местных органов + квазигоссектора. Категории: экономика, здравоохранение, образование, транспорт, экология, юстиция, население, финансы, недвижимость, долги, реестры юрлиц, транспорт (в т.ч. общественный), статистика преступлений и т.д.<br> - **Доступ**: <br> - Поиск/скачивание в браузере.<br> - **Полноценный публичный API v4** (без авторизации, HTTPS + Elasticsearch). Эндпоинты: `/api/v4/{dataset_name}/[version]?source={JSON query}` (поддержка пагинации `size/from`, фильтров, geo_distance, fuzzy search, aggregations). Примеры: преступления в Астане, медорганизации, реестры и т.д. Ответы — JSON. Документация: [https://data.egov.kz/pages/samples](https://data.egov.kz/pages/samples).<br> - **Актуальность**: Постоянно обновляется (данные с 2015+). Идеально для data lake — можно скриптами выкачивать всё.<br> - **Почему для QazLake**: Основной источник «сырых» госданных.<br> <br> ### 2. Бюро национальной статистики (stat.gov.kz + taldau.stat.gov.kz)<br> - **Ссылка**: [https://stat.gov.kz/](https://stat.gov.kz/) (и английская версия)<br> - **Что там**: Официальная статистика — демография, ВВП, инфляция, труд, доходы, торговля, сельское хозяйство, переписи (2009, 2021 и обновления). Микроданные в деидентифицированном виде для исследований + synthetic data samples.<br> - **Доступ**: Таблицы, публикации (Excel/CSV), дашборды. Есть раздел «Исследовательский кабинет» для баз данных. API не публичный, но данные легко парсятся/скачиваются.<br> - **Актуальность**: Ежемесячные/ежегодные обновления до 2026 года (население, ИПЦ и т.д. за 2025–2026).<br> - **Почему для QazLake**: Базовые индикаторы + исторические ряды.<br> <br> ### 3. Открытые данные Национального банка РК<br> - **Ссылка**: [https://data.nationalbank.kz/](https://data.nationalbank.kz/)<br> - **Что там**: Финансовые и банковские данные, индикаторы, реестры.<br> - **Доступ**: Репозиторий открытых данных + API (по аналогии с egov).<br> - **Актуальность**: Регулярные обновления.<br> - **Почему для QazLake**: Экономические/финансовые ряды, дополнение к stat.gov.kz.<br> <br> ### 4. Национальный корпус казахского языка (QazCorpus)<br> - **Ссылка**: [https://qazcorpus.kz/](https://qazcorpus.kz/)<br> - **Что там**: **Огромный** национальный корпус от Института языкознания им. А. Байтурсынова. Субкорпусы: основной, устный, диалектный, терминологический, образовательный, пословиц, исторический, параллельный (6 языков), писателей, поэзии, ономастический, рекламы, ошибок учащихся и др.<br> - **Доступ**: Поиск по веб-интерфейсу + API-инструменты (translit, word processing, frequency: `https://api.qazcorpus.kz/...`). Обновления 2023–2025 гг. (новые субкорпусы в 2024).<br> - **Почему для QazLake**: Золотая жила для NLP/языковых моделей Казахстана.<br> <br> ### 5. Геоданные и NSDI (Национальная инфраструктура пространственных данных)<br> - **Ссылка**: Геопортал [https://map.gov.kz/](https://map.gov.kz/) (NSDI) + каталог.<br> - **Что там**: Кадастр, карты, базовые пространственные слои (земля, инфраструктура, экология и т.д.).<br> - **Доступ**: Каталог, WMS/WFS (стандартные геосервисы), слои NSDI, скачивание. Есть community-репо: [open-data-kazakhstan/geo-boundaries-kz](https://github.com/open-data-kazakhstan/geo-boundaries-kz) (GeoJSON регионов).<br> - **Дополнительно**: Smart Almaty Open Data — [opendata.smartalmaty.kz](https://opendata.smartalmaty.kz).<br> - **Почему для QazLake**: Геоданные, карты, интеграция с другими слоями.<br> <br> ### 6. Закупки и бюджет<br> - **Госзакупки**: [https://goszakup.gov.kz/](https://goszakup.gov.kz/) — планы, контракты, лоты (~100 млн записей). Есть REST/GraphQL API (нужен токен от Центра электронных финансов). Данные также попадают в egov.kz.<br> - **Открытый бюджет**: budget.egov.kz — бюджеты, расходы.<br> - **Почему для QazLake**: Прозрачность трат, анализ закупок.<br> <br> ### 7. NLP / Текстовые и речевые корпусы (Hugging Face, Kaggle, ISSAI)<br> Много свежих (2020–2025) открытых датасетов специально под казахский:<br> - **Hugging Face** (фильтр «kazakh»): KazParC (параллельный KZ-EN-RU-TR, ~372k предложений), KazakhTTS / Kazakh_Speech_Corpus_2 (сотни часов речи), KazQAD (ODQA), sozkz-corpus, Kazakh wiki/articles, gov complaints, news, instruction-following (kazakh-ift) и др. Многие от ISSAI (Nazarbayev University).<br> - **Kaggle**: Kazakh News Articles, Classical Poetry, gov budget data, Almaty bus routes и др.<br> - **Другие**: CC100-Kazakh, Leipzig Corpora (wiki), Kazakh Wikipedia dumps, параллельные Uzbek-Kazakh.<br> - **Доступ**: Прямой download с HF/Kaggle/GitHub (CC BY-SA и подобные лицензии).<br> - **Почему для QazLake**: Готовые данные для LLM, TTS, NER, MT и т.д. Большинство созданы/обновлены в 2022–2025 гг.<br> <br> ### 8. Другие полезные источники<br> - **Метео/гидро**: Казгидромет (kazhydromet.kz) — открытые базы метео- и гидроданных (скачивание/API в некоторых разделах).<br> - **Международные с фокусом на КЗ**:<br> - World Bank Data API: [data.worldbank.org/country/kazakhstan](https://data.worldbank.org/country/kazakhstan) — >1000 индикаторов (CSV/XML/Excel + API).<br> - HDX (Humanitarian Data Exchange): 120+ датасетов по КЗ (здоровье, кризисы и т.д.).<br> - NOAA, UN и др. (метео, палеоклимат и т.д.).<br> - **Community/GitHub**: [open-data-kazakhstan](https://github.com/open-data-kazakhstan) — geo-boundaries, GNI и др.<br> - **Региональные**: Almaty Data Lake / Smart Almaty, другие аккиматы (через egov).<br> <br> ### Как подключать максимум в QazLake (рекомендация)<br> 1. **Сначала** — скрипты на Python (requests + pandas) к **data.egov.kz API** + **stat.gov.kz** (основной объём структурированных данных).<br> 2. **Языковые данные** — bulk download с HF + crawling/search API QazCorpus.<br> 3. **Гео** — WFS/WMS с map.gov.kz + GeoJSON из GitHub.<br> 4. **Финансы/закупки** — API NBK + goszakup.<br> 5. **Мониторинг обновлений** — многие порталы имеют RSS/уведомления или можно использовать webhooks/скрипты.<br> <br> Все источники бесплатны и открыты (или с минимальными требованиями). Большинство данных обновляются регулярно с 2016+ годов. Если нужно — могу дать готовые примеры кода для API (egov v4, World Bank и т.д.) или помочь углубиться в конкретный источник (например, список всех категорий на egov или полный список HF-датасетов).<br> <br> Что отбираем первым делом? Или давайте углубимся в конкретный портал/тип данных (API-скрипты, объёмы, лицензии)? Готов продолжить! 🚀<br>