[PARSING] Sumarize1.py

Google Docs neutral 2026-04-11 4 чанков ~3 мин чтения

#!/usr/bin/env python3 # -*- coding: utf-8 -*- import sys import os import time import itertools import matplotlib.pyplot as plt import pyfiglet from tqdm import tqdm import openai from colorama import Fore, Style from deep_translator import GoogleTranslator import re ############################################################################### # Шаг 1: Принудительно меняем stdout, stderr на UTF-8 (Python 3.7+) ############################################################################### if sys.version_info >= (3, 7): try: sys.stdout.reconfigure(encoding='utf-8', errors='replace') sys.stderr.reconfigure(encoding='utf-8', errors='replace') except Exception as e: print(f"{Fore.RED}Предупреждение: не удалось reconfigure stdout/stderr: {e}{Style.RESET_ALL}") # Шаг 2: Установить ключ OpenAI openai.api_key = "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" ############################################################################### # Функция перевода текста с казахского на русский ############################################################################### def translate_to_russian(text): """Переводит текст с казахского на русский (если есть казахские символы)""" if any(char in text for char in "әңғөұүһіқ"): try: translated_text = GoogleTranslator(source="kk", target="ru").translate(text) return translated_text except Exception as e: print(f"{Fore.RED}Ошибка перевода: {e}{Style.RESET_ALL}") return text # Возвращаем оригинал, если перевод не удался return text # Если казахских букв нет, просто возвращаем оригинальный текст ############################################################################### # Функция очистки текста ############################################################################### def clean_text(text): """ Убирает ненужные ссылки, HTML-коды, дубликаты хэштегов и соцсети. """ # Удаляем ссылки text = re.sub(r"https?://\S+", "", text) # Удаляем HTML-теги (если вдруг есть) text = re.sub(r"<.*?>", "", text) # Удаляем дубликаты хэштегов и повторяющиеся соцсети text = re.sub(r"#\S+\s*", "", text) text = re.sub(r"(Telegram|Instagram|Facebook|Tik-Tok|WhatsApp|YouTube|Cайт)[^\n]*", "", text) return text.strip() ############################################################################### # Функция поиска и чтения .txt-файлов ############################################################################### def find_txt_files(root_dir): txt_files = [] for dirpath, _, filenames in os.walk(root_dir): for file in filenames: if file.lower().endswith(".txt"): txt_files.append(os.path.join(dirpath, file)) return txt_files def extract_text(file_path): """ Читает файл, переводит с казахского на русский, очищает текст. """ try: with open(file_path, "r", encoding="utf-8") as f: content = f.read() except Exception as e: print(f"{Fore.RED}Ошибка чтения {file_path}: {e}{Style.RESET_ALL}") return "" # Чистим текст от мусора content = clean_text(content) # Переводим текст, если он на казахском return translate_to_russian(content) ############################################################################### # Функция генерации саммари через GPT-4 (разбивка на части по 5000 символов) ############################################################################### def generate_summary(text, file_name): if not text: return "Ошибка: пустой текст." try: chunks = [text[i:i+5000] for i in range(0, len(text), 5000)] # Разбиваем текст на части по 5000 символов summary_parts = [] for chunk in chunks: response = openai.ChatCompletion.create( model="gpt-4", messages=[ { "role": "system", "content": ( "Прочитай текст, исправь ошибки транскрибации, " "убери артефакты и восстанови смысл фраз.\n" "Определи основную тему, категорию, уровень важности (низкий, средний, высокий) " "и тональность (нейтральная, аналитическая, критическая, позитивная). " "Выяви ключевых персон и организации.\n" "Если есть важные цитаты, выдели их в отдельный блок. " "Сделай описание коротким и ёмким, избегая лишних деталей." ) }, { "role": "user", "content": chunk.encode("utf-8", errors="replace").decode("utf-8") } ] ) summary_parts.append(response.choices[0].message.content.strip()) return "\n\n".join(summary_parts) except Exception as e: print(f"{Fore.RED}Ошибка при генерации саммари: {e}{Style.RESET_ALL}") return "Ошибка: не удалось создать саммари." ############################################################################### # Функция сохранения отчёта в Markdown ############################################################################### def save_markdown_report(summary_text, stats_text, filename="summary_report.md"): try: with open(filename, "w", encoding="utf-8") as f: f.write("# Отчёт по обработке файлов\n\n") f.write("## Саммари\n\n") f.write(summary_text + "\n\n") f.write("## Статистика\n\n") f.write(stats_text + "\n") print(f"{Fore.GREEN}\n✅ Markdown-отчёт успешно сохранён: {filename}{Style.RESET_ALL}") except Exception as e: print(f"{Fore.RED}Ошибка при сохранении Markdown: {e}{Style.RESET_ALL}") ############################################################################### # Основная логика ############################################################################### def main(): root_dir = os.getcwd() txt_files = find_txt_files(root_dir) total_files = len(txt_files) print(f"{Fore.CYAN}Найдено {total_files} TXT-файлов. Начинаю обработку...{Style.RESET_ALL}") summary_report = "" for file_path in tqdm(txt_files, desc="💀 Обработка файлов 💀", unit="file", bar_format="{l_bar}💀{bar}💀{r_bar}"): text = extract_text(file_path) if not text: continue summary = generate_summary(text, os.path.basename(file_path)) summary_report += f"{summary}\n\n" stats_text = "Статистические данные пока не реализованы." save_markdown_report(summary_report, stats_text) if __name__ == "__main__": main()

Сущности