Автоматическая проверка SEO: Как использовать Python для анализа сайта и улучшения поисковой оптимизации

В этой статье мы рассмотрим, как можно автоматизировать SEO-проверку с помощью простых Python-скриптов для реализации конкретных задач, таких как проверка мета-тегов, заголовков, скорости загрузки страниц и других параметров.

Зачем нужна автоматическая проверка SEO?

Основная цель автоматической проверки SEO — это анализ сайта на соответствие требованиям поисковых систем, таких как Google, и предоставление рекомендаций для улучшения видимости сайта. Автоматизированные инструменты помогают:

  1. Сэкономить время и ресурсы. Проверка всех элементов вручную может занять дни, тогда как автоматические инструменты выполняют этот процесс за считанные минуты.
  2. Минимизировать человеческий фактор. Автоматические системы анализа работают по заданным алгоритмам, что исключает возможность пропустить ошибки или некорректно интерпретировать данные.
  3. Быстро реагировать на изменения алгоритмов поисковых систем. Инструменты автоматически обновляются, чтобы учитывать изменения в правилах поисковой оптимизации.

Теперь рассмотрим несколько примеров Python-скриптов, которые помогут автоматизировать определённые SEO-проверки.

1. Проверка наличия мета-тега description

Мета-тег description важен для поисковых систем, так как он используется для отображения краткого описания страницы в результатах поиска. Отсутствие этого тега может негативно повлиять на SEO.

Скрипт для проверки мета-тега description:

import requests
from bs4 import BeautifulSoup

def check_meta_description(url):
    response = requests.get(url)
    if response.status_code == 200:
        soup = BeautifulSoup(response.content, 'html.parser')
        meta_description = soup.find('meta', attrs={'name': 'description'})
        if meta_description:
            print(f"Мета-тег description найден: {meta_description['content']}")
        else:
            print("Мета-тег description отсутствует.")
    else:
        print(f"Ошибка при запросе страницы: {response.status_code}")

# Пример использования
url = 'https://example.com'
check_meta_description(url)

Скрипт для проверки мета-тега description

2. Проверка заголовков H1 и H2

Правильная структура заголовков (H1, H2 и т.д.) важна для поисковых систем, так как они помогают понять иерархию контента на странице.

Скрипт для проверки заголовков H1 и H2:

import requests
from bs4 import BeautifulSoup

def check_headings(url):
    response = requests.get(url)
    if response.status_code == 200:
        soup = BeautifulSoup(response.content, 'html.parser')
        h1_tags = soup.find_all('h1')
        h2_tags = soup.find_all('h2')

        if h1_tags:
            print(f"Заголовки H1: {len(h1_tags)}")
            for h1 in h1_tags:
                print(f"Содержимое H1: {h1.text}")
        else:
            print("Заголовки H1 отсутствуют.")

        if h2_tags:
            print(f"Заголовки H2: {len(h2_tags)}")
            for h2 in h2_tags:
                print(f"Содержимое H2: {h2.text}")
        else:
            print("Заголовки H2 отсутствуют.")
    else:
        print(f"Ошибка при запросе страницы: {response.status_code}")

# Пример использования
url = 'https://example.com'
check_headings(url)

Скрипт для проверки заголовков H1 и H2

3. Проверка наличия alt-тегов у изображений

Поисковые системы используют атрибут alt для понимания содержимого изображений. Отсутствие alt-тегов может негативно сказаться на SEO, особенно для сайтов с большим количеством графики.

Скрипт для проверки наличия alt-тегов:

import requests
from bs4 import BeautifulSoup

def check_images_alt(url):
    response = requests.get(url)
    if response.status_code == 200:
        soup = BeautifulSoup(response.content, 'html.parser')
        images = soup.find_all('img')
        missing_alt = 0
        for img in images:
            if not img.get('alt'):
                missing_alt += 1
        print(f"Изображений без alt-тегов: {missing_alt} из {len(images)}")
    else:
        print(f"Ошибка при запросе страницы: {response.status_code}")

# Пример использования
url = 'https://example.com'
check_images_alt(url)

Скрипт для проверки наличия alt-тегов

4. Проверка скорости загрузки страницы с помощью Google PageSpeed Insights API

Скорость загрузки страниц является важным фактором для SEO. Медленные сайты имеют больше шансов потерять позиции в результатах поиска. Вы можете использовать Google PageSpeed Insights API для автоматического анализа скорости загрузки.

Скрипт для проверки скорости загрузки страницы:

import requests

API_KEY = 'ваш_api_ключ'
url = 'https://example.com'
api_url = f'https://www.googleapis.com/pagespeedonline/v5/runPagespeed?url={url}&key={API_KEY}'

def check_page_speed(url):
    response = requests.get(api_url)
    if response.status_code == 200:
        data = response.json()
        performance_score = data['lighthouseResult']['categories']['performance']['score'] * 100
        print(f"Скорость загрузки страницы: {performance_score}/100")
    else:
        print(f"Ошибка при запросе PageSpeed Insights: {response.status_code}")

# Пример использования
check_page_speed(url)

Скрипт для проверки скорости загрузки страницы

5. Проверка битых ссылок на сайте

Битые ссылки (ошибки 404) ухудшают пользовательский опыт и негативно влияют на SEO.

Скрипт для проверки битых ссылок:

import requests
from bs4 import BeautifulSoup

def check_broken_links(url):
    response = requests.get(url)
    if response.status_code == 200:
        soup = BeautifulSoup(response.content, 'html.parser')
        links = soup.find_all('a')
        broken_links = 0
        for link in links:
            href = link.get('href')
            if href and href.startswith('http'):
                try:
                    link_response = requests.get(href)
                    if link_response.status_code == 404:
                        print(f"Битая ссылка найдена: {href}")
                        broken_links += 1
                except requests.exceptions.RequestException as e:
                    print(f"Ошибка при проверке ссылки: {href}, {e}")
        print(f"Количество битых ссылок: {broken_links}")
    else:
        print(f"Ошибка при запросе страницы: {response.status_code}")

# Пример использования
url = 'https://example.com'
check_broken_links(url)

Скрипт для проверки битых ссылок

6. Проверка наличия SSL-сертификата (HTTPS)

Использование HTTPS важно для безопасности и доверия пользователей, а также является одним из факторов ранжирования в поисковых системах.

Скрипт для проверки SSL-сертификата:

import requests

def check_https(url):
    if url.startswith('https'):
        try:
            response = requests.get(url)
            if response.status_code == 200:
                print(f"Сайт {url} использует безопасное соединение (HTTPS).")
            else:
                print(f"Проблема с доступом к сайту: {response.status_code}")
        except requests.exceptions.SSLError:
            print(f"Ошибка SSL на сайте {url}.")
    else:
        print(f"Сайт {url} не использует HTTPS.")

# Пример использования
url = 'https://example.com'
check_https(url)

Скрипт для проверки SSL-сертификата

7. Проверка наличия файла robots.txt

Файл robots.txt указывает поисковым ботам, какие страницы сайта можно индексировать. Отсутствие этого файла может повлиять на то, как поисковые системы обрабатывают ваш сайт.

Скрипт для проверки robots.txt:

import requests

def check_robots_txt(url):
    if not url.endswith('/'):
        url += '/'
    robots_url = url + 'robots.txt'
    
    try:
        response = requests.get(robots_url)
        if response.status_code == 200:
            print(f"Файл robots.txt найден на сайте {url}")
            print(response.text)
        else:
            print(f"Файл robots.txt отсутствует на сайте {url}")
    except requests.exceptions.RequestException as e:
        print(f"Ошибка при запросе файла robots.txt: {e}")

# Пример использования
url = 'https://example.com'
check_robots_txt(url)

Скрипт для проверки robots.txt

8. Проверка наличия карты сайта (sitemap.xml)

Карта сайта (sitemap.xml) помогает поисковым системам индексировать страницы вашего сайта. Отсутствие карты сайта может замедлить или ограничить индексирование.

Скрипт для проверки sitemap.xml:

import requests

def check_sitemap(url):
    if not url.endswith('/'):
        url += '/'
    sitemap_url = url + 'sitemap.xml'
    
    try:
        response = requests.get(sitemap_url)
        if response.status_code == 200:
            print(f"Карта сайта (sitemap.xml) найдена на {url}")
        else:
            print(f"Карта сайта (sitemap.xml) отсутствует на {url}")
    except requests.exceptions.RequestException as e:
        print(f"Ошибка при запросе карты сайта: {e}")

# Пример использования
url = 'https://example.com'
check_sitemap(url)

Скрипт для проверки sitemap.xml

9. Проверка мобильной адаптации сайта с использованием Google Mobile-Friendly Test API

Мобильная адаптация сайта является важным фактором для ранжирования в Google. Используя Google Mobile-Friendly Test API, можно проверить, насколько сайт удобен для мобильных пользователей.

Скрипт для проверки мобильной адаптации:

import requests
import json

API_KEY = 'ваш_api_ключ'
url = 'https://example.com'
api_url = f'https://searchconsole.googleapis.com/v1/urlTestingTools/mobileFriendlyTest:run?key={API_KEY}'

def check_mobile_friendly(url):
    headers = {'Content-Type': 'application/json'}
    data = json.dumps({'url': url})
    
    response = requests.post(api_url, headers=headers, data=data)
    if response.status_code == 200:
        result = response.json()
        if result['mobileFriendliness'] == 'MOBILE_FRIENDLY':
            print(f"Сайт {url} является мобильным.")
        else:
            print(f"Сайт {url} не адаптирован для мобильных устройств.")
    else:
        print(f"Ошибка при проверке мобильной адаптации: {response.status_code}")

# Пример использования
check_mobile_friendly(url)

Скрипт для проверки мобильной адаптации

10. Проверка дублированного контента

Поисковые системы негативно относятся к дублированному контенту на сайте. Этот скрипт может помочь определить наличие страниц с одинаковым содержимым, проверяя совпадения хэшей контента страниц.

Скрипт для проверки дублированного контента:

import requests
from bs4 import BeautifulSoup
import hashlib

def get_page_content_hash(url):
    response = requests.get(url)
    if response.status_code == 200:
        soup = BeautifulSoup(response.content, 'html.parser')
        # Удаляем скрипты, стили и другие ненужные элементы
        for script in soup(["script", "style"]):
            script.extract()
        text = soup.get_text()
        return hashlib.md5(text.encode('utf-8')).hexdigest()
    else:
        print(f"Ошибка при запросе страницы: {response.status_code}")
        return None

# Пример использования для нескольких страниц
urls = ['https://example.com/page1', 'https://example.com/page2']

hashes = {}
for url in urls:
    page_hash = get_page_content_hash(url)
    if page_hash:
        if page_hash in hashes.values():
            print(f"Дублированный контент найден на: {url}")
        else:
            hashes[url] = page_hash

Проверка дублированного контента

Автоматизация проверки SEO помогает сократить время и усилия, затраченные на аудит сайта. С помощью представленных скриптов можно быстро проверить ключевые аспекты оптимизации: мета-теги, структуру заголовков, alt-теги у изображений, скорость загрузки и наличие битых ссылок. Эти базовые автоматические проверки обеспечат основу для регулярного SEO-аудита и помогут поддерживать сайт в актуальном состоянии для поисковых систем.