[go: up one dir, main page]

Обновить
116.88

Хранение данных *

Что имеем, то храним

Сначала показывать
Порог рейтинга
Уровень сложности

Memory wall: что это и почему важно для индустрии хранения данных

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели6.7K

Серверы становятся мощнее и больше каждый год. Количество ядер растет, векторные блоки для параллельной обработки массивов данных одной инструкцией расширяются, частоты давно уперлись в физические ограничения. Но вычислительная плотность продолжает увеличиваться. При этом производительность памяти и систем хранения растет существенно медленнее. В результате в реальных системах процессор все чаще простаивает, так как технически готов выполнять инструкции, но вынужден ждать, пока данные будут доставлены из хранилища.

Это явление давно известно в архитектуре вычислительных систем как разрыв между процессором и памятью (или Memory Wall). Сегодня он определяет производительность серверов, баз данных, платформ данных и AI/ML-платформ сильнее, чем выбор конкретной модели процессора или видеокарты. А в будущем определит то, какие продукты и решения индустрия будет использовать для решения задачи хранения данных.

Привет! Я Александр Гришин, руководитель по развитию продуктов хранения данных в Selectel. В этой статье я попробую подробно разобрать, что такое этот ваш разрыв между процессором и памятью, как он сформировался, как устроена иерархия памяти в сервере и почему эти ограничения подталкивают индустрию к новым архитектурам и решениям. Погнали!

Читать далее

Новости

Мультизональный PostgreSQL своими руками: декомпозиция трудозатрат

Уровень сложностиСредний
Время на прочтение15 мин
Охват и читатели9.9K

Разговор о собственном PostgreSQL-кластере обычно начинается с фразы: «Да там поставить — день работы». Технически это правда. Установка PostgreSQL на два сервера в разных ЦОДах действительно занимает несколько часов. Проблема в том, что установка — это меньше 10% работы до Production-ready-состояния.

В этой статье мы декомпозируем все задачи, которые стоят между идеей развертывания и работающим кластером с отказоустойчивостью между ЦОДами. Все с оценками в человеко-часах, чтобы можно было собрать для себя TCO и сопоставить свои затраты. Учтите, что если все это вы делаете в первый раз, то по всем шагам время увеличивается втрое.

Параллельно покажем те же временные и трудозатраты при выборе Managed-решения, DBaaS (базы данных как сервис), чтобы вы могли сравнить и выбрать — делать дальше самим или передать это на аутсорс.

Читать далее

«Эллес» vs Samba: как мы начинали создавать отечественную службу каталогов

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели6.1K

Привет, Хабр. В этой статье мы разберём ключевые различия между отечественной службой каталогов «Эллес» и её основой — Samba, и расскажем, почему для создания российского аналога Active Directory выбрали именно этот проект с открытым кодом.

Читать далее

OpenForm — новые умные формы ввода данных

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели6.3K

В 2025 году команда abgroup.tech внесла продукт OpenForm в Реестр российского программного обеспечения, подтвердив статус надежного open-source решения для отечественного рынка

OpenForm — это система ввода данных, предназначенная для создания отчетов в соответствии с корпоративными регламентами. Система обеспечивает сбор и структурирование информации. Продукт адаптирован под сложные бизнес-процессы, поддерживает многостраничность, расчеты и строгий контроль данных, а также избавляет от ручного ввода и ошибок в Excel.

abgroup.tech занимается разработкой систем управления данными и аналитических порталов

Читать далее

Как мы измеряем качество в VK Видео

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели9K

Привет, Хабр. Меня зовут Павел Муханов. Я руководитель лаборатории качества видеоплатформы VK.

ВКонтакте, ОК, VK Клипы, VK Видео и другие сервисы VK, предоставляющие возможность просмотра видео, используют в качестве core-технологии видеоплатформу VK. Она объединяет видеохостинг, стриминг и облачное хранилище и предоставляет аудитории бесшовный доступ к огромной библиотеке контента. Чтобы гарантировать стабильную работу видеоплатформы — предсказуемое качество видео и корректную работу плеера, — мы в лаборатории качества внимательно следим за метриками.

В статье на примере VK Видео расскажу, как мы оцениваем качество и какие результаты получили, когда ввели регулярный мониторинг качества видео и перформанса.

Читать далее

Проектирование целевой архитектуры: второй шаг к быстрой и безопасной миграции ЦОД

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели7K

Обследование инфраструктуры мы пережили в первой части — и те, кто знаком с предысторией, понимают, что слово «пережили» здесь выбрано совсем не случайно. Теперь настало время двигаться дальше — к этапу, где уже не просто ищут проблемы, а проектируют мир, в котором эти проблемы не должны появляться вовсе: к целевой архитектуре.

Именно на этом шаге закладывается каркас будущей ИТ-среды: определяются требования к производительности, формируются принципы отказоустойчивости, продумывается структура сетевого взаимодействия и планируется размещение оборудования. Промахнуться здесь — значит допустить трещину в фундаменте: сначала её может быть и не видно, но позже она обязательно даст о себе знать — либо на миграции, либо в самый неподходящий момент эксплуатации. И, как не сложно догадаться, оба варианта одинаково неприятны.

Читать далее

Дефрагментация HDD ускоряет скорость работы, но на сколько? Расчет скорости HDD в зависимости от фрагментации

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели9.6K

Что такое фрагментация?

Фрагментация — это состояние, при котором файлы физически располагаются на разных участках диска, а не непрерывно друг за другом. Из-за этого магнитная головка вынуждена совершать лишние движения, тратя значительное время на поиск нужных участков. По мере накопления фрагментов файлов снижается общая скорость работы накопителя, ухудшается отклик системы и увеличивается износ самого устройства.

Введение процедуры дефрагментации способно кардинально изменить ситуацию. Суть дефрагментации заключается в объединении отдельных фрагментов файлов в единую область на диске, сокращая путь движения головок и уменьшая среднее время доступа к данным. Этот процесс оказывает непосредственное влияние на повышение общей производительности системы, снижение нагрузки на аппаратуру и продление срока службы HDD.Далее мы подробно изучим механизм воздействия фрагментации и дефрагментации на показатели скорости работы жесткого диска, используя конкретные расчеты и наглядные примеры.

Читать далее

Объектные хранилища: чем заменить minio?

Уровень сложностиСредний
Время на прочтение25 мин
Охват и читатели25K

Как говорят у меня на родине: корпоративная жадность — двигатель миграций. И именно это мы сейчас можем наблюдать на примере MinIO — некогда любимого инструмента DevOps-инженеров для развёртывания S3-совместимого хранилища. В 2021 году они втихушку сменили лицензию на AGPL v3, а в 2025 году и вовсе выпилили веб-интерфейс из бесплатной версии. Ну и, наверное, можно подумать, что за такой удобный инструмент можно и заплатить. Но тогда встаёт вопрос: какова цена коммерческой лицензии? От $96 000 в год)

В этой статье мы разберём, чем можно заменить MinIO, сравним альтернативы в разных сценариях и, конечно же, развернём их руками — потому что теория без практики, как вайбкодер без гпт.

Читать далее

Создаем пет-проект по аналитике в связке с GitHub Actions. Часть 2

Уровень сложностиПростой
Время на прочтение12 мин
Охват и читатели10K

Привет, Хабр! Продолжаю обозревать GitHub Actions на примере пет проекта для аналитика.

Статья будет полезна начинающим аналитикам в поисках хорошего проекта для своего портфолио. В этой части разбираю подход к выбору проекта и источника данных, к сбору и анализу данных и представлении результатов своей работы. 

Читать далее

АИС «Налог-3»: почему это одна из самых мощных государственных IT-систем России

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели9.8K

За последнее десятилетие Федеральная налоговая служба (ФНС) совершила фундаментальный переход от традиционной модели администрирования к подходу, основанному на анализе больших баз данных.

Если вы соприкасались с налоговой системой - проходили проверки, бывали на комиссиях в инспекциях, общались с налоговыми органами, то вы слышали про АИС «Налог-3», одну из самых масштабных государственных IT-платформ в России.

Я проработал в системе налоговых органов 12 лет - от рядового инспектора в ИФНС до заместителя начальника отдела проведения налоговых проверок Управления ФНС - и наблюдал эту трансформацию изнутри. В этой статье я хочу показать, насколько эта система действительно мощная, как она эволюционировала, что она реально умеет сегодня и почему, несмотря на весь объём данных, это пока не «искусственный интеллект, который всё делает сам»

Сразу обозначу границу: я не раскрываю никакой служебной информации. Всё, о чём в статье пойдёт речь, это обобщение моего опыта работы в службе и данные, которые размещены в открытом доступе. Из налоговых органов я ушёл относительно недавно (2 месяца назад), и за это время мало, что могло поменяться, поэтому информация все еще остается актуальной.

Читать далее

Капсулы времени – жест доверия к эпохе, в которой нас уже нет

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели16K

Итак, вы закапываете коробку. Даже не коробку, а металлический ящик. В нем лежат свежая газетка, флешка с актуальным плейлистом и сентиментальная записка. Наверняка она начинается со слов вроде «Дорогой потомок!..» или «Вы прочитаете этот текст спустя 100 лет после…». Действительно, а что еще можно написать, если ты уверен — послание прочитают люди совершенно другой эпохи? Возможно, внуки твоих внуков. И в голову сразу лезут всякие банальности.

Адресат капсулы времени — незнакомец, который родится через 50-100 лет. Вы никогда его не увидите, а он сделает выводы о вас по скромному набору предметов из коробки. Выходит, капсула времени — это своеобразный жест доверия к будущему, в котором нас уже не будет.

Под катом обсудим, откуда взялась идея создания капсул времени, что чаще всего «дарят» потомкам и зачем вообще люди общаются с будущим таким странным образом.

Читать далее

Как кризис оперативной памяти повлияет на видеокарты и консоли новых поколений

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели10K

Все уже в курсе, что цены на оперативную память взлетели до небес. DDR5-комплекты, которые еще в сентябре стоили вполне разумных денег, теперь продаются втридорога. Но это еще цветочки. Гораздо хуже то, что текущий кризис памяти может серьезно повлиять на выход будущих видеокарт и консолей следующего поколения. Речь идет не только о повышении цен, но и о возможных задержках или даже отмене целых линеек продуктов. В худшем случае 2026 год вообще может пройти без новых GPU. Все это звучит как сюжет для антиутопии, но давайте разберемся, что происходит на самом деле.

Читать далее

Работа на результат: топ-5 средств по защите информации для построения системы кибербезопасности

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели8.9K

В последние десятилетия вопрос построения эффективных систем информационной безопасности (ИБ) все чаще поднимается как в госорганизациях, так и коммерческих компаниях. Причем не только крупных, но и средних. Сегодня рынок кибербезопасности предлагает очень широкий выбор: от комплексных платформ, содержащих множество функций до узкоспециализированных продуктов, решающих конкретные задачи. Кроме того, не стоит забывать о решениях на базе open source. На фоне этого многообразия заказчикам зачастую трудно собрать оптимальный набор инструментов, который обеспечит надежную защиту инфраструктуры.

Компания «Анлим», центр компетенций по информационной безопасности, в статье делится рейтингом пяти наиболее эффективных средств для защиты данных. О каждом классе, вошедшем в стартовый набор для построения системы ИБ, опираясь на многолетний опыт, подробнее расскажет Вячеслав Пронюшкин, первый заместитель технического директора.

Читать далее

Ближайшие события

Единый источник правды – это не миф. Но есть нюансы. Опыт построения корпоративного хранилища данных в «Газпром ЦПС»

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели9.3K

Привет, Хабр! Меня зовут Андрей Боков, я главный архитектор отдела разработки хранилищ данных в «Газпром ЦПС». Если вы хоть раз сталкивались с тем, что информация о сотрудниках не соответствует в различных корпоративных системах, например, 1С, электронный документооборот, корпоративный портал, система управления проектами, – вы понимаете, о чем сейчас пойдет речь. Мы пробовали решить эту проблему точечными интеграциями, но с ростом числа систем увеличивался и хаос в данных. Нам был нужен единый контур, который позволит проследить путь данных от источников до отчета.

Так началась работа над корпоративным хранилищем данных (КХД). Мы выбрали многослойную архитектуру и методологию Data Vault 2.0 – подход, который сохраняет историю изменений и дает возможность подключать новые источники без перепроектирования структур хранилища. В статье я расскажу про наш опыт, который будет полезен специалистам по работе с данными: руководителям, архитекторам, аналитикам и инженерам. Подробно опишу, как мы строили ядро КХД и какие уроки и инсайты вынесли по результатам реализации.

Читать далее

Вы строите Lakehouse, а сторадж строит вам проблемы. Что делать?

Уровень сложностиСредний
Время на прочтение16 мин
Охват и читатели11K

Всем привет! Меня зовут Дмитрий Листвин, я занимаюсь аналитическим хранилищем данных в Авито.

В этой статье я собрал наш опыт построения Lakehouse поверх объектного хранилища, как реальная аналитическая нагрузка быстро превращает «обычный S3» в самый капризный элемент всей архитектуры. Будет много про извлечение максимума производительности из Ceph: как добиться высокой пропускной способности HDD, когда поверх данных хочется запускать тяжёлые аналитические запросы.

Читать далее

Trino в Авито два года спустя: от движка к полноценной экосистеме

Время на прочтение10 мин
Охват и читатели11K

Всем привет! Меня зовут Дмитрий Рейман, я техлид аналитической платформы Avito. Уже третий год мы занимаемся миграцией с Vertica на Trino. Изначально казалось, что это будет просто: перенесём запросы, перепишем коннекторы, чуть подправим пайплайны.

Но за два с лишним года миграция перестала быть просто миграцией: проект разросся в инженерную одиссею, и вокруг Trino мы начали строить целую экосистему. Как это было — рассказываю под катом.

Читать далее

Оптимизация Power BI: как одно свойство уменьшает размер модели на 30%

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели3.8K

Сегодня мы, Павел Ефремов и Мухаммед Пашаев (разработчики аналитических систем в Лемана Тех), поговорим об оптимизации моделей данных в Power BI Desktop — конкретно о движке Tabular. Небольшая вводная: в нашей компании Power BI — основной BI-инструмент (лучшие для лучших😏). Используем локальную версию Power BI Report Server, поэтому вопрос производительности моделей и отчетов стоит особо остро. Мы регулярно проводим ревью моделей (подробнее в нашей прошлой статье), стараясь придерживаться лучших практик — минимальная нужная гранулярность данных, никаких избыточных связей, двунаправленных связей, скрытых автоматических календарей и прочее. Тем не менее отчеты все равно порой залипают и работают медленно. Казалось бы, уже много где поковырялись, все оптимизировали, и все равно фрустрация не уходит. Так, вместе с коллегой мы взялись копать глубже, шерстить интернет и Microsoft-документацию и наткнулись на почти незаметное, но важное свойство табличной модели. Что, если мы скажем, что у Tabular Model есть свойство, благодаря которому можно уменьшить размер модели до 30%, ускорить обновление данных, снизить нагрузку на сервер и при этом не менять ни одной таблицы, связи или строку DAX?

Это открытие заставило нас по-новому взглянуть на оптимизацию в Power BI. Оказалось, что помимо привычных правил вроде избегания лишних связей или сокращения столбцов есть и менее заметные, но очень мощные приемы. Они не требуют переделывать модель, но при этом реально ускоряют отчеты и снижают нагрузку.

Читать далее

Есть ли жизнь после Vertica или миграция DWH в Lakehouse

Время на прочтение17 мин
Охват и читатели11K

Всем привет! Меня зовут Дмитрий Рейман, я техлид аналитической платформы Авито. Мы строим систему общего назначения, которая одновременно обслуживает ETL, витрины, BI, ad-hoc аналитику и продуктовые платформы.

И в какой-то момент мы столкнулись с неприятным эффектом: объём данных начал расти заметно быстрее, чем органический рост, на который мы ориентировались раньше. Модель классического on-prem DWH перестала масштабироваться линейно: борьба за ресурсы мешала давать гарантии готовности данных; локальные оптимизации давали всё меньший эффект; любой рост требовал масштабирования “по месту” и приводил к длительным простоям аналитики.

Стало понятно, что дальнейший рост в рамках прежней архитектуры будет только усиливать эти эффекты. Именно так мы пришли к необходимости сменить базовую парадигму хранилища и начать движение в сторону Lakehouse-архитектуры. О том, как это было, читайте под катом.

Читать далее

FTP‑сервер на Linux: настройка для домашнего проекта

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели15K

Флешки постепенно уходят в прошлое, а облачные хранилища не всегда подходят для домашних проектов и экспериментов. Иногда хочется простого и предсказуемого способа обмена файлами — без подписок, лимитов и лишней инфраструктуры.

FTP-сервер — один из самых простых вариантов для решения этой задачи. Он не требует сложной инфраструктуры, минимально нагружает систему и поддерживается практически любыми клиентами.

В этой статье вы найдёте пошаговый гайд по развёртыванию FTP-сервера на VPS UltraVDS под управлением Debian 12 с использованием vsftpd (Very Secure FTP Daemon).

Читать далее

Как работают CSI-драйверы в Kubernetes: принципы, архитектура и жизненный цикл томов (подробный гайд)

Уровень сложностиСредний
Время на прочтение38 мин
Охват и читатели6.3K

В статье подробно разбираем, как устроен CSI (Container Storage Interface), как проходит жизненный цикл тома от PVC до удаления и что на самом деле делают sidecar-контейнеры и драйверы.

Читать далее
1
23 ...

Вклад авторов