Проверяем медрекомендации ChatGPT: как построить свой Health AI без слива данных

Пока OpenAI пытается убедить нас, что сливать им свою медкарту — это безопасно, многие уже начали искать способы построить свой Health AI. Идея простая: забирать данные с часов/колец, прогонять через локальную LLM и получать инсайты без риска утечки. Это я продолжаю тему предыдущего поста.

Какие данные нужны — сырые или предобработанные?

Сначала кажется, что круто получить сырой сигнал с сенсоров (фотоплетизмограмма, акселерометр). Но реальность: ты получаешь зашумленный поток вольтажа. Чтобы превратить это в пульс, нужно писать сложные алгоритмы очистки от артефактов движения.

Для AI-ассистента нам не нужен raw-сигнал. Нам нужны агрегированные метрики, которые девайс уже посчитал: HRV, Sleep Score, Readiness.

Так считают далеко не все. В недавней статье в Nature утверждается, что идеальный вариант — скармливать нейронке сырые данные, чтобы она сама искала паттерны.

Откуда данные взять?

Oura Ring API
Данные можно забирать напрямую. Комьюнити подтверждает — самый адекватный API. Готовый JSON с фазами сна и активностью. Есть библиотеки на Python (`pip install oura-ring`).

Fitbit & Google
Тут всё грустно. Google медленно убивает старую экосистему Fitbit. Недавно прикрыли веб-дашборд, API мигрирует. Для пет-проекта слишком нестабильно.

Агрегаторы (Thryve, Terra, Vital)
Если зоопарк устройств — это «переходник». Подключаешь все девайсы (500+ поддерживаемых), получаешь унифицированный JSON. Free Tier ограничен (до 50 юзеров), но для личного использования идеально.

Что в итоге

Берем Oura (или агрегатор типа Thryve на бесплатном тарифе), забираем очищенные тренды (HRV упал, пульс вырос), скармливаем локальной Llama. Модель, видящая динамику, дает советы лучше, чем врач в поликлинике, и данные остаются у вас.

UPD: мы зря боялись сырых данных

Свежая статья в Nature говорит, что проблема носимых устройств не в точности сенсоров, а в формулах, которые усредняют показатели и отдают вам нечто приблизительное (считают HRV и пр, которые дают вам базу совсем без деталей).

Оказывается, если скармливать нейросети именно тот самый «зашумленный» сырой сигнал (который мы хотели отфильтровать), она находит в нем уникальные личные паттерны, невидимые на стандартных причесанных графиках.

Анализировать этот шум руками сейчас — всё еще ад (тут я был прав), но складировать сырые архивы нужно обязательно. Это золотой датасет для будущих Health-моделей, которые будут сравнивать вас не со средним по больнице, а с самим собой в прошлом.