Пока OpenAI пытается убедить нас, что сливать им свою медкарту — это безопасно, многие уже начали искать способы построить свой Health AI. Идея простая: забирать данные с часов/колец, прогонять через локальную LLM и получать инсайты без риска утечки. Это я продолжаю тему предыдущего поста.
Какие данные нужны — сырые или предобработанные?
Сначала кажется, что круто получить сырой сигнал с сенсоров (фотоплетизмограмма, акселерометр). Но реальность: ты получаешь зашумленный поток вольтажа. Чтобы превратить это в пульс, нужно писать сложные алгоритмы очистки от артефактов движения.
Для AI-ассистента нам не нужен raw-сигнал. Нам нужны агрегированные метрики, которые девайс уже посчитал: HRV, Sleep Score, Readiness.
Так считают далеко не все. В недавней статье в Nature утверждается, что идеальный вариант — скармливать нейронке сырые данные, чтобы она сама искала паттерны.
Откуда данные взять?
Oura Ring API
Данные можно забирать напрямую. Комьюнити подтверждает — самый адекватный API. Готовый JSON с фазами сна и активностью. Есть библиотеки на Python (`pip install oura-ring`).
Fitbit & Google
Тут всё грустно. Google медленно убивает старую экосистему Fitbit. Недавно прикрыли веб-дашборд, API мигрирует. Для пет-проекта слишком нестабильно.
Агрегаторы (Thryve, Terra, Vital)
Если зоопарк устройств — это «переходник». Подключаешь все девайсы (500+ поддерживаемых), получаешь унифицированный JSON. Free Tier ограничен (до 50 юзеров), но для личного использования идеально.
Что в итоге
Берем Oura (или агрегатор типа Thryve на бесплатном тарифе), забираем очищенные тренды (HRV упал, пульс вырос), скармливаем локальной Llama. Модель, видящая динамику, дает советы лучше, чем врач в поликлинике, и данные остаются у вас.
UPD: мы зря боялись сырых данных
Свежая статья в Nature говорит, что проблема носимых устройств не в точности сенсоров, а в формулах, которые усредняют показатели и отдают вам нечто приблизительное (считают HRV и пр, которые дают вам базу совсем без деталей).
Оказывается, если скармливать нейросети именно тот самый «зашумленный» сырой сигнал (который мы хотели отфильтровать), она находит в нем уникальные личные паттерны, невидимые на стандартных причесанных графиках.
Анализировать этот шум руками сейчас — всё еще ад (тут я был прав), но складировать сырые архивы нужно обязательно. Это золотой датасет для будущих Health-моделей, которые будут сравнивать вас не со средним по больнице, а с самим собой в прошлом.