Lo que va a leer a continuación es una breve guía sobre las capacidades y diferencias de las plataformas de visualización de datos, análisis de datos y ciencia de datos. También incluye siete pasos para seleccionar la plataforma de datos adecuada a sus necesidades.
Las plataformas analíticas han evolucionado de manera considerable en la última década, pues han añadido capacidades que van mucho más allá de las herramientas de informes e inteligencia empresarial (BI) locales de la última generación. Las plataformas modernizadas de visualización de datos, cuadros de mando, análisis y aprendizaje automático sirven para diferentes casos de uso empresarial, usuarios finales y complejidades de datos.
Aunque las plataformas analíticas se han adoptado de manera generalizada, muchas empresas de sectores por digitalizar o en proceso desean desarrollar sus primeros cuadros de mando y capacidades de análisis predictivo. Reconocen que la gestión de análisis en hojas de cálculo es lenta, propensa a errores y difícil de escalar, mientras que el uso de soluciones de generación de informes vinculadas a un sistema empresarial puede limitarlas cuando desean contar con las correspondientes integraciones con otras fuentes de datos.
Las grandes empresas que han permitido a los departamentos seleccionar sus propias herramientas analíticas pueden considerar que es el momento adecuado para consolidarse con menos plataformas analíticas. Muchas empresas buscan las plataformas que admitan la colaboración entre usuarios empresariales, ingenieros de dataops, científicos de datos y otras personas que trabajen en el ciclo de vida de la visualización, el análisis y el modelado de datos.
Además, a medida que las organizaciones se centran más en los datos, la capacidad de abordar su cumplimiento y gobernanza dentro de los flujos de trabajo analíticos se convierte en un requisito fundamental.
En consecuencia, considere este artículo como una guía para las plataformas de visualización de datos, análisis y aprendizaje automático. En él hablaré de las características, los casos de uso, las personas usuarias y las capacidades diferenciadoras de estos distintos tipos de plataformas, y ofreceré mis pasos recomendados para elegir plataformas de análisis.
ÍNDICE DE CONTENIDOS
Cómo elegir una plataforma de análisis de datos y aprendizaje automático.
Identificar los casos de uso empresarial de la analítica.
Revisar las complejidades de Big Data.
Determinar las responsabilidades y habilidades del usuario final.
Priorizar los requisitos funcionales.
Especificar los requisitos técnicos no funcionales.
Estimar los costes más allá del precio.
Evaluar los tipos de plataformas y productos.
Muchas empresas se esfuerzan por ser organizaciones basadas en datos. A la hora de usarlos se decantan por análisis predictivos y modelos de aprendizaje automático que faciliten la toma de decisiones. Este objetivo general ha impulsado varios casos de uso:
· Capacitar a los empresarios para que se conviertan en científicos de datos disponibles para todo el mundo, acelerar la toma de decisiones más inteligentes y realizar análisis a través de visualizaciones de datos, cuadros de mando, informes y otras capacidades analíticas sencillas.
· Aumentar la productividad y las capacidades de los científicos de datos profesionales a lo largo del ciclo de vida del aprendizaje automático, incluido el descubrimiento de nuevos conjuntos de datos, la evolución de modelos de aprendizaje automático, el despliegue de modelos en producción o la supervisión de su rendimiento.
· Permitir que los equipos de desarrollo perfeccionen productos analíticos, lo que incluye la integración de cuadros de mando en aplicaciones orientadas al cliente, la creación de capacidades analíticas en tiempo real, el despliegue de análisis avanzados y la integración de modelos de aprendizaje automático en aplicaciones de flujo de trabajo.
· Sustituir los sistemas de generación de informes aislados integrados en los sistemas empresariales por plataformas analíticas conectadas a almacenes y lagos de datos integrados.
Hay dos preguntas que surgen al respecto. Una es si las organizaciones necesitan plataformas separadas para estos diferentes casos de uso. La segunda, si el apoyo en múltiples soluciones es algo ventajoso o costoso.
«Las organizaciones están tratando de hacer más con menos, y a menudo tienen que comprometerse con su plataforma de análisis de datos, lo que resulta en una ingente cantidad de desafíos de gestión de datos, incluyendo tiempos de procesamiento lentos, incapacidad para escalar, dependencia del proveedor y costes exponenciales», dice Helena Schwenk, vicepresidenta en la oficina de datos y análisis de Exasol, para apostillar: «Aunque las necesidades del negocio probablemente dictarán qué plataforma de análisis de datos se elige, encontrar una que garantice la productividad, la velocidad, la flexibilidad y sin sacrificar el coste ayuda a combatir estos desafíos».
En suma, encontrar soluciones óptimas requiere una investigación más profunda de los datos y de los factores organizativos, funcionales, operativos y de cumplimiento.
Las plataformas de análisis difieren en cuanto a su flexibilidad a la hora de trabajar con distintos tipos de datos, bases de datos y procesamiento de datos.
«La elección de la plataforma de análisis de datos debe ser impulsada por los casos de uso actuales y futuros para los datos dentro de la organización, particularmente si tenemos en cuenta los recientes avances en el aprendizaje profundo y la IA», explica Colleen Tartow, CTO de campo y jefe de Estrategia de VAST Data.
Los equipos de ciencia de datos, ingeniería y dataops deben revisar las arquitecturas actuales de integración y gestión de datos y, a continuación, proyectar lo que desean desarrollar de cara al futuro. Las plataformas analíticas deben abordar tanto el estado actual como el futuro, al tiempo que consideran qué capacidades de procesamiento de datos pueden ser necesarias dentro de las plataformas analíticas.
A continuación se indican varios factores importantes que deben tenerse en cuenta.
· ¿Se centra principalmente en fuentes de datos estructurados o también desea realizar análisis de texto en datos no estructurados?
· ¿Se conectará a bases de datos y almacenes SQL, o también está considerando bases de datos NoSQL, documentales, columnares, vectoriales y de otros tipos?
· ¿Desde qué plataformas SaaS tiene previsto integrar los datos? ¿Necesita la plataforma de análisis para realizar estas integraciones o dispone de otras herramientas de integración y canalización de datos para estos fines?
· ¿Se limpian los datos y se almacenan en las estructuras deseadas por adelantado, y en qué medida necesitarán los científicos de datos herramientas de análisis para apoyar la limpieza de datos, su preparación y otras tareas para manejarlos?
· ¿Cuáles son los requisitos de procedencia, privacidad y seguridad de los datos, especialmente si se tiene en cuenta que las soluciones analíticas SaaS a menudo almacenan en caché datos para procesar visualizaciones y modelos de entrenamiento?
· ¿A qué escala se encuentran los datos y qué retrasos son aceptables desde su captura, pasando por el procesamiento, hasta la disponibilidad para las plataformas de análisis?
Dado que los requisitos de datos evolucionan, revisar las capacidades de datos e integración de una plataforma antes que otros requisitos funcionales y no funcionales puede ayudarle a optimizar su trabajo. Por ejemplo, con el creciente interés en las capacidades de IA generativa, es importante establecer un modelo operativo coherente para las soluciones analíticas que pueden ser una fuente de grandes modelos lingüísticos (LLM) y de generación documentada por recuperación (RAG).
Daniel Yu, SVP de gestión de Soluciones y Marketing de productos de SAP Data and Analytics, es de la opinión de que «integrar la IA generativa dentro de un negocio depende de una base sólida de datos de confianza y gobernados, por lo que es indispensable seleccionar una plataforma de análisis de datos que pueda manejar las políticas, procesos y prácticas de IA con activos de datos. Esto no sólo proporciona la transparencia y la responsabilidad necesarias para su organización, sino que también garantiza que los datos en constante cambio y las políticas de regulación, cumplimiento y privacidad de la IA no obstaculizarán su necesidad de innovación rápida».
¿Qué ocurre cuando las organizaciones no tienen en cuenta las responsabilidades y habilidades de los usuarios finales a la hora de implantar herramientas analíticas? Tres décadas de problemas con hojas de cálculo, fuentes de datos duplicadas, fugas de datos, silos y otros problemas de cumplimiento demuestran lo importante que es tener en cuenta las responsabilidades organizativas y la gobernanza de los datos.
Así que, antes de dejarse cautivar por las visualizaciones de datos que proporciona una plataforma de análisis o por su gigantesca biblioteca de modelos de aprendizaje automático, tenga en cuenta las habilidades, responsabilidades y requisitos de gobernanza de su organización.
A continuación se indican algunos de esos usuarios finales comunes:
· Los científicos de datos generales valorarán la facilidad de uso y la capacidad de analizar datos, crear cuadros de mando y realizar mejoras de forma fácil y rápida.
· Los científicos de datos profesionales prefieren trabajar en modelos, análisis y visualizaciones mientras confían en los dataops para gestionar las integraciones y en los ingenieros de datos para realizar el trabajo de preparación necesario. Las plataformas analíticas pueden ofrecer colaboración y controles basados en roles para grandes organizaciones, pero las organizaciones más pequeñas pueden buscar plataformas que permitan a los científicos de datos multidisciplinares manipularlos de datos de forma eficiente.
· Los desarrolladores querrán API, herramientas de incrustación sencillas, opciones de mejora de JavaScript más amplias y capacidades de ampliación para integrar cuadros de mando y modelos en las aplicaciones.
· Los equipos de operaciones de TI querrán herramientas para identificar el rendimiento lento, los errores de procesamiento y otros problemas operativos.
Algunas consideraciones sobre gobernanza:
· Revise las políticas actuales de gobernanza de datos, especialmente en lo que respecta a los derechos, la confidencialidad y la procedencia de los datos, y determinar cómo las abordan las plataformas analíticas.
· Evalúe la flexibilidad de la plataforma a la hora de crear controles de acceso basados en filas, columnas y funciones, especialmente si va a utilizar la plataforma para funciones analíticas de cara al cliente.
· Algunas plataformas de análisis contienen portales y herramientas integrados para centralizar conjuntos de datos, mientras que otras ofrecen integración con catálogos de datos de terceros.
· Asegúrese de que las plataformas de análisis cumplen los requisitos de seguridad de datos en materia de autorización, cifrado, enmascaramiento de datos y auditoría.
La conclusión es que las plataformas analíticas deben adaptarse al modelo operativo, sobre todo cuando se proporciona acceso a múltiples departamentos y unidades de negocio.
¿Qué tipo de gráficos necesita para tomar decisiones? ¿Cuáles necesita para acertar en su decisión? Las plataformas analíticas compiten en procesamiento de datos, visualización, cuadros de mando y capacidades de aprendizaje automático, y todos los proveedores desean sorprender a sus clientes con nuevas capacidades. En consecuencia, contar con una lista de funcionalidades prioritarias puede ayudarle a separar lo que es imprescindible de lo que no lo es.
«Al elegir una plataforma de análisis de datos, es importante pensar en todo el espectro de casos de uso analíticos y de IA que necesitará admitir tanto ahora como en el futuro», afirma Dhruba Borthakur, cofundador y director de Tecnología de Rockset.
Las capacidades de IA generativa de las plataformas analíticas es una de las áreas en la que hay que profundizar. Algunas plataformas permiten ahora utilizar indicaciones y lenguaje natural para consultar datos y producir cuadros de mando, lo que puede constituir una herramienta poderosa a la hora de desplegarla en comunidades de usuarios más amplias y menos cualificadas. Otra función a tener en cuenta es la generación de resúmenes de texto a partir de un conjunto de datos, un cuadro de mando o un modelo para ayudar a identificar las tendencias y los valores atípicos a los que hay que prestar atención.
La IA generativa también está despertando el interés de las organizaciones por integrar funciones de consulta y análisis directamente en las aplicaciones orientadas al cliente y en los flujos de trabajo de los empleados.
Por eso Ariel Katz, consejero delegado de Sisense, considera que «la fusión de la innovación en IA con la creciente economía de las API está dando lugar a un cambio centrado en el desarrollador, que permite aplicaciones intuitivas y ricas con sofisticados análisis integrados en la experiencia del usuario. En este nuevo mundo, los desarrolladores se convierten en innovadores, ya que pueden integrar más fácilmente analíticas complejas en las apps para proporcionar a los usuarios los insights que requieran cuando de verdad los necesitan».
Los requisitos no funcionales deben incluir el establecimiento de objetivos de rendimiento, la revisión del aprendizaje automático y las flexibilidades del modelo de IA generativa, la evaluación de los requisitos de seguridad, la comprensión de las flexibilidades de la nube y la consideración de otros factores operativos.
Roy Sgan-Cohen, director general de IA, plataformas y datos en Amdocs, cree que «los líderes técnicos deben priorizar las plataformas de datos que ofrecen multinube y soporte para varios marcos de IA generativa. La rentabilidad, la integración perfecta con las fuentes de datos y los consumidores, la baja latencia y las sólidas características de privacidad y seguridad, incluidos el cifrado y los controles de acceso basados en roles, también son consideraciones esenciales a tener en cuenta».
La infraestructura en la nube es una consideración tecnológica, pero los líderes de TI también deben sopesar la implementación, las integraciones, la capacitación y las consideraciones de gestión del cambio.
«A la hora de elegir la plataforma de análisis adecuada, hay que tener en cuenta la facilidad de implementación y el nivel de integración con el resto de la pila tecnológica, y ambos no deben generar costes innecesarios ni consumir demasiados recursos», afirma Piotr Korzeniowski, COO de Piwik PRO, quien añade: «Tenga en cuenta el proceso de incorporación, los materiales educativos disponibles y el soporte continuo del proveedor».
Por su parte, Bennie Grant, COO de Percona, señala que las opciones fáciles pueden volverse caras en un abrir y cerrar de ojos. «Las soluciones de código abierto reducen la exposición al bloqueo y favorecen la portabilidad, y tener la flexibilidad de una solución de código abierto significa que puede escalar fácilmente a medida que crecen sus datos, todo mientras mantiene el máximo rendimiento».
Las plataformas analíticas pertenecen a una categoría tecnológica madura aunque en evolución. Algunos proveedores ofrecen sus capacidades analíticas como complementos gratuitos o más baratos de sus otras capacidades. Entre los factores de fijación de precios se incluyen el número de usuarios finales, los volúmenes de datos, la cantidad de activos (cuadros de mando, modelos, etc.) y los niveles de funcionalidad.
Tenga en cuenta que el precio de la plataforma del proveedor puede ser un pequeño componente del coste total si tiene en cuenta la implantación, la formación y la asistencia. Aún más importante es comprender los factores de productividad, ya que algunas plataformas se centran en la facilidad de uso, mientras que otras lo hacen en una funcionalidad completa.
Cookie | Duración | Descripción |
---|---|---|
__cf_bm | 1 hour | This cookie, set by Cloudflare, is used to support Cloudflare Bot Management. |
_GRECAPTCHA | 6 months | Google Recaptcha service sets this cookie to identify bots to protect the website against malicious spam attacks. |
cookielawinfo-checkbox-advertisement | 1 year | Set by the GDPR Cookie Consent plugin, this cookie records the user consent for the cookies in the "Advertisement" category. |
cookielawinfo-checkbox-analytics | 11 months | This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics". |
cookielawinfo-checkbox-functional | 11 months | The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional". |
cookielawinfo-checkbox-necessary | 11 months | This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary". |
cookielawinfo-checkbox-others | 11 months | This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other. |
cookielawinfo-checkbox-performance | 11 months | This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance". |
CookieLawInfoConsent | 1 year | CookieYes sets this cookie to record the default button state of the corresponding category and the status of CCPA. It works only in coordination with the primary cookie. |
csrftoken | 1 year | This cookie is associated with Django web development platform for python. Used to help protect the website against Cross-Site Request Forgery attacks |
opt_out | 1 year | This cookie is used for preventing the installation of third party advertiser or other cookies on the browser. |
PHPSESSID | 24 minutes | This cookie is native to PHP applications. The cookie stores and identifies a user's unique session ID to manage user sessions on the website. The cookie is a session cookie and will be deleted when all the browser windows are closed. |
rc::a | never | This cookie is set by the Google recaptcha service to identify bots to protect the website against malicious spam attacks. |
rc::b | session | This cookie is set by the Google recaptcha service to identify bots to protect the website against malicious spam attacks. |
rc::c | session | This cookie is set by the Google recaptcha service to identify bots to protect the website against malicious spam attacks. |
rc::f | never | This cookie is set by the Google recaptcha service to identify bots to protect the website against malicious spam attacks. |
ts | 1 year 1 month | PayPal sets this cookie to enable secure transactions through PayPal. |
usprivacy | 1 year 1 month | This is a consent cookie set by Dailymotion to store the CCPA consent string (mandatory information about an end-user being or not being a California consumer and exercising or not exercising its statutory right). |
viewed_cookie_policy | 11 months | The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data. |
wordpress_test_cookie | session | WordPress sets this cookie to determine whether cookies are enabled on the users' browsers. |
Cookie | Duración | Descripción |
---|---|---|
cX_G | 1 year 1 month | Cxense sets this cookie for storing the global ID, mapping different ids together into one ID. |
v1st | 1 year 1 month | The v1st cookie is set by TripAdvisor to collect details about how visitors use the website, by displaying user reviews, awards and information received on the TripAdvisor community. |
yt-player-headers-readable | never | The yt-player-headers-readable cookie is used by YouTube to store user preferences related to video playback and interface, enhancing the user's viewing experience. |
yt-remote-cast-available | session | The yt-remote-cast-available cookie is used to store the user's preferences regarding whether casting is available on their YouTube video player. |
yt-remote-cast-installed | session | The yt-remote-cast-installed cookie is used to store the user's video player preferences using embedded YouTube video. |
yt-remote-connected-devices | never | YouTube sets this cookie to store the user's video preferences using embedded YouTube videos. |
yt-remote-device-id | never | YouTube sets this cookie to store the user's video preferences using embedded YouTube videos. |
yt-remote-fast-check-period | session | The yt-remote-fast-check-period cookie is used by YouTube to store the user's video player preferences for embedded YouTube videos. |
yt-remote-session-app | session | The yt-remote-session-app cookie is used by YouTube to store user preferences and information about the interface of the embedded YouTube video player. |
yt-remote-session-name | session | The yt-remote-session-name cookie is used by YouTube to store the user's video player preferences using embedded YouTube video. |
ytidb::LAST_RESULT_ENTRY_KEY | never | The cookie ytidb::LAST_RESULT_ENTRY_KEY is used by YouTube to store the last search result entry that was clicked by the user. This information is used to improve the user experience by providing more relevant search results in the future. |
Cookie | Duración | Descripción |
---|---|---|
_gat | 1 minute | Google Universal Analytics sets this cookie to restrain request rate and thus limit data collection on high-traffic sites. |
dmvk | session | The dmvk cookie is set by Dailymotion to record data of visitor behaviour on the website. |
Cookie | Duración | Descripción |
---|---|---|
_fbp | 3 months | Facebook sets this cookie to display advertisements when either on Facebook or on a digital platform powered by Facebook advertising after visiting the website. |
_ga | 1 year 1 month 4 days | Google Analytics sets this cookie to calculate visitor, session and campaign data and track site usage for the site's analytics report. The cookie stores information anonymously and assigns a randomly generated number to recognise unique visitors. |
_gid | 1 day | Google Analytics sets this cookie to store information on how visitors use a website while also creating an analytics report of the website's performance. Some of the collected data includes the number of visitors, their source, and the pages they visit anonymously. |
cX_P | 1 year 1 month | Cxense sets this cookie for site-specific user sessions - across sessions. |
Cookie | Duración | Descripción |
---|---|---|
guest_id | 1 year 1 month | Twitter sets this cookie to identify and track the website visitor. It registers if a user is signed in to the Twitter platform and collects information about ad preferences. |
test_cookie | 15 minutes | doubleclick.net sets this cookie to determine if the user's browser supports cookies. |
VISITOR_INFO1_LIVE | 6 months | YouTube sets this cookie to measure bandwidth, determining whether the user gets the new or old player interface. |
VISITOR_PRIVACY_METADATA | 6 months | YouTube sets this cookie to store the user's cookie consent state for the current domain. |
YSC | session | Youtube sets this cookie to track the views of embedded videos on Youtube pages. |
yt.innertube::nextId | never | YouTube sets this cookie to register a unique ID to store data on what videos from YouTube the user has seen. |
yt.innertube::requests | never | YouTube sets this cookie to register a unique ID to store data on what videos from YouTube the user has seen. |
Cookie | Duración | Descripción |
---|---|---|
__cflb | 1 day | This cookie is used by Cloudflare for load balancing. |
_awl | 1 year 1 month | No description available. |
_pcid | 1 year 1 month | Description is currently not available. |
_pctx | 1 year 1 month | Description is currently not available. |
gckp | 1 year | This cookie is set by the provider Cxense. This cookie is used for building user profile information across all sites in the Cxense network. |
itsec-hb-login-27e4caa2b0fb20a2dee118de04e9de77 | 1 hour | Description is currently not available. |
ntvSession | session | Description is currently not available. |