Descripción de la contratación
En esta concurrencia pública, se solicita un servicio gestionado que ofrezca el siguiente stack tecnológico:
1. Entrada Datos (firewall + Balanceo HA + node + kafka + storm + HDFS + ES)
2. Infraestructura Big Data con las siguientes tecnologías. Si en algún componente se propone una versión superior o un componente alternativo, deberá justificarse el motivo y pactarlo con la CCMA, SA:
a. HDFS v2.7.3 [o sistema de archivos distribuido similar compatible con el resto de componentes del stack tecnológico (HIVE, HUE, Spark, STORM...)]. En este sistema de archivos habrá configuradas estas 4 zonas
i. Stage: Zona de recogida de información pendiente de procesar. Suele haber archivos comprimidos que después pasan a la siguiente zona
ii. RAW: zona con datos en bruto con cierta estructura y formato. En caso de ser HDFS debe poder configurarse particiones y formatos de AVRO y Parquet. Estos datos deben poderse consultar y procesar por los diferentes componentes, como son HIVE, Spark o Storm
iii. Enterprise: Zona con datos procesados y consolidados disponibles para consumir desde distintos componentes, como pueden ser HIVE, Spark o Storm
iv. Consumer: Zona con datos preparados por usuarios (informes de seguimiento o similar)
b. YARN v2.7.3
c. MapReduce2 v2.7.3
d. Tez v0.7.0
e. Hive v1.2.1000
f. HUE 3.11.0
g. Sqoop v1.4.6
h. Oozie v4.2.0
i. ZooKeeper v3.4.6
j. Storm v1.1.0
k. Ambari
l. Kafka v1.0.0
m. Spark v1.6.3
n. Elastic 6.3.1 + kibana 6.3.1
o. Jupyter notebook
p. Python 2 y python 3
3. Entornos diferenciados de Preproducción y Producción con infraestructura separada.
a. Las tecnologías antes mencionadas estarán replicadas en ambos entornos.
b. Dimensionamiento entorno preproducción
i. VCPU: 84
ii. RAM: 512 GB
iii. Fast Storage: 1.500 GB
iv. Standard Storage: 10.000 GB
v. BW: IN - 3Mbps con picos de 20-25Mbps / OUT - 1Mbps
c. Dimensionamiento entorno Producción
i. VCPU: 192
ii. RAM: 1.024GB
iii. Fast Storage: 25.000 GB
iv. Standard Storage: 65.000 GB
v. BW: IN-OUT 1Mbps
d. Tanto el entorno de preproducción como el de producción deben cumplir que:
i. Deben tener interconexión con CCMA
ii. Posibilidad de realizar las acciones de:
1. Visualización de las consultas y procesos en ejecución
2. Detener/matar consultas en ejecución (Ambari/Hive/Yarn)
3. Conexiones directas vía ODBC para conectar aplicaciones tipo MS Excel
4. Visualizar disponibilidad/ocupación de recursos de la plataforma: containers/cores/memoria/hdfs ocupado y disponible/…
5. Posibilidad de traspasar datos entre entornos: PRO <--> PRE
6. Jobs Sqoop
7. Conexión hacia FTP: procesos como Zapping
8. Creación de dashboards, objetos e índices en Elastic
9. Acceso al Cerebro de Elastic
10. Acceso a HUE para utilizar los distintos componentes como:
a. Creación, modificación y programación de workflows (Oozie). Incluyendo la exportación e importación para facilitar el despliegue entre entornos.
b. Consultas con HIVE
c. Acceso al HDFS
Esta infraestructura debe estar conectada a la CCMA, dado que existe intercambio de información bidireccional entre sistemas alojados en la CCMA y esta infraestructura de Big Data. Algunos ejemplos son:
a. El recomendador de contenidos consulta cierta información en el sistema de indexación de la CCMA (Apache Solr)
b. Las recomendaciones generadas por la plataforma de Big Data deben indexarse en el Apache SOLR de la CCMA para dar servicio a los productos digitales.
Esta conectividad se realizará a través de una VPN y se consensuarán los rangos de direccionamiento privado visibles en cada extremo.