分类目录归档:大数据

influxdb过期策略

SHOW RETENTION POLICIES ON db 命令显示过期策略

> SHOW RETENTION POLICIES ON dbname
name    duration shardGroupDuration replicaN default
----    -------- -[......]

阅读全文

发表在 linux, 大数据 | 留下评论

Python pandas DataFrame操作

官方文档地址: http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html

# coding=utf-8

import pandas as pd
import numpy

####### 创建df
di[......]

阅读全文

发表在 大数据 | 留下评论

elasticsearch配置选项

vi bin/elasticsearch
开头加入

#根据实际内存调整
ES_JAVA_OPTS="-Xms32g -Xmx32g"

vi config/elasticsearch.yml
尾部加入

bootstrap.memory_lock: false
bootstrap.system[......]

阅读全文

发表在 大数据 | 留下评论

spark dataframe常用操作

DataFrame 的函数

Action 操作

1、 collect() ,返回值是一个数组,返回dataframe集合所有的行
2、 collectAsList() 返回值是一个Java类型的数组,返回dataframe集合所有的行
3、 count() 返回一个number类型的,返回dat[……]

阅读全文

发表在 大数据 | 留下评论

docker zeppelin-0.8.0-snapshot支持R,python和elasticsearch

使用的是docker shamsulazeem/zeppelin-0.8.0-snapshot

//连上docker环境先
docker exec -it 9b2898eabf6a /bin/bash

添加R语言支持

apt-get update
apt-get install r-base[......]

阅读全文

发表在 大数据 | 留下评论

pyspark代码段备忘

导出为csv

df.repartition(1).write.format("com.databricks.spark.csv").mode('overwrite').option("header", "true").save("/tmp/mydata.csv")
or
df.repartitio[......]

阅读全文

发表在 大数据 | 留下评论

elasticsearch解决字段冲突问题

思路: 第一步删除冲突的字段数据, 第二步重建索引(不是kibana里刷新索引)

第一步

POST logstash-log-2018*/_delete_by_query
{
    "query": {
        "exists" : { "field" : "response" }[......]

阅读全文

发表在 大数据 | 留下评论

Zeppelin连接elasticsearch的坑

抽空研究了下zeppelin连接elasticsearch,尝试各种配置死活报None of the configured nodes are available错误,最后找到原因:
zeppelin内置的elastcisearch interpreter默认是使用transport连接方式, 而t[……]

阅读全文

发表在 大数据 | 留下评论

tableau使用备忘录

  • 时间戳转时间 DATEADD(‘hour’,-7,(Date(“1/1/1970”) + (INT([字段名])/1000/86400)))
  • tableu连接elasticsearch 使用web连接器, 需要用到一个第三方连接器,https://github.com/mradamlacey/el[……]

    阅读全文

发表在 大数据 | 留下评论

elasticsearch 删除N天前的索引脚本

#!/bin/sh


function delIndex()
{
        index_name=$1
        savedays=$2
        while [ $savedays -le $3 ]
        do

                format_day=[......]

阅读全文

发表在 大数据 | 留下评论